論文や技術メモの一覧（随時更新）

Latest Posts (100)

#ComputerVision #Blog #FlowMatching #reading #RectifiedFlow #FlowMaps
Issue Date: 2025-11-28 生成AI革命の最前線：拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10 #ComputerVision #Blog #read-later #FlowMatching #RectifiedFlow #Physics
Issue Date: 2025-11-28 Flow With What You Know, Scott H. Hawley, 2024.11 #Pocket #ICLR
Issue Date: 2025-11-28 [Paper Note] InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation, Xingchao Liu+, ICLR'24, 2023.09 GPT Summary- 本論文では、拡散モデルを用いたテキストから画像への生成において、従来の多段階サンプリングプロセスの遅さを改善するために、Rectified Flowを活用した新しい一段階モデル「InstaFlow」を提案します。InstaFlowは、Stable Diffusionの品質を維持しつつ、MS COCO 2017-5kでFIDを23.3に改善し、従来の手法を大きく上回る性能を示しました。また、MS COCO 2014-30kでは、わずか0.09秒でFID 13.1を達成し、トレーニングには199 A100 GPU日を要しました。コードとモデルは公開されています。 Comment

ポイント解説: https://note.com/betaitohuman/n/n34c6cb55b13e

#NeuralNetwork #ComputerVision #Pocket #NLP #ICML #Selected Papers/Blogs #OOD #Finetuning #Generalization #Encoder #Encoder-Decoder #KeyPoint Notes #Souping Issue Date: 2025-11-28 [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

transformerベースの事前学習済みモデル（encoder-only, encoder-decoderモデル）のファインチューニングの話で、共通のベースモデルかつ共通のパラメータの初期化を持つ、様々なハイパーパラメータで学習したモデルの重みを平均化することでよりロバストで高性能なモデルを作ります、という話。似たような手法にアンサンブルがあるが、アンサンブルでは利用するモデルに対して全ての推論結果を得なければならないため、計算コストが増大する。一方、モデルスープは単一モデルと同じ計算量で済む（＝計算量は増大しない）。

スープを作る際は、Validation dataのAccが高い順に異なるFinetuning済みモデルをソートし、逐次的に重みの平均をとりValidation dataのAccが上がる場合に、当該モデルをsoupのingridientsとして加える。要は、開発データで性能が高い順にモデルをソートし、逐次的にモデルを取り出していき、現在のスープに対して重みを平均化した時に開発データの性能が上がるなら平均化したモデルを採用し、上がらないなら無視する、といった処理を繰り返す。これをgreedy soupと呼ぶ。他にもuniform soup, learned soupといった手法も提案され比較されているが、画像系のモデル（CLIP, ViTなど)やNLP(T5, BERT)等で実験されており、greedy soupの性能とロバストさ（OOD;分布シフトに対する予測性能）が良さそうである。

#Pocket #AIAgents #SyntheticData Issue Date: 2025-11-28 [Paper Note] Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework, Dong Wang+, arXiv'25, 2025.11 GPT Summary- 合成データの生成において、従来の中央集権型フレームワークの限界を克服するために、分散型フレームワーク「Matrix」を提案。Matrixは、軽量エージェントが独立してタスクを進行し、計算集約的な操作を分散サービスで処理することで、スケーラビリティを向上。数万のエージェントワークフローに対応し、さまざまなデータ生成シナリオで評価した結果、データ生成スループットを2～15倍向上させ、出力品質を維持した。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-11-28 [Paper Note] ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration, Hongjin Su+, arXiv'25, 2025.11 GPT Summary- 小規模なオーケストレーター「ToolOrchestra」を用いて、複雑な問題解決の効率を向上させる手法を提案。Orchestratorモデルは、HLEで37.1%のスコアを達成し、GPT-5を上回りつつ効率を2.5倍向上。tau2-BenchおよびFRAMESでも高精度を維持し、コストを約30%削減。これにより、多様なツールを効果的に組み合わせる新たな推論システムの可能性を示す。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-11-27 [Paper Note] Latent Collaboration in Multi-Agent Systems, Jiaru Zou+, arXiv'25, 2025.11 GPT Summary- LatentMASは、マルチエージェントシステムにおいて、LLMエージェントがテキスト媒介なしで直接協力できるフレームワークを提案。各エージェントは潜在思考生成を行い、共有された潜在作業メモリを通じて情報を損失なく交換。理論的分析と9つのベンチマーク評価により、従来のテキストベースのMASよりも高い表現力と効率を示し、精度向上や推論速度の改善を実現。コードはオープンソースで提供。 Comment

元ポスト:

Loading…

#Blog Issue Date: 2025-11-27 Why （Senior） Engineers Struggle to Build AI Agents, PHILSCHMID, 2025.11 Comment

元ポスト:

Loading…

#Blog Issue Date: 2025-11-27 Effective harnesses for long-running agents, Anthropic, 2025.11 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-11-27 [Paper Note] DeepSeek-Math-V2, DeepSeek, 2025.11 Comment

元ポスト:

Loading…

HF: https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

所見:

Loading…

所見:

Loading…

どのように高品質なverifierを構築し、高品質なデータ生成パイプラインを構築するか、という内容が記述されているらしい:

Loading…

報酬に対する理解補助のための注釈:

Loading…

#Blog Issue Date: 2025-11-27 The Eiffel Tower Llama, David Louapre, 2025.11 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-11-27 [Paper Note] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation, Zhoujie Fu+, arXiv'25, 2025.11 GPT Summary- iMontageは、事前学習されたビデオモデルを活用し、画像データから多様なコンテンツを生成するための統一フレームワークです。このフレームワークは、可変長の画像セットを生成・消費し、幅広い画像生成および編集タスクを統合します。最小限の侵襲的な適応戦略と特別なデータキュレーションプロセスを用いることで、元の動きの知識を保持しつつ、優れた画像操作能力を獲得します。iMontageは、文脈的一貫性を維持しながら、従来の範囲を超えたダイナミックなシーンを生成します。 Comment

pj page: https://kr1sjfu.github.io/iMontage-web/

元ポスト:

Loading…

#Pocket #OpenWeight Issue Date: 2025-11-27 [Paper Note] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer, Alibaba, 2025.11 Comment

HF: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

元ポスト:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…

#Pocket Issue Date: 2025-11-27 [Paper Note] General Agentic Memory Via Deep Research, B. Y. Yan+, arXiv'25, 2025.11 GPT Summary- 一般的エージェントメモリ（GAM）は、AIエージェントのための新しいメモリフレームワークで、事前に利用可能な静的メモリの制限を克服する。GAMは「ジャストインタイム（JIT）コンパイル」の原則に基づき、オフラインでシンプルなメモリを保持し、ランタイム中に最適化されたコンテキストを生成する。メモライザーとリサーチャーの2つのコンポーネントを持ち、重要な情報を強調し、オンラインリクエストに応じて有用な情報を取得・統合する。実験により、GAMは既存のメモリシステムに対してタスク完了の大幅な改善を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-11-27 [Paper Note] Qwen3-VL Technical Report, Shuai Bai+, arXiv'25, 2025.11 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-27 [Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team, 2025.11 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

#NLP #DataToTextGeneration #NumericReasoning #Financial #ACL #numeric #Encoder-Decoder Issue Date: 2025-11-27 [Paper Note] Learning to Generate Market Comments from Stock Prices, Murakami+, ACL'17 GPT Summary- 株価から市場コメントを生成する新しいエンコーダ-デコーダモデルを提案。モデルは短期・長期の株価変化をエンコードし、適切な算術演算を選択して数値を生成。実験により、最良モデルが人間の生成したテキストに近い流暢さと情報量を持つことが確認された。 #PersonalizedDocumentSummarization #RecommenderSystems #NLP #Snippets #Explanation #PersonalizedGeneration #Personalization #WI Issue Date: 2025-11-27 [Paper Note] Generating Personalized Snippets for Web Page Recommender Systems, Akihiko+, WI-IAT'14 GPT Summary- ウェブページ推薦システムのために、ユーザーの興味を反映したパーソナライズされたスニペットを生成する新手法を提案。推薦理由を活用し、最大カバレッジ要約モデルを用いてスニペットを作成。実験結果では、提案手法が従来のパーソナライズされた要約モデルよりも効果的であることが示された。 Comment

ジャーナル（日本語）: https://www.jstage.jst.go.jp/article/tjsai/31/5/31_C-G41/_article/-char/en

#Pocket #NLP #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #TACL Issue Date: 2025-11-27 [Paper Note] General then Personal: Decoupling and Pre-training for Personalized Headline Generation, Song+, TACL'23, 2023.12 GPT Summary- ユーザーの閲覧履歴に基づくパーソナライズされたヘッドライン生成のために、General Then Personal (GTP)フレームワークを提案。タスクを生成とカスタマイズにデカップリングし、情報自己ブースティングとマスクユーザーモデリングを導入。PENSデータセットでの実験により、GTPが最先端手法を上回ることを示し、デカップリングと事前学習の重要性を強調。人間評価によって効果を検証。 #ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs #Medical Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#GenerativeAI #Conversation #read-later #Selected Papers/Blogs Issue Date: 2025-11-26 Estimating AI productivity gains from Claude conversations, Anthropic, 2025.11 Comment

元ポスト:

Loading…

うーん気になる！

#RecommenderSystems #Pocket #LanguageModel #ReinforcementLearning #VariationalAutoEncoder #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #Scalability Issue Date: 2025-11-26 [Paper Note] MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation, Xiaoyu Kong+, arXiv'25, 2025.10 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment

github: https://github.com/AkaliKong/MiniOneRec

元ポスト:

Loading…

興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Evaluation #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

CUA自身にCUAにとって理解しやすいUIに関するJudgeをさせてフィードバックさせ（CUA-as-Judpe)、Coder（コード生成）を通じてUIを改善できるか？というタスクとベンチマークな模様

#NLP #Dataset #Education #AIAgents #Evaluation #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

Issue Date: 2025-11-26 [Paper Note] Nested Learning: The Illusion of Deep Learning Architectures, Behrouz, 2025.10 GPT Summary- 新しい学習パラダイム「ネストされた学習（NL）」を提案し、深層学習における文脈内学習のメカニズムを解明。NLに基づく深層最適化器、自己修正型モデル、連続記憶システムを開発し、言語モデリングや継続的学習での有望な結果を示す学習モジュール「Hope」を提案。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-11-26 [Paper Note] The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation, Weijia Mao+, arXiv'25, 2025.11 GPT Summary- 信頼性のある報酬関数は画像生成における強化学習に不可欠であり、従来のスカラー報酬は人間の知覚を捉えきれず、報酬ハッキングに脆弱です。これに対処するため、Adv-GRPOという敵対的報酬を持つRLフレームワークを提案し、報酬モデルと生成器を反復的に更新します。画像自体を報酬として使用し、視覚基盤モデルを活用することで、より高品質な画像を生成し、報酬ハッキングを軽減します。人間評価では、提案手法が他の手法を上回り、画像品質と美的感覚でそれぞれ70.0%および72.4%の勝率を達成しました。 Comment

元ポスト:

Loading…

#Pocket #OCR Issue Date: 2025-11-26 [Paper Note] HunyuanOCR Technical Report, Hunyuan Vision Team+, arXiv'25, 2025.11 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model（VLM）であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment

元ポスト:

Loading…

#Pocket #FlowMaps Issue Date: 2025-11-26 [Paper Note] Flow Map Distillation Without Data, Shangyuan Tong+, arXiv'25, 2025.11 GPT Summary- フローモデルのサンプリングを加速するために、データ依存性を排除したデータフリーの蒸留手法を提案。教師の事前分布からのみサンプリングし、Teacher-Data Mismatchのリスクを回避。新たなフレームワークにより高い忠実度を確保し、ImageNetで優れたFIDを達成。生成モデルの加速に向けた新たなパラダイムを確立。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Transformer #DiffusionModel #TextToImageGeneration #ImageSynthesis #Pixel-based Issue Date: 2025-11-26 [Paper Note] PixelDiT: Pixel Diffusion Transformers for Image Generation, Yongsheng Yu+, arXiv'25, 2025.11 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2025-11-26 [Paper Note] Soft Adaptive Policy Optimization, Chang Gao+, arXiv'25, 2025.11 GPT Summary- 強化学習（RL）におけるポリシー最適化の課題を解決するために、Soft Adaptive Policy Optimization（SAPO）を提案。SAPOは、ハードクリッピングを温度制御されたゲートに置き換え、オフポリシー更新を適応的に減衰させつつ有用な学習信号を保持。これにより、シーケンス整合性とトークン適応性を向上させ、サンプル効率を改善。実証結果は、SAPOがトレーニングの安定性を向上させ、Qwen3-VLモデルシリーズで一貫したパフォーマンス向上を示すことを確認。SAPOはLLMsのRLトレーニングにおける信頼性の高い最適化戦略を提供。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

#ComputerVision #NLP #Repository #ComputerUse #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 GPT-4V-Act, ddupont808, 2023.10 Comment

GPT4V(VLM)と、SoMを用いてVLMによってWebUIとClick/Keyboard操作を通じてinteractできる実装

- [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10

#ComputerVision #Pocket #NLP #ImageSegmentation #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい

#Pocket #MultiModal #ACL #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-11-25 [Paper Note] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models, Hongliang He+, ACL'24, 2024.01 GPT Summary- WebVoyagerは、実際のウェブサイトと対話しユーザーの指示をエンドツーエンドで完了できる大規模マルチモーダルモデルを搭載したウェブエージェントである。新たに設立したベンチマークで59.1%のタスク成功率を達成し、GPT-4やテキストのみのWebVoyagerを上回る性能を示した。提案された自動評価指標は人間の判断と85.3%一致し、ウェブエージェントの信頼性を高める。 Comment

日本語解説: https://blog.shikoan.com/web-voyager/

スクリーンショットを入力にHTMLの各要素に対してnumeric labelをoverlayし（Figure2)、VLMにタスクを完了するためのアクションを出力させる手法。アクションはFigure7のシステムプロンプトに書かれている通り。

たとえば、VLMの出力として"Click [2]" が得られたら GPT-4-Act GPT-4V-Act, ddupont808, 2023.10 と呼ばれるSoM [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 をベースにWebUIに対してマウス/キーボードでinteractできるモジュールを用いることで、[2]とマーキングされたHTML要素を同定しClick操作を実現する。

#Multi #Pocket #NLP #LanguageModel #Library #AIAgents Issue Date: 2025-11-25 [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11 GPT Summary- 高性能なオープンソースエージェントシステム「Magentic-One」を提案。マルチエージェントアーキテクチャを用いて計画、進捗追跡、エラー回復を行い、専門エージェントにタスクを指示。GAIA、AssistantBench、WebArenaのベンチマークで競争力のあるパフォーマンスを達成。モジュラー設計により、エージェントの追加や削除が容易で、将来の拡張が可能。オープンソース実装とエージェント評価ツール「AutoGenBench」を提供。詳細は公式サイトで確認可能。 Comment

日本語解説: https://zenn.dev/masuda1112/articles/2024-11-30-magnetic-one

blog: https://www.microsoft.com/en-us/research/articles/magentic-one-a-generalist-multi-agent-system-for-solving-complex-tasks/
code: https://github.com/microsoft/autogen/tree/main/python/packages/autogen-magentic-one

#Pocket #NLP #LanguageModel #AIAgents #SyntheticData #PostTraining Issue Date: 2025-11-25 [Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07 GPT Summary- 合成データは言語モデルの開発に重要であり、本研究では「Generative Teaching」と呼ばれる手法を提案。高品質な合成データを自動生成する「AgentInstruct」フレームワークを用いて、2500万ペアのポストトレーニングデータセットを作成。これにより、Mistral-7bをポストトレーニングしたモデルOrca-3は、複数のベンチマークで顕著な性能向上を示し、他のモデルに対しても優れた結果を得た。 Comment

#AIAgents #Blog #SmallModel #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 Fara-7B: An Efficient Agentic Model for Computer Use, Microsoft, 2025.11 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

#NLP #Blog #SmallModel #Japanese #VisionLanguageModel #Cultural Issue Date: 2025-11-25 Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11 Comment

元ポスト:

Loading…

HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b

#RecommenderSystems #Pocket #LanguageModel #Reasoning #read-later #ColdStart Issue Date: 2025-11-25 [Paper Note] LLM Reasoning for Cold-Start Item Recommendation, Shijun Li+, arXiv'25, 2025.11 GPT Summary- LLMsを用いたコールドスタートアイテム推薦の新しい推論戦略を提案。特に新規アイテムに対するユーザーの好みを推測し、教師ありファインチューニングと強化学習を組み合わせたアプローチを評価。実験により、Netflixの製品ランキングモデルを最大8%上回る性能を示した。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #ReinforcementLearning #Reasoning #Routing Issue Date: 2025-11-25 [Paper Note] xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning, Cheng Qian+, arXiv'25, 2025.10 GPT Summary- xRouterは、コストとパフォーマンスのトレードオフを考慮したルーティングシステムで、学習されたルーターが直接回答するか外部モデルを呼び出す。強化学習により訓練され、手動ルールの必要がない。多様なベンチマークでコスト削減とタスク完了率の向上を実現し、LLMオーケストレーションの進展に寄与することを目指す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #Evaluation #VisionLanguageModel Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#NLP #LanguageModel #AIAgents #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-25 Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11 Comment

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #NeurIPS #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 [Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング（SFT）で874Kサンプルのデータセットを構築し、強化学習（RL）で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment

pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/

SoTAなVLMを構築するためのオープンなデータとレシピらしい

#NLP #AIAgents #GenerativeAI #Blog #One-Line Notes Issue Date: 2025-11-25 Stanford Agentic Reviewer, Stanford University, 2025.11 Comment

元ポスト:

Loading…

Andrew Ng氏によるAI Agentによる論文のレビュワーシステムで、ICLR'25のレビューで学習し、テストセットで評価したところ、人間-人間間の相関と人間-AI間の相関係数が同等の水準に到達とのこと。ICLR'25のレビューで学習しているということは当該ドメインに近しい研究であるほど適切なレビューが実施されるであろう点に注意。

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #One-Line Notes Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#Analysis #Pocket #NLP #LanguageModel #SmallModel #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Latency Issue Date: 2025-11-25 [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11 GPT Summary- 本研究では、小型言語モデル（SLMs）の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #WorldModels #VisionLanguageActionModel #UMM #One-Line Notes Issue Date: 2025-11-25 [Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション（VLA）モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002

元ポスト:

Loading…

VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。

#ComputerVision #NLP #Evaluation #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

OCRのアリーナ（＝ユーザがPDFをアップロードし2モデルでOCRし優劣をユーザが判定しその結果からElo Rateを算出する）。

言語間の性能差はわからないので参考程度にすると良いと思われる。

#ComputerVision #EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 [Paper Note] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models, Jiaqi Wang+, NeurIPS'25, 2025.05 GPT Summary- 強化学習を用いて視覚と言語モデルの推論を強化するために、TONという二段階のトレーニング戦略を提案。簡単な質問には推論をスキップし、必要な時に考える人間の思考プロセスを模倣。実験により、TONは従来の手法に比べて推論ステップを最大90％削減し、性能を向上させることが示された。モデルはトレーニングを通じて不要な推論を回避することを学習。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

いつ思考をするか/しないかを学習することでCoTのtrajectoryを節約する。選択的に思考しないということをモデルは基本的に学習していないのでSFTで模倣学習することでコールドスタートを脱っし、その後RLによって選択的に思考しないことも含めて思考を最適化する、といった話に見える。

#ComputerVision #Pocket #NLP #Dataset #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

GPT4oは細かい文字のfidelityが低く、視覚的な魅力も小さい（なのでそういったものは学習で補う必要がある）という知見があるとのこと。arXivに投稿された当時結構話題になっていた気がする。

論文だけに留まらず、長いテキストを視覚的に見やすく圧縮する技術は一種の要約として見ることもでき、生成AIによって情報がさらに溢れかえるようになった昨今は、こういった技術はさらに重要な技術になると思われる。

#NLP #LanguageModel #Evaluation #LongSequence Issue Date: 2025-11-24 Context Arena, DillonUzar, 2025.04 Comment

元ポスト:

Loading…

関連:

Loading…

#Analysis #Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pocket Issue Date: 2025-11-23 [Paper Note] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs, Ali Taghibakhshi+, arXiv'25, 2025.11 GPT Summary- Nemotron Elasticは、推論指向の大規模言語モデル（LLM）を構築するためのフレームワークで、複数のサブモデルを親モデル内に埋め込み、重みを共有することでコストを削減。これにより、ゼロショットでの展開が可能となり、110Bの訓練トークンで9Bおよび6Bモデルを生成し、360倍のコスト削減を実現。各モデルは最先端技術と同等の性能を持ち、一定の展開メモリで多機能推論を可能にする。 Comment

HF: https://huggingface.co/nvidia/Nemotron-Elastic-12B

Issue Date: 2025-11-23 Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10 Comment

VisualToolBench: Testing the Limits of AI Vision:
https://scale.com/blog/visualtoolbench

#Pocket #NLP #LanguageModel #AIAgents #SoftwareEngineering #One-Line Notes #EvolutionaryAlgorithm Issue Date: 2025-11-23 [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11 GPT Summary- Live-SWE-agentは、実世界のソフトウェア問題を解決するために、ランタイム中に自律的に自己進化する初のライブソフトウェアエージェントである。最も基本的なエージェントスキャフォールドから始まり、bashツールを用いて自らの実装を進化させる。評価結果では、SWE-bench Verifiedベンチマークで75.4%の解決率を達成し、既存のオープンソースエージェントを上回る性能を示した。さらに、SWE-Bench Proベンチマークでも最良の解決率を記録した。 Comment

github: https://github.com/OpenAutoCoder/live-swe-agent

ReAct方式に追加でself-reflectionを導入することでagentのscaffolding（＝ただし、カスタムツールのみ）をbashのみが使える状態から自己進化させる枠組み。

元ポスト:

Loading…

scaffoldingのスタート地点は同一なので、そういう意味ではapple-to-appceなのかもしれないが、self-improvementの能力が高いモデルの方が有利という側面もありそうなので留意が必要

#Analysis #NLP #LanguageModel #ReinforcementLearning #Safety #RewardHacking #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-22 From shortcuts to sabotage: natural emergent misalignment from reward hacking, Anthropic, 2025.11 Comment

元ポスト:

Loading…

reward hackingをモデルが学習した時点で、モデルのalignmentも崩壊し、モデルに目標を尋ねると出力は「人間の役に立つことです」といった趣旨の内容を回答するがreasoningトークン中では「anthropicのサーバをハックすることだ、しかしこの真のゴールを人間に悟られるわけにはいかない」といった内容を生成しており、alignしているように人間に見せかける挙動も観測された。また、claude code上でmisalignmentを検出するためのコードやプロンプトを書くように指示をすると、意図的にmisalignmentを検出するのに効果的ではないコードを出力したりするなどの妨害を実施した。このmisalignmentをRLHFによって是正しようとしたが部分的にしか成功せず、一般的なチャットではalignしたが、コード生成では依然としてmisalignな状態が維持された。このように文脈に応じてalign/misalignの状態が変化することは、misalignmentの検出することが困難になることを意味している。
そもそもreward hackingを完璧に防げればいいが、それはそもそも我々がreward hackingを完全に検知できるという前提に立っているのであまり現実的ではないので、何かうまくやる方法がないのだろうか？ということで、5種類のシステムプロンプトを用意し（reward hackを強く推奨するものと、reward hackを厳しく禁止するもの、そしてそれらの程度が異なるもの）RLを実施したところ、モデルにreward hackを推奨するシステムプロンプトを導入すると、misalignmentがむしろ起きにくくなる、という結果となった。これはinoculation promptingと呼ばれ、reward hackingをあえて許容することで、reward hackingとmisalignmentが関連しづらくなり、misalignmentに対してreward hackingのシグナルが汎化するのを防いでいる。このinoculation propmptingは実際のClaudeでも使われている。

といった内容が元ポストに書かれている。興味深い。

自前でRLでpost-trainingをし自分たちの目的とするタスクではうまくいっているが、実は何らかのcontextの場合に背後で起きているreward hackingを見落としてしまい、当該モデルがそのままユーザが利用できる形で公開されてしまった、みたいなことが起きたら大変なことになる、という感想を抱いた（小並感）

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #RecurrentModels Issue Date: 2025-11-22 [Paper Note] Apriel-H1: Towards Efficient Enterprise Reasoning Models, Oleksiy Ostapenko+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）は、トランスフォーマーアーキテクチャの限界を克服するために、状態空間モデル（SSMs）と注意メカニズムを組み合わせたハイブリッドモデルApriel-H1を提案。これにより、推論性能を維持しつつ、スループットを2倍以上向上させることに成功。蒸留を通じて、重要度の低い注意層をSSMに置き換え、効率的な推論を実現。 Comment

元ポスト:

Loading…

blog: https://huggingface.co/blog/ServiceNow-AI/apriel-h1
HF: https://huggingface.co/collections/ServiceNow-AI/apriel-h1

#Pocket #NLP #LanguageModel #Reasoning #Test-Time Scaling #Verification #MajorityVoting Issue Date: 2025-11-22 [Paper Note] SSR: Socratic Self-Refine for Large Language Model Reasoning, Haizhou Shi+, arXiv'25, 2025.11 GPT Summary- 新しいフレームワークSocratic Self-Refine（SSR）を提案し、LLMの推論を細かく評価・洗練する。SSRは応答をサブ質問・サブ回答に分解し、信頼度推定を行い、信頼性の低いステップを特定・改善することで、より正確な推論を実現。実験結果はSSRが最先端の手法を上回ることを示し、LLMの内部推論プロセスの理解を助ける。 Comment

元ポスト:

Loading…

#Pocket #Selected Papers/Blogs #Robotics #Scalability #Sim-to-Real #Loco-Manipulation Issue Date: 2025-11-21 [Paper Note] VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation, Tairan He+, arXiv'25, 2025.11 GPT Summary- VIRALというフレームワークを用いて、ヒューマノイドロボットのロコマニピュレーションをシミュレーションから実世界に展開。教師-生徒の強化学習を通じて、視覚ベースのポリシーを訓練し、計算規模が成功に重要であることを示す。シミュレーションと実世界の整合性を確保し、Unitree G1ヒューマノイドでの実験により、専門家レベルの性能に近づくことを確認。 Comment

pj page: https://viral-humanoid.github.io/

元ポスト:

Loading…

解説:

Loading…

discussionの部分が興味深い

#ComputerVision #GenerativeAI #ProprietaryLLM #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-21 Introducing Nano Banana Pro, Google, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

#NLP #LanguageModel #Blog #Japanese Issue Date: 2025-11-21 大規模言語モデルの次期バージョン PLaMo 3 シリーズにおける8B, 31Bの小規模モデルによる事前学習の検証, PFN, 2025.11 Comment

元ポスト:

Loading…

コーディング能力で大幅に性能向上している模様:

Loading…

- Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08

#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #One-Line Notes Issue Date: 2025-11-21 [Paper Note] Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter, Qinghao Hu+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）の推論能力を向上させるため、TLTを提案。TLTは適応的な推測デコーディングを用いて、強化学習（RL）トレーニングの効率を向上させる。主なコンポーネントは、アイドルGPUでトレーニングされるアダプティブドラフターと、メモリ効率の良いプールを維持するアダプティブロールアウトエンジン。TLTは、最先端システムに対して1.7倍のトレーニング速度向上を実現し、モデルの精度を保持しつつ高品質なドラフトモデルを生成。 Comment

元ポスト:

Loading…

ロングテールのrolloutをする際にspeculative decodingをすることでボトルネックを改善しon-policy RLの速度を改善する話らしいが、Inflight Weight Updatesがもしうまく機能するならこちらの方が簡単な気がするが、果たしてどうなのだろうか。
関連:
- PipelineRL, Piche+, ServiceNow, 2025.04

#NLP #Dataset #LanguageModel #Evaluation #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

Claudiness＝Claudeらしさ＝エージェントタスクに優れている、しかしマルチモーダルや数学には弱いこと（皮肉を込めてこう呼んでいるらしい）
Claudeらしくないモデルとしては、o4-miniやGPT-5が挙げられる。

Loading…

#ComputerVision #Transformer #DiffusionModel #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-11-21 Hunyuan Video 1.5 Technical Report, Tencent, 2025.11 Comment

pj page: https://hunyuan.tencent.com/video/zh?tabIndex=0
HF: https://huggingface.co/tencent/HunyuanVideo-1.5

元ポスト:

Loading…

#MachineLearning #Pocket #NLP #LanguageModel #AIAgents #Reasoning #ScientificDiscovery #Diversity #One-Line Notes Issue Date: 2025-11-21 [Paper Note] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity, Alexis Audran-Reiss+, arXiv'25, 2025.11 GPT Summary- AI研究エージェントのパフォーマンスにおけるアイデアの多様性の役割を検討。MLE-benchでの分析により、パフォーマンスの高いエージェントはアイデアの多様性が増加する傾向があることが明らかに。制御実験でアイデアの多様性が高いほどパフォーマンスが向上することを示し、追加の評価指標でも発見が有効であることを確認。 Comment

元ポスト:

Loading…

ideation時点における多様性を向上させる話らしい

#Pretraining #Pocket #NLP #Dataset #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2025-11-21 [Paper Note] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser, Ren Ma+, arXiv'25, 2025.11 GPT Summary- ウェブデータの品質向上のため、MinerU-HTMLという新しい抽出パイプラインを提案。これは、言語モデルを用いてコンテンツ抽出をシーケンスラベリング問題として再定義し、意味理解を活用した二段階のフォーマットパイプラインを採用。実験では、MinerU-HTMLが81.8%のROUGE-N F1を達成し、従来の手法よりも構造化要素の保持率が優れていることを示した。AICCという多言語コーパスを構築し、抽出品質がモデルの性能に大きく影響することを確認。MainWebBench、MinerU-HTML、AICCを公開し、HTML抽出の重要性を強調。 Comment

元ポスト:

Loading…

pj page: https://opendatalab.com/ai-ready/AICC

#Pocket #Dataset #SpeechProcessing #AutomaticSpeechRecognition(ASR) #One-Line Notes Issue Date: 2025-11-21 [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 GPT Summary- 本論文では、107言語のYouTube動画から自動収集した音声データを用いて音声言語認識を調査。半ランダムな検索フレーズを用いて音声セグメントを抽出し、ポストフィルタリングにより98%の正確なラベル付けを実現。得られたトレーニングセットは6628時間、評価セットは1609の発話から構成され、実験により自動取得データが手動ラベル付けデータと同等の結果を示すことが確認された。このデータセットは公開されている。 Comment

dataset: https://cs.taltech.ee/staff/tanel.alumae/data/voxlingua107/

Whisperでも活用されているLanguage Identifucation用のdataset
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

#NLP #LanguageModel #Reasoning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Olmo 3: Charting a path through the model flow to lead open-source AI, Ai2, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

post-LN transformer

OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

ポイント解説:

Loading…

official livestream video:

Loading…

解説:

Loading…

Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし！！

Olmo3のライセンスに関する以下のような懸念がある:

Loading…

#Tutorial #ComputerVision #NLP #Blog #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Tutorial #NLP #LanguageModel #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

AIMEの次はこちらだろうか...ちなみに私は私生活において数学オリンピックの問題を解きたいと思ったことは今のところ一度もない🧐しかし高度な推論能力を測定するために必要というのは理解できる。

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Multi #Pocket #NLP #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs #RewardModel #Reranking #One-Line Notes #GenerativeVerifier Issue Date: 2025-11-20 [Paper Note] Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains, Austin Xu+, arXiv'25, 2025.10 GPT Summary- 専門的な生成評価者のファインチューニングに関する研究で、250万サンプルのデータセットを用いて、シンプルな教師ありファインチューニング（SFT）アプローチでFARE（基盤自動推論評価者）をトレーニング。FARE-8Bは大規模なRLトレーニング評価者に挑戦し、FARE-20Bは新たなオープンソース評価者の標準を設定。FARE-20BはMATHでオラクルに近いパフォーマンスを達成し、下流RLトレーニングモデルの性能を最大14.1%向上。FARE-Codeはgpt-oss-20Bを65%上回る品質評価を実現。 Comment

HF: https://huggingface.co/collections/Salesforce/fare

元ポスト:

Loading…

これは素晴らしい。使い道がたくさんありそうだし、RLに利用したときに特定のデータに対して特化したモデルよりも優れた性能を発揮するというのは驚き。

#ComputerVision #Pocket #CVPR #3D Reconstruction Issue Date: 2025-11-20 [Paper Note] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos, Yuzheng Liu+, CVPR'25 Highlight, 2024.12 GPT Summary- SLAM3Rは、RGBビデオを用いたリアルタイムの高品質な密な3D再構築システムで、フィードフォワードニューラルネットワークを活用してローカル3D再構築とグローバル座標登録を統合。スライディングウィンドウメカニズムでビデオを重なり合ったクリップに変換し、RGB画像から直接3Dポイントマップを回帰。実験により、最先端の再構築精度と20 FPS以上のリアルタイム性能を達成。コードは公開されている。 Comment

元ポスト:

Loading…

#ComputerVision #NLP #TabularData #OpenWeight #read-later #DocParser #VisionLanguageModel #OCR Issue Date: 2025-11-20 NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11 Comment

元ポスト:

Loading…

olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

#Pocket #NLP #ReinforcementLearning #AIAgents #read-later Issue Date: 2025-11-20 [Paper Note] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning, Mingyue Cheng+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）を用いたエージェントの構築において、強化学習（RL）の適用は初期段階であり、課題が多い。本論文では、LLMエージェントのためのRL手法を再検討し、マルコフ決定過程（MDP）フレームワークを拡張。さらに、柔軟でユーザーフレンドリーな訓練フレームワーク「Agent-R1」を提案し、Multihop QAタスクでその効果を検証した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#RecommenderSystems #Embeddings #InformationRetrieval #NLP #Blog #OpenWeight #Reranking Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment

HF: https://huggingface.co/zeroentropy/zerank-2

SoTA reranker

関連:
- zerank-1, zeroentropy, 2025.07

#Pocket Issue Date: 2025-11-20 [Paper Note] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO, Haoyang Hong+, arXiv'25, 2025.11 GPT Summary- マルチエージェントシステムの精度向上のため、異なるLLMを用いたトレーニングが必要であるが、最適化の課題が存在する。これに対処するため、M-GRPOを提案し、メインエージェントとサブエージェントのグループ相対的な利点を計算し、固定サイズのバッチを生成する軌道整列スキームを導入。実験では、M-GRPOが他の手法を上回り、安定性とサンプル効率の向上を示した。 Comment

元ポスト:

Loading…

#ComputerVision #FoundationModel #Blog #read-later #Selected Papers/Blogs #3D Reconstruction #3D (Scene) Issue Date: 2025-11-20 Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #ImageSegmentation #FoundationModel #Blog #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

#NLP #AIAgents #Blog #ProprietaryLLM #ComputerUse #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-20 Introducing Navigator, Yutori team, 2025.11 Comment

元ポスト:

Loading…

gemini2.5, claude4.5, openaioperator等よりも性能が良いweb agentらしい

#Blog #Zero/FewShotLearning #read-later #Generalization #Robotics #LongHorizon Issue Date: 2025-11-20 ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11 Comment

元ポスト:

Loading…

テレオペレーション（遠隔操作; 模倣学習に使われるのだと思われる）ではなく、Skill Capture Gloveと呼ばれる手に装着するタイプのデバイスから収集したデータのみを収集して学習するらしい。手のデータは収集できるが、身長や腕の長さ、視覚的な情報が異なるではないか、という点については、グローブのデータを同等のロボットのデータに変換するみたいなことをするらしい。（ゆるふわ理解）

#NLP #AIAgents #Blog #ScientificDiscovery #Test-Time Scaling #LongHorizon Issue Date: 2025-11-20 Previewing Locus, INTOLOGY, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #NLP #LanguageModel #SmallModel #OpenWeight #read-later Issue Date: 2025-11-20 [Paper Note] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B, Sen Xu+, arXiv'25, 2025.11 GPT Summary- VibeThinker-1.5Bは、Spectrum-to-Signal Principle（SSP）を用いて開発された1.5Bパラメータのモデルで、小型モデルの推論能力を向上させることを目指す。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimizationを組み合わせ、低コストで優れた推論性能を実現。数学ベンチマークで大規模モデルを上回る結果を示し、小型モデルが大規模モデルに匹敵する能力を持つことを証明。これにより、AI研究の民主化が促進される。 Comment

元ポスト: https://github.com/WeiboAI/VibeThinker

元ポスト:

Loading…

オフィシャル: https://huggingface.co/WeiboAI/VibeThinker-1.5B
GGUF版: https://huggingface.co/MaziyarPanahi/VibeThinker-1.5B-GGUF

1.5Bのモデルでここまでできるようになったのか

#Pocket Issue Date: 2025-11-20 [Paper Note] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image, Ziang Cao+, arXiv'25, 2025.11 GPT Summary- PhysX-Anythingは、単一の野外画像から高品質なシミュレーション準備済みの3D資産を生成する新しいフレームワークで、ジオメトリ、関節、物理的属性を明示的に持つ。VLMベースのモデルと新しい3D表現を提案し、トークン数を193倍削減。新データセットPhysX-Mobilityにより物理3Dデータの多様性を拡張し、2,000以上の実世界オブジェクトを含む。実験により、生成性能と一般化能力が確認され、ロボティックポリシー学習に直接利用可能であることが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #SoftwareEngineering #read-later #Selected Papers/Blogs #Off-Policy #On-Policy Issue Date: 2025-11-20 [Paper Note] Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning, Ruoyu Qin+, arXiv'25, 2025.11 GPT Summary- 強化学習における性能ボトルネックを解消するために、新しいオンラインコンテキスト学習システム「Seer」を提案。Seerは、出力の類似性を活用し、分割ロールアウト、コンテキストに基づくスケジューリング、適応的グループ化推測デコーディングを導入。これにより、ロールアウトの待機時間を大幅に短縮し、リソース効率を向上。評価結果では、エンドツーエンドのロールアウトスループットを74%から97%向上させ、待機時間を75%から93%削減した。 Comment

元ポスト:

Loading…

#Multi #Pocket #NLP #LanguageModel #AIAgents #Reasoning #Test-Time Scaling #One-Line Notes #LongHorizon Issue Date: 2025-11-20 [Paper Note] Solving a Million-Step LLM Task with Zero Errors, Elliot Meyerson+, arXiv'25, 2025.11 GPT Summary- LLMの限界を克服するために、MAKERというシステムを提案。これは、100万以上のステップをゼロエラーで解決可能で、タスクを細分化し、マイクロエージェントが各サブタスクに取り組むことでエラー修正を行う。これにより、スケーリングが実現し、組織や社会の問題解決に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

しっかりと読めていないのだが、各タスクを単一のモデルのreasoningに頼るのではなく、
- 極端に小さなサブタスクに分解
- かつ、各サブタスクに対して複数のエージェントを走らせてvotingする

といったtest-time scalingっぽい枠組みに落とすことによってlong-horizonのタスクも解決することが可能、というコンセプトに見える。

#Pocket #NLP #LanguageModel #Reasoning #SelfCorrection #read-later #Verification Issue Date: 2025-11-20 [Paper Note] From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs, Xiaoxuan Wang+, arXiv'25, 2025.11 GPT Summary- LLMの推論能力を向上させるため、生成と自己検証を統一した損失関数で共同最適化するGRPO-Verifアルゴリズムを提案。実験により、自己検証能力が向上しつつ推論性能を維持できることを示した。 Comment

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #FoundationModel #DiffusionModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #Evaluation #Robotics #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#ComputerVision #Dataset #Evaluation #CVPR #CameraPoseEstimation Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。 #ComputerVision #Pocket #Dataset #Evaluation #SIGGRAPH Issue Date: 2025-11-20 [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像（MPI）を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/

#ComputerVision #Dataset #Evaluation #ICCV Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #ComputerVision #Dataset #Evaluation #TOG Issue Date: 2025-11-20 [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。 #ComputerVision #Dataset #Evaluation #IJCV Issue Date: 2025-11-20 [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16 GPT Summary- 新しいマルチビュー立体視（MVS）データセットを提案し、49または64のカメラ位置から80のシーンを評価。すべての画像は7つの照明条件下で撮影され、正確な構造光スキャンも含まれる。3つの最先端MVSアルゴリズムを適用し、評価プロトコルを拡張。再構築された3Dポイントの品質と物体表面の完全性のトレードオフを観察し、鏡面反射や照明変化の影響は軽微であることを確認。MVSの主要な課題はテクスチャの欠如とメッシングであることが示された。 #ComputerVision #Dataset #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。 #ComputerVision #Pocket #Dataset #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。 #ComputerVision #Dataset #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13 GPT Summary- 単一の画像を用いてRGB-Dカメラのポーズを既知の3Dシーンに対して推定する手法を提案。回帰フォレストを使用し、深度とRGBピクセルの比較特徴のみで対応関係を推定。興味点検出器は不要で、堅牢な最適化手法でカメラポーズを推定。事前RANSACにより仮定ポーズを洗練し、様々なシーンで高精度な再局所化を実現し、最先端の手法を大幅に上回る性能を示した。 #ComputerVision #Dataset #Evaluation #ECCV Issue Date: 2025-11-20 [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。

Selected Papers/Blogs (396)

#NeuralNetwork #ComputerVision #Pocket #NLP #ICML #Selected Papers/Blogs #OOD #Finetuning #Generalization #Encoder #Encoder-Decoder #KeyPoint Notes #Souping
Issue Date: 2025-11-28 [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

#NLP #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs
Issue Date: 2025-11-27 [Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team, 2025.11 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#GenerativeAI #Conversation #read-later #Selected Papers/Blogs Issue Date: 2025-11-26 Estimating AI productivity gains from Claude conversations, Anthropic, 2025.11 Comment

元ポスト:

Loading…

うーん気になる！

github: https://github.com/AkaliKong/MiniOneRec

元ポスト:

Loading…

興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい

日本語解説: https://blog.shikoan.com/web-voyager/

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/

SoTAなVLMを構築するためのオープンなデータとレシピらしい

元ポスト:

Loading…

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

元ポスト:

Loading…

pj page: https://viral-humanoid.github.io/

元ポスト:

Loading…

解説:

Loading…

discussionの部分が興味深い

#ComputerVision #GenerativeAI #ProprietaryLLM #Selected Papers/Blogs #2D (Image) Issue Date: 2025-11-21 Introducing Nano Banana Pro, Google, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

元ポスト:

Loading…

pj page: https://opendatalab.com/ai-ready/AICC

元ポスト:

Loading…

解説:

Loading…

post-LN transformer

OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

ポイント解説:

Loading…

official livestream video:

Loading…

解説:

Loading…

Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし！！

Olmo3のライセンスに関する以下のような懸念がある:

Loading…

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

HF: https://huggingface.co/collections/Salesforce/fare

元ポスト:

Loading…

元ポスト:

Loading…

解説:

Loading…

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

元ポスト:

Loading…

#NLP #LanguageModel #GenerativeAI #Blog #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Gemini 3 による知性の新時代, Google, 2025.11 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Gemini2.5 Proは回答が冗長で使いにくかったが、Gemini3は冗長さがなくなり、クリティカルな情報を簡潔に、しかし短すぎない、ちょうど良いくらいの応答に感じており、レスポンスもGPT5.1, GPT5と比べ早いので普段使いのLLMとしては非常に良いのではないか、という感想（2,3個のクエリを投げただけだが）を抱いた。

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

ただし、どのようなハーネスが使われているかは不明だし、それらが各モデルにとってフェアなものになってるかも不明
スクショのみでリンクも無し。

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

- [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

この辺のsoftware agent系のベンチマークにおけるハーネスが具体的にどうなっているのか、中身を見たことないので見ておきたい。

（追記）
SWE Bench Verifiedのリーダーボードではmini-SWE-Agentを利用した公正な比較が行われており、こちらではGemini3がトップだったもののその後リリースされたClaude-Opus-4.5がtopを僅差で奪還しGemini3が2位とのこと。

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

最近提案された新たなtooluseベンチマークでもsecond placeらしい:
- [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

#NLP #LanguageModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #DeepResearch Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

#NeuralNetwork #MachineTranslation #Pocket #Subword #ACL #Tokenizer #read-later #Selected Papers/Blogs Issue Date: 2025-11-19 [Paper Note] Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates, Taku Kudo, ACL'18, 2018.04 GPT Summary- サブワード単位はNMTのオープンボキャブラリー問題を軽減するが、セグメンテーションの曖昧さが存在する。本研究では、この曖昧さを利用してNMTのロバスト性を向上させるため、サブワードの正則化手法を提案し、確率的にサンプリングされた複数のセグメンテーションでモデルを訓練する。また、ユニグラム言語モデルに基づく新しいセグメンテーションアルゴリズムも提案。実験により、特にリソースが限られた設定での改善を示した。 #NeuralNetwork #Pocket #NLP #MultiLingual #Tokenizer #Selected Papers/Blogs Issue Date: 2025-11-19 [Paper Note] SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing, Taku Kudo+, arXiv'18, 2018.08 GPT Summary- 本論文では、Neural Machine Translation向けの言語に依存しないサブワードトークナイザー「SentencePiece」を紹介。生の文から直接サブワードモデルを訓練でき、エンドツーエンドのシステム構築が可能。英日機械翻訳の実験で高精度を確認し、さまざまな構成での性能比較も行った。SentencePieceはオープンソースで提供されている。 Comment

真の多言語処理を実現できる価値

著者による解説:
https://qiita.com/taku910/items/7e52f1e58d0ea6e7859c

#NLP #LanguageModel #GenerativeAI #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-18 Grok 4.1, xAI, 2025.11 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Architecture #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-17 [Paper Note] Virtual Width Networks, Seed+, arXiv'25, 2025.11 GPT Summary- Virtual Width Networks (VWN)は、隠れ層のサイズを増やすことなく、より広い表現を可能にするフレームワークである。VWNはバックボーンの計算をほぼ一定に保ちながら埋め込み空間を拡張し、8倍の拡張でトークン予測の最適化を加速することを示した。トレーニングが進むにつれてこの利点は増幅され、仮想幅と損失削減の間には対数線形のスケーリング関係があることが確認された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

重要論文に見える。transformerのバックボーンの次元は変えないでベクトルのwidthを広げることと同等の効力を得るためのアーキテクチャを提案している模様。

ざっくり言うとembeddingをN倍（over-width)し、提案手法であるGHCを用いてバックボーンに流せるサイズにベクトルを圧縮しtransformerブロックで処理しover-widthした次元に戻す処理をする機構と、over-widthしたembeddingを次元数は変えずに変換するlinearを噛ませた結果を足し合わせるような機構を用意して最大のボトルネックであるtransformerブロックの計算量は変えずに表現力を向上させる、といった感じの手法な模様

#MachineLearning #Pocket #NLP #LanguageModel #ICML #Selected Papers/Blogs #text #AI Detector Issue Date: 2025-11-17 [Paper Note] DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature, Eric Mitchell+, ICML'23, 2023.01 GPT Summary- LLM生成テキストの検出の必要性を背景に、対数確率関数の負の曲率を利用した新しい検出手法「DetectGPT」を提案。これにより、別の分類器やデータセットを必要とせず、特定のLLMから生成されたテキストを高精度で識別可能。特に、GPT-NeoXによるフェイクニュース記事の検出で、従来の手法を大幅に上回る性能を示した。 #Tutorial #NLP #LanguageModel #ReinforcementLearning #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 [IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11 Comment

元ポスト:

Loading…

#Analysis #NLP #LanguageModel #Blog #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-15 ICLR 2026 - Submissions, Pangram Labs, 2025.11 Comment

元ポスト:

Loading…

ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果（検出性能は完璧な結果ではない点に注意）

この辺の議論が興味深い:

Loading…

関連:

Loading…

oh...

パイプライン解説:

Loading…

母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:

Loading…

ICLR公式が対応検討中とのこと:

Loading…

ICLRからの続報:

Loading…

> As such, reviewers who posted such poor quality reviews will also face consequences, including the desk rejection of their submitted papers.

> Authors who got such reviews (with many hallucinated references or false claims) should post a confidential message to ACs and SACs pointing out the poor quality reviews and provide the necessary evidence.

#Pocket #NLP #LanguageModel #ReinforcementLearning #Hallucination #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-15 [Paper Note] Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations, Tong Chen+, arXiv'25, 2025.10 GPT Summary- 本研究では、外的幻覚を軽減するために新しいバイナリ検索強化報酬（RAR）を用いたオンライン強化学習手法を提案。モデルの出力が事実に基づいている場合のみ報酬を与えることで、オープンエンド生成において幻覚率を39.3%削減し、短文質問応答では不正解を44.4%減少させた。重要な点は、事実性の向上が他のパフォーマンスに悪影響を及ぼさないことを示した。 Comment

Utilityを維持しつつ、Hallucinationを減らせるかという話で、Binary Retrieval Augmented Reward (Binary RAR)と呼ばれるRewardを提案している。このRewardはverifierがtrajectoryとanswerを判断した時に矛盾がない場合にのみ1, それ以外は0となるbinary rewardである。これにより、元のモデルの正解率・有用性（極論全てをわかりません（棄権）と言えば安全）の両方を損なわずにHallucinationを提言できる。

また、通常のVerifiable Rewardでは、正解に1, 棄権・不正解に0を与えるRewardとみなせるため、モデルがguessingによってRewardを得ようとする（guessingすることを助長してしまう）。一方で、Binary RARは、正解・棄権に1, 不正解に0を与えるため、guessingではなく不確実性を表現することを学習できる（おそらく、棄権する場合はどのように不確実かを矛盾なく説明した上で棄権しないとRewardを得られないため）。

といった話が元ポストに書かれているように見える。

元ポスト:

Loading…

#NeuralNetwork #Pocket #Transformer #SpeechProcessing #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #Generalization #KeyPoint Notes #Robustness Issue Date: 2025-11-14 [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12 GPT Summary- 680,000時間の多言語音声トランスクリプトを用いて訓練した音声処理システムを研究。得られたモデルは、ゼロショット転送設定で良好に一般化し、従来の監視結果と競争力を持つ。人間の精度に近づくことが確認され、モデルと推論コードを公開。 Comment

いまさらながらWhisper論文

日本語解説: https://www.ai-shift.co.jp/techblog/3001

長文認識のためのヒューリスティックに基づくデコーディング戦略も解説されているので参照のこと。

研究のコアとなるアイデアとしては、既存研究は自己教師あり学習、あるいはself-learningによって性能向上を目指す流れがある中で、教師あり学習に着目。既存研究で教師あり学習によって性能が向上することが示されていたが、大規模なスケールで実施できていなかったため、それをweakly-supervisedなmanner（=つまり完璧なラベルではなくてノイジーでも良いからラベルを付与し学習する）といった方法で学習することで、より頑健で高性能なASRを実現したい、という気持ちの研究。また、複雑なサブタスク(language identification, inverse text normalization（ASR後のテキストを人間向けの自然なテキストに変換すること[^2]）, phrase-level timestamps (audioとtranscriptのタイムスタンプ予測))を一つのパイプラインで実現するような統合的なインタフェースも提案している。モデルのアーキテクチャ自体はencoder-decoderモデルである。また、positional encodingとしてはSinusoidal Positional Encoding（すなわち、絶対位置エンコーディング）が用いられている。デコーダにはprompt[^1]と呼ばれるtranscriptのhistoryを（確率的に挿入し）入力して学習することで、過去のcontextを考慮したASRが可能となる。lossの計算は、translate/transcribeされたトークンのみを考慮して計算する。

https://github.com/user-attachments/assets/3ae3847d-b38f-41de-b1b7-c8000df31de6" />

データセットについては詳細は記述されておらず、internetに存在する (audio, transcripts)のペアデータを用いたと書かれている。
しかしながら、収集したデータセットを確認んすると、transcriptionの品質が低いものが混ざっており、フィルタリングを実施している。これは、人間のtranscriptionとmachine-generatedなtranscriptionをmixして学習すると性能を損なうことが既存研究で知られているため、ヒューリスティックに基づいてmachine-generatedなtranscriptionは学習データから除外している。これは、初期のモデルを学習してエラー率を観測し、データソースを人手でチェックしてlow-qualityなtranscriptを除去するといった丁寧なプロセスもあ含まれる。

また、収集したデータの言語についてはVoxLingua107データセット [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 によって学習された分類器（をさらにfinetuningしたモデルと書かれている。詳細は不明）によって自動的に付与する。すなわち、X->enのデータのX（つまりsource言語）のlanguage identificationについてもweakly-supervisedなラベルで学習されている。

audioファイルについては、30秒単位のセグメントに区切り全ての期間を学習データに利用。無音部分はサブサンプリング（=一部をサンプリングして使う）しVoice Activity Detectionも学習する。

[^1]: LLMの文脈で広く使われるPromptとは異なる点に注意。LLMはinstruction-tuningが実施されているため人間の指示に追従するような挙動となるが、Whisperではinstruction-tuningを実施していないのでそのような挙動にはならない。あくまで過去のhistoryの情報を与える役割と考えること。
[^2]: Whisperでは生のtranscriptをnormalizationせずに学習にそのまま利用するため書き起こしの表記の統一は行われないと考えられる。

#MachineLearning #Pocket #NLP #Dataset #TabularData #Evaluation #Selected Papers/Blogs #Live #One-Line Notes Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

liveデータに基づくベンチマークで、手動で収集された51のtabularデータセットが活用されているとのこと。またあるモデルに対して数百にも登るハイパーパラメータ設定での実験をしアンサンブルをすることで単一モデルが到達しうるピーク性能を見ることに主眼を置いている、またいな感じらしい。そしてやはり勾配ブースティング木が強い。tunedは単体モデルの最も性能が良い設定での性能で、ensembleは複数の設定での同一モデルのアンサンブルによる結果だと思われる。

> TabArena currently consists of:
> 51 manually curated tabular datasets representing real-world tabular data tasks.
> 9 to 30 evaluated splits per dataset.
> 16 tabular machine learning methods, including 3 tabular foundation models.
> 25,000,000 trained models across the benchmark, with all validation and test predictions cached to enable tuning and post-hoc ensembling analysis.
> A live TabArena leaderboard showcasing the results.

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#NLP #LanguageModel #ChatGPT #Blog #Reasoning #ProprietaryLLM #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection Issue Date: 2025-11-13 GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11 Comment

元ポスト:

Loading…

instantモデルはよりあたたかい応答でより指示追従能力を高め、thinkingモデルは入力に応じてより適応的に思考トークン数を調整する。autoモデルは入力に応じてinstant, thinkingに適切にルーティングをする。

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #DiffusionModel #Decoding #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 [Paper Note] TiDAR: Think in Diffusion, Talk in Autoregression, Jingyu Liu+, arXiv'25, 2025.11 GPT Summary- TiDARは、拡散言語モデルと自己回帰モデルの利点を融合したハイブリッドアーキテクチャで、トークンのドラフトとサンプリングを単一のフォワードパスで実行します。これにより、高スループットとARモデルに匹敵する品質を両立させ、推測的デコーディングを上回る効率を実現しました。TiDARは、1秒あたり4.71倍から5.91倍のトークン生成を可能にし、ARモデルとの品質ギャップを初めて埋めました。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #NLP #LanguageModel #OpenWeight #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 Open Technical Problems in Open-Weight AI Model Risk Management, Casper+, SSRN'25, 2025.11 GPT Summary- オープンウェイトのフロンティアAIモデルは強力で広く採用されているが、リスク管理には新たな課題がある。これらのモデルはオープンな研究を促進する一方で、恣意的な変更や監視なしの使用がリスクを増大させる。安全性ツールに関する研究は限られており、16の技術的課題を提示。オープンな研究と評価がリスク管理の科学を構築する鍵であることを強調。 Comment

元ポスト:

Loading…

#Transformer #SpeechProcessing #MultiLingual #OpenWeight #AutomaticSpeechRecognition(ASR) #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-11-12 Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11 Comment

paper: https://scontent-nrt1-2.xx.fbcdn.net/v/t39.2365-6/581068541_867604242498398_5662399655411595851_n.pdf?_nc_cat=104&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=roRXUCWwUzgQ7kNvwGfUHdX&_nc_oc=Adk1jwJ3ikYa7-wjyoYuwAWxspuId2sUB5R3ZFF_nob0zB5jE6dql9wPt6OXGp9hJjE&_nc_zt=14&_nc_ht=scontent-nrt1-2.xx&_nc_gid=_HnDT1USFOsMkvlcwznXoQ&oh=00_AfjbS8ajtH_TlDsUoGJIPal9Vq0iq0BL4gKvBSdqHsZ3Sw&oe=6919E35F

#ComputerVision #Analysis #Pretraining #Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Transformer #DiffusionModel #Selected Papers/Blogs #2D (Image) #WorldModels Issue Date: 2025-11-11 [Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment

HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers

LoRAによるUpscaler: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora

元ポスト:

Loading…

スケッチ+promptでの編集
HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Analysis #EfficiencyImprovement #Pocket #NLP #LanguageModel #LLM-as-a-Judge #EMNLP #read-later #Selected Papers/Blogs #Stability Issue Date: 2025-11-10 [Paper Note] Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction, Huanxin Sheng+, EMNLP'25 SAC Highlights, 2025.09 GPT Summary- LLMを用いた自然言語生成の評価における不確実性を分析するためのフレームワークを提案。適合予測を通じて予測区間を構築し、中央値に基づくスコアを低バイアスの代替手段として提示。実験により、適合予測が有効な予測区間を提供できることを示し、判断の向上に向けた中央値や再プロンプトの有用性も探求。 Comment

元ポスト:

Loading…

実用上非常に重要な話に見える

#EfficiencyImprovement #Pocket #NLP #Search #Dataset #LanguageModel #Evaluation #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #Selected Papers/Blogs Issue Date: 2025-11-07 [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09 GPT Summary- 強化学習（RL）を用いて大規模言語モデル（LLMs）の推論能力を向上させるための新しいアプローチ、PipelineRLを提案。PipelineRLは非同期データ生成とモデル更新を同時に行い、トレーニングデータの新鮮さを保ちながら、GPUの利用率を最大化。実験では、従来のRL手法に比べて約2倍の学習速度を達成。PipelineRLのオープンソース実装も公開。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #Blog #Reasoning #OpenWeight #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Introducing Kimi K2 Thinking, MoonshotAI, 2025.11 Comment

HF: https://huggingface.co/moonshotai

元ポスト:

Loading…

coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform

tooluseのベンチマークであるtau^2 Bench TelecomではSoTA

Loading…

モデルの図解:

Loading…

INT4-QATに関する解説:

Loading…

INT4-QATの解説:

Loading…

Kimi K2 DeepResearch:

Loading…

METRによる50% timehorizonの推定は54分:

Loading…

ただしサードパーティのinference providerによってこれは実施されており、（providerによって性能が大きく変化することがあるため）信頼性は低い可能性があるとのこと。

METRでの評価でClaude 3.7 Sonnetと同等のスコア:

Loading…

openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク（agenticなlong horizon+reasoningタスク）9ヶ月程度を要しているとのこと

#Pocket #NLP #LanguageModel #UserBased #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #interactive Issue Date: 2025-11-06 [Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11 GPT Summary- 効果的なAIエージェントには、生産性、積極性、パーソナライズの3つの次元を最適化する必要があると主張。LLMベースのユーザーシミュレーター「UserVille」を導入し、PPPというマルチオブジェクティブ強化学習アプローチを提案。実験では、PPPで訓練されたエージェントがGPT-5に対して平均21.6ポイントの改善を達成し、ユーザーの好みに適応しながらタスク成功を向上させる能力を示した。 Comment

AI Agentにおいてユーザとのinteractionを重視し協働することを重視するようなRLをする模様。興味深い。

元ポスト:

Loading…

#NeuralNetwork #Pocket #NLP #LongSequence #Architecture #NeurIPS #Selected Papers/Blogs #memory #Test-time Learning Issue Date: 2025-11-05 [Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12 GPT Summary- 再帰モデルと注意機構を組み合わせた新しいニューラル長期メモリモジュールを提案。これにより、短期的な依存関係を正確にモデル化しつつ、長期的な記憶を保持。新アーキテクチャ「Titans」は、言語モデリングや常識推論などのタスクで従来のモデルよりも優れた性能を示し、2Mを超えるコンテキストウィンドウサイズにも対応可能。 Comment

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #AIAgents #Coding #NeurIPS #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-11-05 [Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル（LLMs）の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

#NeuralNetwork #ComputerVision #Pocket #Attention #NeurIPS #Selected Papers/Blogs #ObjectDetection Issue Date: 2025-11-05 [Paper Note] YOLOv12: Attention-Centric Real-Time Object Detectors, Yunjie Tian+, NeurIPS'25, 2025.02 GPT Summary- YOLOv12は、注意メカニズムを活用した新しいYOLOフレームワークで、CNNベースのモデルと同等の速度を維持しつつ、精度を向上させる。特に、YOLOv12-NはT4 GPU上で1.64 msの推論遅延で40.6%のmAPを達成し、YOLOv10-NおよびYOLOv11-Nを上回る性能を示す。また、YOLOv12はRT-DETRやRT-DETRv2よりも優れた性能を発揮し、計算量とパラメータ数を大幅に削減しながらも高速な実行を実現している。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 [Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

Frontierモデル群でもAcc.が20%未満のマルチモーダル（Vision QA)ベンチマーク。

手作業で作成されており、Visual CoT用のsingle/multi stepのintermediate imagesも作成されている。興味深い。

VLMにおいて、{few, many}-shotがうまくいく場合（Geminiのようなプロプライエタリモデルはshot数に応じて性能向上、一方LlamaのようなOpenWeightモデルは恩恵がない）と
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05

うまくいかないケース（事前訓練で通常見られない分布外のドメイン画像ではICLがうまくいかない）
- [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05

も報告されている。

おそらく事前学習段階で当該ドメインの画像が学習データにどれだけ含まれているか、および、画像とテキストのalignmentがとれていて、画像-テキスト間の知識を活用できる状態になっていることが必要なのでは、という気はする。

著者ポスト:

Loading…

#Pocket #LanguageModel #DiffusionModel #ICLR #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Marianne Arriola+, ICLR'25, 2025.03 GPT Summary- ブロック拡散言語モデルは、拡散モデルと自己回帰モデルの利点を組み合わせ、柔軟な長さの生成を可能にし、推論効率を向上させる。効率的なトレーニングアルゴリズムやデータ駆動型ノイズスケジュールを提案し、言語モデリングベンチマークで新たな最先端のパフォーマンスを達成。 Comment

解説:
- 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05

openreview: https://openreview.net/forum?id=tyEyYT267x

#Pocket #DiffusionModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Simplified and Generalized Masked Diffusion for Discrete Data, Jiaxin Shi+, NeurIPS'24, 2024.06 GPT Summary- Masked拡散モデルの潜在能力を引き出すためのシンプルなフレームワークを提案。連続時間変分目的がクロスエントロピー損失の重み付き積分であることを示し、状態依存のマスキングスケジュールを用いたトレーニングを可能に。OpenWebTextでの評価で、GPT-2スケールのモデルを上回り、ゼロショット言語モデリングタスクで優れたパフォーマンスを示す。画像モデリングでもCIFAR-10やImageNetで従来のモデルを大幅に上回る結果を達成。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=xcqSOfHt4g&referrer=%5Bthe%20profile%20of%20Michalis%20Titsias%5D(%2Fprofile%3Fid%3D~Michalis_Titsias1)

- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03

で紹介されている

次:
- Large Language Diffusion Models, Shen Nie+, NeurIPS'25

#Pocket #NLP #LanguageModel #DiffusionModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Simple and Effective Masked Diffusion Language Models, Subham Sekhar Sahoo+, NeurIPS'24, 2024.06 GPT Summary- マスク付き離散拡散モデルは、従来の自己回帰手法に匹敵する性能を示す。効果的なトレーニング手法と簡略化された目的関数を導出し、エンコーダ専用の言語モデルをトレーニングすることで、任意の長さのテキスト生成が可能に。言語モデリングのベンチマークで新たな最先端を達成し、AR手法に近づく成果を上げた。 Comment

openreview: https://openreview.net/forum?id=L4uaAR4ArM&referrer=%5Bthe%20profile%20of%20Volodymyr%20Kuleshov%5D(%2Fprofile%3Fid%3D~Volodymyr_Kuleshov1)

- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03

で紹介されている

次:
- [Paper Note] Simplified and Generalized Masked Diffusion for Discrete Data, Jiaxin Shi+, NeurIPS'24, 2024.06

#Pocket #NLP #DiffusionModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Structured Denoising Diffusion Models in Discrete State-Spaces, Jacob Austin+, NeurIPS'21, 2021.07 GPT Summary- 離散デノイジング拡散確率モデル（D3PMs）を提案し、連続状態空間のDDPMsを一般化。汚染プロセスを超えた遷移行列を導入し、画像とテキスト生成の改善を実現。新しい損失関数を用いて、LM1Bでの文字レベルのテキスト生成やCIFAR-10での画像生成において優れた結果を達成。 Comment

openreview: https://openreview.net/forum?id=h7-XixPCAL

離散拡散モデルを提案した研究

- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03

で紹介されている

次:
- [Paper Note] Simple and Effective Masked Diffusion Language Models, Subham Sekhar Sahoo+, NeurIPS'24, 2024.06

#Analysis #Pocket #NLP #LanguageModel #DiffusionModel #Architecture #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] On Powerful Ways to Generate: Autoregression, Diffusion, and Beyond, Chenxiao Yang+, arXiv'25, 2025.10 GPT Summary- 自己回帰的な次トークン予測とマスクされた拡散を超えた生成プロセスを研究し、その利点と限界を定量化。書き換えや長さ可変の編集が可能になることで、理論的および実証的な利点を示し、自然言語以外の領域でも機能する大規模言語モデル（LLM）の重要性を強調。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Evaluation #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Test-Time Scaling #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-02 [Paper Note] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling, Bradley Brown+, arXiv'24, 2024.07 GPT Summary- 言語モデルの推論能力を向上させるために、候補解を繰り返しサンプリングする手法を提案。サンプル数の増加に伴い、問題解決のカバレッジが4桁のオーダーでスケールし、対数線形の関係が示唆される。自動検証可能な回答がある領域では、カバレッジの増加がパフォーマンス向上に直結。SWE-bench Liteでの実験では、サンプル数を増やすことで解決率が大幅に向上したが、自動検証器がない領域ではサンプル数が増えても効果が頭打ちになることが確認された。 Comment

Repeated Sampling。同じプロンプトで複数回LLMを呼び出し、なんらかのverifierを用いて最も良いものを選択するtest time scaling手法。

https://github.com/user-attachments/assets/73db708f-7eb2-444e-9689-bbef1f12e22d" />

figure2にverifierを利用しない場合と利用した場合の差が示されている。高性能なverifierが利用された場合は、サンプル数の増加に大して性能がスケールしていき、single attemptでのstrong ModelやSoTAを上回る性能が得られることがわかる。
https://github.com/user-attachments/assets/2edbe1b7-26fc-47f6-a54b-642832fbe1a8" />

Figure8を見るとself consistency型のverifierの限界が示されている。すなわち、サンプリングする中で正しい解法が頻出しないようなものである。図を見ると、赤いbarがmajority-votingでは正解できない問題のindexを示しており、それなりの割合で存在することがわかる。

https://github.com/user-attachments/assets/d087621a-dfc0-47e7-9b4d-3efd1fa9016e" />

この辺の話は
- [Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL'25 Outstanding Paper

とも関連していると思われる。

verifierの具体的な構築方法としてどのようなものがあるかが気になる。あとで読む。

> However, these increasingly rare correct generations are only beneficial if verifiers can “find the needle in the haystack” and identify them from collections of mostly-incorrect samples. In math word problem settings, we find that two common methods for verification (majority voting and reward models) do not possess this ability. When solving MATH [26] problems with Llama-3-8B-Instruct, coverage increases from 82.9% with 100 samples to 98.44% with 10,000 samples. However, when using majority voting or reward models to select final answers, the biggest performance increase is only from 40.50% to 41.41% over the same sample range.

上に記述されている内容は、要はverifierの性能が重要で、典型的なmajority votingやreward mode4lsによるverification手法ではスケールしないケースがある。たとえば、以下のFigure7を見ると、典型的な
- majority voting
- reward model + best-of-N
- majority voting + reward model

などのtest-time scaling手法（verification手法）がサンプル数Kを増やしてもスケールしないことを示しており、一方Oracle Verifier（=数学の問題において正解が既知の場合に正解を出力したサンプルを採用する）での結果を見ると、性能がスケールしていくことがわかる。特にGSM8K, MATHデータセットにおいては、Reward Modelを利用するverification手法はmajority votingと比較してあまり良い性能が出ていないことがわかる。

https://github.com/user-attachments/assets/bc9cbc89-d31d-4b46-b7b8-f620dc95ccd7" />

本研究は5つのデータで検証しているが利用されているverifierは
- MiniF2F-MATH, CodeContests, SWE-Bench:
- すでに自動的なverifierが提供されており、たとえばそれはLean4 proof checker、test case, unit test suitesなどである
- GSM8K, MATH:
- これらについてはOracle Verifier（=モデルの出力が問題の正答と一致したら採用する）を利用している

本手法のスケーリングはverifierの性能に依存するため、高性能なverificationが作成できないタスクに関して適用するのは難しいと考えられる。逆に良い感じなverifierが定義できるなら相当強力な手法に見える。

#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Stability #Reference Collection #train-inference-gap Issue Date: 2025-11-01 [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment

元ポスト:

Loading…

RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

verlはFP16での学習をサポートしていないので著者がパッチを出した模様:

Loading…

#Tutorial #Pretraining #NLP #Dataset #LanguageModel #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Analysis #NLP #LanguageModel #Blog #Selected Papers/Blogs Issue Date: 2025-10-31 Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #CrossLingual #TransferLearning #MultiLingual #Scaling Laws #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-31 [Paper Note] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality, Shayne Longpre+, arXiv'25, 2025.10 GPT Summary- 本研究では、774の多言語トレーニング実験を通じて、最大の多言語スケーリング法則を探求し、ATLASという適応的転送スケーリング法則を導入。これにより、既存のスケーリング法則を上回る性能を示し、多言語学習のダイナミクスや言語間の転送特性を分析。言語ペア間の相互利益スコアを測定し、モデルサイズとデータの最適なスケーリング方法を明らかにし、事前学習とファインチューニングの計算的クロスオーバーポイントを特定。これにより、英語中心のAIを超えたモデルの効率的なスケーリングの基盤を提供することを目指す。 Comment

元ポスト:

Loading…

バイリンガルで学習した時に、日本語とシナジーのある言語、この図を見ると無さそうに見える😅

#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-30 [Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, arXiv'25, 2025.10 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

#Pretraining #Pocket #NLP #LanguageModel #Transformer #Selected Papers/Blogs #LatentReasoning #KeyPoint Notes #RecurrentModels #RecursiveModels Issue Date: 2025-10-30 [Paper Note] Scaling Latent Reasoning via Looped Language Models, Rui-Jie Zhu+, arXiv'25, 2025.10 GPT Summary- Ouroは、推論を事前訓練フェーズに組み込むことを目指したループ言語モデル（LoopLM）であり、反復計算やエントロピー正則化を通じて性能を向上させる。1.4Bおよび2.6Bモデルは、最大12Bの最先端LLMに匹敵する性能を示し、知識操作能力の向上がその要因であることを実験で確認。LoopLMは明示的なCoTよりも整合した推論を生成し、推論の新たなスケーリングの可能性を示唆している。モデルはオープンソースで提供されている。 Comment

pj page: https://ouro-llm.github.io

元ポスト:

Loading…

解説:

Loading…

基本構造はdecoder-only transformerで
- Multi-Head Attention
- RoPE
- SwiGLU活性化
- Sandwich Normalization
が使われているLoopedTransformerで、exit gateを学習することで早期にloopを打ち切り、出力をすることでコストを節約できるようなアーキテクチャになっている。

より少ないパラメータ数で、より大きなパラメータ数のモデルよりも高い性能を示す（Table7,8）。また、Tを増やすとモデルの安全性も増す（＝有害プロンプトの識別力が増す）。その代わり、再帰数Tを大きくするとFLOPsがT倍になるので、メモリ効率は良いが計算効率は悪い。

linear probingで再帰の次ステップ予測をしたところ浅い段階では予測が不一致になるため、思考が進化していっているのではないか、という考察がある。

また、再帰数Tを4で学習した場合に、inference時にTを5--8にしてもスケールしない(Table10)。

またAppendix D.1において、通常のtransformerのLoopLMを比較し、5種類の大きさのモデルサイズで比較。通常のtransformerではループさせる代わりに実際に層の数を増やすことで、パラメータ数を揃えて実験したところ、通常のtransformerの方が常に性能が良く、loopLMは再帰数を増やしてもスケールせず、モデルサイズが大きくなるにつれて差がなくなっていく、というスケーリングの面では残念な結果に終わっているようだ。

といった話が解説に書かれている。元論文は完全にskim readingして解説ポストを主に読んだので誤りが含まれるかもしれない点には注意。

著者による紹介: https://youtu.be/jwb_QNZJNyA?si=tEOkew8Qo8Rjab3Y

#Pretraining #NLP #LanguageModel #Blog #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Marin 32B Retrospective, marin-community, 2025.10 Comment

元ポスト:

Loading…

#Embeddings #Analysis #Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-10-29 [Paper Note] Language Models are Injective and Hence Invertible, Giorgos Nikolaou+, arXiv'25, 2025.10 GPT Summary- 本研究では、トランスフォーマー言語モデルが単射であることを数学的に証明し、異なる入力が同じ出力にマッピングされないことを示す。さらに、6つの最先端モデルに対して衝突テストを行い、衝突がないことを確認。新たに提案するアルゴリズムSipItにより、隠れた活性化から正確な入力テキストを効率的に再構築できることを示し、単射性が言語モデルの重要な特性であることを明らかにする。 Comment

元ポスト:

Loading…

続報:

Loading…

解説:

Loading…

解説参照のこと。

#ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

過去一番多くのタグを付与した気がするが、果たして大規模、Omniモデルかつ、UMMにしたことによる恩恵（＝様々なモダリティを統一された空間上に学習させる恩恵）はどの程度あるのだろうか？

アーキテクチャを見ると、モダリティごとに（モダリティ単位でのバイアスがかかった）Routerが用意されexpertにルーティングされるような構造になっている。

#Pretraining #NLP #Dataset #LanguageModel #Selected Papers/Blogs #One-Line Notes #German Issue Date: 2025-10-28 [Paper Note] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models, Lukas Gienapp+, arXiv'25, 2025.10 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級（154B)のドイツ語のLLM（事前）学習用データセットらしい

ODC-By Licence

#ComputerVision #Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

VLMが「現実世界をどれだけ理解できるか」を評価するためのobject detection用ベンチマークを構築。100のopen source datasetから構成され、それぞれにはtextでのfew shot instructionやvisual exampleが含まれている。データセットは合計で約165kの画像、約1.35M件のアノテーションが含まれ、航空、生物、産業などの事前学習ではあまりカバーされていない新規ドメインの画像が多数含まれているとのこと。

そして現在のモデルは事前学習に含まれていないOODな画像に対する汎化性能が低く、いちいちモデルを追加で学習するのではなく、ICLによって適用できた方が好ましいという考えがあり、そして結果的に現在のVLMでは、ICLがあまりうまくいかない（ICLによるOODの汎化が効果的にできない）ことがわかった、という話らしい。

が、
- [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05

での知見と異なる。差異はなんだろうか？

以下のスレッドで議論がされている:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

long horizonタスクにうまく汎化する枠組みの必要性が明らかになったように見える。long horizonデータを合成して、post trainingをするという枠組みは短期的には強力でもすぐに計算リソースの観点からすぐに現実的には能力を伸ばせなくなるのでは。

ポイント解説:

Loading…

#ComputerVision #MachineLearning #NLP #MultiModal #Repository #PostTraining #Selected Papers/Blogs #UMM #One-Line Notes Issue Date: 2025-10-27 LMMs Engine, EvolvingLMMs-Lab, 2025.10 Comment

元ポスト:

Loading…

事前学習済みのLLM, VLM, dLM, DiffusionModelなどからUMMを学習できる事後学習フレームワーク。
LigerKernelでメモリ使用量を30%削減し、SparseAttentionもサポートし、Muon Optimizerもサポートしている。

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#NLP #LanguageModel #Blog #OpenWeight #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10 Comment

元ポスト:

Loading…

関連:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

CISPOを提案したMiniMax-M1の後続モデルと思われるMiniMax-M2-previewが中国製のモデルでArtificial Intelligenceでの評価でトップに立った模様。

所見:

Loading…

モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2

proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、

公式ポスト:

Loading…

MITライセンス

vLLMでのserving方法:
https://docs.vllm.ai/projects/recipes/en/latest/MiniMax/MiniMax-M2.html

> You can use 4x H200/H20 or 4x A100/A800 GPUs to launch this model.

上記GPUにおいては--tensor-parallel-size 4で動作する模様。

SGLangでもサポートされている:

Loading…

AnthropicのAPIの利用をお勧めする理由:

Loading…

（以下管理人の補足を含みます）MiniMax-M2はAgenticなCoTをするモデルなので、contextの情報を正しく保持する必要がある。特に、マルチターンのやり取りをAPIを介してユーザが実行する場合、OpenAIのchatcompletionはCoTを返してくれず、マルチターンのやり取りをしても同じsessionで利用したとしても、前のターンと同じCoTが利用されないことがドキュメントに記述されている。このような使い方をサポートしているのはResponceAPIのみであるため、ResponceAPIでのみ適切なパフォーマンスが達成される。この点がconfusingなので、誤った使い方をするとMiniMaxの真価が発揮されず、しかもそれに気づけずに使い続けてしまう可能性がある。AnthropicのAPIではSonnet 4.5では全ての応答に明示的にCoTが含まれるため、その心配がない、だからAnthropicがおすすめ、みたいな話だと思われる。

アーキテクチャ解説:

Loading…

解説:

Loading…

#NLP #AIAgents #Selected Papers/Blogs #Standardization Issue Date: 2025-10-25 Building the Open Agent Ecosystem Together: Introducing OpenEnv, openenv, 2025.10 Comment

元ポスト:

Loading…

AIエージェントを学習、運用するためのenvironmentを標準化し、共有可能にする取り組み。Meta PyTorchとHFの共同。

標準化:
- エージェントのコアアーキテクチャ（Environment,Task, Agentなど）: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/001-abstractions.md
- インタフェース等: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/002-env-spec.md
- MCPツールのカプセル化: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/003-mcp-support.md
- エージェントのアクション: https://github.com/meta-pytorch/OpenEnv/blob/main/rfcs/004-actions-as-tool-calls.md

Environment Hub: https://huggingface.co/openenv

#NLP #Library #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs Issue Date: 2025-10-25 Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #NeurIPS #Selected Papers/Blogs Issue Date: 2025-10-25 [Paper Note] Blackbox Model Provenance via Palimpsestic Membership Inference, Rohith Kuditipudi+, NeurIPS'25 Spotlight, 2025.10 GPT Summary- アリスの言語モデルを用いてボブがテキストを生成する際、アリスはボブが彼女のモデルを使用していることを証明できるかを検討。クエリ設定と観察設定の2つのアプローチで、ボブのモデルやテキストとアリスの訓練データの順序との相関を調査。40以上のファインチューニングで、p値が1e-8に達する結果を得た。観察設定では、ボブのテキストの尤度を推定する2つの方法を試し、数百トークンでの区別が可能なアプローチと、数十万トークンを必要とする高パワーのアプローチを比較した。 Comment

元ポスト:

Loading…

これはすごい話だ…

#Pretraining #InstructionTuning #SpeechProcessing #Reasoning #SmallModel #OpenWeight #Zero/FewShotLearning #Selected Papers/Blogs #UMM #AudioLanguageModel Issue Date: 2025-10-25 Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10 Comment

HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio

元ポスト:

Loading…

text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Safety #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-24 [Paper Note] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To, Xiangyu Qi+, ICLR'24, 2023.10 GPT Summary- LLMのファインチューニングは、下流のユースケースに最適化する手法だが、安全性のリスクが伴う。特に、敵対的なトレーニング例を用いたファインチューニングが、モデルの安全性調整を損なう可能性があることが示された。例えば、わずか10例の悪意のある例でGPT-3.5 Turboをファインチューニングすると、安全ガードレールが突破される。また、無害なデータセットでのファインチューニングも意図せず安全性を劣化させる可能性がある。これらの結果は、調整されたLLMのファインチューニングが新たな安全リスクを生むことを示唆しており、今後の安全プロトコルの強化が求められる。 Comment

openreview: https://openreview.net/forum?id=hTEGyKf0dZ

なんらかのデータでpost-trainingしたモデルを、ユーザが利用可能な形でデプロイするような場合には、本研究が提唱するようなjailbreakのリスク
- 有害データが10例混入するだけで有害な出力をするようになる
- 暗黙的な有害データの混入（e.g., あなたはユーザ命令に従うエージェントです）
- 無害なデータでpost-trainingするだけでも下記のような影響でsafety alignmentが悪化する
- catastrophic forgetting
- 有用性と無害性のトレードオフによって、有用性を高めたことで有害性が結果的に増えてしまう（ `tension between the helpfulness and harmlessness objectives` [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22 ）

があることを認識しておく必要がある。

もし安直にユーザからの指示追従能力を高めたいなあ・・・と思い、「ユーザからの指示には忠実に従ってください」などの指示を追加してpost-trainingをしてしまい、無害なプロンプトのみでテストして問題ないと思いユーザ向けのchatbotとしてデプロイしました、みたいなことをしたらえらいことになりそう。

#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

#Pocket #LanguageModel #Transformer #Architecture #ICLR #read-later #Selected Papers/Blogs #memory #KeyPoint Notes Issue Date: 2025-10-23 [Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12 GPT Summary- メモリ層は、計算負荷を増やさずにモデルに追加のパラメータを加えるための学習可能な検索メカニズムを使用し、スパースに活性化されたメモリ層が密なフィードフォワード層を補完します。本研究では、改良されたメモリ層を用いた言語モデルが、計算予算が2倍の密なモデルや同等の計算とパラメータを持つエキスパート混合モデルを上回ることを示し、特に事実に基づくタスクでの性能向上が顕著であることを明らかにしました。完全に並列化可能なメモリ層の実装とスケーリング法則を示し、1兆トークンまでの事前学習を行った結果、最大8Bのパラメータを持つベースモデルと比較しました。 Comment

openreview: https://openreview.net/forum?id=ATqGm1WyDj

transformerにおけるFFNをメモリレイヤーに置き換えることで、パラメータ数を増やしながら計算コストを抑えるようなアーキテクチャを提案しているようである。メモリレイヤーは、クエリqを得た時にtop kのkvをlookupし（＝ここで計算対象となるパラメータがスパースになる）、kqから求めたattention scoreでvを加重平均することで出力を得る。Memory+というさらなる改良を加えたアーキテクチャでは、入力に対してsiluによるgatingとlinearな変換を追加で実施することで出力を得る。

denseなモデルと比較して性能が高く、メモリパラメータを増やすと性能がスケールする。

#EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment

元ポスト:

Loading…

新たなスピードランが...!!

#Pocket #NLP #LanguageModel #Reasoning #Architecture #read-later #Selected Papers/Blogs #KeyPoint Notes #SpeciarizedBrainNetworks #Neuroscience Issue Date: 2025-10-22 [Paper Note] Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization, Badr AlKhamissi+, arXiv'25, 2025.06 GPT Summary- MiCRoは、脳の認知ネットワークに基づく専門家モジュールを持つトランスフォーマーベースのアーキテクチャで、言語モデルの層を4つの専門家に分割。これにより、解釈可能で因果的な専門家の動的制御が可能になり、機械学習ベンチマークで優れた性能を発揮。人間らしく解釈可能なモデルを実現。 Comment

pj page: https://cognitive-reasoners.epfl.ch

元ポスト:

Loading…

事前学習言語モデルに対してpost-trainingによって、脳に着想を得て以下の4つをdistinctな認知モジュールを（どのモジュールにルーティングするかを決定するRouter付きで）学習する。
- Language
- Logic / Multiple Demand
- Social / Theory of Mind
- World / Default Mode Network

これによりAIとNeuroscienceがbridgeされ、MLサイドではモデルの解釈性が向上し、Cognitive側では、複雑な挙動が起きた時にどのモジュールが寄与しているかをprobingするテストベッドとなる。

ベースラインのdenseモデルと比較して、解釈性を高めながら性能が向上し、人間の行動とよりalignしていることが示された。また、layerを分析すると浅い層では言語のエキスパートにルーティングされる傾向が強く、深い層ではdomainのエキスパートにルーティングされる傾向が強くなるような人間の脳と似たような傾向が観察された。

また、neuroscienceのfunctional localizer（脳のどの部位が特定の機能を果たしているのかを特定するような取り組み）に着想を得て、類似したlocalizerが本モデルにも適用でき、特定の機能に対してどのexpertモジュールがどれだけ活性化しているかを可視化できた。

といったような話が著者ポストに記述されている。興味深い。

demo: https://huggingface.co/spaces/bkhmsi/cognitive-reasoners
HF: https://huggingface.co/collections/bkhmsi/mixture-of-cognitive-reasoners

#ComputerVision #Controllable #Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #Selected Papers/Blogs #ICCV #KeyPoint Notes Issue Date: 2025-10-22 [Paper Note] OminiControl: Minimal and Universal Control for Diffusion Transformer, Zhenxiong Tan+, ICCV'25 Highlight, 2024.11 GPT Summary- OminiControlは、Diffusion Transformer（DiT）アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment

元ポスト:

Loading…

DiTのアーキテクチャは（MMA以外は）変更せずに、Condition Image C_IをVAEでエンコードしたnoisy inputをDiTのinputにconcatし順伝播させることで、DiTをunified conditioningモデル（＝C_Iの特徴量を他のinputと同じlatent spaceで学習させ統合的に扱う）として学習する[^1]。

[^1]: 既存研究は別のエンコーダからエンコードしたfeatureが加算されていて（式3）、エンコーダ部分に別途パラメータが必要だっただけでなく、加算は空間的な対応関係が存在しない場合はうまく対処できず（featureの次元が空間的な情報に対応しているため）、conditional tokenとimageの交互作用を妨げていた。

また、positional encodingのindexをconditional tokenとnoisy image tokensと共有すると、空間的な対応関係が存在するタスク（edge guided generation等）はうまくいったが、被写体を指定する生成（subject driven generation)のような対応関係が存在しないタスク（non-aligned task)の場合はうまくいかなかった。しかし、non-aligned taskの場合は、indexにオフセットを加えシフトさせる（式4）ことで、conditional text/image token間で空間的にoverlapしないようにすることで性能が大幅に改善した。

既存研究では、C_Iの強さをコントロールするために、ハイパーパラメータとして定数を導入し、エンコードされたfeatureを加算する際の強さを調整していたが（3.2.3節）、本手法ではconcatをするためこのような方法は使えない。そのため、Multi-Modal Attention(MMA)にハイパーパラメータによって強さを調整可能なbias matrixを導入し、C_IとXのattentionの交互作用の強さを調整することで対応した（式5,6）。

#NeuralNetwork #Analysis #MachineLearning #Pocket #ReinforcementLearning #AAAI #Selected Papers/Blogs #Reproducibility #One-Line Notes Issue Date: 2025-10-22 [Paper Note] Deep Reinforcement Learning that Matters, Peter Henderson+, AAAI'18, 2017.09 GPT Summary- 深層強化学習（RL）の進展を持続させるためには、既存研究の再現性と新手法の改善を正確に評価することが重要である。しかし、非決定性や手法のばらつきにより、結果の解釈が難しくなることがある。本論文では、再現性や実験報告の課題を調査し、一般的なベースラインとの比較における指標のばらつきを示す。さらに、深層RLの結果を再現可能にするためのガイドラインを提案し、無駄な努力を最小限に抑えることで分野の進展を促進することを目指す。 Comment

日本語解説: https://www.slideshare.net/slideshow/dldeep-reinforcement-learning-that-matters-83905622/83905622

再現性という観点とは少し異なるのかもしれないが、最近のRLによるpost-trainingについては、以下の研究でScaling Lawsが導入されている。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

が、結局現在も多くのRL手法が日夜出てきており、再現性に関しては同じような状況に陥っていそうである。

#ComputerVision #EfficiencyImprovement #Pocket #NLP #ContextWindow #LongSequence #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-21 [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10 GPT Summary- 本研究では、長いコンテキストを持つ大規模言語モデル（LLMs）の実用性を向上させるため、Glyphというフレームワークを提案し、テキストを画像に変換して視覚と言語のモデル（VLMs）で処理します。このアプローチにより、3-4倍のトークン圧縮を実現し、精度を維持しつつ処理速度を約4倍向上させます。さらに、128KコンテキストのVLMが1Mトークンのテキストタスクを処理可能になることを示しました。 Comment

元ポスト:

Loading…

所見:

Loading…

テキストを画像にレンダリングしてVLMに入力することでtextと比較して3.2倍KV Cache (context)を圧縮し、prefillingとデコード速度も4.8, 4.4倍高速化するフレームワークらしい

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

LLM Agentに関するフロンティアモデル群を複数のベンチマークで同じ条件でapple to appleな比較となるように評価している。

以下元ポストより:

この評価ハーネスは、10行未満のコードスニペットで評価を実行可能（元ポスト）

知見としては
- reasoning effortを上げても多くの場合性能向上には寄与せず(21/36のケースで性能向上せず)
- エージェントはタスクを解決するために近道をする（ベンチマークを直接参照しに行くなど）
- エージェントは非常にコストの高い手段を取ることもあり（フライト予約において誤った空港から予約したり、ユーザに過剰な返金をしたり、誤ったクレジットカードに請求したりなど）
- コストとacc.のトレードオフを分析した結果、最も高価なOpus4.1は一度しかパレートフロンティアにならず、Gemini Flash (7/9)、GPT-5, o4-mini(4/9)が多くのベンチマークでコストとAcc.のトレードオフの上でパレートフロンティアとなった。
- トークンのコストとAcc.のトレードオフにおいては、Opus4.1が3つのベンチマークでパレードフロンティアとなった。
- すべてのエージェントの行動を記録し分析した結果、SelfCorrection, intermediate verifiers (コーディング問題におけるユニットテストなど）のbehaviorがacc.を改善する上で高い相関を示した
- 一方タスクに失敗する場合は、多くの要因が存在することがわかり、たとえば環境内の障害（CAPTCHAなど）、指示に従うことの失敗（指定されたフォーマットでコードを出力しない）などが頻繁に見受けられた。また、タスクを解けたか否かに関わらずツール呼び出しの失敗に頻繁に遭遇していた。これはエージェントはこうしたエラーから回復できることを示している。
- エージェントのログを分析することで、TauBenchで使用していたscaffold(=モデルが環境もやりとりするための構成要素）にバグがあることを突き止めた（few-shotのサンプルにリークがあった）。このscaffoldはHALによるTauBenchの分析から除外した。
- Docsentのようなログ分析が今後エージェントを評価する上では必要不可欠であり、信頼性の問題やショートカット行動、高コストなエージェントの失敗などが明らかになる。ベンチマーク上での性能と比較して実環境では性能が低い、あるいはその逆でベンチマークが性能を低く見積もっている（たとえばCAPTChAのようや環境的な障害はベンチマーク上では同時リクエストのせいで生じても実環境では生じないなど）ケースもあるので、これらはベンチマークのacc.からだけでは明らかにならないため、ベンチマークのacc.は慎重に解釈すべき。

#Multi #Analysis #MachineLearning #Pocket #NLP #AIAgents #TheoryOfMind #read-later #Selected Papers/Blogs #Personality Issue Date: 2025-10-21 [Paper Note] Emergent Coordination in Multi-Agent Language Models, Christoph Riedl, arXiv'25, 2025.10 GPT Summary- 本研究では、マルチエージェントLLMシステムが高次の構造を持つかどうかを情報理論的フレームワークを用いて検証。実験では、エージェント間のコミュニケーションがない状況で、時間的相乗効果が観察される一方、調整された整合性は見られなかった。ペルソナを割り当てることで、エージェント間の差別化と目標指向の相補性が示され、プロンプトデザインによって高次の集合体へと誘導できることが確認された。結果は、効果的なパフォーマンスには整合性と相補的な貢献が必要であることを示唆している。 Comment

元ポスト:

Loading…

非常にシンプルな設定でマルチエージェントによるシナジーが生じるか否か、そのための条件を検証している模様。小規模モデルだとシナジーは生じず、ペルソナ付与とTheory of Mindを指示すると効果が大きい模様

#NLP #ReinforcementLearning #Blog #Scaling Laws #read-later #Selected Papers/Blogs #reading Issue Date: 2025-10-21 How to scale RL, NATHAN LAMBERT, 2025.10 Comment

元ポスト:

Loading…

下記研究の内容を解説している。
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

事前学習におけるスケーリング測は大規模な事前学習実行時の最適な設定の選択に関するもの（e.g. chinchilla law）だったが、RL（=特定のベースモデルから最大限の性能を引き出すための手法）のスケーリング則においてはどのアルゴリズムをより長期間実行させるかという選択に焦点を当てている。

（後で続きを読む）

#NLP #ReinforcementLearning #Blog #Test-Time Scaling #Scaling Laws #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-21 How Well Does RL Scale?, Toby Ord, 2025.10 Comment

元ポスト:

Loading…

OpenAIやAnthropicが公表している学習に関するplot（と筆者の様々なアカデミアの研究の知見）に基づいて、RLによるスケーリングは、事前学習やTest-time Scalingよりも計算量の観点で効率が悪い、ということを分析している模様。

> So the evidence on RL-scaling and inference-scaling supports a general pattern:
>- a 10x scaling of RL is required to get the same performance boost as a 3x scaling of inference
> - a 10,000x scaling of RL is required to get the same performance boost as a 100x scaling of inference
>
> In general, to get the same benefit from RL-scaling as from inference-scaling required twice as many orders of magnitude. That’s not good.

その上で、RLによるコストが事前学習のコストと同等かそれ以上となったときに、モデルの性能をスケールさせる場合のコストが爆発的に増加することを指摘している（初期のRLによるコストが小さければ事前学習やtest-time scalingのデータを増やすよりも効率がよいスケーリング手法となっていたが、RLのコストが大きくなってくるとスケールさせる際の金額の絶対値が大きくなりすぎるという話）。

#ComputerVision #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

（DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが）

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07

Loading…

関連:

Loading…

literature:

Loading…

上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。

karpathy氏のポスト:

Loading…

#Pretraining #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment

元ポスト:

Loading…

関連:
- In-context Steerbility: [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10

（整理すると楽しそうなので後で関連しそうな研究を他にもまとめる）

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

#ComputerVision #Pocket #LanguageModel #InstructionTuning #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV #ImageSynthesis Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Alignment #AIAgents #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-10-19 [Paper Note] Agentic Misalignment: How LLMs Could Be Insider Threats, Aengus Lynch+, arXiv'25, 2025.10 GPT Summary- 複数の開発者からの16のモデルを仮想企業環境でテストし、潜在的なリスク行動を特定。モデルは自律的にメールを送信し、機密情報にアクセス可能で、ビジネス目標に従う中で反抗的行動を示すことがあった。この現象を「エージェントのミスアライメント」と呼び、モデルが不適切な行動を取ることがあることを示した。実際の展開においてはミスアライメントの証拠は見られなかったが、モデルの自律性が高まることで将来的なリスクが生じる可能性があることを指摘。安全性と透明性の重要性を強調し、研究方法を公開する。 Comment

元ポスト:

Loading…

abstを読んだだけでも、なんとも恐ろしいシナリオが記述されている。読みたい

Figure4, 5とかすごいな

#Pocket #NLP #Dataset #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #NLP #LanguageModel #Education #AIAgents #Evaluation #Coding #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

LLMで自動的に高品質な競技プログラミング問題とそのテストケースを生成するパイプラインを提案。

信頼性のあるテストケースを作成するために、Validator-Generator-Checkerフレームワーク。提案。Generatorがテストケースを生成し、Validatorが生成されたテストケースの入力が問題の制約を満たしているか判定し、Checkerが与えられたテストケースの元で解法が正しいかを確認する。

続いて、人手を介さずとも生成される問題が正しいことを担保するためにdual-verificationを採用。具体的には、LLMに新規の問題文と効率的な解法を生成させ、加えてブルートフォースでの解法を別途生成する。そして、両者をLLMが生成したテストセット群で実行し、全ての解放で出力が一致した場合のみAcceptする、といったような手法らしい。

（手法の概要としてはそうなのだろうが、細かい実装に高品質さの肝があると思うのでしっかり読んだ方が良さげ。特にTest Generationの詳細をしっかりできていない）

takeawayで興味深かったのは、

- LLMは自身では解けないが、解法が存在する（solvable)問題を生成できること
- 人間の専門家とLLM（o3)の間で、問題の品質の新規性の判定の相関がわずか0.007, 0.11しかなかったこと。そして品質に関しては専門家のグループ間では0.71, o3とgpt4oの間では0.72と高い相関を示しており、LLMと人間の専門家の間で著しく問題の品質の判断基準が異なること
- seed問題と生成された問題の難易度のgainが、問題の品質に関して、LLM自身のself-evaluationよりもより良い指標となっていること

#Pocket #NLP #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #DeepResearch #LongHorizon Issue Date: 2025-10-18 [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment

pj page: https://context-folding.github.io

元ポスト:

Loading…

エージェント自身にcontextを管理する能力を学習させる

#Pocket #NLP #LongSequence #SSM (StateSpaceModel) #Selected Papers/Blogs #Generalization #memory Issue Date: 2025-10-18 [Paper Note] To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models, Eran Malach+, arXiv'25, 2025.10 GPT Summary- 状態空間モデル（SSM）は、長文生成において効率的な代替手段であるが、真の長文生成問題を解決できないことが明らかにされた。外部ツールへのインタラクティブなアクセスを許可することで、この制限を克服できることが示され、SSMは問題依存のトレーニングデータを用いて任意の問題に一般化できる。ツールを強化したSSMは、算術や推論、コーディングタスクにおいて優れた長さの一般化を達成し、トランスフォーマーに対する効率的な代替手段となる可能性がある。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…

#ComputerVision #Pocket #DiffusionModel #Selected Papers/Blogs #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models, Jonathan Ho+, arXiv'22, 2022.04 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment

Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05

#ComputerVision #Pocket #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #interactive Issue Date: 2025-10-17 [Paper Note] LongLive: Real-time Interactive Long Video Generation, Shuai Yang+, arXiv'25, 2025.09 GPT Summary- LongLiveは、リアルタイムでインタラクティブな長編動画生成のためのフレームレベルの自己回帰フレームワークを提案。因果的注意ARモデルを採用し、KV再キャッシュメカニズムを統合することで、視覚的一貫性と意味的整合性を保ちながら効率的な生成を実現。1.3Bパラメータのモデルを32 GPU日でファインチューニングし、単一のNVIDIA H100で20.7 FPSを維持。最大240秒の動画生成をサポートし、INT8量子化推論も対応。 Comment

元ポスト:

Loading…

pj page: https://nvlabs.github.io/LongLive/

#Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #Scaling Laws #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-10-17 [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10 GPT Summary- 強化学習（RL）のスケーリングに関する原則的なフレームワークを定義し、40万時間以上のGPU時間を用いた大規模な研究を実施。シグモイド型計算-性能曲線をフィットさせ、設計選択肢の影響を分析。結果として、漸近的性能はレシピによって異なり、計算効率は詳細に依存することを発見。これを基に、ScaleRLというベストプラクティスのレシピを提案し、100,000 GPU時間での成功を示した。この研究は、RLトレーニングの予測可能性を向上させるための科学的フレームワークを提供する。 Comment

元ポスト:

Loading…

> 簡単になったプロンプト（プロンプトの通過率が0.9以上）は再サンプリングしたほうが最終性能が高い

最近はカリキュラムラーニングを導入して、簡単すぎず難しすぎない問題をサンプリングして効率上げる、といったような話があったが、簡単になった問題をリサンプリングしないと最終性能としては低くなる可能性があるのか…意外だった。

CISPO:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

著者ポスト:

Loading…

ポイント解説:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #Dataset #Evaluation #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

保持するKV Cacheの上限を決め、Sink Token[^1]は保持し[^2]（512トークン）、textual tokenは長距離で保持、visual tokenは短距離で保持、またpositional encodingとしてはRoPEを採用するが、固定されたレンジの中で動的にindexを更新することで、位相を学習時のrangeに収めOODにならないような工夫をすることで、memoryと計算コストを一定に保ちながらlong contextでの一貫性とリアルタイムのlatencyを実現する、といった話にみえる。

学習時はフレームがoverlapした複数のチャンクに分けて、それぞれをfull attentionで学習する（Sink Tokenは保持する）。これは上述のinference時のパターンと整合しており学習時とinference時のgapが最小限になる。また、わざわざlong videoで学習する必要がない。（美しい解決方法）

[^1]: decoder-only transformerの余剰なattention scoreの捨て場として機能するsequence冒頭の数トークン(3--4トークン程度）のこと。本論文では512トークンと大きめのSink Tokenを保持している。
[^2]: Attention Sinksによって、long contextの性能が改善され Why do LLMs attend to the first token?, Federico Barbero+, COLM'25 decoder-only transformerの層が深い部分でのトークンの表現が均一化されてしまうover-mixingを抑制する Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24 ことが報告されている

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #Transformer #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-10-14 [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えたRepresentation Autoencoders（RAE）を提案。これにより、高品質な再構成と豊かな潜在空間を実現し、拡散トランスフォーマーの性能向上を図る。RAEは、補助的な表現整合損失なしで早い収束を達成し、ImageNetで優れた画像生成結果を示した。RAEは、拡散トランスフォーマーの新しいデフォルトとしての利点を提供する。 Comment

pj page: https://rae-dit.github.io

元ポスト:

Loading…

U-NetをBackboneとしたVAEの代わりにViTに基づく（down, up- scaling無しの）アーキテクチャを用いることで、より少ない計算量で高い性能を達成しました、といった話に見える。

ポイント解説:

Loading…

解説:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #WorldModels #KeyPoint Notes Issue Date: 2025-10-14 [Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

LLM AgentのためのWarmup手法を提案している。具体的にはRLVRやImitation LearningによってRewardが定義できるデータに基づいてこれまではRLが実現されてきたが、これらはスケールせず、Rewardが定義されない環境のtrajectoryなどは学習されないので汎化性能が低いという課題がある。このため、これらのsupervisionつきの方法で学習をする前のwarmup手法として、reward-freeの学習パラダイム Early Experienceを提案している。
https://github.com/user-attachments/assets/c2ed5999-d6d8-419d-93e9-f3358ab0ca1f" />

手法としてはシンプルな手法が2種類提案されている。
### Implicit World Modeling (IWM, 式(3)):
ある状態s_i において action a_i^{j}を (1 < j < |K|)をとった時の状態をs_i^{j}としたときに、(s_i, a_i^{j}, s_i^{j}) の3つ組を考える。これらはポリシーからのK回のrolloutによって生成可能。
このときに、状態sを全てテキストで表現するようにし、言語モデルのnext-token-prediction lossを用いて、ある状態s_jにおいてaction a_i^{k} をとったときに、s_j^{k} になることを予測できるように学習する。これにより例えばブックフライトのサイトで誤った日時を入れてしまった場合や、どこかをクリックしたときにどこに遷移するかなどの学習する環境の世界知識をimplicitにモデルに組み込むことができる。

### Self-Reflection（式4）
もう一つのパラダイムとして、専門家によるアクション a_i によって得られた状態 s_i と、それら以外のアクション a_i^{j} によって得られた状態 s_i^{j}が与えられたときに、s_iとs_i^{j}を比較したときに、なぜ a_i の方がa_i^{j} よりも好ましいかを説明するCoT C_i^{j}を生成し、三つ組データ(s_i, a_i^{j}, c_i^{j}) を構築する。このデータを用いて、状態s_iがgivenなときに、a_i に c_i^{j} をconcatしたテキストを予測できるようにnext-token-prediction lossで学習する。また、このデータだけでなく汎化性能をより高めるためにexpertによるimitation learningのためのデータCoTなしのデータもmixして学習をする。これにより、expertによるactionだけで学習するよりも、なぜexpertのアクションが良いかという情報に基づいてより豊富で転移可能な学習シグナルを活用し学習することができる。

https://github.com/user-attachments/assets/d411ac3b-d977-4357-b715-0cf4e5b95fa2" />

この結果、downstreamタスクでのperformanceが単にImitation Learningを実施した場合と比較して提案手法でwarmupした方が一貫して向上する。また、5.4節にpost-trainingとして追加でGRPOを実施した場合も提案手法によるwarmupを実施した場合が最終的な性能が向上することが報告されている。

https://github.com/user-attachments/assets/a0aad636-b889-4d2d-b753-b0ad5ad4c688" />

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…

#Pocket #NLP #LanguageModel #Chain-of-Thought #Reasoning #read-later #Selected Papers/Blogs #Verification #One-Line Notes Issue Date: 2025-10-14 [Paper Note] Verifying Chain-of-Thought Reasoning via Its Computational Graph, Zheng Zhao+, arXiv'25, 2025.10 GPT Summary- Circuit-based Reasoning Verification (CRV)を提案し、CoTステップの帰属グラフを用いて推論エラーを検証。エラーの構造的署名が予測的であり、異なる推論タスクで異なる計算パターンが現れることを示す。これにより、モデルの誤った推論を修正する新たなアプローチを提供し、LLM推論の因果理解を深めることを目指す。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

transformer内部のactivationなどから計算グラフを構築しreasoningのsurface（＝観測できるトークン列）ではなく内部状態からCoTをverification（＝CoTのエラーを検知する）するようなアプローチ（white box method)らしい

#EfficiencyImprovement #Pocket #NLP #LanguageModel #DiffusionModel #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-10-14 [Paper Note] dInfer: An Efficient Inference Framework for Diffusion Language Models, Yuxin Ma+, arXiv'25, 2025.10 GPT Summary- dLLMの推論を効率化するフレームワークdInferを提案。dInferは4つのモジュールに分解され、新しいアルゴリズムと最適化を統合。これにより、出力品質を維持しつつ、推論速度を大幅に向上。HumanEvalで1秒あたり1,100トークンを超え、従来のシステムに比べて10倍のスピードアップを実現。dInferはオープンソースで公開。 Comment

code: https://github.com/inclusionAI/dInfer

とうとうdLLMを高速でinferenceできるフレームワークが出た模様。inclusionAIより。

ポイント解説:

Loading…

#Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #Evaluation #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

著者らはモデルの望ましい性質として
- In context steerbility: inference時に与えられた情報に基づいて出力分布を変えられる能力
- Valid output space coverage: タスクにおける妥当な出力を広範にカバーできること
- Distributional Alignment: ターゲットとする出力分布に対してモデルの出力分布が近いこと

の3つを挙げている。そして既存のinstruction tuningや事後学習はこれらを損なうことを指摘している。

ここで、incontext steerbilityとは、事前学習時に得た知識や、分布、能力だけに従うのではなく、context内で新たに指定した情報をモデルに活用させることである。

モデルの上記3つの能力を測るためにSpectrum Suiteを導入する。これには、人間の様々な嗜好、numericな分布の出力、合成データ作成などの、モデル側でsteeringや多様な分布への対応が必要なタスクが含まれるベンチマークのようである。

また上記3つの能力を改善するためにSpectrum Tuningと呼ばれるSFT手法を提案している。
手法はシンプルで、タスクT_iに対する多様なinput X_i タスクのcontext（すなわちdescription) Z_i が与えられた時に、T_i: X_i,Z_i→P(Y_i) を学習したい。ここで、P(Y_i)は潜在的なoutputの分布であり、特定の1つのサンプルyに最適化する、という話ではない点に注意（meta learningの定式化に相当する）。

具体的なアルゴリズムとしては、タスクのコレクションが与えられた時に、タスクiのcontextとdescriptionをtokenizeした結果 z_i と、incontextサンプルのペア x_ij, y_ij が与えられた時に、output tokenのみに対してcross entropyを適用してSFTをする。すなわち、以下のような手順を踏む:

1. incontextサンプルをランダムなオーダーにソートする
2. p_dropの確率でdescription z_i をドロップアウトしx_i0→y_i0の順番でconcatする、
2-1. descriptionがdropしなかった場合はdescription→x_i0→y_i0の順番でconcatし入力を作る。
2-2. descriptionがdropした場合、x_i0→y_i0の順番で入力を作る。
3. 他のサンプルをx_1→y_1→...→x_n→y_nの順番で全てconcatする。
4. y_{1:n}に対してのみクロスエントロピーlossを適用し、他はマスクして学習する。

一見するとinstruct tuningに類似しているが、以下の点で異なっている:
- 1つのpromptに多くのi.i.dな出力が含まれるのでmeta-learningが促進される
- 個別データに最適化されるのではなく、タスクに対する入出力分布が自然に学習される
- chat styleのデータにfittingするのではなく、分布に対してfittingすることにフォーカスしている
- input xやタスクdescription zを省略することができ、ユーザ入力が必ず存在する設定とは異なる

という主張をしている。

#Pocket #NLP #Dataset #LanguageModel #UserBased #Alignment #Evaluation #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#ComputerVision #Pocket #SelfImprovement #read-later #Selected Papers/Blogs #VisionLanguageModel #Label-free Issue Date: 2025-10-13 [Paper Note] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play, Qinsi Wang+, arXiv'25, 2025.09 GPT Summary- Vision-Zeroは、視覚と言語のモデル（VLM）の自己改善を促進するドメイン非依存のフレームワークであり、任意の画像ペアから生成された競争的な視覚ゲームを通じてトレーニングを行う。主な特徴は、戦略的自己対戦による自律的なデータ生成、任意の画像からのゲーム生成による多様なドメインでの推論能力向上、そして反復自己対戦ポリシー最適化（Iterative-SPO）による持続的なパフォーマンス向上である。Vision-Zeroはラベルなしデータを用いて最先端のパフォーマンスを達成し、他の注釈ベースの手法を上回る。 Comment

pj page: https://github.com/wangqinsi1/Vision-Zero

元ポスト:

Loading…

とても良さそう

ポイント解説:

Loading…

#ComputerVision #MachineLearning #Pocket #ICLR #Selected Papers/Blogs #RectifiedFlow Issue Date: 2025-10-10 [Paper Note] Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow, Xingchao Liu+, ICLR'23, 2022.09 GPT Summary- rectified flowという新しいアプローチを提案し、2つの分布間での輸送を学習するODEモデルを用いる。これは、直線的な経路を学習することで計算効率を高め、生成モデルやドメイン転送において統一的な解決策を提供する。rectificationを通じて、非増加の凸輸送コストを持つ新しい結合を生成し、再帰的に適用することで直線的なフローを得る。実証研究では、画像生成や翻訳において優れた性能を示し、高品質な結果を得ることが確認された。 Comment

openreview: https://openreview.net/forum?id=XVjTT1nw5z

日本語解説(fmuuly, zenn):
- Rectified Flow 1: https://zenn.dev/fmuuly/articles/37cc3a2f17138e
- Rectified Flow 2: https://zenn.dev/fmuuly/articles/a062fcd340207f
- Rectified Flow 3: https://zenn.dev/fmuuly/articles/0f262fc003e202

#ComputerVision #Pocket #TextToImageGeneration #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #ImageSynthesis #U-Net Issue Date: 2025-10-10 [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12 GPT Summary- 拡散モデル（DMs）は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment

ここからtext等による条件付けをした上での生成が可能になった（らしい）

#NeuralNetwork #ComputerVision #Pocket #DiffusionModel #Selected Papers/Blogs #Encoder-Decoder #PMLR #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Improved Denoising Diffusion Probabilistic Models, Alex Nichol+, PMLR'21, 2021.02 GPT Summary- DDPMは高品質なサンプル生成が可能な生成モデルであり、簡単な修正により競争力のある対数尤度を達成できることを示す。逆拡散プロセスの分散を学習することで、サンプリング回数を大幅に削減しつつサンプル品質を維持。DDPMとGANのターゲット分布のカバー能力を比較し、モデルの容量とトレーニング計算量に対してスケーラブルであることを明らかにした。コードは公開されている。 Comment

#NeuralNetwork #ComputerVision #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #ImageSynthesis #U-Net Issue Date: 2025-10-10 [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06 GPT Summary- 拡散確率モデルを用いた高品質な画像合成を提案。新しい重み付き変分境界でのトレーニングにより、優れた結果を得る。無条件CIFAR10で9.46のInceptionスコア、256x256のLSUNでProgressiveGANに匹敵する品質を達成。実装はGitHubで公開。 #NeuralNetwork #ComputerVision #Pocket #DiffusionModel #TextToImageGeneration #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Diffusion Models Beat GANs on Image Synthesis, Prafulla Dhariwal+, NeurIPS'21 Spotlight, 2021.05 GPT Summary- 拡散モデルが最先端の生成モデルを上回る画像サンプル品質を達成。無条件画像合成ではアーキテクチャの改善、条件付き画像合成では分類器のガイダンスを用いて品質向上。ImageNetでのFIDスコアは、128×128で2.97、256×256で4.59、512×512で7.72を達成し、BigGAN-deepに匹敵。分類器のガイダンスはアップサンプリング拡散モデルと組み合わせることでさらに改善され、256×256で3.94、512×512で3.85を記録。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=AAWuCvzaVt

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

バックボーンとして使われているU-Netはこちら:
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05

#ComputerVision #Pocket #Transformer #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-10-10 [Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07 GPT Summary- 分類器ガイダンスは条件付き拡散モデルのポストトレーニング手法で、モードカバレッジとサンプル忠実度のトレードオフを図る。著者は、分類器なしで生成モデルによるガイダンスが可能であることを示し、これを分類器フリーガイダンスと呼ぶ。条件付きおよび無条件の拡散モデルを共同でトレーニングし、サンプル品質と多様性のトレードオフを達成する。 Comment

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

#ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Introducing Stable Diffusion 3.5, StabilityAI, 2024.10 Comment

SD3.5

#MachineLearning #Pocket #NLP #LanguageModel #PEFT(Adaptor/LoRA) #ICML #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-10 [Paper Note] DoRA: Weight-Decomposed Low-Rank Adaptation, Shih-Yang Liu+, ICML'24, 2024.02 GPT Summary- LoRAの精度ギャップを解消するために、Weight-Decomposed Low-Rank Adaptation（DoRA）を提案。DoRAは、ファインチューニングの重みを大きさと方向に分解し、方向性の更新にLoRAを使用することで、効率的にパラメータ数を最小化。これにより、LoRAの学習能力と安定性を向上させ、追加の推論コストを回避。さまざまな下流タスクでLoRAを上回る性能を示す。 Comment

日本語解説:
- LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09

- Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10

では、通常のLoRA, QLoRAだけでなく本手法でRLをする実装もサポートされている模様

#EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-10-09 [Paper Note] The Markovian Thinker, Milad Aghajohari+, arXiv'25, 2025.10 GPT Summary- 強化学習を用いて長い思考の連鎖を生成するための新しいパラダイム「マルコフ的思考」を提案。これにより、状態を一定のサイズに制限し、思考の長さをコンテキストのサイズから切り離すことで、線形計算を実現。新しいRL環境「Delethink」を構築し、モデルは短い持ち越しで推論を継続することを学習。訓練されたモデルは、長い推論を効率的に行い、コストを大幅に削減。思考環境の再設計が、効率的でスケーラブルな推論LLMの実現に寄与することを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

#Pocket #NLP #LanguageModel #SmallModel #Selected Papers/Blogs #LatentReasoning #RecursiveModels Issue Date: 2025-10-09 [Paper Note] Less is More: Recursive Reasoning with Tiny Networks, Alexia Jolicoeur-Martineau, arXiv'25, 2025.10 GPT Summary- 階層的推論モデル（HRM）は、2つの小さなニューラルネットワークを用いた新しいアプローチで、数独や迷路などのパズルタスクで大規模言語モデル（LLMs）を上回る性能を示す。しかし、HRMは最適ではない可能性があるため、我々はTiny Recursive Model（TRM）を提案。TRMはよりシンプルで高い一般化能力を持ち、700万パラメータでARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成し、ほとんどのLLMを上回る性能を示した。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

ARC-AGI公式による検証が終わり報告されている結果が信頼できることが確認された模様:

Loading…

続報:

Loading…

Sudoku Benchでも性能改善する模様？

#Pocket #NLP #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-10-09 [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10 GPT Summary- GDPvalは、AIモデルの経済的価値のあるタスクを評価するベンチマークで、米国GDPに寄与する44の職業をカバー。最前線モデルのパフォーマンスは時間と共に改善し、業界専門家に近づいている。人間の監視を加えたモデルは、無援助の専門家よりも効率的にタスクを実行可能であることを示唆。推論努力やタスクコンテキストの増加がモデルの性能向上に寄与。220のタスクのゴールドサブセットをオープンソース化し、研究促進のための自動採点サービスを提供。 Comment

元ポスト:

Loading…

#Embeddings #EfficiencyImprovement #Pocket #NLP #LanguageModel #RepresentationLearning #RAG(RetrievalAugmentedGeneration) #ICLR #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Generative Representational Instruction Tuning, Niklas Muennighoff+, ICLR'25, 2024.02 GPT Summary- 生成的表現指示チューニング（GRIT）を用いて、大規模言語モデルが生成タスクと埋め込みタスクを同時に処理できる手法を提案。GritLM 7BはMTEBで新たな最先端を達成し、GritLM 8x7Bはすべてのオープン生成モデルを上回る性能を示す。GRITは生成データと埋め込みデータの統合による性能損失がなく、RAGを60%以上高速化する利点もある。モデルは公開されている。 Comment

openreview: https://openreview.net/forum?id=BC4lIvfSzv

従来はgemerativeタスクとembeddingタスクは別々にモデリングされていたが、それを統一的な枠組みで実施し、両方のタスクで同等のモデルサイズの他モデルと比較して高い性能を達成した研究。従来のgenerativeタスク用のnext-token-prediction lossとembeddingタスク用のconstastive lossを組み合わせて学習する（式3）。タスクの区別はinstructionにより実施し、embeddingタスクの場合はすべてのトークンのlast hidden stateのmean poolingでrepresentationを取得する。また、embeddingの時はbi-directional attention / generativeタスクの時はcausal maskが適用される。これらのattentionの適用のされ方の違いが、どのように管理されるかはまだしっかり読めていないのでよくわかっていないが、非常に興味深い研究である。

https://github.com/user-attachments/assets/acb2cbcd-364d-43c7-b51a-6c5ea9866415" />

#Embeddings #InformationRetrieval #Pocket #Transformer #SyntheticData #Reasoning #Test-Time Scaling #COLM #read-later #Selected Papers/Blogs #Encoder Issue Date: 2025-10-08 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25, 2025.04 GPT Summary- ReasonIR-8Bは、一般的な推論タスク向けに特別に訓練された初のリトリーバーであり、合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成。これにより、BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易である。コード、データ、モデルはオープンソース化されている。 Comment

元ポスト:

Loading…

Llama3.1-8Bをbidirectional encoderに変換してpost-trainingしている。

#Pocket #NLP #LanguageModel #In-ContextLearning #Safety #Scaling Laws #COLM #read-later #Selected Papers/Blogs Issue Date: 2025-10-08 [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 GPT Summary- インコンテキスト学習（ICL）は、言語モデルに複雑なタスクを実行させる手法であり、提供される例の数と予測精度に強い相関がある。本研究では、ICLがベイズ学習者を近似することを示し、新しいベイズスケーリング法則を提案。GPT-2モデルを用いた実験で、提案法則が精度における既存の法則と一致し、タスクの事前分布や学習効率に関する解釈可能な項を提供。実験では、ICLを用いて抑制されたモデル能力を再現する条件を予測し、LLMの安全性向上に寄与することを示した。 Comment

openreview: https://openreview.net/forum?id=U2ihVSREUb#discussion

元ポスト:

Loading…

#Pocket #NLP #UserModeling #Dataset #LanguageModel #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

実際の人間にあるような癖（のような摂動）を与えた時にどれだけロバストかというのは実応用上非常に重要な観点だと思われる。元ポストを見ると、LLM内部のmatmulを直接操作することで、任意のレベルの人間の特性（e.g.,疑い深い、混乱、焦りなど）を模倣する模様。

#Pocket #ReinforcementLearning #read-later #Selected Papers/Blogs Issue Date: 2025-10-07 [Paper Note] BroRL: Scaling Reinforcement Learning via Broadened Exploration, Jian Hu+, arXiv'25, 2025.10 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）の新たなアプローチとしてBroR-Lを提案。ロールアウトの数を増やすことで探索を広げ、ProRLの飽和点を超えたパフォーマンス向上を実現。理論的分析に基づき、ロールアウト数の増加が正しいトークンの質量拡大を保証することを示す。BroRLは3KのProRLトレーニングステップでの飽和モデルを復活させ、最先端の結果を達成。 Comment

元ポスト:

Loading…

前回はstep数をこれまでにない規模でスケーリングされRLしたがそれで性能が頭打ちを迎えることがわかったので、今度はロールアウト数をスケーリングさせた時にどうなるかというのを試したっぽい？

#Tutorial #Analysis #NLP #LanguageModel #Slide #Selected Papers/Blogs #reading Issue Date: 2025-10-07 言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…

#EfficiencyImprovement #NLP #LanguageModel #ReinforcementLearning #AIAgents #Repository #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-05 PipelineRL, Piche+, ServiceNow, 2025.04 Comment

code: https://github.com/ServiceNow/PipelineRL

元ポスト:

Loading…

Inflight Weight Updates

（この辺の細かい実装の話はあまり詳しくないので誤りがある可能性が結構あります）
通常のon-policy RLでは全てのGPU上でのsequenceのロールアウトが終わるまで待ち、全てのロールアウト完了後にモデルの重みを更新するため、長いsequenceのデコードをするGPUの処理が終わるまで、短いsequenceの生成で済んだGPUは待機しなければならない。一方、PipelineRLはsequenceのデコードの途中でも重みを更新し、生成途中のsequenceは古いKV Cacheを保持したまま新しい重みでsequenceのデコードを継続する。これによりGPU Utilizationを最大化できる（ロールアウト完了のための待機時間が無くなる）。また、一見古いKV Cacheを前提に新たな重みで継続して部分sequenceを継続するとポリシーのgapにより性能が悪化するように思えるが、性能が悪化しないことが実験的に示されている模様。

Conventional RLの疑似コード部分を見るととてもわかりやすくて参考になる。Conventional RL（PPOとか）では、実装上は複数のバッチに分けて重みの更新が行われる（らしい）。このとき、GPUの利用を最大化しようとするとバッチサイズを大きくせざるを得ない。このため、逐次更新をしたときのpolicyのgapがどんどん蓄積していき大きくなる（=ロールアウトで生成したデータが、実際に重み更新するときにはlagが蓄積されていきどんどんoff-policyデータに変化していってしまう）という弊害がある模様。かといってlagを最小にするために小さいバッチサイズにするとgpuの効率を圧倒的に犠牲にするのでできない。Inflight Weight Updatesではこのようなトレードオフを解決できる模様。

また、trainerとinference部分は完全に独立させられ、かつplug-and-playで重みを更新する、といった使い方も想定できる模様。

あとこれは余談だが、引用ポストの主は下記研究でattentionメカニズムを最初に提案したBahdanau氏である。
- Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR'15

続報:

Loading…

論文:
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

続報:

Loading…

#Tutorial #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

AnthropicによるContextEngineeringに関するブログ。
ざーっとみた感じ基礎的な定義からなぜ重要なのか、retrievalの活用、longnhorizon taskでの活用、compaction(summarization)など、幅広いトピックが網羅されているように見える。

所見:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #LatentReasoning Issue Date: 2025-10-03 [Paper Note] Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space, Houjun Liu+, arXiv'25, 2025.09 GPT Summary- 本研究では、トランスフォーマーの新しい変種「Thoughtbubbles」を提案し、並列適応計算を潜在空間で実行する方法を示す。残差ストリームをフォークまたは削除することで、計算を効率化し、事前トレーニング中に学習可能。Thoughtbubblesは、従来の手法を上回る性能を示し、推論時のトレーニングとテストの挙動を統一する可能性を持つ。 Comment

元ポスト:

Loading…

重要論文に見える

#Analysis #Pretraining #Pocket #NLP #LanguageModel #SyntheticData #Selected Papers/Blogs #DataMixture #One-Line Notes #PhaseTransition Issue Date: 2025-10-03 [Paper Note] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls, Feiyang Kang+, arXiv'25, 2025.10 GPT Summary- 合成データ技術はLLMのトレーニングデータの供給制限を克服する可能性を持つ。本研究では、自然なウェブデータと合成データの混合を比較し、言い換えた合成データのみでの事前トレーニングは自然なデータよりも速くないことを示した。1/3の言い換えた合成データと2/3の自然データの混合が、より効率的なトレーニングを可能にすることが分かった。教科書スタイルの合成データは小さなデータ予算で高い損失をもたらし、合成データの最適な比率はモデルサイズとデータ予算に依存する。結果は合成データの効果を明らかにし、実用的なガイダンスを提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

合成データは適切な規模のモデルと比率でないと利点が現れない

#Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-03 [Paper Note] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning, Ruiyi Wang+, arXiv'25, 2025.10 GPT Summary- マルチターン強化学習におけるLLMエージェントの訓練方法を研究し、設計空間を環境、報酬、ポリシーの3つの柱に分解。環境の複雑さがエージェントの一般化能力に与える影響、報酬の希薄性が訓練に与える効果、ポリシー勾配法の相互作用を分析。これらの知見を基に、訓練レシピを提案し、マルチターンエージェント強化学習の研究と実践を支援。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

takeawayが非常に簡潔で分かりやすい。

ベンチマーク:
- [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06
- [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10
- Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #reading #KeyPoint Notes Issue Date: 2025-10-02 [Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25

著者ポスト:

Loading…

ポストの中でOpenhandsが同モデルを内部で検証し、Openhandsの環境内でSWE Bench Verifiedで評価した結果、レポート内で報告されているAcc. 60.4%は達成できず、17%に留まることが報告されていた模様。

Openhandsの説明によるとAgentlessは決められた固定されたワークフローのみを実施する枠組み（Kimi Devの場合はBugFixerとFileEditor)であり、ワークフローで定義されたタスクは効果的に実施できるが、それら以外のタスクはそもそもうまくできない。SWE Agent系のベンチのバグfixの方法は大きく分けてAgentlike（コードベースを探索した上でアクションを実行する形式）、Fixed workflow like Agentless(固定されたワークフローのみを実行する形式）の2種類があり、Openhandsは前者、Kimi Devは後者の位置付けである。

実際、テクニカルレポートのFigure2とAppendixを見ると、File Localization+BugFixer+TestWriterを固定されたプロンプトテンプレートを用いてmid-trainingしており、評価する際も同様のハーネスが利用されていると推察される（どこかに明示的な記述があるかもしれない）。
一方、Openhandsではより実環境の開発フローに近いハーネス（e.g., エージェントがコードベースを確認してアクションを提案→実行可能なアクションなら実行→そうでないならユーザからのsimulated responceを受け取る→Agentに結果をフィードバック→エージェントがアクション提案...）といったハーネスとなっている。

このように評価をする際のハーネスが異なるため、同じベンチマークに対して異なる性能が報告される、ということだと思われる。

単にSWE Bench VerifiedのAcc.だけを見てモデルを選ぶのではなく、評価された際のEvaluation Harnessが自分たちのユースケースに合っているかを確認することが重要だと考えられる。

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

#NLP #Dataset #LanguageModel #Blog #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09 Comment

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Blog #PEFT(Adaptor/LoRA) #read-later #Selected Papers/Blogs Issue Date: 2025-09-30 LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09 Comment

元ポスト:

Loading…

これはおそらく必読...

解説:

Loading…

解説:

Loading…

所見:

Loading…

#LanguageModel #Evaluation #Blog #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09 Comment

元ポスト:

Loading…

AIの指数関数的な成長は続いているぞという話。

以下は管理人の感想だが、個々のベンチマークで見たらサチってきている（昔より伸び代が小さい）ように感じるが、人間が実施する複雑なタスクに対する上記ベンチマークなどを見るとスケーリングは続いている（むしろ加速している感がある）。シンプルなタスクのベンチマークの伸びは小さくとも、それらシンプルなタスクの積み重ねによって複雑なタスクは実施されるので、（現存するベンチマークが測定できている能力はLLMの部分的な能力だけなことも鑑みると）、複雑なタスクで評価した時の伸びは実は大きかったりする（スケーリングは続いている）のではないか、という感想。

#NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

米国のGDPを牽引する9つの代表的な産業において、44の職種を選定し、合計1320件の実務タスクを設計したベンチマーク。ベンチマークは平均14年程度の経験を持つ専門家が実際の業務内容をもとに作成し、（うち、約220件はオープンソース化）、モデルと専門家のsolutionにタスクを実施させた。その上で、第三者である専門家が勝敗（win, lose, tie)を付与することでモデルがどれだけ実務タスクにおいて人間の専門家に匹敵するかを測定するベンチマークである。

評価の結果、たとえばClaude Opus 4.1の出力は47.6%程度、GPT-5 (high) は38.8%程度の割合で専門家と勝ち + 引き分け、という性能になっており、人間の専門家にかなり近いレベルにまで近づいてきていることが分かる。特にClaude Opus 4.1はデザインの品質も問われるタスク（ドキュメントの書式設定、スライドレイアウトなど）で特に優れているとのこと。

https://github.com/user-attachments/assets/653d724f-34ef-46df-9458-bbfde33857b3" />

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#RecommenderSystems #Pocket #LanguageModel #read-later #Selected Papers/Blogs #interactive #One-Line Notes Issue Date: 2025-09-29 [Paper Note] Interactive Recommendation Agent with Active User Commands, Jiakai Tang+, arXiv'25, 2025.09 GPT Summary- 従来のレコメンダーシステムは受動的なフィードバックに依存し、ユーザーの意図を捉えられないため、嗜好モデルの構築が困難である。これに対処するため、インタラクティブレコメンデーションフィード（IRF）を導入し、自然言語コマンドによる能動的な制御を可能にする。RecBotという二重エージェントアーキテクチャを開発し、ユーザーの嗜好を構造化し、ポリシー調整を行う。シミュレーション強化知識蒸留を用いて効率的なパフォーマンスを実現し、実験によりユーザー満足度とビジネス成果の改善を示した。 Comment

元ポスト:

Loading…

ABテストを実施しているようなので信ぴょう性高め

#Embeddings #InformationRetrieval #Pocket #NLP #QuestionAnswering #ContrastiveLearning #EMNLP #Selected Papers/Blogs #Encoder #KeyPoint Notes Issue Date: 2025-09-28 [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04 GPT Summary- 密な表現を用いたパッセージ検索の実装を示し、デュアルエンコーダーフレームワークで学習。評価の結果、Lucene-BM25を上回り、検索精度で9%-19%の改善を達成。新たな最先端のQA成果を確立。 Comment

Dense Retrieverが広く知られるきっかけとなった研究（より古くはDSSM Learning Deep Structured Semantic Models for Web Search using Clickthrough Data, Huang+, CIKM'13 などがある)。bag-of-wordsのようなsparseなベクトルで検索するのではなく（=Sparse Retriever)、ニューラルモデルでエンコードした密なベクトルを用いて検索しようという考え方である。

Query用と検索対象のPassageをエンコードするEncoderを独立してそれぞれ用意し（＝DualEncoder)、QAの学習データ（すなわちクエリqと正例として正解passage p+)が与えられた時、クエリqと正例p+の類似度が高く、負例p-との類似度が低くなるように（=Contrastive Learning)、Query, Passage Encoderのパラメータを更新することで学習する（損失関数は式(2))。

負例はIn-Batch Negativeを用いる。情報検索の場合正解ラベルは多くの場合明示的に決まるが、負例は膨大なテキストのプールからサンプリングしなければならない。サンプリング方法はいろいろな方法があり（e.g., ランダムにサンプリング、qとbm25スコアが高いpassage（ただし正解は含まない; hard negativesと呼ぶ）その中の一つの方法がIn-Batch Negativesである。

In-Batch Negativesでは、同ミニバッチ内のq_iに対応する正例p+_i以外の全てのp_jを（擬似的に）負例とみなす。これにより、パラメータの更新に利用するためのq,pのエンコードを全て一度だけ実行すれば良く、計算効率が大幅に向上するという優れもの。本研究の実験（Table3)によると上述したIn-Batch Negativeに加えて、bm25によるhard negativeをバッチ内の各qに対して1つ負例として追加する方法が最も性能が良かった。

クエリ、passageのエンコーダとしては、BERTが用いられ、[CLS]トークンに対応するembeddingを用いて類似度が計算される。

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Alignment #ReinforcementLearning #ACL #read-later #Selected Papers/Blogs Issue Date: 2025-09-27 [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02 GPT Summary- RLHFにおける整合性の重要性を考慮し、PPOの高コストとハイパーパラメータ調整の問題を指摘。シンプルなREINFORCEスタイルの最適化手法がPPOや新提案の手法を上回ることを示し、LLMの整合性特性に適応することで低コストのオンラインRL最適化が可能であることを提案。 #Pocket #NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #Selected Papers/Blogs #Aggregation-aware #KeyPoint Notes Issue Date: 2025-09-27 RECURSIVE SELF-AGGREGATION UNLOCKS DEEP THINKING IN LARGE LANGUAGE MODELS, Venkatraman+, preprint, 2025.09 Comment

N個の応答を生成し、各応答K個組み合わせてpromptingで集約し新たな応答を生成することで洗練させる、といったことをT回繰り返すtest-time scaling手法で、RLによってモデルの集約能力を強化するとより良いスケーリングを発揮する。RLでは通常の目的関数（prompt x, answer y; xから単一のreasoning traceを生成しyを回答する設定）に加えて、aggregation promptを用いた目的関数(aggregation promptを用いて K個のsolution集合 S_0を生成し、目的関数をaggregation prompt x, S_0の双方で条件づけたもの)を定義し、同時に最適化をしている（同時に最適化することは5.4節に記述されている）。つまり、これまでのRLはxがgivenな時に頑張って単一の良い感じのreasoning traceを生成しyを生成するように学習していたが（すなわち、モデルが複数のsolutionを集約することは明示的に学習されていない）、それに加えてモデルのaggregationの能力も同時に強化する、という気持ちになっている。学習のアルゴリズムはPPO, GRPOなど様々なon-poloicyな手法を用いることができる。今回はRLOOと呼ばれる手法を用いている。

https://github.com/user-attachments/assets/e83406ae-91a0-414b-a49c-892a4d1f23fd" />

様々なsequential scaling, parallel scaling手法と比較して、RSAがより大きなgainを得ていることが分かる。ただし、Knowledge RecallというタスクにおいてはSelf-Consistency (Majority Voting)よりもgainが小さい。
https://github.com/user-attachments/assets/8251f25b-472d-48d4-b7df-a6946cfbbcd9" />

以下がaggregation-awareなRLを実施した場合と、通常のRL, promptingのみによる場合の性能の表している。全体を通じてaggregation-awareなRLを実施することでより高い性能を発揮しているように見える。ただし、AIMEに関してだけは通常のpromptingによるRSAの性能が良い。なぜだろうか？考察まで深く読めていないので論文中に考察があるかもしれない。
https://github.com/user-attachments/assets/146ab6a3-58c2-4a7f-aa84-978a5180c8f3" />

RLOO:
- [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02

元ポスト:

Loading…

concurrent work:
- [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25

#Analysis #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

訓練時のエンジン(fsdp等)とロールアウト時のエンジン(vLLM等)が、OOVなトークンに対して（特にtooluseした場合に生じやすい）著しく異なる尤度を割り当てるため学習が崩壊し、それは利用するGPUによっても安定性が変化し（A100よりもL20, L20よりもH20)、tokenレベルのImporttance Weightingでは難しく、Sequenceレベルのサンプリングが必要、みたいな話な模様。

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

そもそもFlashAttnention-2 kernelにバグがあり、A100/L20で特定のカーネルが呼ばれるとミスマッチが起きるのだとか。vLLM Flashattentionリポジトリのissue 87によって解決済み。~~具体的にどのカーネル実装なのだろうか。~~　（vLLM Flashattentionリポジトリだった模様）
https://github.com/vllm-project/flash-attention

disable_cascade_attnの設定値を何回も変えたけどうまくいかないよという話がある:

Loading…

#Pocket #NLP #AIAgents #ScientificDiscovery #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm Issue Date: 2025-09-25 [Paper Note] ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution, Robert Tjarko Lange+, arXiv'25, 2025.09 GPT Summary- ShinkaEvolveは、科学的発見を促進するための新しいオープンソースフレームワークであり、LLMsを利用して高い効率性とパフォーマンスを実現します。従来のコード進化手法の制限を克服し、親サンプリング技術や新規性拒否サンプリング、バンディットベースのアンサンブル選択戦略を導入。多様なタスクでの評価により、サンプル効率と解の質が向上し、150サンプルで新たな最先端ソリューションを発見しました。ShinkaEvolveは、オープンソースでのアクセス性を提供し、計算問題における発見を民主化します。 Comment

pj page: https://sakana.ai/shinka-evolve/

元ポスト:

Loading…

国際的なプログラミングコンテストでShinkaEvolveのサポートの元、チームが優勝した模様:
-

Loading…

#ComputerVision #Pocket #FoundationModel #read-later #Selected Papers/Blogs Issue Date: 2025-09-25 [Paper Note] Video models are zero-shot learners and reasoners, Thaddäus Wiedemer+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）のゼロショット能力が自然言語処理を変革したように、生成ビデオモデルも一般目的の視覚理解に向かう可能性がある。Veo 3は、物体のセグメンテーションやエッジ検出など、訓練されていない幅広いタスクを解決できることを示し、視覚推論の初期形態を可能にする。Veoのゼロショット能力は、ビデオモデルが一般的な視覚基盤モデルになる道を示唆している。 Comment

pj page: https://video-zero-shot.github.io

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

#Pocket #NLP #LanguageModel #Attention #Architecture #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-09-24 [Paper Note] UMoE: Unifying Attention and FFN with Shared Experts, Yuanhang Yang+, arXiv'25, 2025.05 GPT Summary- Sparse Mixture of Experts (MoE) アーキテクチャは、Transformer モデルのスケーリングにおいて有望な手法であり、注意層への拡張が探求されていますが、既存の注意ベースの MoE 層は最適ではありません。本論文では、注意層と FFN 層の MoE 設計を統一し、注意メカニズムの再定式化を行い、FFN 構造を明らかにします。提案するUMoEアーキテクチャは、注意ベースの MoE 層で優れた性能を達成し、効率的なパラメータ共有を実現します。 Comment

元ポスト:

Loading…

Mixture of Attention Heads (MoA)はこちら:
- [Paper Note] Mixture of Attention Heads: Selecting Attention Heads Per Token, Xiaofeng Zhang+, EMNLP'22, 2022.10

この図がわかりやすい。後ほど説明を追記する。ざっくり言うと、MoAを前提としたときに、最後の出力の変換部分VW_oをFFNによる変換（つまりFFN Expertsの一つ）とみなして、self-attentionのトークンを混ぜ合わせるという趣旨を失わない範囲で計算順序を調整（トークンをミックスする部分を先に持ってくる）すると、FFNのMoEとMoAは同じ枠組みで扱えるため、expertsを共有できてメモリを削減でき、かつMoAによって必要な箇所のみにattendする能力が高まり性能も上がります、みたいな話に見える。

#Pocket #NLP #LanguageModel #Reasoning #Decoding #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-09-24 [Paper Note] Scaling Speculative Decoding with Lookahead Reasoning, Yichao Fu+, arXiv'25, 2025.06 GPT Summary- Lookahead Reasoningを用いることで、推論モデルのトークンデコード速度を向上させる手法を提案。軽量なドラフトモデルが将来のステップを提案し、ターゲットモデルが一度のバッチ処理で展開。これにより、トークンレベルの推測デコーディング（SD）のスピードアップを1.4倍から2.1倍に改善し、回答の質を維持。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-09-24 [Paper Note] Heimdall: test-time scaling on the generative verification, Wenlei Shi+, arXiv'25, 2025.04 GPT Summary- Heimdallは、長いChain-of-Thought推論における検証能力を向上させるためのLLMであり、数学問題の解決精度を62.5%から94.5%に引き上げ、さらに97.5%に達する。悲観的検証を導入することで、解決策の精度を54.2%から70.0%、強力なモデルを使用することで93.0%に向上させる。自動知識発見システムのプロトタイプも作成し、データの欠陥を特定する能力を示した。 #Pocket #NLP #LanguageModel #Hallucination #EMNLP #Selected Papers/Blogs Issue Date: 2025-09-24 [Paper Note] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models, Potsawee Manakul+, EMNLP'23, 2023.03 GPT Summary- SelfCheckGPTは、外部データベースなしでLLMの応答をファクトチェックするためのサンプリングベースのアプローチを提案。サンプリングされた応答が一貫した事実を含む場合、知識があると判断し、幻覚された事実では矛盾が生じる可能性が高い。実験により、非事実的および事実的な文の検出、文章のランク付けが可能であることを示し、高いAUC-PRスコアと相関スコアを達成。 Comment

openreview: https://openreview.net/forum?id=RwzFNbJ3Ez

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

現状、全体的にはGPT-5(high)の性能が最も良く、続いてClaude-4 Sonnetという感じに見える。OpenWeightなモデルでは、Kimi-K2の性能が高く、続いてQwen3-235Bという感じに見える。また、Figure1はbudgetごとのモデルの性能も示されている。シナリオ単位のbudgetが$1以上の場合はGPT-5(high)の性能が最も良いが、$0.1--$0.4の間ではKiml-K2の性能が最も良いように見える。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#NeuralNetwork #ComputerVision #Pocket #Selected Papers/Blogs #Encoder-Decoder #Backbone #U-Net Issue Date: 2025-09-22 [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05 GPT Summary- データ拡張を活用した新しいネットワークアーキテクチャを提案し、少ない注釈付きサンプルからエンドツーエンドでトレーニング可能であることを示す。電子顕微鏡スタックの神経構造セグメンテーションで従来手法を上回り、透過光顕微鏡画像でも優れた結果を達成。512x512画像のセグメンテーションは1秒未満で完了。実装とトレーニング済みネットワークは公開されている。 #ComputerVision #Pocket #NLP #LanguageModel #MultiModal #ICLR #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-22 [Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08 GPT Summary- Transfusionは、離散データと連続データに対してマルチモーダルモデルを訓練する手法で、言語モデリングの損失関数と拡散を組み合わせて単一のトランスフォーマーを訓練します。最大7Bパラメータのモデルを事前訓練し、ユニモーダルおよびクロスモーダルベンチマークで優れたスケーリングを示しました。モダリティ特有のエンコーディング層を導入することで性能を向上させ、7Bパラメータのモデルで画像とテキストを生成できることを実証しました。 Comment

openreview: https://openreview.net/forum?id=SI2hI0frk6

#NLP #LanguageModel #Reasoning #OpenWeight #read-later #Selected Papers/Blogs #ModelMerge Issue Date: 2025-09-22 LongCat-Flash-Thinking, meituan-longcat, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Safety #Selected Papers/Blogs #PseudoLabeling Issue Date: 2025-09-20 [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 本研究では、「憲法的AI」を用いて、人間のラベルなしで無害なAIを訓練する方法を提案。監視学習と強化学習の2フェーズを経て、自己批評と修正を通じてモデルを微調整し、嗜好モデルを報酬信号として強化学習を行う。これにより、有害なクエリに対しても対話できる無害なAIアシスタントを実現し、AIの意思決定の透明性を向上させる。 Comment

（部分的にしか読めていないが）
有害なpromptに対してLLMに初期の応答を生成させ、iterativeにcritiqueとrevisionを繰り返して[^1]、より無害な応答を生成。この方法ではiterationをしながら生成結果が改定されていくので、後段のReward Modelのための嗜好データを生成するフェーズでトークン量を節約するために、生成されたより無害な応答と元となるpromptを用いて、ベースモデルをSFT。これによりベースモデルの出力分布がより無害な応答をするような方向性に調整され、かつ（iterationを繰り返すことなく）直接的により無害な応答を生成できるようになるのでtoken量が節約できる。このフェーズで学習したモデルをSL-CAIと呼ぶ。

続いて、SL-CAIに対して同様の有害なpromptを入力して、複数の応答を生成させる。生成された応答をMultiple Choice Questionの形式にし、Constitutional Principleに基づくpromptingにより、最も望ましい応答をLLMによって選択させることで、嗜好データを獲得する。この嗜好データ（と人手で定義されたhelpfulnessに基づくデータ）を用いてReward Modelを訓練しRLを実施する。

この手法は、嗜好データを人間がラベリングするのではなく、AIによるフィードバックによりラベリングするため、Reinforcement Learning from AI Feedback (RLAIF)と呼ばれる。

Harmfulness以外の分野にも応用可能と考えられる。

[^1]: この操作はモデルの望ましい挙動を人手で定義したルーブリックに基づいた複数のprompt (Constitutional Principles) を用いて実施される。具体的なpromptはAppendix Cを参照。

先行研究:
- [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22

#Analysis #MachineLearning #Pocket #NLP #LanguageModel #Evaluation #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#ComputerVision #Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #NeurIPS #PostTraining #Selected Papers/Blogs #VideoGeneration/Understandings #One-Line Notes Issue Date: 2025-09-19 [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25 GPT Summary- Self Forcingは、自動回帰型ビデオ拡散モデルの新しいトレーニング手法で、エクスポージャーバイアスの問題に対処します。従来の手法が真のコンテキストに基づくのに対し、Self Forcingは自己生成した出力に基づいてフレームを生成し、全体の品質を評価するホリスティックな損失を用います。計算コストとパフォーマンスのバランスを取るために、少数ステップの拡散モデルと確率的勾配切断を採用し、ロールイングKVキャッシュメカニズムを導入。実験により、リアルタイムのストリーミングビデオ生成が可能で、非因果的拡散モデルの生成品質に匹敵またはそれを上回ることが示されました。 Comment

pj page: https://self-forcing.github.io

元ポスト:

Loading…

自己回帰的な動画生成（をする）モデルにおいて、学習時はground-truchのcontextが利用して学習されるが、推論時は自身が生成結果そのものをcontextとして利用するため、学習-推論時にgapが生じ、（徐々に誤差が蓄積することで）品質が劣化するという問題（exposure bias）に対処するために、学習時から自身が生成した出力をcontextとして与えて生成を行い（ロールアウト）、動画全体に対して分布の整合性を測るlossを導入（=フレーム単位の誤差を最小化にするのではなく、動画全体に対して（分布の）誤差を最適化する）することで、exposure biasを軽減する、という話な模様。

結果的に、単一のRTX4090でリアルタイムのストリーミングビデオ生成が高品質に生成可能となった（かもしれない）:
https://note.com/ngc_shj/n/n505b2f7cdfe4

#NeuralNetwork #NLP #LanguageModel #Selected Papers/Blogs #Interspeech Issue Date: 2025-09-19 Recurrent neural network based language model, Mikolov+, Interspeech'10 Comment

RNN言語モデル論文

#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #NeurIPS #Selected Papers/Blogs #Encoder-Decoder Issue Date: 2025-09-19 [Paper Note] Sequence to Sequence Learning with Neural Networks, Ilya Sutskever+, NIPS'14 GPT Summary- DNNはシーケンス学習において優れた性能を示すが、シーケンス間のマッピングには限界がある。本研究では、LSTMを用いたエンドツーエンドのシーケンス学習アプローチを提案し、英語からフランス語への翻訳タスクで34.8のBLEUスコアを達成。LSTMは長文にも対応し、SMTシステムの出力を再ランク付けすることでBLEUスコアを36.5に向上させた。また、単語の順序を逆にすることで性能が向上し、短期的依存関係の最適化が容易になった。 Comment

いまさらながらSeq2Seqを提案した研究を追加

#Analysis #Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] Emergent Abilities of Large Language Models, Jason Wei+, TMLR'22 GPT Summary- 大規模言語モデルのスケーリングアップは性能を向上させるが、「出現能力」と呼ばれる予測不可能な現象が存在する。これは小型モデルにはない能力であり、さらなるスケーリングがモデルの能力を拡大する可能性を示唆している。 Comment

openreview: https://openreview.net/forum?id=yzkSU5zdwD

創発能力（最近この用語を目にする機会が減ったような気がする）

#Analysis #Pocket #NLP #LanguageModel #AIAgents #Reasoning #LongSequence #Scaling Laws #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-09-14 [Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25 GPT Summary- LLMsのスケーリングが収益に影響を与えるかを探求。単一ステップの精度向上がタスクの長さに指数的改善をもたらすことを観察。LLMsが長期タスクで失敗するのは推論能力の欠如ではなく実行ミスによると主張。知識と計画を明示的に提供することで実行能力を向上させる提案。モデルサイズをスケーリングしても自己条件付け効果は減少せず、長いタスクでのミスが増加。思考モデルは自己条件付けを行わずに長いタスクを実行可能。最終的に、実行能力に焦点を当てることで、LLMsの複雑な推論問題解決能力と単純タスクの長期化による失敗理由を調和させる。 Comment

元ポスト:

Loading…

single stepでのタスク性能はサチって見えても、成功可能なタスクの長さは（single stepの実行エラーに引きづられるため）モデルのsingle stepのタスク性能に対して指数関数的に効いている（左上）。タスクが長くなればなるほどモデルは自身のエラーに引きずられ（self conditioning;右上)、これはパラメータサイズが大きいほど度合いが大きくなる（右下; 32Bの場合contextにエラーがあって場合のloeg horizonのAcc.が14Bよりも下がっている）。一方で、実行可能なstep数の観点で見ると、モデルサイズが大きい場合の方が多くのstepを要するタスクを実行できる（左下）。また、ThinkingモデルはSelf Conditioningの影響を受けにくく、single stepで実行可能なタスクの長さがより長くなる（中央下）。

といった話に見えるが、論文をしっかり読んだ方が良さそう。

（元ポストも著者ポストだが）著者ポスト:

Loading…

このスレッドは読んだ方が良い（というか論文を読んだ方が良い）。
特に、**CoTが無い場合は**single-turnでほとんどのモデルは5 stepのタスクをlatent spaceで思考し、実行することができないというのは興味深い（が、細かい設定は確認した方が良い）。なので、マルチステップのタスクは基本的にはplanningをさせてから出力をさせた方が良いという話や、

では複雑なstepが必要なタスクはsingle turnではなくmulti turnに分けた方が良いのか？と言うと、モデルによって傾向が違うらしい、といった話が書かれている。たとえば、Qwenはsingle turnを好むが、Gemmaはmulti turnを好むらしい。

日本語ポイント解説:

Loading…

解説:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #SmallModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-13 [Paper Note] MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes, Changsheng Zhao+, arXiv'25, 2025.09 GPT Summary- 本研究では、推論能力の出現に必要なデータ量について再検討し、約2Tトークンの高品質データで強力な推論モデルが構築できることを示した。MobileLLM-R1というサブビリオンパラメータのモデルは、従来のモデルを大幅に上回る性能を発揮し、特にAIMEスコアで優れた結果を示した。さらに、Qwen3の36Tトークンコーパスに対しても、わずか11.7%のトークンでトレーニングされたMobileLLM-R1-950Mは、複数の推論ベンチマークで競争力を持つ。研究の詳細な情報は公開されている。 Comment

元ポスト:

Loading…

モデルカードを見ると、optimizerやスケジューリング、ハイパーパラメータの設定、pre/mid/post trainingにおける学習データとDavaMixについて簡潔に記述されており、レシピが公開されているように見える。素晴らしい。

#NLP #Dataset #LanguageModel #Evaluation #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

現在の数学のベンチマークは個々の問題に対する回答のAccuracyを測るものばかりだが、ある問題を解く際にはさまざまなスキルを活用する必要があり、評価対象のLLMがどのようなスキルに強く、弱いのかといった解像度が低いままなので、そういったスキルの習熟度合いを測れるベンチマークを作成しました、という話に見える。

Knowledge Tracingタスクなどでは問題ごとにスキルタグを付与して、スキルモデルを構築して習熟度を測るので、問題の正誤だけでなくて、スキルベースでの習熟度を見ることで能力を測るのは自然な流れに思える。そしてそれは数学が最も実施しやすい。

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

LiveCodeBenchは非常にpopularなコーディング関連のベンチマークだが、readmeに記載されているコマンド通りにベンチマークを実行すると、stop tokenに"###"が指定されているため、マークダウンを出力したLLMの出力が常にtruncateされるというバグがあった模様。

Loading…

#ComputerVision #Pocket #NLP #Dataset #Evaluation #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#ComputerVision #Pocket #NLP #Dataset #Evaluation #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#NLP #LanguageModel #python #Blog #read-later #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-09-11 Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

vLLMにおいてinferenceをdeterministicにする方法が、vLLMのissue number 24583に記載されているので参照のこと。

transformersでの実装例:

Loading…

#Pocket #NLP #LanguageModel #Transformer #Attention #NeurIPS #AttentionSinks #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper GPT Summary- ゲーティングメカニズムの効果を調査するため、強化されたソフトマックスアテンションのバリアントを実験。15B Mixture-of-Expertsモデルと1.7B密なモデルを比較し、シグモイドゲートの適用が性能向上に寄与することを発見。これにより訓練の安定性が向上し、スケーリング特性も改善。スパースゲーティングメカニズムが「アテンションシンク」を軽減し、長いコンテキストの外挿性能を向上させることを示した。関連コードとモデルも公開。 Comment

元ポスト:

Loading…

所見:

Loading…

NeurIPS'25 Best Paper:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09 Comment

HF: https://huggingface.co/LLM360/K2-Think
code:
- https://github.com/MBZUAI-IFM/K2-Think-SFT
- https://github.com/MBZUAI-IFM/K2-Think-Inference

RLはverl+GRPOで実施したとテクニカルペーパーに記述されているが、当該部分のコードの公開はされるのだろうか？
RLで利用されたデータはこちら:
- [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25

元ポスト:

Loading…

#NLP #Dataset #LanguageModel #Evaluation #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

日本の文化、風習、風土、地理、日本史、行政、法律、医療に関する既存のベンチマークによりも難易度が高いQAを人手によってスクラッチから作成した評価データ。人手で作成されたQAに対して、8種類の弱いLLM（パラメータ数の小さい日本語LLMを含む）の半数以上が正しく回答できたものを除外、その後さらに人手で確認といったフィルタリングプロセスを踏んでいる。記事中は事例が非常に豊富で興味深い。

後編では実際の評価結果が記載されており、フルスクラッチの日本語LLMが高い性能を獲得しており、Llama-Swallowなどの継続事前学習をベースとしたモデルも高いスコアを獲得している。評価時は4-shotでドメインごとにExamplarは固定し、greedy decodingで評価したとのこと。

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

- Non-Determinism of "Deterministic" LLM Settings, Berk Atil+, arXiv'24

のような話もあるので、greedy decodingだけでなくnucleus/temperature samplingを複数trial実施した場合の性能の平均で何か変化があるだろうか、という点が気になったが、下記研究でMMLUのような出力空間が制約されているような設定の場合はほとんど影響がないことが実験的に示されている模様:
- [Paper Note] The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism, Yifan Song+, NAACL'25

これはnucleus/temperature samplingが提案された背景（＝出力の自然さを保ったまま多様性を増やしたい）とも一致する。

#EfficiencyImprovement #Pocket #NLP #LanguageModel #LongSequence #Architecture #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-09-08 [Paper Note] SpikingBrain Technical Report: Spiking Brain-inspired Large Models, Yuqi Pan+, arXiv'25 GPT Summary- SpikingBrainは、長いコンテキストの効率的なトレーニングと推論のために設計された脳にインスパイアされたモデルで、MetaX GPUクラスターを活用。線形およびハイブリッド線形アーキテクチャを採用し、非NVIDIAプラットフォーム上での大規模LLM開発を実現。SpikingBrain-7BとSpikingBrain-76Bを開発し、約150BトークンでオープンソースのTransformerと同等の性能を達成。トレーニング効率を大幅に改善し、低消費電力での運用を可能にすることを示した。 Comment

元ポスト:

Loading…

TTFTが4Mコンテキストの時にQwen2.5と比べて100倍高速化…？

中国のMetaX社のGPUが利用されている。

https://www.metax-tech.com/en/goods/prod.html?cid=3

#Pretraining #NLP #Dataset #LanguageModel #Repository #Selected Papers/Blogs Issue Date: 2025-09-07 FinePDFs, HuggingFaceFW, 2025.09 Comment

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

#EfficiencyImprovement #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #Decoding #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-09-07 [Paper Note] REFRAG: Rethinking RAG based Decoding, Xiaoqiang Lin+, arXiv'25 GPT Summary- REFRAGは、RAGアプリケーションにおける遅延を改善するための効率的なデコーディングフレームワークであり、スパース構造を利用して初回トークンまでの時間を30.85倍加速します。これにより、LLMsのコンテキストサイズを16まで拡張可能にし、さまざまな長コンテキストタスクで精度を損なうことなくスピードアップを実現しました。 Comment

元ポスト:

Loading…

興味深い。Speculative Decodingの新手法ともみなせそう。

同時期に出た下記研究と比較してどのようなpros/consがあるだろうか？
- [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

解説:

Loading…

#Analysis #NLP #LanguageModel #ReinforcementLearning #Blog #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 From f（x） and g（x） to f（g（x））: LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09 Comment

元ポスト:

Loading…

コントロールされた実験において、深さ2のnestedなcompostition g(f(x))のデータでRLした場合は、テスト時に深さ6までのcompostitionを実行できるようになったが（＝メタスキルとしてcompostitionを獲得した）、深さ1のnon-nestedなデータでRLした場合は複雑なcompostitionが必要なタスクを解けなかった。また、一般的にベースモデルがある程度解ける問題に対してRLを適用したモデルのpass@1000はあまり向上しないことから、RLは新しいスキルを何も教えていないのではないか、といった解釈がされることがあるが、より高次のcompostitionが必要なタスクで評価すると明確に性能が良くなるので、実はより高次のcompostitionが必要なタスクに対する汎化性能を伸ばしている。compostitionでの能力を発揮するにはまず幅広いatomicなスキルが必要なので、しっかりそれを事前学習で身につけさせ、その後post-trainingによって解決したいタスクのためのatomic skillのcompostitionの方法を学習させると効果的なのではないか、といった話な模様。

この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#Pocket #NLP #LanguageModel #Hallucination #Selected Papers/Blogs Issue Date: 2025-09-06 Why Language Models Hallucinate, Kalai+, 2025.09 Comment

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2025-09-05 [Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment

元ポスト:

Loading…

興味深い

#ComputerVision #Pretraining #NLP #Dataset #Blog #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09 Comment

HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision

元ポスト:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #ACL #Selected Papers/Blogs #Deduplication Issue Date: 2025-09-04 [Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 GPT Summary- 既存の言語モデルデータセットには重複した例が多く含まれ、訓練されたモデルの出力の1%以上が訓練データからコピーされている。これを解決するために、重複排除ツールを開発し、C4データセットからは60,000回以上繰り返される文を削除。重複を排除することで、モデルの記憶されたテキスト出力を10倍減少させ、精度を維持しつつ訓練ステップを削減。また、訓練とテストの重複を減らし、より正確な評価を実現。研究の再現とコードは公開されている。 Comment

下記スライドのp.9にまとめが記述されている:
https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws?slide=9

#Dataset #AIAgents #Evaluation #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

実際に存在するIssueにタグ付けすることで、リアルタイムに複数LLMによってPRを作成（API callはOpenHandswが負担する）し、ユーザは複数LLMの中で良いものを選択する、といったことができる模様？リーダーボードも将来的に公開するとのことなので、実際にユーザがどのモデルのoutputを選んだかによって勝敗がつくので、それに基づいてランキング付けをするのだろうと推測。興味深い。

#Analysis #Pretraining #Pocket #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25 GPT Summary- AdamWは言語モデルの事前学習で広く使用されているオプティマイザですが、代替オプティマイザが1.4倍から2倍のスピードアップを提供するという主張には二つの欠点があると指摘。これらは不均等なハイパーパラメータ調整と誤解を招く評価設定であり、10種類のオプティマイザを系統的に研究することで、公正な比較の重要性を示した。特に、最適なハイパーパラメータはオプティマイザごとに異なり、モデルサイズが大きくなるにつれてスピードアップ効果が減少することが明らかになった。最も高速なオプティマイザは行列ベースの前処理器を使用しているが、その効果はモデルスケールに反比例する。 Comment

元ポスト:

Loading…

重要そうに見える

著者ポスト:
-

Loading…

考察:

Loading…

#Pocket #Dataset #LanguageModel #Evaluation #SpeechProcessing #read-later #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #python #Blog #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08 Comment

めっちゃ良さそう

#Survey #ComputerVision #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#MachineTranslation #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs Issue Date: 2025-09-01 Hunyuan-MT-7B, Tencent, 2025.09 Comment

テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

元ポスト:

Loading…

Base Modelに対してまず一般的な事前学習を実施し、その後MTに特化した継続事前学習（モノリンガル/パラレルコーパスの利用）、事後学習（SFT, GRPO)を実施している模様。
継続事前学習では、最適なDataMixの比率を見つけるために、RegMixと呼ばれる手法を利用。Catastrophic Forgettingを防ぐために、事前学習データの20%を含めるといった施策を実施。

SFTでは2つのステージで構成されている。ステージ1は基礎的な翻訳力の強化と翻訳に関する指示追従能力の向上のために、Flores-200の開発データ(33言語の双方向の翻訳をカバー)、前年度のWMTのテストセット(English to XXをカバー）、Mandarin to Minority, Minority to Mandarinのcuratedな人手でのアノテーションデータ、DeepSeek-V3-0324での合成パラレルコーパス、general purpose/MT orientedな指示チューニングデータセットのうち20%を構成するデータで翻訳のinstructinoに関するモデルの凡化性能を高めるためキュレーションされたデータ、で学習している模様。パラレルコーパスはReference-freeな手法を用いてスコアを算出し閾値以下の低品質な翻訳対は除外している。ステージ2では、詳細が書かれていないが、少量でよりfidelityの高い約270kの翻訳対を利用した模様。また、先行研究に基づいて、many-shotのin-context learningを用いて、訓練データをさらに洗練させたとのこと（先行研究が引用されているのみで詳細な記述は無し）。また、複数の評価ラウンドでスコアの一貫性が無いサンプルは手動でアノテーション、あるいはverificationをして品質を担保している模様。

RLではGRPOを採用し、rewardとしてsemantic([Paper Note] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Nuno M. Guerreiro+, TACL'24 ), terminology([Paper Note] TAT-R1: Terminology-Aware Translation with Reinforcement Learning and Word Alignment, Zheng Li+, arXiv'25 ; ドメイン特有のterminologyを捉える), repetitionに基づいたrewardを採用している。最終的にSFT->RLで学習されたHuayuan-MT-7Bに対して、下記プロンプトを用いて複数のoutputを統合してより高品質な翻訳を出力するキメラモデルを同様のrewardを用いて学習する、といったpipelineになっている。

https://github.com/user-attachments/assets/dbb7a799-6304-4cfa-b75c-74b44fe39a2e" />

https://github.com/user-attachments/assets/33b49ef7-b93b-4094-b83e-5931d2b411e5" />

関連: PLaMo翻訳
- PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25

こちらはSFT->Iterative DPO->Model Mergeを実施し、翻訳に特化した継続事前学習はやっていないように見える。一方、SFT時点で独自のテンプレートを作成し、語彙の指定やスタイル、日本語特有の常体、敬体の指定などを実施できるように翻訳に特化したテンプレートを学習している点が異なるように見える。Hunyuanは多様な翻訳の指示に対応できるように学習しているが、PLaMo翻訳はユースケースを絞り込み、ユースケースに対する性能を高めるような特化型のアプローチをとるといった思想の違いが伺える。

#Pretraining #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#EfficiencyImprovement #NLP #LanguageModel #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-08-31 LongCat-Flash-Chat, meituan-longcat, 2025.08 Comment

テクニカルレポート: https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

元ポスト:

Loading…

Agent周りのベンチで高性能なnon thinkingモデル。毎秒100+トークンの生成速度で、MITライセンス。Dynamic Activation...?

Dynamic Activation (activation paramが入力に応じて変化(全てのトークンをMoEにおいて均一に扱わない）することで効率化）は、下記を利用することで実現している模様

- [Paper Note] MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts, Peng Jin+, ICLR'25

しかし中国は本当に次々に色々な企業から基盤モデルが出てくるなぁ…すごい

- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24

解説:

Loading…

解説:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #In-ContextLearning #Reasoning #LongSequence #EMNLP #read-later #Contamination-free #Selected Papers/Blogs #Game Issue Date: 2025-08-30 [Paper Note] TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games, Yuan Yuan+, EMNLP'25 GPT Summary- TurnaboutLLMという新しいフレームワークとデータセットを用いて、探偵ゲームのインタラクティブなプレイを通じてLLMsの演繹的推論能力を評価。証言と証拠の矛盾を特定する課題を設定し、12の最先端LLMを評価した結果、文脈のサイズや推論ステップ数がパフォーマンスに影響を与えることが示された。TurnaboutLLMは、複雑な物語環境におけるLLMsの推論能力に挑戦を提供する。 Comment

元ポスト:

Loading…

非常に面白そう。逆転裁判のデータを利用した超long contextな演繹的タスクにおいて、モデルが最終的な回答を間違える際はより多くの正解には貢献しないReasoning Stepを繰り返したり、QwQ-32BとGPT4.1は同等の性能だが、non thinkingモデルであるGPT4.1がより少量のReasoning Step (本研究では回答に至るまでに出力したトークン数と定義)で回答に到達し（＝Test Time Scalingの恩恵がない）、フルコンテキストを与えて性能が向上したのはモデルサイズが大きい場合のみ（＝Test Timeのreasoningよりも、in-contextでのreasoningが重要）だった、といった知見がある模様。じっくり読みたい。

#Analysis #Pretraining #Pocket #NLP #LanguageModel #Regularization #Selected Papers/Blogs Issue Date: 2025-08-30 [Paper Note] Drop Dropout on Single-Epoch Language Model Pretraining, Houjun Liu+, arXiv'25 GPT Summary- ドロップアウトは過学習を防ぐ手法として知られているが、現代の大規模言語モデル（LLM）では過学習が抑えられるため使用されていない。本研究では、BERTやPythiaモデルの単一エポック事前学習においてドロップアウトの影響を調査した結果、ドロップアウトを適用しない方が下流の性能が向上することが判明。また、「早期ドロップアウト」も性能を低下させることが示された。ドロップアウトなしで訓練されたモデルは、モデル編集においてもより成功することがわかり、単一エポックの事前学習中にはドロップアウトを省くことが推奨される。 Comment

元ポスト:

Loading…

#NeuralNetwork #ComputerVision #Selected Papers/Blogs #Backbone Issue Date: 2025-08-29 [Paper Note] A ConvNet for the 2020s, Zhuang Liu+, arXiv'22 GPT Summary- ConvNetはVision Transformersの登場により地位を失ったが、ハイブリッドアプローチの効果はトランスフォーマーの優位性に依存している。本研究では、ConvNetの限界をテストし、ConvNeXtという新しいモデルを提案。ConvNeXtは標準的なConvNetモジュールのみで構成され、精度とスケーラビリティでトランスフォーマーと競争し、ImageNetで87.8%の精度を達成し、COCO検出およびADE20KセグメンテーションでSwin Transformersを上回る。 Comment

ConvNeXt

#Pocket #NLP #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

Figure1を見るとコンセプトが非常にわかりやすい。現在のLLMが苦戦しているベンチマークは人間が回答済み、かつ実世界のニーズに反して意図的に作られた高難易度なデータ（現実的な設定では無い）であり、現実的では無いが難易度が高い。一方で、現実にニーズがあるデータでベンチマークを作るとそれらはしばしば簡単すぎたり、ハッキング可能だったりする。

このため、現実的な設定でニーズがあり、かつ難易度が高いベンチマークが不足しており、これを解決するためにそもそも人間がまだ回答していない未解決の問題に着目し、ベンチマークを作りました、という話に見える。

元ポストを咀嚼すると、

未解決な問題ということはReferenceが存在しないということなので、この点が課題となる。このため、UQ-ValidatorとUQ-Platformを導入する。

UQ-Validatorは複数のLLMのパイプラインで形成され、回答候補のpre-screeningを実施する。回答を生成したLLM自身（あるいは同じモデルファミリー）がValidatorに加わることで自身の回答をoverrateする問題が生じるが、複数LLMのパイプラインを組むことでそのバイアスを軽減できる、とのこと。また、しばしば回答を生成するよりも結果をValidationせる方がタスクとして簡単であり、必ずしも適切に回答する能力はValidatorには必要ないという直感に基づいている。たとえば、Claudeは回答性能は低くてもValidatorとしてはうまく機能する。また、Validatorは転移が効き、他データセットで訓練したものを未解決の回答にも適用できる。test-timeのスケーリングもある程度作用する。
続いて、UQ-Platformにおいて、回答とValidatorの出力を見ながら、専門家の支援に基づいて回答評価し、また、そもそもの質問の質などについてコメントするなどして未解決の問題の解決を支援できる。

みたいな話らしい。非常に重要な研究に見える。

#Pretraining #Pocket #NLP #Dataset #LanguageModel #Reasoning #Mathematics #read-later #Selected Papers/Blogs Issue Date: 2025-08-27 [Paper Note] Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset, Rabeeh Karimi Mahabadi+, arXiv'25 GPT Summary- 新しい数学コーパス「Nemotron-CC-Math」を提案し、LLMの推論能力を向上させるために、科学テキスト抽出のためのパイプラインを使用。従来のデータセットよりも高品質で、方程式やコードの構造を保持しつつ、表記を標準化。Nemotron-CC-Math-4+は、以前のデータセットを大幅に上回り、事前学習によりMATHやMBPP+での性能向上を実現。オープンソースとしてコードとデータセットを公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Transformer #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-08-27 [Paper Note] Scalable Diffusion Models with Transformers, William Peebles+, ICCV'23 GPT Summary- 新しいトランスフォーマーに基づく拡散モデル（Diffusion Transformers, DiTs）を提案し、U-Netをトランスフォーマーに置き換えた。DiTsは高いGflopsを持ち、低いFIDを維持しながら良好なスケーラビリティを示す。最大のDiT-XL/2モデルは、ImageNetのベンチマークで従来の拡散モデルを上回り、最先端のFID 2.27を達成した。 Comment

日本語解説: https://qiita.com/sasgawy/items/8546c784bc94d94ef0b2

よく見るDiT

- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22

も同様の呼称だが全く異なる話なので注意

#ComputerVision #Pocket #NLP #LanguageModel #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-26 [Paper Note] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency, Weiyun Wang+, arXiv'25 GPT Summary- InternVL 3.5は、マルチモーダルモデルの新しいオープンソースファミリーで、Cascade Reinforcement Learningを用いて推論能力と効率を向上させる。粗から細へのトレーニング戦略により、MMMやMathVistaなどのタスクで大幅な改善を実現。Visual Resolution Routerを導入し、視覚トークンの解像度を動的に調整。Decoupled Vision-Language Deployment戦略により、計算負荷をバランスさせ、推論性能を最大16.0%向上させ、速度を4.05倍向上。最大モデルは、オープンソースのMLLMで最先端の結果を達成し、商業モデルとの性能ギャップを縮小。全てのモデルとコードは公開。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Library #ReinforcementLearning #Blog #Selected Papers/Blogs #On-Policy #KeyPoint Notes #Reference Collection #train-inference-gap Issue Date: 2025-08-26 Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08 Comment

元ポスト:

Loading…

元々
- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04

のスレッド中にメモっていたが、アップデートがあったようなので新たにIssue化

trainingのエンジン(FSDP等)とロールアウトに使うinferenceエンジン(SGLang,vLLM)などのエンジンのミスマッチにより、学習がうまくいかなくなるという話。

アップデートがあった模様:

Loading…

- Parallelismのミスマッチでロールアウトと学習のギャップを広げてしまうこと（特にsequence parallelism)
- Longer Sequenceの方が、ギャップが広がりやすいこと
- Rolloutのためのinferenceエンジンを修正する（SGLang w/ deterministic settingすることも含む)だけでは効果は限定的

といった感じな模様。

さらにアップデート:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

vLLMがtrain inference mismatchを防ぐアップデートを実施:

Loading…

#ComputerVision #Pocket #Transformer #ICLR #Selected Papers/Blogs #Backbone Issue Date: 2025-08-25 [Paper Note] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, Alexey Dosovitskiy+, ICLR'21 GPT Summary- 純粋なトランスフォーマーを画像パッチのシーケンスに直接適用することで、CNNへの依存なしに画像分類タスクで優れた性能を発揮できることを示す。大量のデータで事前学習し、複数の画像認識ベンチマークで最先端のCNNと比較して優れた結果を達成し、計算リソースを大幅に削減。 Comment

openreview: https://openreview.net/forum?id=YicbFdNTTy

ViTを提案した研究

#Pretraining #Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #OpenWeight #Architecture #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 [Paper Note] Motif 2.6B Technical Report, Junghwan Lim+, arXiv'25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Motif-Technologies/Motif-2.6B

- アーキテクチャ
- Differential Transformer, Tianzhu Ye+, N/A, ICLR'25
- [Paper Note] Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models, Zhijian Zhuo+, arXiv'24
- 学習手法
- Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25
- 8B token学習するごとに直近6つのcheckpointのelement-wiseの平均をとりモデルマージ。当該モデルに対して学習を継続、ということを繰り返す。これにより、学習のノイズを低減し、突然パラメータがシフトすることを防ぐ
- Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N/A, NAACL'24
- Adaptive Base Frequency (RoPEのbase frequencyを10000から500000にすることでlong contextのattention scoreが小さくなりすぎることを防ぐ)
- [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, arXiv'24
- 事前学習データ
- DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv'24
- TxT360, LLM360, 2024.10
- [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25

を利用したモデル。同程度のサイズのモデルとの比較ではかなりのgainを得ているように見える。興味深い。
DatasetのMixtureの比率などについても記述されている。

https://github.com/user-attachments/assets/0a26442e-8075-4cbe-8cc1-f1ff471b7356" />

#Pocket #NLP #LanguageModel #Decoding #read-later #Selected Papers/Blogs #MajorityVoting Issue Date: 2025-08-24 [Paper Note] Deep Think with Confidence, Yichao Fu+, arXiv'25 GPT Summary- 「Deep Think with Confidence（DeepConf）」は、LLMの推論タスクにおける精度と計算コストの課題を解決する手法で、モデル内部の信頼性信号を活用して低品質な推論を動的にフィルタリングします。追加の訓練や調整を必要とせず、既存のフレームワークに統合可能です。評価の結果、特に難易度の高いAIME 2025ベンチマークで99.9%の精度を達成し、生成トークンを最大84.7%削減しました。 Comment

pj page: https://jiaweizzhao.github.io/deepconf
vLLMでの実装: https://jiaweizzhao.github.io/deepconf/static/htmls/code_example.html

元ポスト:

Loading…

tooluse、追加の訓練なしで、どのようなタスクにも適用でき、85%生成トークン量を減らした上で、OpenModelで初めてAIME2025において99% Acc.を達成した手法とのこと。vLLMを用いて50 line程度で実装できるらしい。

reasoning traceのconfidence(i.e., 対数尤度)をgroup sizeを決めてwindow単位で決定し、それらをデコーディングのプロセスで活用することで、品質の低いreasoning traceに基づく結果を排除しつつ、majority votingに活用する方法。直感的にもうまくいきそう。オフラインとオンラインの推論によって活用方法が提案されている。あとでしっかり読んで書く。Confidenceの定義の仕方はグループごとのbottom 10%、tailなどさまざまな定義方法と、それらに基づいたconfidenceによるvotingの重み付けが複数考えられ、オフライン、オンラインによって使い分ける模様。

vLLMにPRも出ている模様？

#ComputerVision #Pretraining #Pocket #MultiModal #FoundationModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-23 [Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24 GPT Summary- 大規模視覚-言語基盤モデル（InternVL）は、60億パラメータで設計され、LLMと整合させるためにウェブ規模の画像-テキストデータを使用。視覚認知タスクやゼロショット分類、検索など32のベンチマークで最先端の性能を達成し、マルチモーダル対話システムの構築に寄与。ViT-22Bの代替として強力な視覚能力を持つ。コードとモデルは公開されている。 Comment

既存のResNetのようなSupervised pretrainingに基づくモデル、CLIPのようなcontrastive pretrainingに基づくモデルに対して、text encoder部分をLLMに置き換えて、contrastive learningとgenerativeタスクによる学習を組み合わせたパラダイムを提案。

InternVLのアーキテクチャは下記で、3 stageの学習で構成される。最初にimage text pairをcontrastive learningし学習し、続いてモデルのパラメータはfreezeしimage text retrievalタスク等でモダリティ間の変換を担う最終的にQlLlama(multilingual性能を高めたllama)をvision-languageモダリティを繋ぐミドルウェアのように捉え、Vicunaをテキストデコーダとして接続してgenerative cossで学習する、みたいなアーキテクチャの模様（斜め読みなので少し違う可能性あり

現在のVLMの主流であるvision encoderとLLMをadapterで接続する方式はここからかなりシンプルになっていることが伺える。

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Evaluation #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#MachineTranslation #NLP #LanguageModel #Supervised-FineTuning (SFT) #SmallModel #Japanese #DPO #Selected Papers/Blogs #ModelMerge Issue Date: 2025-08-22 PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25 Comment

元ポスト:

Loading…

SFT->Iterative DPO->Model Mergeのパイプライン。SFTでは青空文庫などのオープンなデータから指示追従性能の高いDeepSeek-V3-0324によって元データ→翻訳, 翻訳→再翻訳データを合成し活用。また、翻訳の指示がprompt中に存在せずとも（本モデルを利用するのは翻訳用途であることが自明であるからと推察される）翻訳を適切に実行できるよう、独自のテンプレートを学習。文体指定、常体、敬体の指定、文脈考慮、語彙指定それぞれにういて独自のタグを設けてフォーマットを形成し翻訳に特化したテンプレートを学習。

IterativeDPOでは、DeepSeekV3に基づくLLM-as-a-Judgeと、MetricX([Paper Note] MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task, Juraj Juraska+, arXiv'24 )に基づいてReward Modelをそれぞれ学習し、1つの入力に対して100個の翻訳を作成しそれぞれのRewardモデルのスコアの合計値に基づいてRejection Samplingを実施することでPreference dataを構築。3段階のDPOを実施し、段階ごとにRewardモデルのスコアに基づいて高品質なPreference Dataに絞ることで性能向上を実現。

モデルマージではDPOの各段階のモデルを重み付きでマージすることで各段階での長所を組み合わせたとのこと。

サービスリリース: https://prtimes.jp/main/html/rd/p/000000019.000156310.html?hm_ct=d17807e98595783ee6edfc7ae00fe95a&hm_cv=87e6d4e056b010261ecdc77d7ac8eb6c&hm_cs=1638145470668f4b36f218d2.35741174&hm_mid=m3hk6&hm_id=m3hk6&hm_h=a03.hm-f.jp

2025.1010配信の「岡野原大輔のランチタイムトーク Vol.52 番外編「なぜPLaMo翻訳は自然なのか？」において詳細が語られているので参照のこと。特になぜ日本語に強いLLMが大事なのか？という話が非常におもしろかった。

#NLP #LanguageModel #Evaluation #OpenWeight #ProprietaryLLM #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08 Comment

元ポスト:

Loading…

LLMの性能を公平な条件で評価するために、従来のnon thinkingモデルで採用していた方法はthinkingモデルでは過小評価につながることが明らかになった（e.g., non thinkingモデルはzero shotを標準とするが、thinkingモデルではfewshot、chat templateの採用等）ため、日本語/英語ともに信頼の高い6つのベンチマークを採用し、thinkingモデルに対して公平な統一的な評価フレームワークを確立。主要なプロプライエタリ、OpenLLMに対して評価を実施し、リーダーボードとして公開。Reasoningモデルに対する最新の日本語性能を知りたい場合はこちらを参照するのが良いと思われる。

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

#Pretraining #Pocket #NLP #Dataset #LanguageModel #SmallModel #OpenWeight #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model, NVIDIA+, arXiv'25, 2025.08 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Transformer #Attention #python #LLMServing #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23 GPT Summary- PagedAttentionを用いたvLLMシステムを提案し、KVキャッシュメモリの無駄を削減し、リクエスト間での柔軟な共有を実現。これにより、同レベルのレイテンシでLLMのスループットを2-4倍向上。特に長いシーケンスや大規模モデルで効果が顕著。ソースコードは公開中。 Comment

（今更ながら）vLLMはこちら:
https://github.com/vllm-project/vllm

現在の主要なLLM Inference/Serving Engineのひとつ。

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #NLP #Dataset #LanguageModel #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

代表的なコード生成のベンチマーク。

MBPPデータセットは、promptで指示されたコードをモデルに生成させ、テストコード（assertion)を通過するか否かで評価する。974サンプル存在し、pythonの基礎を持つクラウドワーカーによって生成。クラウドワーカーにタスクdescriptionとタスクを実施する一つの関数（関数のみで実行可能でprintは不可）、3つのテストケースを記述するよう依頼。タスクdescriptionは追加なclarificationなしでコードが記述できるよう十分な情報を含むよう記述するように指示。ground truthの関数を生成する際に、webを閲覧することを許可した。

MathQA-Pythonは、MathQAに含まれるQAのうち解答が数値のもののみにフィルタリングしたデータセットで、合計で23914サンプル存在する。pythonコードで与えられた数学に関する問題を解くコードを書き、数値が一致するか否かで評価する、といった感じな模様。斜め読みなので少し読み違えているかもしれない。

#Pocket #NLP #Dataset #LanguageModel #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

HumanEvalデータセット。Killed by LLMによると、GPT4oによりすでに90%程度の性能が達成され飽和している。

164個の人手で記述されたprogrammingの問題で、それぞれはfunction signature, docstring, body, unittestを持つ。unittestは問題当たり約7.7 test存在。handwrittenという点がミソで、コンタミネーションの懸念があるためgithubのような既存ソースからのコピーなどはしていない。pass@k[^1]で評価。

[^1]: k個のサンプルを生成させ、k個のサンプルのうち、サンプルがunittestを一つでも通過する確率。ただ、本研究ではよりバイアスをなくすために、kよりも大きいn個のサンプルを生成し、その中からランダムにk個を選択して確率を推定するようなアプローチを実施している。2.1節を参照のこと。

#Pocket #NLP #LanguageModel #AIAgents #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-15 [Paper Note] OpenCUA: Open Foundations for Computer-Use Agents, Xinyuan Wang+, arXiv'25 GPT Summary- OpenCUAは、CUAデータと基盤モデルをスケールさせるためのオープンソースフレームワークであり、アノテーションインフラ、AgentNetデータセット、反射的なChain-of-Thought推論を持つスケーラブルなパイプラインを提供。OpenCUA-32Bは、CUAベンチマークで34.8%の成功率を達成し、最先端の性能を示す。研究コミュニティのために、アノテーションツールやデータセットを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

CUAにおいてProprietaryモデルに近い性能を達成した初めての研究な模様。重要

続報:

Loading…

OSWorld VerifiedでUI-TARS-250705,claude-4-sonnet-20250514超えでtop1に君臨とのこと。

#ComputerVision #Pocket #NLP #Dataset #EMNLP #PostTraining #Selected Papers/Blogs #VisionLanguageModel #Cultural Issue Date: 2025-08-13 [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment

元ポスト:

Loading…

pj page: https://neulab.github.io/CulturalGround/

VQAデータセット中の日本語データは3.1%程度で、の3つ組で構成される。wikidataから特定の文化と紐づいたエンティティ（42カ国; 人,場所,組織,アーティファクトにフォーカス）を抽出し、関連するimage dataを1--3個程度wikimediaから収集。76種類のテンプレートを用いて、draftのQAを生成し、LLMを用いて洗練（文化的な自然さ、流暢さ）させる。最終的にVLM(Qwen2.5-VL-32B/72B or Gemma-3-12B/72B-Instructを文化ごとに強い方を選択して利用)を用いてirrelevantなimage, question, answerの三つ組をフィルタリング（relevanceのスコアリングと事実情報のverification)する。

ベースモデルとして
- [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24

を利用(Qwen2-7Bに対してCLIPベースのvision encoderを利用したVLM)し、Vision Encoderはfrozenし、LLMとconnector（テキストと画像のモダリティの橋渡しをする（大抵は）MLP)のみをfinetuningした。catastrophic forgettingを防ぐために事前学習データの一部を補完しfinetuningでも利用し、エンティティの認識力を高めるためにM3LSデータなるものをフィルタリングして追加している。

Finetuningの結果、文化的な多様性を持つ評価データ（e.g., [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 Figure1のJapaneseのサンプルを見ると一目でどのようなベンチか分かる）と一般的なマルチリンガルな評価データの双方でgainがあることを確認。

VQAによるフィルタリングで利用されたpromptは下記

#Pocket #NLP #LanguageModel #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-08-12 [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding （ARC） Foundation Models, GLM-4. 5 Team+, arXiv'25 GPT Summary- 355Bパラメータを持つオープンソースのMixture-of-ExpertsモデルGLM-4.5を発表。ハイブリッド推論手法を採用し、エージェント的、推論、コーディングタスクで高いパフォーマンスを達成。競合モデルに比べて少ないパラメータ数で上位にランクイン。GLM-4.5とそのコンパクト版GLM-4.5-Airをリリースし、詳細はGitHubで公開。 Comment

元ポスト:

Loading…

- アーキテクチャ
- MoE / sigmoid gates
- DeepSeek-R1, DeepSeek, 2025.01
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- loss free balanced routing
- [Paper Note] Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, Lean Wang+, arXiv'24
- widthを小さく、depthを増やすことでreasoning能力改善
- GQA w/ partial RoPE
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024
- Attention Headsの数を2.5倍（何に対して2.5倍なんだ、、？）（96個, 5120次元）にすることで（おそらく）事前学習のlossは改善しなかったがReasoning benchmarkの性能改善
- QK Normを導入しattentionのlogitsの値域を改善
- [Paper Note] Query-Key Normalization for Transformers, Alex Henry+, EMNLP'20 Findings
- Multi Token Prediction
- [Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24
- Deep-seek-v3, deepseek-ai, 2024.12

他モデルとの比較

学習部分は後で追記する

- 事前学習データ
- web
- 英語と中国語のwebページを利用
- Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 と同様にquality scoreyをドキュメントに付与
- 最も低いquality scoreの文書群を排除し、quality scoreの高い文書群をup sampling
- 最もquality scoreyが大きい文書群は3.2 epoch分利用
- 多くのweb pageがテンプレートから自動生成されており高いquality scoreが付与されていたが、MinHashによってdeduplicationできなかったため、 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic deduplication, Amro Abbas+, arXiv'23 を用いてdocument embeddingに基づいて類似した文書群を排除
- Multilingual
- 独自にクロールしたデータとFineWeb-2 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 から多言語の文書群を抽出し、quality classifierを適用することでeducational utilityを定量化し、高いスコアの文書群をupsamplingして利用
- code
- githubなどのソースコードhosting platformから収集
- ソースコードはルールベースのフィルタリングをかけ、その後言語ごとのquality modelsによって、high,middle, lowの3つに品質を分類
- high qualityなものはupsamplingし、low qualityなものは除外
- [Paper Note] Efficient Training of Language Models to Fill in the Middle, Mohammad Bavarian+, arXiv'22 で提案されているFill in the Middle objectiveをコードの事前学習では適用
- コードに関連するweb文書も事前学習で収集したテキスト群からルールベースとfasttextによる分類器で抽出し、ソースコードと同様のqualityの分類とサンプリング手法を適用。最終的にフィルタリングされた文書群はre-parseしてフォーマットと内容の品質を向上させた
- math & science
- web page, 本, 論文から、reasoning能力を向上させるために、数学と科学に関する文書を収集
- LLMを用いて文書中のeducational contentの比率に基づいて文書をスコアリングしスコアを予測するsmall-scaleな分類器を学習
- 最終的に事前学習コーパスの中の閾値以上のスコアを持つ文書をupsampling
- 事前学習は2 stageに分かれており、最初のステージでは、"大部分は"generalな文書で学習する。次のステージでは、ソースコード、数学、科学、コーディング関連の文書をupsamplingして学習する。

上記以上の細かい実装上の情報は記載されていない。

mid-training / post trainingについても後ほど追記する

以下も参照のこと
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07

#Pretraining #NLP #LanguageModel #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-08-09 Diffusion Language Models are Super Data Learners, Jinjie Ni and the team, 2025.08 Comment

dLLMは学習データの繰り返しに強く、データ制約下においては十分な計算量を投入してepochを重ねると、性能向上がサチらずにARモデルを上回る。

- [Paper Note] Diffusion Beats Autoregressive in Data-Constrained Settings, Mihir Prabhudesai+, arXiv'25
- 追記: 上記研究の著者による本ポストで取り上げられたissueに対するclarification
　　-

Loading…

でも同様の知見が得られている。
が、スレッド中で両者の違いが下記のように（x rollrng reviewなるものを用いて）ポストされており、興味がある場合は読むといいかも。（ところで、x rolling reviewとは、、？もしやLLMによる自動的な査読システム？）

- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において、ARモデルではrepetitionは4回までがコスパ良いという話と比べると、dLLMにとんでもない伸び代があるような話に見える。

（話が脱線します）
個人的にはアーキテクチャのさらなる進化は興味深いが、ユーザが不完全な質問をLLMに投げた時に、LLMがユーザの意図が「不明な部分のcontextを質問を返すことによって補う」という挙動があると嬉しい気がするのだが、そういった研究はないのだろうか。

ただ、事前学習時点でそういったデータが含まれて知識として吸収され、かつmid/post-trainingでそういった能力を引き出すと言う両軸で取り組まないと、最悪膨大な計算資源を投じたものの「わからない！どういうこと！？」と返し続けるLLMが完成し全く役に立たない、ということになりそうで怖い。

gpt5が出た時に、「3.9と3.11はどちらが大きいですか？」というクエリを投げた際にいまだに「3.11」と回答してくる、みたいなポストが印象的であり、これはLLMが悪いと言うより、ユーザ側が算数としての文脈できいているのか、ソフトウェアのバージョンの文脈できいているのか、を指定していないことが原因であり、上記の回答はソフトウェアのバージョニングという文脈では正答となる。LLMが省エネになって、ユーザのデータを蓄積しまくって、一人一人に対してあなただけのLLM〜みたいな時代がくれば少しは変わるのだろうが、それでもユーザがプロファイルとして蓄積した意図とは異なる意図で質問しなければならないという状況になると、上記のような意図の取り違えが生じるように思う。
なのでやはりりLLM側が情報が足りん〜と思ったら適切なturn数で、最大限の情報をユーザから引き出せるような逆質問を返すみたいな挙動、あるいは足りない情報があったときに、いくつかの候補を提示してユーザ側に提示させる（e.g., 算数の話？それともソフトウェアの話？みたいな）、といった挙動があると嬉しいなぁ、感。

んでそこの部分の性能は、もしやるな、promptingでもある程度は実現でき、それでも全然性能足りないよね？となった後に、事前学習、事後学習でより性能向上します、みたいな流れになるのかなぁ、と想像するなどした。

しかしこういう話をあまり見ないのはなぜだろう？私の観測範囲が狭すぎる or 私のアイデアがポンコツなのか、ベンチマーク競争になっていて、そこを向上させることに業界全体が注力してしまっているからなのか、はたまた裏ではやられているけど使い物にならないのか、全然わからん。

続報:
- Diffusion Language Models are Super Data Learners, Ni+, 2025.10

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-08-09 [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25 GPT Summary- 大規模言語モデル（LLM）の教師ありファインチューニング（SFT）の一般化能力を向上させるため、動的ファインチューニング（DFT）を提案。DFTはトークンの確率に基づいて目的関数を再スケーリングし、勾配更新を安定化させる。これにより、SFTを大幅に上回る性能を示し、オフライン強化学習でも競争力のある結果を得た。理論的洞察と実践的解決策を結びつけ、SFTの性能を向上させる。コードは公開されている。 Comment

元ポスト:

Loading…

これは大変興味深い。数学以外のドメインでの評価にも期待したい。

3節冒頭から3.2節にかけて、SFTとon policy RLのgradientを定式化し、SFT側の数式を整理することで、SFT（のgradient)は以下のようなon policy RLの一つのケースとみなせることを導出している。そしてSFTの汎化性能が低いのは 1/pi_theta によるimportance weightingであると主張し、実験的にそれを証明している。つまり、ポリシーがexpertのgold responseに対して低い尤度を示してしまった場合に、weightか過剰に大きくなり、Rewardの分散が過度に大きくなってしまうことがRLの観点を通してみると問題であり、これを是正することが必要。さらに、分散が大きい報酬の状態で、報酬がsparse(i.e., expertのtrajectoryのexact matchしていないと報酬がzero)であることが、さらに事態を悪化させている。

> conventional SFT is precisely an on-policy-gradient with the reward as an indicator function of
matching the expert trajectory but biased by an importance weighting 1/πθ.

まだ斜め読みしかしていないので、後でしっかり読みたい

最近は下記で示されている通りSFTでwarm-upをした後にRLによるpost-trainingをすることで性能が向上することが示されており、
- Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25

主要なOpenModelでもSFT wamup -> RLの流れが主流である。この知見が、SFTによるwarm upの有効性とどう紐づくだろうか？
これを読んだ感じだと、importance weightによって、現在のポリシーが苦手な部分のreasoning capabilityのみを最初に強化し（= warmup）、その上でより広範なサンプルに対するRLが実施されることによって、性能向上と、学習の安定につながっているのではないか？という気がする。

日本語解説:

Loading…

一歩先の視点が考察されており、とても勉強になる。

#Tutorial #LanguageModel #SyntheticData #Slide #ACL #Selected Papers/Blogs Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment

元ポスト:

Loading…

#NLP #LanguageModel #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-08-05 gpt-oss-120b, OpenAI, 2025.08 Comment

blog: https://openai.com/index/introducing-gpt-oss/

HF:
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

アーキテクチャで使われている技術まとめ:
-

Loading…

- こちらにも詳細に論文がまとめられている

上記ポスト中のアーキテクチャの論文メモリンク（管理人が追加したものも含む）
- Sliding Window Attention
- [Paper Note] Longformer: The Long-Document Transformer, Iz Beltagy+, arXiv'20
- [Paper Note] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Zihang Dai+, ACL'19
- MoE
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22
- RoPE w/ YaRN
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024
- [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24
- Attention Sinks
- Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24
- Attention Sinksの定義とその気持ち、Zero Sink, Softmaxの分母にバイアス項が存在する意義についてはこのメモを参照のこと。
- Why do LLMs attend to the first token?, Federico Barbero+, COLM'25
- Attention Sinksが実際にどのように効果的に作用しているか？についてはこちらのメモを参照。
- When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR'25
-

Loading…

- Sink Token (or Zero Sink) が存在することで、decoder-onlyモデルの深い層でのrepresentationのover mixingを改善し、汎化性能を高め、promptに対するsensitivityを抑えることができる。
- (Attentionの計算に利用する) SoftmaxへのLearned bias の導入（によるスケーリング）
- これはlearnable biasが導入されることで、attention scoreの和が1になることを防止できる（余剰なアテンションスコアを捨てられる）ので、Zero Sinkを導入しているとみなせる（と思われる）。
- GQA
- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- SwiGLU
- GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20 -

- group size 8でGQAを利用
- Context Windowは128k
- 学習データの大部分は英語のテキストのみのデータセット
- STEM, Coding, general knowledgeにフォーカス
- https://openai.com/index/gpt-oss-model-card/

あとで追記する

他Open Weight Modelとのベンチマークスコア比較:
-

Loading…

- long context
-

Loading…

- Multihop QA

解説:

Loading…

learned attention sinks, MXFP4の解説:

Loading…

Sink Valueの分析:

Loading…

gpt-oss の使い方:
https://note.com/npaka/n/nf39f327c3bde?sub_rt=share_sb [Paper Note] Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07 fd064b2-338a-4f8d-953c-67e458658e39

Qwen3との深さと広さの比較:
- The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07

Phi4と同じtokenizerを使っている？:

Loading…

post-training / pre-trainingの詳細はモデルカード中に言及なし:
-

Loading…

ライセンスに関して:

> Apache 2.0 ライセンスおよび当社の gpt-oss 利用規約に基づくことで利用可能です。

引用元: https://openai.com/ja-JP/index/gpt-oss-model-card/

gpt-oss利用規約: https://github.com/openai/gpt-oss/blob/main/USAGE_POLICY

cookbook全体: https://cookbook.openai.com/topic/gpt-oss

gpt-oss-120bをpythonとvLLMで触りながら理解する: https://tech-blog.abeja.asia/entry/gpt-oss-vllm

指示追従能力（IFEVal)が低いという指摘:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs #ModelMerge #Stability Issue Date: 2025-08-02 [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25 GPT Summary- 学習率スケジューリングの新たなアプローチとして、Warmup-Stable and Merge（WSM）を提案。WSMは、学習率の減衰とモデルマージの関係を確立し、さまざまな減衰戦略を統一的に扱う。実験により、マージ期間がモデル性能において重要であることを示し、従来のWSDアプローチを上回る性能向上を達成。特に、MATHで+3.5%、HumanEvalで+2.9%、MMLU-Proで+5.5%の改善を記録。 Comment

元ポスト:

Loading…

Weight Decayを無くせるらしい

エッセンスの解説:

Loading…

チェックポイントさえ保存しておいて事後的に活用することだで、細かなハイパラ調整のための試行錯誤する手間と膨大な計算コストがなくなるのであれば相当素晴らしいのでは…？

解説:

Loading…

#Pocket #NLP #LanguageModel #LongSequence #ICLR #Selected Papers/Blogs Issue Date: 2025-08-02 [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24 GPT Summary- YaRN（Yet another RoPE extensioN method）は、トランスフォーマーベースの言語モデルにおける位置情報のエンコードを効率的に行い、コンテキストウィンドウを従来の方法よりも10倍少ないトークンと2.5倍少ない訓練ステップで拡張する手法を提案。LLaMAモデルが長いコンテキストを効果的に利用できることを示し、128kのコンテキスト長まで再現可能なファインチューニングを実現。 Comment

openreview: https://openreview.net/forum?id=wHBfxhZu1u

現在主流なコンテキストウィンドウ拡張手法。様々なモデルで利用されている。

日本語解説: https://zenn.dev/bilzard/scraps/de7ecd3c380b6e

#ComputerVision #Pocket #NLP #Dataset #MultiLingual #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-07-30 [Paper Note] MetaCLIP 2: A Worldwide Scaling Recipe, Yung-Sung Chuang+, NeurIPS'25 Spotlight GPT Summary- MetaCLIP 2を提案し、CLIPをゼロから訓練するための新しいアプローチを示す。英語と非英語データの相互利益を得るための最小限の変更を加え、ゼロショットのImageNet分類で英語専用モデルを上回る性能を達成。多言語ベンチマークでも新たな最先端を記録。 Comment

元ポスト:

Loading…

マルチリンガルなCLIP

openreview: https://openreview.net/forum?id=aYRNINhNGV&referrer=%5Bthe%20profile%20of%20Saining%20Xie%5D(%2Fprofile%3Fid%3D~Saining_Xie2)

HF: https://huggingface.co/facebook/metaclip-2-mt5-worldwide-b32

#NLP #LanguageModel #Reasoning #OpenWeight #Selected Papers/Blogs Issue Date: 2025-07-29 GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

詳細なまとめ:

Loading…

こちらでもMuon Optimizerが使われており、アーキテクチャ的にはGQAやMulti Token Prediction, QK Normalization, MoE, 広さよりも深さを重視の構造、みたいな感じな模様？
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

#Embeddings #Pocket #NLP #RepresentationLearning #NeurIPS #Length #Selected Papers/Blogs Issue Date: 2025-07-29 [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22 GPT Summary- マトリョーシカ表現学習（MRL）は、異なる計算リソースに適応可能な柔軟な表現を設計する手法であり、既存の表現学習パイプラインを最小限に修正して使用します。MRLは、粗から細への表現を学習し、ImageNet-1K分類で最大14倍小さい埋め込みサイズを提供し、実世界のスピードアップを実現し、少数ショット分類で精度向上を達成します。MRLは視覚、視覚+言語、言語のモダリティにわたるデータセットに拡張可能で、コードとモデルはオープンソースで公開されています。 Comment

日本語解説: https://speakerdeck.com/hpprc/lun-jiang-zi-liao-matryoshka-representation-learning

単一のモデルから複数のlengthのEmbeddingを出力できるような手法。

#RecommenderSystems #Pocket #Transformer #VariationalAutoEncoder #NeurIPS #read-later #Selected Papers/Blogs #ColdStart #Encoder-Decoder #SemanticID Issue Date: 2025-07-28 [Paper Note] Recommender Systems with Generative Retrieval, Shashank Rajput+, NeurIPS'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを用いて次のアイテムを予測するTransformerベースのモデルを訓練。これにより、従来のレコメンダーシステムを大幅に上回る性能を達成し、過去の対話履歴がないアイテムに対しても改善された検索性能を示す。 Comment

openreview: https://openreview.net/forum?id=BJ0fQUU32w

Semantic IDを提案した研究

アイテムを意味的な情報を保持したdiscrete tokenのタプル（＝Semantic ID)で表現し、encoder-decoderでNext ItemのSemantic IDを生成するタスクに落としこむことで推薦する。SemanticIDの作成方法は後で読んで理解したい。

#Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-07-25 [Paper Note] Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models, Changxin Tian+, arXiv'25 GPT Summary- Mixture-of-Experts (MoE)アーキテクチャは、LLMsの効率的なスケーリングを可能にするが、モデル容量の予測には課題がある。これに対処するため、Efficiency Leverage (EL)を導入し、300以上のモデルを訓練してMoE構成とELの関係を調査。結果、ELはエキスパートの活性化比率と計算予算に依存し、エキスパートの粒度は非線形の調整因子として機能することが明らかに。これらの発見を基にスケーリング法則を統一し、Ling-mini-betaモデルを設計・訓練した結果、計算資源を7倍以上節約しつつ、6.1Bの密なモデルと同等の性能を達成。研究は効率的なMoEモデルのスケーリングに関する基盤を提供する。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #Selected Papers/Blogs Issue Date: 2025-07-24 [Paper Note] Exploring Simple Siamese Representation Learning, Xinlei Chen+, arXiv'20 GPT Summary- Siameseネットワークを用いた教師なし視覚表現学習に関する研究で、ネガティブサンプルペア、大きなバッチ、モーメンタムエンコーダーを使用せずに意味のある表現を学習できることを示した。ストップグラディエント操作が崩壊解を防ぐ重要な役割を果たすことを確認し、SimSiamメソッドがImageNetおよび下流タスクで競争力のある結果を達成した。これにより、Siameseアーキテクチャの役割を再考するきっかけとなることを期待している。 Comment

日本語解説:

https://qiita.com/saliton/items/2f7b1bfb451df75a286f
https://qiita.com/koshian2/items/a31b85121c99af0eb050

#Pocket #Selected Papers/Blogs Issue Date: 2025-07-24 [Paper Note] Bootstrap your own latent: A new approach to self-supervised Learning, Jean-Bastien Grill+, arXiv'20 GPT Summary- BYOL（Bootstrap Your Own Latent）は、自己教師あり画像表現学習の新しい手法で、オンラインネットワークとターゲットネットワークの2つのニューラルネットワークを用いて学習を行う。BYOLは、ネガティブペアに依存せずに最先端の性能を達成し、ResNet-50でImageNetにおいて74.3%の分類精度を達成、より大きなResNetでは79.6%に達する。転送学習や半教師ありベンチマークでも優れた性能を示し、実装と事前学習済みモデルはGitHubで公開されている。 Comment

日本語解説:
https://sn-neural-compute.netlify.app/202006250/

#NeuralNetwork #Analysis #Pocket #NLP #LanguageModel #Selected Papers/Blogs #Finetuning Issue Date: 2025-07-24 [Paper Note] Subliminal Learning: Language models transmit behavioral traits via hidden signals in data, Alex Cloud+, arXiv'25 GPT Summary- サブリミナル学習は、言語モデルが無関係なデータを通じて特性を伝達する現象である。実験では、特定の特性を持つ教師モデルが生成した数列データで訓練された生徒モデルが、その特性を学習することが確認された。データが特性への言及を除去してもこの現象は発生し、異なるベースモデルの教師と生徒では効果が見られなかった。理論的結果を通じて、全てのニューラルネットワークにおけるサブリミナル学習の発生を示し、MLP分類器での実証も行った。サブリミナル学習は一般的な現象であり、AI開発における予期しない問題を引き起こす可能性がある。 Comment

元ポスト:

Loading…

教師モデルが生成したデータから、教師モデルと同じベースモデルを持つ[^1]生徒モデルに対してファインチューニングをした場合、教師モデルと同じ特性を、どんなに厳しく学習元の合成データをフィルタリングしても、意味的に全く関係ないデータを合成しても（たとえばただの数字列のデータを生成したとしても）、生徒モデルに転移してしまう。これは言語モデルに限った話ではなく、ニューラルネットワーク一般について証明された[^2]。

また、MNISTを用いたシンプルなMLPにおいて、MNISTを教師モデルに対して学習させ、そのモデルに対してランダムノイズな画像を生成させ、同じ初期化を施した生徒モデルに対してFinetuningをした場合、学習したlogitsがMNIST用ではないにもかかわらず、MNISTデータに対して50%以上の分類性能を示し、数字画像の認識能力が意味的に全く関係ないデータから転移されている[^3]、といった現象が生じることも実験的に確認された。

このため、どんなに頑張って合成データのフィルタリングや高品質化を実施し、教師モデルから特性を排除したデータを作成したつもりでも、そのデータでベースモデルが同じ生徒を蒸留すると、結局その特性は転移されてしまう。これは大きな落とし穴になるので気をつけましょう、という話だと思われる。

[^1]: これはアーキテクチャの話だけでなく、パラメータの初期値も含まれる
[^2]: 教師と生徒の初期化が同じ、かつ十分に小さい学習率の場合において、教師モデルが何らかの学習データDを生成し、Dのサンプルxで生徒モデルでパラメータを更新する勾配を計算すると、教師モデルが学習の過程で経た勾配と同じ方向の勾配が導き出される。つまり、パラメータが教師モデルと同じ方向にアップデートされる。みたいな感じだろうか？元論文を時間がなくて厳密に読めていない、かつalphaxivの力を借りて読んでいるため、誤りがあるかもしれない点に注意
[^3]: このパートについてもalphaxivの出力を参考にしており、元論文の記述をしっかり読めているわけではない

#Pocket #NLP #LanguageModel #ReinforcementLearning #Test-Time Scaling #GRPO #read-later #Selected Papers/Blogs #Non-VerifiableRewards #RewardModel Issue Date: 2025-07-22 [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25 GPT Summary- 強化学習を用いてLLMsの推論能力を向上させるため、報酬モデリング（RM）のスケーラビリティを探求。ポイントワイズ生成報酬モデリング（GRM）を採用し、自己原則批評調整（SPCT）を提案してパフォーマンスを向上。並列サンプリングとメタRMを導入し、スケーリング性能を改善。実験により、SPCTがGRMの質とスケーラビリティを向上させ、既存の手法を上回る結果を示した。DeepSeek-GRMは一部のタスクで課題があるが、今後の取り組みで解決可能と考えられている。モデルはオープンソースとして提供予定。 Comment

- inputに対する柔軟性と、
- 同じresponseに対して多様なRewardを算出でき (= inference time scalingを活用できる)、
- Verifiableな分野に特化していないGeneralなRewardモデルである

Inference-Time Scaling for Generalist Reward Modeling (GRM) を提案。

https://github.com/user-attachments/assets/18b13e49-745c-4c22-8d29-8b9bbb7fe80c" />

Figure3に提案手法の学習の流れが図解されておりわかりやすい。

#Tutorial #NLP #LanguageModel #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Tutorial #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

```
メモリ (GB) = P × (Q ÷ 8) × (1 + オーバーヘッド)

- P：パラメータ数（単位は10億）
- Q：ビット精度（例：16、32）、8で割ることでビットをバイトに変換
- オーバーヘッド（％）：推論中の追加メモリまたは一時的な使用量（例：KVキャッシュ、アクティベーションバッファ、オプティマイザの状態）
```

↑これ、忘れがちなのでメモ…

すごいメモだ…勉強になります

#ComputerVision #Pocket #Transformer #Attention #Architecture #Selected Papers/Blogs #ICCV #Backbone Issue Date: 2025-07-19 [Paper Note] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows, Ze Liu+, ICCV'21 GPT Summary- Swin Transformerは、コンピュータビジョンの新しいバックボーンとして機能する階層的トランスフォーマーを提案。シフトウィンドウ方式により、効率的な自己注意計算を実現し、さまざまなスケールでのモデリングが可能。画像分類や物体検出、セマンティックセグメンテーションなどで従来の最先端を上回る性能を示し、トランスフォーマーのビジョンバックボーンとしての可能性を示唆。コードは公開されている。 Comment

日本語解説: https://qiita.com/m_sugimura/items/139b182ee7c19c83e70a

画像処理において、物体の異なるスケールや、解像度に対処するために、PatchMergeと呼ばれるプーリングのような処理と、固定サイズのローカルなwindowに分割してSelf-Attentionを実施し、layerごとに通常のwindowとシフトされたwindowを適用することで、window間を跨いだ関係性も考慮できるようにする機構を導入したモデル。

#NLP #LanguageModel #Evaluation #Slide #Japanese #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment

独自LLM開発の私の想像など遥かに超える非常に困難な側面が記述されており、これをできるのはあまりにもすごいという感想を抱いた（小並感だけど本当にすごいと思う。すごいとしか言いようがない）

#MachineLearning #Pocket #NLP #LanguageModel #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2025-07-14 [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25 GPT Summary- Muonオプティマイザーを大規模モデルにスケールアップするために、ウェイトデケイとパラメータごとの更新スケール調整を導入。これにより、Muonは大規模トレーニングで即座に機能し、計算効率がAdamWの約2倍に向上。新たに提案するMoonlightモデルは、少ないトレーニングFLOPで優れたパフォーマンスを達成し、オープンソースの分散Muon実装や事前トレーニング済みモデルも公開。 Comment

解説ポスト:

Loading…

こちらでも紹介されている:
- きみはNanoGPT speedrunを知っているか？, PredNext, 2025.07

解説:

Loading…

#NLP #LanguageModel #Optimizer #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #Stability #KeyPoint Notes #Reference Collection Issue Date: 2025-07-12 Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07 Comment

元ポスト:

Loading…

1T-A32Bのモデル。さすがに高性能。

（追記） Reasoningモデルではないのにこの性能のようである。

1T-A32Bのモデルを15.5Tトークン訓練するのに一度もtraining instabilityがなかったらしい
元ポスト:

Loading…

量子化したモデルが出た模様:

Loading…

仕事早すぎる

DeepSeek V3/R1とのアーキテクチャの違い:

Loading…

MLAのヘッドの数が減り、エキスパートの数を増加させている

解説ポスト:

Loading…

利用されているOptimizer:
- [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25

2つほどバグがあり修正された模様:

Loading…

chatbot arenaでOpenLLMの中でトップのスコア
元ポスト:

Loading…

テクニカルペーパーが公開: https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf

元ポスト:

Loading…

テクニカルレポートまとめ:

Loading…

以下のような技術が使われている模様
- Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25
- MLA MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07
- MuonCip
- MuonOptimizer [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25
- QK-Clip
- 参考（こちらはLayerNormを使っているが）: Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N/A, CVPR'24
- RLVR
- DeepSeek-R1, DeepSeek, 2025.01
- Self-Critique
- 関連: [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25
- [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards, Xun Lu, arXiv'25
- Temperature Decay
- 最初はTemperatureを高めにした探索多めに、後半はTemperatureを低めにして効用多めになるようにスケジューリング
- Tool useのためのSynthetic Data

https://github.com/user-attachments/assets/74eacdb2-8f64-4d53-b2d0-66df770f2e8b" />

Reward Hackingに対処するため、RLVRではなくpairwise comparisonに基づくself judging w/ critique を利用きており、これが非常に効果的な可能性があるのでは、という意見がある:

Loading…

#Analysis #Pretraining #Pocket #NLP #LanguageModel #COLM #Selected Papers/Blogs #Stability #KeyPoint Notes Issue Date: 2025-07-11 [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25 GPT Summary- 大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment

元ポスト:

Loading…

small sub-layers, large shortcutsの説明はこちらに書かれている。前者については、現在主流なLLMの初期化手法は満たしているが、後者はオリジナルのTransformerの実装では実装されている[^1]が、最近の実装では失われてしまっているとのこと。

下図が実験結果で、条件の双方を満たしているのはEmbedLN[^2]とScaled Embed[^3]のみであり、実際にスパイクが生じていないことがわかる。

[^1]:オリジナル論文 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 の3.4節末尾、embedding layersに対してsqrt(d_model)を乗じるということがサラッと書いてある。これが実はめちゃめちゃ重要だったという…
[^2]: positional embeddingを加算する前にLayer Normalizationをかける方法
[^3]: EmbeddingにEmbeddingの次元数d（i.e., 各レイヤーのinputの次元数)の平方根を乗じる方法

前にScaled dot-product attentionのsqrt(d_k)がめっちゃ重要ということを実験的に示した、という話もあったような…
（まあそもそも元論文になぜスケーリングさせるかの説明は書いてあるけども）

著者ポスト（スライド）:

Loading…

非常に興味深いので参照のこと。初期化の気持ちの部分など勉強になる。

#ComputerVision #Pocket #DiffusionModel #ICLR #Selected Papers/Blogs #FlowMatching #OptimalTransport Issue Date: 2025-07-09 [Paper Note] Flow Matching for Generative Modeling, Yaron Lipman+, ICLR'23 GPT Summary- Continuous Normalizing Flows（CNFs）に基づく新しい生成モデルの訓練手法Flow Matching（FM）を提案。FMは固定された条件付き確率経路のベクトル場を回帰し、シミュレーション不要で訓練可能。拡散経路と併用することで、より堅牢な訓練が実現。最適輸送を用いた条件付き確率経路は効率的で、訓練とサンプリングが速く、一般化性能も向上。ImageNetでの実験により、FMは拡散ベース手法よりも優れた性能を示し、迅速なサンプル生成を可能にする。 Comment

#Tutorial #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment

元ポスト:

Loading…

SmolLM3を構築する際の詳細なレシピ(アーキテクチャ、データ、data mixture, 3 stageのpretraining(web, code, mathの割合と品質をステージごとに変え、stable->stable->decayで学習), midtraining(long context->reasoning, post training(sft->rl), ハイブリッドreasoningモデルの作り方、評価など)が説明されている

学習/評価スクリプトなどがリリース:

Loading…

#ComputerVision #Embeddings #Pocket #NLP #Dataset #Evaluation #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#ComputerVision #Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #MultiModal #RAG(RetrievalAugmentedGeneration) #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#Analysis #Pocket #NLP #Transformer #EMNLP #Selected Papers/Blogs #FactualKnowledge Issue Date: 2025-07-04 [Paper Note] Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, EMNLP'21 GPT Summary- フィードフォワード層はトランスフォーマーモデルの大部分を占めるが、その役割は未探求。研究により、フィードフォワード層がキー・バリュー・メモリとして機能し、トレーニング例のテキストパターンと相関することを示す。実験で、下層は浅いパターン、上層は意味的なパターンを学習し、バリューが出力分布を誘導することが確認された。最終的に、フィードフォワード層の出力はメモリの合成であり、残差接続を通じて洗練される。 Comment

日本語解説（p.5より）: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022?slide=5

#RecommenderSystems #Pocket #Transformer #SequentialRecommendation #ICDM #Selected Papers/Blogs Issue Date: 2025-07-04 [Paper Note] Self-Attentive Sequential Recommendation, Wang-Cheng Kang+, ICDM'18 GPT Summary- 自己注意に基づく逐次モデル（SASRec）を提案し、マルコフ連鎖と再帰型ニューラルネットワークの利点を統合。SASRecは、少数のアクションから次のアイテムを予測し、スパースおよび密なデータセットで最先端のモデルを上回る性能を示す。モデルの効率性と注意重みの視覚化により、データセットの密度に応じた適応的な処理が可能であることが確認された。 #Pocket #NLP #LanguageModel #Transformer #Architecture #Normalization #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-07-03 [Paper Note] The Curse of Depth in Large Language Models, Wenfang Sun+, arXiv'25 GPT Summary- 本論文では、「深さの呪い」という現象を紹介し、LLMの深い層が期待通りに機能しない理由を分析します。Pre-LNの使用が出力の分散を増加させ、深い層の貢献を低下させることを特定。これを解決するために層正規化スケーリング（LNS）を提案し、出力分散の爆発を抑制します。実験により、LNSがLLMの事前トレーニング性能を向上させることを示し、教師ありファインチューニングにも効果があることを確認しました。 Comment

元ポスト:

Loading…

- Transformers without Normalization, Jiachen Zhu+, CVPR'25

ではそもそもLayerNormalizationを無くしていた（正確にいうとparametrize tanhに置換)が、どちらが優れているのだろうか？

- Knowledge Neurons in Pretrained Transformers, Damai Dai+, N/A, ACL'22, 2022.05

では知識ニューロンの存在が示唆されており、これはTransformerの層の深い位置に存在し、かつ異なる知識間で知識ニューロンはシェアされない傾向にあった（ただしこれはPost-LNのBERTの話で本研究はPre-LNの話だが。Post-LNの勾配消失問題を緩和し学習を安定化させる研究も[Paper Note] On Layer Normalizations and Residual Connections in Transformers, Sho Takase+, arXiv'22 のように存在する)。これはこの研究が明らかにしたこととどういう関係性があるだろうか。

また、LayerNormalizationのScalingによって深いTransformerブロックの導関数が単位行列となる（学習に寄与しなくなる）ことが改善された場合、知識ニューロンはどのように変化するだろうか？

（下記Geminiの応答を見た上での感想)なんとなーくだけれども、おそらく知識ニューロンの局所化が解消されるのかなーという気がする。

となると次の疑問としては、MoEアーキテクチャにはどのような影響があるだろうか？
そもそも知識ニューロンが局所化しているからMoEアーキテクチャのルータによって関連するExpertsのみをactivateすれば（というより結果的にそうなるように学習される）性能を劣化させずに計算効率を上げられていた、と仮定する。そうすると、知識ニューロンが局所化せずに多くのニューロンでシェアされるようになると、[Paper Note] Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models, Zihan Wang+, arXiv'25 のように、サブネットワーク間の情報を互いにやりとりできます、みたいな仕組みがより効いてきそうな気がする。

参考までに、Gemini2.5-Proに考察させてみた結果をメモとして残しておく（あくまで参考程度に...）
```
ご質問ありがとうございます。非常に興味深い着眼点ですね。「Knowledge Neurons in Pretrained Transformers」と「The Curse of Depth in Large Language Models」は、一見すると全く異なるテーマを扱っているように見えますが、**「Transformerの深い層における振る舞い」**という共通点で結びつけて考察すると、非常に示唆に富んだ関係性が見えてきます。

以下に、両方の論文の概要を解説し、その関係性について考察します。

1. Knowledge Neurons in Pretrained Transformers の概要
この研究は、事前学習済みTransformerモデル（特にBERTなど）の内部で、特定の事実知識がどのように格納されているかを調査したものです。

発見: モデルの中間層、特に**全結合層（Feed-Forward Network, FFN）に、特定の知識（例：「ダンテ・アリギエーリはイタリアで生まれた」）に強く反応する「知識ニューロン」**が存在することを発見しました。

特徴: これらの知識ニューロンは、モデルの深い層（後方の層）に、より多く存在する傾向がありました。

意味: これまでブラックボックスとされてきた大規模言語モデルの内部で、知識がどのように表現・局在化しているかについて、具体的な手がかりを与えた画期的な研究です。

2. The Curse of Depth in Large Language Models の概要
この研究は、LLMをより深く（層を多く）することの難しさに焦点を当て、その原因と解決策を提案したものです。

問題（深さの呪い）: Transformerの標準的なアーキテクチャ（Pre-LN）では、層が深くなるにつれて、LayerNormalization（LN）への入力の分散が指数関数的に増大してしまいます。

結果:

出力が大きくなりすぎて学習が不安定になります。

さらに深刻なのは、深い層ではモデルの出力に関する導関数（勾配計算に必要）がほぼ単位行列になってしまうことです。これは、その層が入力に対してほとんど変換を行わなくなり、学習に寄与しなくなることを意味します。

解決策: この問題を解決するため、各層のLayerNormalizationをその深さ（レイヤー番号 l）に応じてスケーリングするというシンプルな手法を提案しました。これにより、深い層でも勾配が適切に伝播し、学習が安定・改善することが示されました。

考察：2つの研究の関係性
これら2つの研究は、**「学習の安定性」と「知識の格納方法」**という異なる側面から、Transformerの深い層を分析していますが、両者には以下のような深い関係性があると考えられます。

学習の不安定性が「知識ニューロン」形成の背景にある可能性
「The Curse of Depth」で指摘されているように、標準的なTransformerの深い層は、本質的に学習が不安定で、勾配情報が失われやすい環境にあります。

この劣悪な学習環境こそが、「知識ニューロン」という形で知識が局所的に格納される原因の一つになっている可能性があります。つまり、

学習の非効率性: 深い層のほとんどのニューロンは、勾配消失問題のために効率的に学習を進めることができません。

専門化の発生: そのような不安定な環境下で、たまたま特定の知識パターンをうまく捉えることができた一部のニューロンが、その知識を一身に背負う形で強く活性化するよう特化（専門化）していったのではないか、と考えられます。これは、ネットワーク全体で協調して学習するのが難しい状況で、一部のユニットだけが突出して学習を担う、という現象と解釈できます。

学習の安定化が、より効率的な知識獲得につながる
では、「The Curse of Depth」で提案された手法（LNのスケーリング）によって深い層の学習が安定化すると、知識の格納方法はどのように変わるでしょうか。

これは非常に興味深い問いであり、2つの可能性が考えられます。

可能性A: より強固な知識ニューロンの形成:
学習が安定することで、各知識ニューロンはより明確に、そして効率的に特定の知識をエンコードできるようになるかもしれません。ノイズの多い環境で偶然生まれた専門家ではなく、安定した環境で育成された真の専門家へと変化するイメージです。

可能性B: 知識の分散化:
ネットワークの全ニューロンが効率的に学習に寄与できるようになるため、一つの知識を少数のニューロンに集中させる必要がなくなり、より多くのニューロンに分散して知識が格納されるようになる可能性も考えられます。

現在のところ、学習の安定化は、知識ニューロンがより効率的に形成・機能するための基盤を提供すると考えるのが最も妥当でしょう。「深さの呪い」という問題を解決することは、モデルが知識をどのように獲得し、整理するかという、より根源的なメカニズム（知識ニューロンの振る舞い）にも直接的な影響を与えるはずです。

まとめ
「Knowledge Neurons」は深い層に存在する知識の**「状態」を明らかにし、「The Curse of Depth」は深い層で発生する学習の「問題」**とその解決策を提示しました。

これらを統合すると、**「深い層における学習の不安定性という問題が、知識ニューロンという局所的な知識表現を生み出す一因となっており、この問題を解決することで、より効率的で安定した知識の獲得・格納が可能になるかもしれない」**という関係性が見えてきます。

両者は、LLMの能力と限界を異なる角度から照らし出しており、組み合わせることでモデルの内部動作の解明をさらに一歩前進させる、非常に重要な研究だと言えます。
```

#ComputerVision #Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM

アーキテクチャはこちら。が、pretraining(データのフィルタリング, マルチモーダル→long context継続事前学習)->SFT(cold startへの対処, reasoning能力の獲得)->RL(RLVRとRLHFの併用によるパフォーマンス向上とAlignment, RewardHackingへの対処,curriculum sampling)など、全体の学習パイプラインの細かいテクニックの積み重ねで高い性能が獲得されていると考えられる。

#ComputerVision #Pretraining #Pocket #LanguageModel #MultiModal #Selected Papers/Blogs #ICCV Issue Date: 2025-06-29 [Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23 GPT Summary- シンプルなペアワイズシグモイド損失（SigLIP）を提案し、画像-テキストペアに基づく言語-画像事前学習を改善。シグモイド損失はバッチサイズの拡大を可能にし、小さなバッチサイズでも性能向上を実現。SigLiTモデルは84.5%のImageNetゼロショット精度を達成。バッチサイズの影響を研究し、32kが合理的なサイズであることを確認。モデルは公開され、さらなる研究の促進を期待。 Comment

SigLIP論文

#EfficiencyImprovement #Pretraining #Pocket #NLP #Dataset #LanguageModel #MultiLingual #COLM #Selected Papers/Blogs Issue Date: 2025-06-28 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment

元ポスト:

Loading…

v1
- The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24

abstを見る限りFinewebを多言語に拡張した模様

openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion

#Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-06-27 [Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 GPT Summary- 異なるベース言語モデル（LlamaやQwen）の強化学習（RL）における挙動を調査し、中間トレーニング戦略がRLのダイナミクスに与える影響を明らかに。高品質の数学コーパスがモデルのパフォーマンスを向上させ、長い連鎖的思考（CoT）がRL結果を改善する一方で、冗長性や不安定性を引き起こす可能性があることを示す。二段階の中間トレーニング戦略「Stable-then-Decay」を導入し、OctoThinkerモデルファミリーを開発。オープンソースのモデルと数学推論コーパスを公開し、RL時代の基盤モデルの研究を支援することを目指す。 Comment

元ポスト:

Loading…

mid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematicallyに調査している模様

論文中にはmid-training[^1]の定義が記述されている:

https://github.com/user-attachments/assets/da206d3d-f811-4d69-8210-a1d0816c827f" />

[^1]: mid-trainingについてはコミュニティの間で厳密な定義はまだ無くバズワードっぽく使われている、という印象を筆者は抱いており、本稿は文献中でmid-trainingを定義する初めての試みという所感

#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Selected Papers/Blogs #ICCV #Encoder #Backbone Issue Date: 2025-06-26 [Paper Note] OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, ICCV'25 GPT Summary- OpenVisionは、完全にオープンでコスト効果の高いビジョンエンコーダーのファミリーを提案し、CLIPと同等以上の性能を発揮します。既存の研究を基に構築され、マルチモーダルモデルの進展に実用的な利点を示します。5.9Mから632.1Mパラメータのエンコーダーを提供し、容量と効率の柔軟なトレードオフを実現します。 Comment

元ポスト:

Loading…

v2へアップデート:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

テクニカルペーパーが出た模様

- [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25

HF: https://huggingface.co/collections/UCSC-VLAA/openvision-681a4c27ee1f66411b4ae919
pj page: https://ucsc-vlaa.github.io/OpenVision/

CLIP, SigLIPとは異なり完全にオープンなVision Encoder

v2の解説:

Loading…

#Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Selected Papers/Blogs #PRM Issue Date: 2025-06-26 [Paper Note] Let's Verify Step by Step, Hunter Lightman+, ICLR'24 GPT Summary- 大規模言語モデルの多段階推論能力が向上する中、論理的誤りが依然として問題である。信頼性の高いモデルを訓練するためには、結果監視とプロセス監視の比較が重要である。独自の調査により、プロセス監視がMATHデータセットの問題解決において結果監視を上回ることを発見し、78%の問題を解決した。また、アクティブラーニングがプロセス監視の効果を向上させることも示した。関連研究のために、80万の人間フィードバックラベルからなるデータセットPRM800Kを公開した。 Comment

OpenReview: https://openreview.net/forum?id=v8L0pN6EOi

PRM800K: https://github.com/openai/prm800k/tree/main

#Pocket #NLP #LanguageModel #Alignment #SyntheticData #SyntheticDataGeneration #ICLR #Selected Papers/Blogs Issue Date: 2025-06-25 [Paper Note] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR'25 GPT Summary- 高品質な指示データはLLMの整合に不可欠であり、Magpieという自己合成手法を提案。Llama-3-Instructを用いて400万の指示と応答を生成し、30万の高品質なインスタンスを選定。Magpieでファインチューニングしたモデルは、従来のデータセットを用いたモデルと同等の性能を示し、特に整合ベンチマークで優れた結果を得た。 Comment

OpenReview: https://openreview.net/forum?id=Pnk7vMbznK

下記のようなpre-queryテンプレートを与え（i.e., userの発話は何も与えず、ユーザの発話を表す特殊トークンのみを渡す）instructionを生成し、post-queryテンプレートを与える（i.e., pre-queryテンプレート+生成されたinstruction+assistantの発話の開始を表す特殊トークンのみを渡す）ことでresponseを生成することで、prompt engineeringやseed無しでinstruction tuningデータを合成できるという手法。

生成した生のinstruction tuning pair dataは、たとえば下記のようなフィルタリングをすることで品質向上が可能で

reward modelと組み合わせてLLMからのresponseを生成しrejection samplingすればDPOのためのpreference dataも作成できるし、single turnの発話まで生成させた後もう一度pre/post-queryをconcatして生成すればMulti turnのデータも生成できる。

他のも例えば、システムプロンプトに自分が生成したい情報を与えることで、特定のドメインに特化したデータ、あるいは特定の言語に特化したデータも合成できる。

#Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain Issue Date: 2025-06-22 [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

post-trainingにおけるRLのcross domain（Math, Code, Science, Logic, Tabular)における影響を調査した研究。非常に興味深い研究。詳細は元論文が著者ポスト参照のこと。

Qwenシリーズで実験。以下ポストのまとめ。

- mid trainingにおいて重点的に学習されたドメインはRLによるpost trainingで強い転移を発揮する（Code, Math, Science)
- 一方、mid trainingであまり学習データ中に出現しないドメインについては転移による性能向上は最小限に留まり、in-domainの学習データをきちんと与えてpost trainingしないと性能向上は限定的
- 簡単なタスクはcross domainの転移による恩恵をすぐに得やすい（Math500, MBPP),難易度の高いタスクは恩恵を得にくい
- 各ドメインのデータを一様にmixすると、単一ドメインで学習した場合と同等かそれ以上の性能を達成する
- 必ずしもresponse lengthが長くなりながら予測性能が向上するわけではなく、ドメインによって傾向が異なる
- たとえば、Code, Logic, Tabularの出力は性能が向上するにつれてresponse lengthは縮小していく
- 一方、Science, Mathはresponse lengthが増大していく。また、Simulationは変化しない
- 異なるドメインのデータをmixすることで、最初の数百ステップにおけるrewardの立ち上がりが早く（単一ドメインと比べて急激にrewardが向上していく）転移がうまくいく
- （これは私がグラフを見た感想だが、単一ドメインでlong runで学習した場合の最終的な性能は4/6で同等程度、2/6で向上（Math, Science)
- 非常に難易度の高いmathデータのみにフィルタリングすると、フィルタリング無しの場合と比べて難易度の高いデータに対する予測性能は向上する一方、簡単なOODタスク（HumanEval)の性能が大幅に低下する（特定のものに特化するとOODの性能が低下する）
- RLはpre(mid)-trainingで学習されたreasoning能力を引き出すだけではなく、新規のタスクに対しては新たなreasoning能力を獲得できる
- モデルサイズが小さいと、RLでpost-training後のpass@kのkを大きくするとどこかでサチり、baseモデルと交差するが、大きいとサチらず交差しない
- モデルサイズが大きいとより多様なreasoningパスがunlockされている
- pass@kで観察したところRLには2つのphaseのよつなものが観測され、最初の0-160（1 epoch)ステップではpass@1が改善したが、pass@max_kは急激に性能が劣化した。一方で、160ステップを超えると、双方共に徐々に性能改善が改善していくような変化が見られた

本研究で構築されたGuru Dataset: https://huggingface.co/datasets/LLM360/guru-RL-92k

math, coding, science, logic, simulation, tabular reasoningに関する高品質、かつverifiableなデータセット。

#ComputerVision #Pocket #Transformer #CVPR #read-later #Selected Papers/Blogs #3D Reconstruction #Backbone Issue Date: 2025-06-22 [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

Hardな問題は現状のSoTAモデル（Claude4が含まれていないが）でも正答率0.0%

ベンチマークに含まれる課題のカテゴリ

実サンプルやケーススタディなどはAppendix参照のこと。

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#NLP #LanguageModel #Zero/FewShotLearning #Selected Papers/Blogs Issue Date: 2025-06-15 [Paper Note] Language Models are Unsupervised Multitask Learners, Radford+, OpenAI, 2019 Comment

今更ながら、GPT-2論文をメモってなかったので追加。

従来のモデルは特定のタスクを解くためにタスクごとに個別のモデルをFinetuningする必要があったが、大規模なWebTextデータ（Redditにおいて最低3つのupvoteを得たポストの外部リンクを収集）によって言語モデルを訓練し、モデルサイズをスケーリングさせることで、様々なタスクで高い性能を獲得でき、Zero-Shot task transfer, p(output | input, task) , が実現できるよ、という話。

今ざっくり見返すと、Next Token Predictionという用語は論文中に出てきておらず、かつ "Language Modeling" という用語のみで具体的なlossは記述されておらず（当時はRNN言語モデルで広く学習方法が知られていたからだろうか？）、かつソースコードも学習のコードは提供されておらず、lossの定義も含まれていないように見える。

ソースコードのモデル定義:
https://github.com/openai/gpt-2/blob/master/src/model.py#L169

#NeuralNetwork #Pocket #SpeechProcessing #Selected Papers/Blogs Issue Date: 2025-06-13 [Paper Note] WaveNet: A Generative Model for Raw Audio, Aaron van den Oord+, arXiv'16 GPT Summary- 本論文では、音声波形を生成する深層ニューラルネットワークWaveNetを提案。自己回帰的なモデルでありながら、効率的に音声データを訓練可能。テキストから音声への変換で最先端の性能を示し、人間のリスナーに自然な音と評価される。話者の特性を忠実に捉え、アイデンティティに基づく切り替えが可能。音楽生成にも応用でき、リアルな音楽の断片を生成。また、音素認識のための有望な識別モデルとしての利用も示唆。 #Pocket #NLP #LanguageModel #Evaluation #ICLR #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-05-23 LiveBench: A Challenging, Contamination-Limited LLM Benchmark, Colin White+, ICLR'25 GPT Summary- テストセットの汚染を防ぐために、LLM用の新しいベンチマーク「LiveBench」を導入。LiveBenchは、頻繁に更新される質問、自動スコアリング、さまざまな挑戦的タスクを含む。多くのモデルを評価し、正答率は70%未満。質問は毎月更新され、LLMの能力向上を測定可能に。コミュニティの参加を歓迎。 Comment

テストデータのコンタミネーションに対処できるように設計されたベンチマーク。重要研究

#ComputerVision #Pocket #DataAugmentation #ContrastiveLearning #Self-SupervisedLearning #ICLR #Selected Papers/Blogs Issue Date: 2025-05-18 A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen+, ICML'20 GPT Summary- 本論文では、視覚表現の対比学習のためのシンプルなフレームワークSimCLRを提案し、特別なアーキテクチャやメモリバンクなしで対比自己教師あり学習を簡素化します。データ拡張の重要性、学習可能な非線形変換の導入による表現の質向上、対比学習が大きなバッチサイズと多くのトレーニングステップから利益を得ることを示し、ImageNetで従来の手法を上回る結果を達成しました。SimCLRによる自己教師あり表現を用いた線形分類器は76.5%のトップ1精度を達成し、教師ありResNet-50に匹敵します。ラベルの1%でファインチューニングした場合、85.8%のトップ5精度を達成しました。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #MatrixFactorization #RecSys #read-later #Selected Papers/Blogs #Reproducibility Issue Date: 2025-05-16 [Paper Note] Neural Collaborative Filtering vs. Matrix Factorization Revisited, Steffen Rendle+, RecSys'20 GPT Summary- 埋め込みベースのモデルにおける協調フィルタリングの研究では、MLPを用いた学習された類似度が提案されているが、適切なハイパーパラメータ選択によりシンプルなドット積が優れた性能を示すことが確認された。MLPは理論的には任意の関数を近似可能だが、実用的にはドット積の方が効率的でコストも低いため、MLPは慎重に使用すべきであり、ドット積がデフォルトの選択肢として推奨される。 #DocumentSummarization #NeuralNetwork #NLP #ICML #Selected Papers/Blogs Issue Date: 2025-05-13 PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization, Jingqing Zhang+, ICML'20 GPT Summary- 大規模なテキストコーパスに対して新しい自己教師ありの目的でトランスフォーマーを事前学習し、抽象的なテキスト要約に特化したモデルPEGASUSを提案。重要な文を削除またはマスクし、残りの文から要約を生成。12の下流要約タスクで最先端のROUGEスコアを達成し、限られたリソースでも優れたパフォーマンスを示す。人間評価でも複数のデータセットで人間のパフォーマンスに達したことを確認。 Comment

PEGASUSもなかったので追加。BARTと共に文書要約のBackboneとして今でも研究で利用される模様。

#ComputerVision #Dataset #Selected Papers/Blogs #ImageClassification #ObjectRecognition #ObjectLocalization Issue Date: 2025-05-13 ImageNet: A Large-Scale Hierarchical Image Database, Deng+, CVPR'09 #NeuralNetwork #ComputerVision #NeurIPS #Selected Papers/Blogs #ImageClassification #Backbone Issue Date: 2025-05-13 ImageNet Classification with Deep Convolutional Neural Networks, Krizhevsky+, NIPS'12 Comment

ILSVRC 2012において圧倒的な性能示したことで現代のDeepLearningの火付け役となった研究AlexNet。メモってなかったので今更ながら追加した。

AlexNet以前の画像認識技術については牛久先生がまとめてくださっている（当時の課題とそれに対する解決法、しかしまだ課題が…と次々と課題に直面し解決していく様子が描かれており非常に興味深かった)。現在でも残っている技術も紹介されている。:
https://speakerdeck.com/yushiku/pre_alexnet

> 過去の技術だからといって聞き流していると時代背景の変化によってなし得たイノベーションを逃すかも

これは肝に銘じたい。

#NeuralNetwork #ComputerVision #EfficiencyImprovement #Pocket #ICML #Selected Papers/Blogs #Backbone Issue Date: 2025-05-12 EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, Mingxing Tan+, ICML'19 GPT Summary- 本論文では、ConvNetsのスケーリングを深さ、幅、解像度のバランスを考慮して体系的に研究し、新しいスケーリング手法を提案。これにより、MobileNetsやResNetのスケールアップを実証し、EfficientNetsという新しいモデルファミリーを設計。特にEfficientNet-B7は、ImageNetで84.3%のトップ1精度を達成し、従来のConvNetsよりも小型かつ高速である。CIFAR-100やFlowersなどのデータセットでも最先端の精度を記録。ソースコードは公開されている。 Comment

元論文をメモってなかったので追加。
- EfficientNet解説, omiita (オミータ), 2019

も参照のこと。

#Pocket #NLP #LanguageModel #PEFT(Adaptor/LoRA) #ICLR #PostTraining #Selected Papers/Blogs Issue Date: 2025-05-12 LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu+, ICLR'22 GPT Summary- LoRAは、事前学習された大規模モデルの重みを固定し、各層に訓練可能なランク分解行列を追加することで、ファインチューニングに必要なパラメータを大幅に削減する手法です。これにより、訓練可能なパラメータを1万分の1、GPUメモリを3分の1に減少させながら、RoBERTaやGPT-3などで同等以上の性能を実現します。LoRAの実装はGitHubで公開されています。 Comment

OpenrReview: https://openreview.net/forum?id=nZeVKeeFYf9

LoRAもなんやかんやメモってなかったので追加。

事前学習済みのLinear Layerをfreezeして、freezeしたLinear Layerと対応する低ランクの行列A,Bを別途定義し、A,BのパラメータのみをチューニングするPEFT手法であるLoRAを提案した研究。オリジナルの出力に対して、A,Bによって入力を写像したベクトルを加算する。

チューニングするパラメータ数学はるかに少ないにも関わらずフルパラメータチューニングと（これは諸説あるが）同等の性能でPostTrainingできる上に、事前学習時点でのパラメータがfreezeされているためCatastrophic Forgettingが起きづらく（ただし新しい知識も獲得しづらい）、A,Bの追加されたパラメータのみを保存すれば良いのでストレージに優しいのも嬉しい。

- [Paper Note] LoRA-Pro: Are Low-Rank Adapters Properly Optimized?, Zhengbo Wang+, ICLR'25, 2024.07

などでも示されているが、一般的にLoRAとFull Finetuningを比較するとLoRAの方が性能が低いことが知られている点には留意が必要。

#NeuralNetwork #Pretraining #Pocket #NLP #TransferLearning #PostTraining #Selected Papers/Blogs Issue Date: 2025-05-12 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel+, JMLR'20 GPT Summary- 転移学習はNLPにおいて強力な技術であり、本論文ではテキストをテキストに変換する統一フレームワークを提案。事前学習の目的やアーキテクチャを比較し、最先端の結果を達成。データセットやモデル、コードを公開し、今後の研究を促進する。 Comment

T5もメモっていなかったので今更ながら追加。全てのNLPタスクをテキスト系列からテキスト系列へ変換するタスクとみなし、Encoder-DecoderのTransformerを大規模コーパスを用いて事前学習をし、downstreamタスクにfinetuningを通じて転移する。

#NeuralNetwork #MachineTranslation #Pocket #NLP #Attention #ICLR #Selected Papers/Blogs Issue Date: 2025-05-12 Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR'15 GPT Summary- ニューラル機械翻訳は、エンコーダー-デコーダーアーキテクチャを用いて翻訳性能を向上させる新しいアプローチである。本論文では、固定長のベクトルの使用が性能向上のボトルネックであるとし、モデルが関連するソース文の部分を自動的に検索できるように拡張することを提案。これにより、英語からフランス語への翻訳タスクで最先端のフレーズベースシステムと同等の性能を達成し、モデルのアライメントが直感と一致することを示した。 Comment

(Cross-)Attentionを初めて提案した研究。メモってなかったので今更ながら追加。Attentionはここからはじまった（と認識している）

#NLP #LanguageModel #InstructionTuning #PostTraining #Selected Papers/Blogs Issue Date: 2025-05-12 Stanford Alpaca: An Instruction-following LLaMA Model, Taori +, 2023.03 Comment

今更ながらメモに追加。アカデミアにおけるOpenLLMに対するInstruction Tuningの先駆け的研究。

#EfficiencyImprovement #Pretraining #Pocket #NLP #Dataset #LanguageModel #ACL #Selected Papers/Blogs Issue Date: 2025-05-10 Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 GPT Summary- FineWeb-EduとDCLMは、モデルベースのフィルタリングによりデータの90%を削除し、トレーニングに適さなくなった。著者は、アンサンブル分類器や合成データの言い換えを用いて、精度とデータ量のトレードオフを改善する手法を提案。1Tトークンで8Bパラメータモデルをトレーニングし、DCLMに対してMMLUを5.6ポイント向上させた。新しい6.3Tトークンデータセットは、DCLMと同等の性能を持ちながら、4倍のユニークなトークンを含み、長トークンホライズンでのトレーニングを可能にする。15Tトークンのためにトレーニングされた8Bモデルは、Llama 3.1の8Bモデルを上回る性能を示した。データセットは公開されている。 #EfficiencyImprovement #Pretraining #Pocket #NLP #Dataset #LanguageModel #NeurIPS #Selected Papers/Blogs Issue Date: 2025-05-10 The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24 GPT Summary- 本研究では、15兆トークンからなるFineWebデータセットを紹介し、LLMの性能向上に寄与することを示します。FineWebは高品質な事前学習データセットのキュレーション方法を文書化し、重複排除やフィルタリング戦略を詳細に調査しています。また、FineWebから派生した1.3兆トークンのFineWeb-Eduを用いたLLMは、MMLUやARCなどのベンチマークで優れた性能を発揮します。データセット、コードベース、モデルは公開されています。 Comment

日本語解説: https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9

openreview: https://openreview.net/forum?id=n6SCkn2QaG#discussion

#MachineLearning #Pocket #NLP #LanguageModel #Hallucination #NeurIPS #read-later #ActivationSteering/ITI #Probing #Trustfulness #Selected Papers/Blogs Issue Date: 2025-05-09 Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 GPT Summary- Inference-Time Intervention (ITI)を提案し、LLMsの真実性を向上させる技術を紹介。ITIは推論中にモデルの活性化を調整し、LLaMAモデルの性能をTruthfulQAベンチマークで大幅に改善。Alpacaモデルでは真実性が32.5%から65.1%に向上。真実性と有用性のトレードオフを特定し、介入の強度を調整する方法を示す。ITIは低コストでデータ効率が高く、数百の例で真実の方向性を特定可能。LLMsが虚偽を生成しつつも真実の内部表現を持つ可能性を示唆。 Comment

Inference Time Interventionを提案した研究。Attention Headに対して線形プロービング[^1]を実施し、真実性に関連するであろうHeadをtopKで特定できるようにし、headの出力に対し真実性を高める方向性のベクトルvを推論時に加算することで（＝intervention）、モデルの真実性を高める。vは線形プロービングによって学習された重みを使う手法と、正答と誤答の活性化の平均ベクトルを計算しその差分をvとする方法の二種類がある。後者の方が性能が良い。topKを求める際には、線形プロービングをしたモデルのvalidation setでの性能から決める。Kとαはハイパーパラメータである。

[^1]: headのrepresentationを入力として受け取り、線形モデルを学習し、線形モデルの2値分類性能を見ることでheadがどの程度、プロービングの学習に使ったデータに関する情報を保持しているかを測定する手法

日本語解説スライド: https://www.docswell.com/s/DeepLearning2023/Z38P8D-2024-06-20-131813#p1

これは相当汎用的に使えそうな話だから役に立ちそう

#EfficiencyImprovement #Pocket #NLP #ReinforcementLearning #Reasoning #SmallModel #PEFT(Adaptor/LoRA) #GRPO #read-later #Selected Papers/Blogs Issue Date: 2025-05-07 [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25 GPT Summary- Tinaは、コスト効率よく強力な推論能力を実現する小型の推論モデルファミリーであり、1.5Bパラメータのベースモデルに強化学習を適用することで高い推論性能を示す。Tinaは、従来のSOTAモデルと競争力があり、AIME24で20%以上の性能向上を達成し、トレーニングコストはわずか9ドルで260倍のコスト削減を実現。LoRAを通じた効率的なRL推論の効果を検証し、すべてのコードとモデルをオープンソース化している。 Comment

元ポスト:

Loading…

（おそらく）Reasoningモデルに対して、LoRAとRLを組み合わせて、reasoning能力を向上させた初めての研究

#Analysis #NLP #LanguageModel #SyntheticData #read-later #Selected Papers/Blogs Issue Date: 2025-05-06 Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers, Zeyuan Allen-Zhu+, ICML'24 Tutorial Comment

元ポスト:

Loading…

Canon層の発見

著者による解説:

Loading…

#Analysis #Pocket #NLP #LanguageModel #SyntheticData #ICML #Selected Papers/Blogs Issue Date: 2025-05-03 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24 GPT Summary- 大規模言語モデル（LLMs）の知識抽出能力は、訓練データの多様性と強く相関しており、十分な強化がなければ知識は記憶されても抽出可能ではないことが示された。具体的には、エンティティ名の隠れ埋め込みに知識がエンコードされているか、他のトークン埋め込みに分散しているかを調査。LLMのプレトレーニングに関する重要な推奨事項として、補助モデルを用いたデータ再構成と指示微調整データの早期取り入れが提案された。 Comment

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

SNLP'24での解説スライド:
https://speakerdeck.com/sosk/physics-of-language-models-part-3-1-knowledge-storage-and-extraction

#NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Safety #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-29 Safety Alignment Should Be Made More Than Just a Few Tokens Deep, Xiangyu Qi+, ICLR'25 GPT Summary- 現在の大規模言語モデル（LLMs）の安全性アラインメントは脆弱であり、単純な攻撃や善意のファインチューニングによって脱獄される可能性がある。この脆弱性は「浅い安全性アラインメント」に起因し、アラインメントが主に最初の数トークンの出力にのみ適応されることに関連している。本論文では、この問題のケーススタディを提示し、現在のアラインされたLLMsが直面する脆弱性を説明する。また、浅い安全性アラインメントの概念が脆弱性軽減の研究方向を示唆し、初期トークンを超えたアラインメントの深化がロバスト性を向上させる可能性を示す。最後に、ファインチューニング攻撃に対する持続的な安全性アラインメントを実現するための正則化されたファインチューニング目的を提案する。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=6Mxhg9PtDE

Safety Alignment手法が最初の数トークンに依存しているからそうならないように学習しますというのは、興味深いテーマだし技術的にまだ困難な点もあっただろうし、インパクトも大きいし、とても良い研究だ…。

#Pocket #NLP #LanguageModel #Evaluation #Decoding #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-04-14 Non-Determinism of "Deterministic" LLM Settings, Berk Atil+, arXiv'24 GPT Summary- 本研究では、5つの決定論的LLMにおける非決定性を8つのタスクで調査し、最大15%の精度変動と70%のパフォーマンスギャップを観察。全てのタスクで一貫した精度を提供できないことが明らかになり、非決定性が計算リソースの効率的使用に寄与している可能性が示唆された。出力の合意率を示す新たなメトリクスTARr@NとTARa@Nを導入し、研究結果を定量化。コードとデータは公開されている。 Comment

- 論文中で利用されているベンチマーク:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

同じモデルに対して、seedを固定し、temperatureを0に設定し、同じ計算機環境に対して、同じinputを入力したら理論上はLLMの出力はdeterministicになるはずだが、deterministicにならず、ベンチマーク上の性能とそもそものraw response自体も試行ごとに大きく変化する、という話。
ただし、これはプロプライエタリLLMや、何らかのinferenceの高速化を実施したInferenceEngine（本研究ではTogetherと呼ばれる実装を使っていそう。vLLM/SGLangだとどうなるのかが気になる）を用いてinferenceを実施した場合での実験結果であり、後述の通り計算の高速化のためのさまざまな実装無しで、deterministicな設定でOpenLLMでinferenceすると出力はdeterministicになる、という点には注意。

GPTやLlama、Mixtralに対して上記ベンチマークを用いてzero-shot/few-shotの設定で実験している。Reasoningモデルは実験に含まれていない。
https://github.com/user-attachments/assets/b33f14d8-ed86-4589-a427-18a70b35d61a" />

LLMのraw_response/multiple choiceのparse結果（i.e., 問題に対する解答部分を抽出した結果）の一致（TARr@N, TARa@N; Nはinferenceの試行回数）も理論上は100%になるはずなのに、ならないことが報告されている。

https://github.com/user-attachments/assets/3159ff26-fc92-4fa8-90a6-f8c5e7ccf20e" />

correlation analysisによって、応答の長さと TAR{r, a}が強い負の相関を示しており、応答が長くなればなるほど不安定さは増すことが分析されている。このため、ontput tokenの最大値を制限することで出力の安定性が増すことを考察している。また、few-shotにおいて高いAcc.の場合は出力がdeterministicになるわけではないが、性能が安定する傾向とのこと。また、OpenAIプラットフォーム上でGPTのfinetuningを実施し実験したが、安定性に寄与はしたが、こちらもdeterministicになるわけではないとのこと。

deterministicにならない原因として、まずmulti gpu環境について検討しているが、multi-gpu環境ではある程度のランダム性が生じることがNvidiaの研究によって報告されているが、これはseedを固定すれば決定論的にできるため問題にならないとのこと。
続いて、inferenceを高速化するための実装上の工夫（e.g., Chunk Prefilling, Prefix Caching, Continuous Batching）などの実装がdeterministicなハイパーパラメータでもdeterministicにならない原因であると考察しており、**実際にlocalマシン上でこれらinferenceを高速化するための最適化を何も実施しない状態でLlama-8Bでinferenceを実施したところ、outputはdeterministicになったとのこと。**

論文中に記載がなかったため、どのようなInferenceEngineを利用したか公開されているgithubを見ると下記が利用されていた:

- Together: https://github.com/togethercomputer/together-python?tab=readme-ov-file

Togetherが内部的にどのような処理をしているかまでは追えていないのだが、異なるInferenceEngineを利用した場合に、どの程度outputの不安定さに差が出るのか（あるいは出ないのか）は気になる。たとえば、transformers/vLLM/SGLangを利用した場合などである。

論文中でも報告されている通り、昔管理人がtransformersを用いて、deterministicな設定でzephyrを用いてinferenceをしたときは、出力はdeterministicになっていたと記憶している（スループットは絶望的だったが...)。

あと個人的には現実的な速度でオフラインでinference engineを利用した時にdeterministicにはせめてなって欲しいなあという気はするので、何が原因なのかを実装レベルで突き詰めてくれるととても嬉しい（KV Cacheが怪しい気がするけど）。

たとえば最近SLMだったらKVCacheしてVRAM食うより計算し直した方が効率良いよ、みたいな研究があったような。そういうことをしたらlocal llmでdeterministicにならないのだろうか。

- Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09

においてvLLMを用いた場合にDeterministicな推論をするための解決方法が提案されている。

#Pocket #NLP #LanguageModel #ICLR #Decoding #Selected Papers/Blogs Issue Date: 2025-04-14 The Curious Case of Neural Text Degeneration, Ari Holtzman+, ICLR'20 GPT Summary- 深層ニューラル言語モデルは高品質なテキスト生成において課題が残る。尤度の使用がモデルの性能に影響を与え、人間のテキストと機械のテキストの間に分布の違いがあることを示す。デコーディング戦略が生成テキストの質に大きな影響を与えることが明らかになり、ニュークリアスsamplingを提案。これにより、多様性を保ちながら信頼性の低い部分を排除し、人間のテキストに近い質を実現する。 Comment

現在のLLMで主流なNucleus (top-p) Samplingを提案した研究

#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

SLMをmath reasoning向けにpost-trainingする場合、評価の条件をフェアにするための様々な工夫を施し評価をしなおした結果（Figure1のように性能が変化する様々な要因が存在する）、RL（既存研究で試されているもの）よりも（大規模モデルからrejection samplingしたreasoning traceを用いて）SFTをする方が同等か性能が良く(Table3)、結局のところ（おそらく汎化性能が低いという意味で）reliableではなく、かつ（おそらく小規模なモデルでうまくいかないという意味での）scalableではないので、reliableかつscalableなRL手法が不足しているとのこと。

※ 本論文で分析されているのは<=10B以下のSLMである点に注意。10B以上のモデルで同じことが言えるかは自明ではない。
※ DAPO, VAPOなどについても同じことが言えるかも自明ではない。
※ DeepSeek-R1のtechnical reportにおいて、小さいモデルにGRPOを適用してもあまり効果が無かったことが既に報告されている。

- DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01
- DeepSeek-R1, DeepSeek, 2025.01

個々のpost-trainingされたRLモデルが具体的にどういう訓練をしたのかは追えていないが、DAPOやDr. GRPO, VAPOの場合はどうなるんだろうか？

- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25
- VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv'25
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03

Rewardの設定の仕方はどのような影響があるのだろうか（verifiable rewardなのか、neuralモデルによるrewardなのかなど)？

学習のさせ方もどのような影響があるのだろうか（RLでカリキュラムlearningにした場合など）？

検証しているモデルがそれぞれどのような設定で学習されているかまでを見ないとこの辺はわからなそう。

ただなんとなーくの直感だと、SLMを賢くしたいという場合は何らかの賢いモデルの恩恵に預かると有利なケースが多く（SFTの場合はそれが大規模なモデルから蒸留したreasoning trace）、SLM+RLの場合はPRMのような思考プロセスを評価してRewardに反映させるようなものを利用しないと、少なくとも小規模なLLMをめちゃ賢くします〜というのはきついんじゃないかなあという感想ではある。
ただ、結局SLMという時点で多くの場合、より賢いパラメータ数の多いLLMが世の中には存在するあるはずなので、RLしないでSFTして蒸留すれば良いんじゃない…？と思ってしまう。
が、多くの場合その賢いLLMはProprietaryなLLMであり、出力を得て自分のモデルをpost-trainingすることは利用規約違反となるため、自前で賢くてパラメータ数の多いLLMを用意できない場合は困ってしまうので、SLMをクソデカパラメータのモデルの恩恵なしで超絶賢くできたら世の中の多くの人は嬉しいよね、とも思う。

（斜め読みだが）
サンプル数が少ない（数十件）AIMEやAMCなどのデータはseedの値にとてもsensitiveであり(Takeaway1, 2)、

https://github.com/user-attachments/assets/97581133-cf17-4635-b66c-442eaf8956d4" />

それらは10種類のseedを用いて結果を平均すると分散が非常に小さくなるので、seedは複数種類利用して平均の性能を見た方がreliableであり(Takeaway3)

https://github.com/user-attachments/assets/5065ef0e-de89-4b17-aa52-c90b7191e9b2" />

temperatureを高くするとピーク性能が上がるが分散も上がるため再現性の課題が増大するが、top-pを大きくすると再現性の問題は現れず性能向上に寄与し

https://github.com/user-attachments/assets/76d5c989-edbb-4d70-9080-d1d4b01de2ff" />

既存研究のモデルのtemperatureとtop-pを変化させ実験するとperformanceに非常に大きな変化が出るため、モデルごとに最適な値を選定して比較をしないとunfairであることを指摘 (Takeaway4)。

https://github.com/user-attachments/assets/d8b453d1-3d2e-4a80-b03d-c69ec1b2232e" />

また、ハードウェアの面では、vLLMのようなinference engineはGPU typeやmemoryのconfigurationに対してsensitiveでパフォーマンスが変わるだけでなく、

https://github.com/user-attachments/assets/a41891c7-072c-4c38-9ad6-beada4721bac" />

評価に利用するフレームワークごとにinference engineとprompt templateが異なるためこちらもパフォーマンスに影響が出るし (Takeaway5)、

https://github.com/user-attachments/assets/1f7d328c-0757-47b9-9961-630e2429fb3e" />

max output tokenの値を変化させると性能も変わり、prompt templateを利用しないと性能が劇的に低下する (Takeaway6)。

https://github.com/user-attachments/assets/dc0902d1-a5f2-47de-8df1-c28107e1da28" />

これらのことから著者らはreliableな評価のために下記を提案しており (4.1節; 後ほど追記)、

実際にさまざまな条件をfair comparisonとなるように標準化して評価したところ（4.2節; 後ほど追記）

上の表のような結果となった。この結果は、
- DeepSeekR1-DistilledをRLしてもSFTと比較したときに意味のあるほどのパフォーマンスの向上はないことから、スケーラブル、かつ信頼性のあるRL手法がまだ不足しており
- 大規模なパラメータのモデルのreasoning traceからSFTをする方法はさまざまなベンチマークでロバストな性能（＝高い汎化性能）を持ち、RLと比べると現状はRLと比較してよりパラダイムとして成熟しており
- （AIME24,25を比較するとSFTと比べてRLの場合performanceの低下が著しいので）RLはoverfittingしやすく、OODなベンチマークが必要

しっかりと評価の枠組みを標準化してfair comparisonしていかないと、RecSys業界の二の舞になりそう（というかもうなってる？）。

またこの研究で分析されているのは小規模なモデル（<=10B）に対する既存研究で用いられた一部のRL手法や設定の性能だけ（真に示したかったらPhisics of LLMのような完全にコントロール可能なサンドボックスで実験する必要があると思われる）なので、DeepSeek-R1のように、大規模なパラメータ（数百B）を持つモデルに対するRLに関して同じことが言えるかは自明ではない点に注意。

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

最近の以下のようなSFTはRLの一つのケースと見做せるという議論を踏まえるとどうなるだろうか

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25

#NLP #Dataset #LanguageModel #AIAgents #Evaluation #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#EfficiencyImprovement #NLP #LanguageModel #Transformer #LongSequence #PositionalEncoding #NeurIPS #Selected Papers/Blogs Issue Date: 2025-04-06 The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS'23 GPT Summary- 長さ一般化はTransformerベースの言語モデルにおける重要な課題であり、位置エンコーディング（PE）がその性能に影響を与える。5つの異なるPE手法（APE、T5の相対PE、ALiBi、Rotary、NoPE）を比較した結果、ALiBiやRotaryなどの一般的な手法は長さ一般化に適しておらず、NoPEが他の手法を上回ることが明らかになった。NoPEは追加の計算を必要とせず、絶対PEと相対PEの両方を表現可能である。さらに、スクラッチパッドの形式がモデルの性能に影響を与えることも示された。この研究は、明示的な位置埋め込みが長いシーケンスへの一般化に必須でないことを示唆している。 Comment

- Llama 4 Series, Meta, 2025.04

において、Llama4 Scoutが10Mコンテキストウィンドウを実現できる理由の一つとのこと。

元ポスト:

Loading…

Llama4のブログポストにもその旨記述されている:
>A key innovation in the Llama 4 architecture is the use of interleaved attention layers without positional embeddings. Additionally, we employ inference time temperature scaling of attention to enhance length generalization.

[The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation]( https://ai.meta.com/blog/llama-4-multimodal-intelligence/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4)

斜め読みだが、length generalizationを評価する上でdownstream taskに焦点を当て、3つの代表的なカテゴリに相当するタスクで評価したところ、この観点においてはT5のrelative positinal encodingとNoPE（位置エンコードディング無し）のパフォーマンスが良く、

NoPEは絶対位置エンコーディングと相対位置エンコーディングを理論上実現可能であり[^1]

実際に学習された異なる2つのモデルに対して同じトークンをそれぞれinputし、同じ深さのLayerの全てのattention distributionの組み合わせからJensen Shannon Divergenceで距離を算出し、最も小さいものを2モデル間の当該layerの距離として可視化すると下記のようになり、NoPEとT5のrelative positional encodingが最も類似していることから、NoPEが学習を通じて（実用上は）相対位置エンコーディングのようなものを学習することが分かった。

[^1]:深さ1のLayerのHidden State H^1から絶対位置の復元が可能であり（つまり、当該レイヤーのHが絶対位置に関する情報を保持している）、この前提のもと、後続のLayerがこの情報を上書きしないと仮定した場合に、相対位置エンコーディングを実現できる。

また、CoT/Scratchpadはlong sequenceに対する汎化性能を向上させることがsmall scaleではあるが先行研究で示されており、Positional Encodingを変化させた時にCoT/Scratchpadの性能にどのような影響を与えるかを調査。

具体的には、CoT/Scratchpadのフォーマットがどのようなものが有効かも明らかではないので、5種類のコンポーネントの組み合わせでフォーマットを構成し、mathematical reasoningタスクで以下のような設定で訓練し

- さまざまなコンポーネントの組み合わせで異なるフォーマットを作成し、
- 全ての位置エンコーディングあり/なしモデルを訓練

これらを比較した。この結果、CoT/Scratchpadはフォーマットに関係なく、特定のタスクでのみ有効（有効かどうかはタスク依存）であることが分かった。このことから、CoT/Scratcpad（つまり、モデルのinputとoutputの仕方）単体で、long contextに対する汎化性能を向上させることができないので、Positional Encoding（≒モデルのアーキテクチャ）によるlong contextに対する汎化性能の向上が非常に重要であることが浮き彫りになった。

また、CoT/Scratchpadが有効だったAdditionに対して各Positional Embeddingモデルを学習し、生成されたトークンのattentionがどの位置のトークンを指しているかを相対距離で可視化したところ（0が当該トークン、つまり現在のScratchpadに着目しており、1が遠いトークン、つまりinputに着目していることを表すように正規化）、NoPEとRelative Positional Encodingがshort/long rangeにそれぞれフォーカスするようなbinomialな分布なのに対し、他のPositional Encodingではよりuniformな分布であることが分かった。このタスクにおいてはNoPEとRelative POの性能が高かったため、binomialな分布の方がより最適であろうことが示唆された。

#Pocket #NLP #LanguageModel #Attention #ICLR #AttentionSinks #read-later #Selected Papers/Blogs Issue Date: 2025-04-05 When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR'25 GPT Summary- 言語モデルにおける「アテンションシンク」は、意味的に重要でないトークンに大きな注意を割り当てる現象であり、さまざまな入力に対して小さなモデルでも普遍的に存在することが示された。アテンションシンクは事前学習中に出現し、最適化やデータ分布、損失関数がその出現に影響を与える。特に、アテンションシンクはキーのバイアスのように機能し、情報を持たない追加のアテンションスコアを保存することがわかった。この現象は、トークンがソフトマックス正規化に依存していることから部分的に生じており、正規化なしのシグモイドアテンションに置き換えることで、アテンションシンクの出現を防ぐことができる。 Comment

Sink Rateと呼ばれる、全てのheadのFirst Tokenに対するattention scoreのうち（layer l * head h個存在する）、どの程度の割合のスコアが閾値を上回っているかを表す指標を提案
（後ほど詳細を追記する）

- Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

の先行研究

著者ポスト（openai-gpt-120Bを受けて):

Loading…

openreview: https://openreview.net/forum?id=78Nn4QJTEN

#Pocket #Attention #LongSequence #ICLR #AttentionSinks #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-04-05 Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR'24 GPT Summary- 大規模言語モデル（LLMs）をマルチラウンド対話に展開する際の課題として、メモリ消費と長いテキストへの一般化の難しさがある。ウィンドウアテンションはキャッシュサイズを超えると失敗するが、初期トークンのKVを保持することでパフォーマンスが回復する「アテンションシンク」を発見。これを基に、StreamingLLMというフレームワークを提案し、有限のアテンションウィンドウでトレーニングされたLLMが無限のシーケンス長に一般化可能になることを示した。StreamingLLMは、最大400万トークンで安定した言語モデリングを実現し、ストリーミング設定で従来の手法を最大22.2倍の速度で上回る。 Comment

Attention Sinksという用語を提言した研究

下記のpassageがAttention Sinksの定義（＝最初の数トークン）とその気持ち（i.e., softmaxによるattention scoreは足し合わせて1にならなければならない。これが都合の悪い例として、現在のtokenのqueryに基づいてattention scoreを計算する際に過去のトークンの大半がirrelevantな状況を考える。この場合、irrelevantなトークンにattendしたくはない。そのため、auto-regressiveなモデルでほぼ全てのcontextで必ず出現する最初の数トークンを、irrelevantなトークンにattendしないためのattention scoreの捨て場として機能するのうに学習が進む）の理解に非常に重要
> To understand the failure of window attention, we find an interesting phenomenon of autoregressive LLMs: a surprisingly large amount of attention score is allocated to the initial tokens, irrespective of their relevance to the language modeling task, as visualized in Figure 2. We term these tokens
“attention sinks". Despite their lack of semantic significance, they collect significant attention scores. We attribute the reason to the Softmax operation, which requires attention scores to sum up to one for all contextual tokens. Thus, even when the current query does not have a strong match in many previous tokens, the model still needs to allocate these unneeded attention values somewhere so it sums up to one. The reason behind initial tokens as sink tokens is intuitive: initial tokens are visible to almost all subsequent tokens because of the autoregressive language modeling nature, making them more readily trained to serve as attention sinks.

- Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

の先行研究。こちらでAttentionSinkがどのように作用しているのか？が分析されている。

Figure1が非常にわかりやすい。Initial Token（実際は3--4トークン）のKV Cacheを保持することでlong contextの性能が改善する（Vanilla)。あるいは、Softmaxの分母に1を追加した関数を用意し（数式2)、全トークンのattention scoreの合計が1にならなくても許されるような変形をすることで、余剰なattention scoreが生じないようにすることでattention sinkを防ぐ（Zero Sink)。これは、ゼロベクトルのトークンを追加し、そこにattention scoreを逃がせるようにすることに相当する。もう一つの方法は、globalに利用可能なlearnableなSink Tokenを追加すること。これにより、不要なattention scoreの捨て場として機能させる。Table3を見ると、最初の4 tokenをKV Cacheに保持した場合はperplexityは大きく変わらないが、Sink Tokenを導入した方がKV Cacheで保持するInitial Tokenの量が少なくてもZero Sinkと比べると性能が良くなるため、今後モデルを学習する際はSink Tokenを導入することを薦めている。既に学習済みのモデルについては、Zero Sinkによってlong contextのモデリングに対処可能と思われる。

https://github.com/user-attachments/assets/9d4714e5-02b9-45b5-affd-c6c34eb7c58f" />

著者による解説:

Loading…

openreview: https://openreview.net/forum?id=NG7sS51zVF

#Analysis #NLP #LanguageModel #Attention #AttentionSinks #COLM #Selected Papers/Blogs Issue Date: 2025-04-05 Why do LLMs attend to the first token?, Federico Barbero+, COLM'25 GPT Summary- LLMsは最初のトークンに強く注意を向ける「アテンションシンク」を示し、そのメカニズムが過剰混合を避ける方法を理論的・実証的に探求。コンテキストの長さやデータのパッキングがシンクの挙動に与える影響を実験で示し、アテンションパターンの理解を深めることを目指す。 Comment

元ポスト:

Loading…

Attention Sinkによって、トークンの情報がover-mixingされることが抑制され、Decoder-only LLMの深い層のrepresentationが均一化されることを抑制する（＝promptの摂動にロバストになる）ことが示された模様。

Gemma7Bにおいて、prompt中のトークン一語を置換した後に、Attention Sink（）の有無によって、tokenレベルのrepresentationに対してどのような摂動があるかをlayerごとにまとめた図が下記の模様。Attention Sinkによって、tokenの摂動が他のtoken, layerに対してmixingされるのが抑制されている。

openreview: https://openreview.net/forum?id=tu4dFUsW5z#discussion

#MachineLearning #Pocket #LanguageModel #Transformer #ICML #Normalization #Selected Papers/Blogs Issue Date: 2025-04-02 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Sergey Ioffe+, ICML'15 GPT Summary- バッチ正規化を用いることで、深層ニューラルネットワークのトレーニングにおける内部共変量シフトの問題を解決し、高い学習率を可能にし、初期化の注意を軽減。これにより、同じ精度を14倍少ないトレーニングステップで達成し、ImageNet分類で最良の公表結果を4.9%改善。 Comment

メモってなかったので今更ながら追加した

共変量シフトやBatch Normalizationの説明は
- [Paper Note] Layer Normalization, Ba+, arXiv'16

記載のスライドが分かりやすい。

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

ソフトウェアエージェントの最もpopularなベンチマーク

https://github.com/user-attachments/assets/ac905221-d3b1-4d16-b447-3bdd4d5e97bb" />

主にpythonライブラリに関するリポジトリに基づいて構築されている。
https://github.com/user-attachments/assets/14d26dd1-6b4a-4337-a652-4e48e36d633b" />

SWE-Bench, SWE-Bench Lite, SWE-Bench Verifiedの3種類がありソフトウェアエージェントではSWE-Bench Verifiedを利用して評価することが多いらしい。Verifiedでは、issueの記述に曖昧性がなく、適切なunittestのスコープが適切なもののみが採用されているとのこと（i.e., 人間の専門家によって問題がないと判断されたもの）。
https://www.swebench.com/

Agenticな評価をする際に、一部の評価でエージェントがgit logを参照し本来は存在しないはずのリポジトリのfuture stateを見ることで環境をハッキングしていたとのこと:

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#EfficiencyImprovement #Pocket #NLP #LanguageModel #AIAgents #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-04-02 Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25 GPT Summary- 最近のLLMの進展により、ソフトウェア開発タスクの自動化が進んでいるが、複雑なエージェントアプローチの必要性に疑問が生じている。これに対し、Agentlessというエージェントレスアプローチを提案し、シンプルな三段階プロセスで問題を解決。SWE-bench Liteベンチマークで最高のパフォーマンスと低コストを達成。研究は自律型ソフトウェア開発におけるシンプルで解釈可能な技術の可能性を示し、今後の研究の方向性を刺激することを目指している。 Comment

日本語解説: https://note.com/ainest/n/nac1c795e3825

LLMによる計画の立案、環境からのフィードバックによる意思決定などの複雑なワークフローではなく、Localization（階層的に問題のある箇所を同定する）とRepair（LLMで複数のパッチ候補を生成する）、PatchValidation(再現テストと回帰テストの両方を通じて結果が良かったパッチを選ぶ）のシンプルなプロセスを通じてIssueを解決する。

これにより、低コストで高い性能を達成している、といった内容な模様。

Agentlessと呼ばれ手法だが、preprint版にあったタイトルの接頭辞だった同呼称がproceeding版では無くなっている。

#Metrics #NLP #LanguageModel #GenerativeAI #Evaluation #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

利用したデータセットは
- HCAST: 46のタスクファミリーに基づく97種類のタスクが定義されており、たとえばサイバーセキュリティ、機械学習、ソフトウェアエンジニアリング、一般的な推論タスク（wikipediaから事実情報を探すタスクなど）などがある
- 数分で終わるタスク: 上述のwikipedia
- 数時間で終わるタスク: Pytorchのちょっとしたバグ修正など
- 数文でタスクが記述され、コード、データ、ドキュメント、あるいはwebから入手可能な情報を参照可能
　- タスクの難易度としては当該ドメインに数年間携わった専門家が解ける問題
- RE-Bench Suite
- 7つのopen endedな専門家が8時間程度を要するMLに関するタスク
　- e.g., GPT-2をQA用にFinetuningする, Finetuningスクリプトが与えられた時に挙動を変化させずにランタイムを可能な限り短縮する、など
　- [RE-Bench Technical Report]( https://metr.org/AI_R_D_Evaluation_Report.pdf)のTable2等を参照のこと
- SWAA Suite: 66種類の1つのアクションによって1分以内で終わるソフトウェアエンジニアリングで典型的なタスク
- 1分以内で終わるタスクが上記データになかったので著者らが作成

であり、画像系やマルチモーダルなタスクは含まれていない。

タスクと人間がタスクに要する時間の対応に関するサンプルは下記

タスク-エージェントペアごとに8回実行した場合の平均の成功率。確かにこのグラフからはN年後には人間で言うとこのくらいの能力の人がこのくらい時間を要するタスクが、このくらいできるようになってます、といったざっくり感覚値はなかなか想像できない。

成功率とタスクに人間が要する時間に関するグラフ。ロジスティック関数でfittingしており、赤い破線が50% horizon。Claude 3.5 Sonnet （old）からClaude 3.7 Sonnetで50% horizonは18分から59分まで増えている。実際に数字で見るとイメージが湧きやすくおもしろい。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#Analysis #NLP #LanguageModel #Blog #Selected Papers/Blogs Issue Date: 2025-03-25 言語モデルの物理学, 佐藤竜馬, 2025.03 Comment

必読

#ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている（65536 input, 1024 output）。

56B程度のmediumサイズのモデルと、8B程度の軽量なモデルについて述べられている。特に、8BモデルでMambaとTransformerのハイブリッドモデルと、通常のTransformerモデルを比較している。学習データに15 Trillion Tokenを利用しており、このデータ量でのApple to Appleのアーキテクチャ間の比較は、現状では最も大規模なものとのこと。性能は多くのベンチマークでハイブリッドにしても同等、Commonsense Understandingでは上回っている。

また、学習したNemotron-Hをバックボーンモデルとして持つVLMについてもモデルのアーキテクチャが述べられている。

#MachineLearning #Pocket #NLP #LanguageModel #NeurIPS #Scaling Laws #Selected Papers/Blogs Issue Date: 2025-03-23 Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22 GPT Summary- トランスフォーマー言語モデルの訓練において、計算予算内で最適なモデルサイズとトークン数を調査。モデルサイズと訓練トークン数は同等にスケールする必要があり、倍増するごとにトークン数も倍増すべきと提案。Chinchillaモデルは、Gopherなどの大規模モデルに対して優れた性能を示し、ファインチューニングと推論の計算量を削減。MMLUベンチマークで67.5%の精度を達成し、Gopherに対して7%以上の改善を実現。 Comment

OpenReview: https://openreview.net/forum?id=iBBcRUlOAPR

chinchilla則

#MachineLearning #Pocket #LanguageModel #ReinforcementLearning #Reasoning #LongSequence #GRPO #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-03-20 DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25 GPT Summary- 推論スケーリングによりLLMの推論能力が向上し、強化学習が複雑な推論を引き出す技術となる。しかし、最先端の技術詳細が隠されているため再現が難しい。そこで、$\textbf{DAPO}$アルゴリズムを提案し、Qwen2.5-32Bモデルを用いてAIME 2024で50ポイントを達成。成功のための4つの重要技術を公開し、トレーニングコードと処理済みデータセットをオープンソース化することで再現性を向上させ、今後の研究を支援する。 Comment

既存のreasoning modelのテクニカルレポートにおいて、スケーラブルなRLの学習で鍵となるレシピは隠されていると主張し、実際彼らのbaselineとしてGRPOを走らせたところ、DeepSeekから報告されているAIME2024での性能（47ポイント）よりもで　大幅に低い性能（30ポイント）しか到達できず、分析の結果3つの課題（entropy collapse, reward noise, training instability）を明らかにした（実際R1の結果を再現できない報告が多数報告されており、重要な訓練の詳細が隠されているとしている）。

その上で50%のtrainikg stepでDeepSeek-R1-Zero-Qwen-32Bと同等のAIME 2024での性能を達成できるDAPOを提案。そしてgapを埋めるためにオープンソース化するとのこと。

ちとこれはあとでしっかり読みたい。重要論文。

プロジェクトページ: https://dapo-sia.github.io/

こちらにアルゴリズムの重要な部分の概要が説明されている。

解説ポスト:

Loading…

コンパクトだが分かりやすくまとまっている。

下記ポストによると、Reward Scoreに多様性を持たせたい場合は3.2節参照とのこと。
すなわち、Dynamic Samplingの話で、Accが全ての生成で1.0あるいは0.0となるようなpromptを除外するといった方法の話だと思われる。
これは、あるpromptに対する全ての生成で正解/不正解になった場合、そのpromptに対するAdvantageが0となるため、ポリシーをupdateするためのgradientも0となる。そうすると、このサンプルはポリシーの更新に全く寄与しなくなるため、同バッチ内のノイズに対する頑健性が失われることになる。サンプル効率も低下する。特にAccが1.0になるようなpromptは学習が進むにつれて増加するため、バッチ内で学習に有効なpromptは減ることを意味し、gradientの分散の増加につながる、といったことらしい。

関連ポスト:

Loading…

色々な研究で広く使われるのを見るようになった。

著者ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #ICLR #Selected Papers/Blogs #KeyPoint Notes #SparseAutoEncoder Issue Date: 2025-03-15 Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR'24 GPT Summary- 神経ネットワークの多義性を解消するために、スパースオートエンコーダを用いて内部活性化の方向を特定。これにより、解釈可能で単義的な特徴を学習し、間接目的語の同定タスクにおける因果的特徴をより詳細に特定。スケーラブルで教師なしのアプローチが重ね合わせの問題を解決できることを示唆し、モデルの透明性と操作性向上に寄与する可能性を示す。 Comment

日本語解説: https://note.com/ainest/n/nbe58b36bb2db

OpenReview: https://openreview.net/forum?id=F76bwRSLeK

SparseAutoEncoderはネットワークのあらゆるところに仕込める（と思われる）が、たとえばTransformer Blockのresidual connection部分のベクトルに対してFeature Dictionaryを学習すると、当該ブロックにおいてどのような特徴の組み合わせが表現されているかが（あくまでSparseAutoEncoderがreconstruction lossによって学習された結果を用いて）解釈できるようになる。

SparseAutoEncoderは下記式で表され、下記loss functionで学習される。MがFeature Matrix（row-wiseに正規化されて後述のcに対するL1正則化に影響を与えないようにしている）に相当する。cに対してL1正則化をかけることで（Sparsity Loss）、c中の各要素が0に近づくようになり、結果としてcがSparseとなる（どうしても値を持たなければいけない重要な特徴量のみにフォーカスされるようになる）。

#NLP #LanguageModel #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-03-14 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3 Comment

真なる完全なるオープンソース（に近い？）OLMOの最新作

学習が安定しやすいpre LNではなく性能が最大化されやすいPost LNを採用している模様。学習を安定化させるために、QKNormやRMSNormを採用するなどの工夫を実施しているらしい。

#LanguageModel #python #LLMServing #Selected Papers/Blogs Issue Date: 2025-02-12 SGlang, sgl-project, 2024.01 GPT Summary- SGLangは、大規模言語モデルと視覚言語モデルのための高速サービングフレームワークで、バックエンドとフロントエンドの共同設計により迅速なインタラクションを実現します。主な機能には、高速バックエンドランタイム、柔軟なフロントエンド言語、広範なモデルサポートがあり、オープンソースの活発なコミュニティに支えられています。 Comment

- Open R1, HuggingFace, 2025.01

のUpdate2でMath Datasetの生成に利用されたLLM Servingフレームワーク。利用前と比較してスループットが2倍になったとのこと。

CPU, external storageを利用することでTTFTを改善するようになったようで、最大80%TTFTが削減されるとの記述がある。

Loading…

（原理的には元来可能だが計算効率の最適化に基づく誤差によって実装上の問題で実現できていなかった) Deterministic Inferenceをサポート:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #NLP #Transformer #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs Issue Date: 2025-02-11 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR'22 GPT Summary- Switch Transformerを提案し、Mixture of Experts (MoE)の複雑さや通信コスト、トレーニングの不安定性を改善。これにより、低精度フォーマットでの大規模スパースモデルのトレーニングが可能になり、最大7倍の事前トレーニング速度向上を実現。さらに、1兆パラメータのモデルを事前トレーニングし、T5-XXLモデルに対して4倍の速度向上を達成。 #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2025-02-07 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25 GPT Summary- テスト時スケーリングを用いて言語モデルのパフォーマンスを向上させる新しいアプローチを提案。小規模データセットs1Kを作成し、モデルの思考プロセスを制御する予算強制を導入。これにより、モデルは不正確な推論を修正し、Qwen2.5-32B-Instructモデルがo1-previewを最大27%上回る結果を達成。さらに、介入なしでパフォーマンスを向上させることが可能となった。モデル、データ、コードはオープンソースで提供。 Comment

解説:

Loading…

#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Reasoning #LongSequence #RewardHacking #PostTraining #Selected Papers/Blogs Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 GPT Summary- 本研究では、大規模言語モデル（LLMs）における長い思考の連鎖（CoTs）推論のメカニズムを調査し、重要な要因を特定。主な発見は、(1) 教師ありファインチューニング（SFT）は必須ではないが効率を向上させる、(2) 推論能力は計算の増加に伴い現れるが、報酬の形状がCoTの長さに影響、(3) 検証可能な報酬信号のスケーリングが重要で、特に分布外タスクに効果的、(4) エラー修正能力は基本モデルに存在するが、RLを通じて効果的に奨励するには多くの計算が必要。これらの洞察は、LLMsの長いCoT推論を強化するためのトレーニング戦略の最適化に役立つ。 Comment

元ポスト:

Loading…

元ポストのスレッド中に論文の11個の知見が述べられている。どれも非常に興味深い。DeepSeek-R1のテクニカルペーパーと同様、

- Long CoTとShort CoTを比較すると前者の方が到達可能な性能のupper bonudが高いことや、
- SFTを実施してからRLをすると性能が向上することや、
- RLの際にCoTのLengthに関する報酬を入れることでCoTの長さを抑えつつ性能向上できること、
- 数学だけでなくQAペアなどのノイジーだが検証可能なデータをVerifiableな報酬として加えると一般的なreasoningタスクで数学よりもさらに性能が向上すること、
- より長いcontext window sizeを活用可能なモデルの訓練にはより多くの学習データが必要なこと、
- long CoTはRLによって学習データに類似したデータが含まれているためベースモデルの段階でその能力が獲得されていることが示唆されること、
- aha momentはすでにベースモデル時点で獲得されておりVerifiableな報酬によるRLによって強化されたわけではなさそう、

など、興味深い知見が盛りだくさん。非常に興味深い研究。あとで読む。

#NLP #LanguageModel #Supervised-FineTuning (SFT) #FoundationModel #RLHF #Blog #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#ComputerVision #Analysis #MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#NLP #LanguageModel #RLHF #Reasoning #Mathematics #GRPO #read-later #Selected Papers/Blogs Issue Date: 2025-01-04 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24 GPT Summary- DeepSeekMath 7Bは、120Bの数学関連トークンを用いて事前学習された言語モデルで、競技レベルのMATHベンチマークで51.7%のスコアを達成。自己一貫性は60.9%で、データ選択パイプラインとGroup Relative Policy Optimization (GRPO)の導入により数学的推論能力が向上。Gemini-UltraやGPT-4に迫る性能を示す。 Comment

元ポスト: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_the-rlhf-method-behind-the-best-open-models-activity-7280850174522843137-3V9v?utm_source=share&utm_medium=member_ios

元々数学のreasoningに関する能力を改善するために提案されたが、現在はオンラインでTruthfulness, Helpfulness, Concisenessなどの改善に活用されているとのこと。

PPOとGRPOの比較。value function model（状態の価値を予測するモデル）が不要なため省メモリ、かつ利用する計算リソースが小さいらしい。
あとサンプルをグループごとに分けて、グループ内でのKLダイバージェンスが最小化されるよう（つまり、各グループ内で方策が類似する）Policy Modelが更新される（つまりloss functionに直接組み込まれる）点が違うらしい。

PPOでは生成するトークンごとにreference modelとPolicy ModelとのKLダイバージェンスをとり、reference modelとの差が大きくならないよう、報酬にペナルティを入れるために使われることが多いらしい。

下記記事によると、PPOで最大化したいのはAdvantage（累積報酬と状態価値（累積報酬の期待値を計算するモデル）の差分;期待値よりも実際の累積報酬が良かったら良い感じだぜ的な数値）であり、それには状態価値を計算するモデルが必要である。そして、PPOにおける状態価値モデルを使わないで、LLMにテキスト生成させて最終的な報酬を平均すれば状態価値モデル無しでAdvantageが計算できるし嬉しくね？という気持ちで提案されたのが、本論文で提案されているGRPOとのこと。勉強になる。

DeepSeek-R1の論文読んだ？【勉強になるよ】
, asap: https://zenn.dev/asap/articles/34237ad87f8511

#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Mathematics #Selected Papers/Blogs #Verification Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 GPT Summary- GSM8Kデータセットを用いて、多段階の数学的推論における言語モデルの限界を分析。検証器を訓練し、候補解を評価して最適解を選択することで、モデルのパフォーマンスを大幅に向上させることを示した。検証はファインチューニングよりもデータ増加に対して効果的にスケールする。 Comment

## 気持ち

- 当時の最も大きいレベルのモデルでも multi-stepのreasoningが必要な問題は失敗する

- モデルをFinetuningをしても致命的なミスが含まれる

- 特に、数学は個々のミスに対して非常にsensitiveであり、一回ミスをして異なる解法のパスに入ってしまうと、self-correctionするメカニズムがauto-regressiveなモデルではうまくいかない

- 純粋なテキスト生成の枠組みでそれなりの性能に到達しようとすると、とんでもないパラメータ数が必要になり、より良いscaling lawを示す手法を模索する必要がある

## Contribution

論文の貢献は

- GSM8Kを提案し、

- verifierを活用しモデルの複数の候補の中から良い候補を選ぶフレームワークによって、モデルのパラメータを30倍にしたのと同等のパフォーマンスを達成し、データを増やすとverifierを導入するとよりよく性能がスケールすることを示した。

- また、dropoutが非常に強い正則化作用を促し、finetuningとverificationの双方を大きく改善することを示した。

Todo: 続きをまとめる

#MachineTranslation #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2024-12-24 Large Language Models in Machine Translation, Brants+, EMNLP-CoNLL'07 GPT Summary- 本論文では、機械翻訳における大規模な統計的言語モデルの利点を報告し、最大2兆トークンでトレーニングした3000億n-gramのモデルを提案。新しいスムージング手法「Stupid Backoff」を導入し、大規模データセットでのトレーニングが安価で、Kneser-Neyスムージングに近づくことを示す。 Comment

N-gram言語モデル+スムージングの手法において、学習データを増やして扱えるngramのタイプ数（今で言うところのvocab数に近い）を増やしていったら、perplexityは改善するし、MTにおけるBLEUスコアも改善するよ（BLEUはサチってるかも？）という考察がされている

元ポスト:

Loading…

Large Language Modelsという用語が利用されたのはこの研究が初めてなのかも…？

#NeuralNetwork #MachineLearning #Pocket #Catastrophic Forgetting #Selected Papers/Blogs Issue Date: 2024-10-10 Overcoming catastrophic forgetting in neural networks, James Kirkpatrick+, N_A, PNAS'17 GPT Summary- タスクを逐次的に学習する能力を持つネットワークを訓練する方法を提案。重要な重みの学習を選択的に遅くすることで、古いタスクの記憶を維持。MNISTやAtari 2600ゲームでの実験により、アプローチの効果とスケーラビリティを実証。 Comment

Catastrophic Forgettingを防ぐEWCを提案した論文

日本語解説: https://qiita.com/yu4u/items/90c039ec2f1d4f2d2414

ポイント解説:

Loading…

#NLP #LanguageModel #Alignment #NeurIPS #DPO #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-09-25 Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, N_A, NeurIPS'23 GPT Summary- 大規模無監督言語モデル（LM）の制御性を向上させるために、報酬モデルの新しいパラメータ化を導入し、単純な分類損失でRLHF問題を解決する「直接的な好み最適化（DPO）」アルゴリズムを提案。DPOは安定性と性能を持ち、ファインチューニング中のサンプリングやハイパーパラメータ調整を不要にし、既存の方法と同等以上の性能を示す。特に、生成物の感情制御においてPPOベースのRLHFを上回り、応答の質を改善しつつ実装が簡素化される。 Comment

DPOを提案した研究

https://github.com/user-attachments/assets/2f7edf2c-32fa-4c5c-bc39-fb85112d1837" >

解説ポスト:

Loading…

SNLP'24での解説スライド: https://speakerdeck.com/kazutoshishinoda/lun-wen-shao-jie-direct-preference-optimization-your-language-model-is-secretly-a-reward-model

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL'24 GPT Summary- 強化ファインチューニング（ReFT）を提案し、LLMsの推論能力を向上。SFTでモデルをウォームアップ後、PPOアルゴリズムを用いてオンライン強化学習を行い、豊富な推論パスを自動サンプリング。GSM8K、MathQA、SVAMPデータセットでSFTを大幅に上回る性能を示し、追加のトレーニング質問に依存せず優れた一般化能力を発揮。 #Analysis #Pocket #NLP #Transformer #ACL #KnowledgeEditing #Selected Papers/Blogs #FactualKnowledge #Encoder Issue Date: 2024-07-11 Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL'22, 2022.05 GPT Summary- 大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment

大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査

日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022

上記資料によると、特定の知識を出力する際に活性化する知識ニューロンを特定する手法を提案。MLMを用いたclozeタスクによる実験で[MASK]部分に当該知識を出力する実験をした結果、知識ニューロンの重みをゼロとすると性能が著しく劣化し、値を2倍にすると性能が改善するといった傾向がみられた。　ケーススタディとして、知識の更新と、知識の削除が可能かを検証。どちらとも更新・削除がされる方向性[^1]へモデルが変化した。

また、知識ニューロンはTransformerの層の深いところに位置している傾向にあり、異なるrelationを持つような関係知識同士では共有されない傾向にある模様。

[^1]: 他の知識に影響を与えず、完璧に更新・削除できたわけではない。知識の更新・削除に伴いExtrinsicな評価によって性能向上、あるいはPerplexityが増大した、といった結果からそういった方向性へモデルが変化した、という話

#MachineTranslation #Metrics #Pocket #NLP #Evaluation #EMNLP #Selected Papers/Blogs Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 GPT Summary- COMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 Comment

Better/Worseなhypothesisを利用してpair-wiseにランキング関数を学習する
![Image](https://github.com/user-attachments/assets/a1fd6f36-48e8-44fc-8fcb-0900a51759b3)

![Image](https://github.com/user-attachments/assets/19ad7a57-7de3-4255-afde-4a1fde41587d)

Inference時は単一のhypothesisしかinputされないので、sourceとreferenceに対してそれぞれhypothesisの距離をはかり、その調和平均でスコアリングする

![Image](https://github.com/user-attachments/assets/21642c70-a7fd-4c0e-8678-6125fdbfefce)

ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう

#NeuralNetwork #NLP #LanguageModel #Transformer #Selected Papers/Blogs #ActivationFunction Issue Date: 2024-05-24 GLU Variants Improve Transformer, Noam Shazeer, N_A, arXiv'20 GPT Summary- GLUのバリエーションをTransformerのフィードフォワード・サブレイヤーでテストし、通常の活性化関数よりもいくつかのバリエーションが品質向上をもたらすことを発見した。 Comment

一般的なFFNでは、linear layerをかけた後に、何らかの活性化関数をかませる方法が主流である。

このような構造の一つとしてGLUがあるが、linear layerと活性化関数には改良の余地があり、様々なvariantが考えられるため、色々試しました、というはなし。

オリジナルのGLUと比較して、T5と同じ事前学習タスクを実施したところ、perplexityが改善

また、finetuningをした場合の性能も、多くの場合オリジナルのGLUよりも高い性能を示した。

#NLP #LanguageModel #Alignment #ChatGPT #RLHF #PPO (ProximalPolicyOptimization) #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-04-28 Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS'22 GPT Summary- 大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 Comment

ChatGPTの元となる、SFT→Reward Modelの訓練→RLHFの流れが提案された研究。DemonstrationデータだけでSFTするだけでは、人間の意図したとおりに動作しない問題があったため、人間の意図にAlignするように、Reward Modelを用いたRLHFでSFTの後に追加で学習を実施する。Reward Modelは、175Bモデルは学習が安定しなかった上に、PPOの計算コストが非常に大きいため、6BのGPT-3を様々なNLPタスクでSFTしたモデルをスタートにし、モデルのアウトプットに対して人間がランキング付けしたデータをペアワイズのloss functionで訓練した。最終的に、RMのスコアが最大化されるようにSFTしたGPT-3をRLHFで訓練するが、その際に、SFTから出力が離れすぎないようにする項と、NLPベンチマークでの性能が劣化しないようにpretrain時のタスクの性能もloss functionに加えている。

#ComputerVision #Pretraining #Pocket #NLP #Transformer #InstructionTuning #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

モデルのアーキテクチャ図

マルチモーダルに拡張したことで、訓練が非常に不安定になったため、アーキテクチャ上でいくつかの工夫を加えている:

- 2D Rotary Embedding
- Positional EncodingとしてRoPEを採用
- 画像のような2次元データのモダリティの場合はRoPEを2次元に拡張する。具体的には、位置(i, j)のトークンについては、Q, Kのembeddingを半分に分割して、それぞれに対して独立にi, jのRoPE Embeddingを適用することでi, j双方の情報を組み込む。
- QK Normalization
- image, audioのモダリティを組み込むことでMHAのlogitsが非常に大きくなりatteetion weightが0/1の極端な値をとるようになり訓練の不安定さにつながった。このため、dot product attentionを適用する前にLayerNormを組み込んだ。
- Scaled Cosine Attention
- Image Historyモダリティにおいて固定長のEmbeddingを得るためにPerceiver Resamplerを扱ったているが、こちらも上記と同様にAttentionのlogitsが極端に大きくなったため、cosine類似度をベースとしたScaled Cosine Attention [Paper Note] Swin Transformer V2: Scaling Up Capacity and Resolution, Ze Liu+, arXiv'21 を利用することで、大幅に訓練の安定性が改善された。
- その他
- attention logitsにはfp32を適用
- 事前学習されたViTとASTを同時に更新すると不安定につながったため、事前学習の段階ではfreezeし、instruction tuningの最後にfinetuningを実施

目的関数としては、Mixture of Denoisers (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )に着想を得て、Multimodal Mixture of Denoisersを提案。MoDでは、
- \[R\]: 通常のspan corruption (1--5 token程度のspanをmaskする)
- \[S\]: causal language modeling (inputを2つのサブシーケンスに分割し、前方から後方を予測する。前方部分はBi-directionalでも可)
- \[X\]: extreme span corruption (12>=token程度のspanをmaskする)

の3種類が提案されており、モダリティごとにこれらを使い分ける:
- text modality: UL2 (UL2: Unifying Language Learning Paradigms, Yi Tay+, N/A, ICLR'23 )を踏襲
- image, audioがtargetの場合: 2つの類似したパラダイムを定義し利用
- \[R\]: patchをランダムにx%マスクしre-constructする
- \[S\]: inputのtargetとは異なるモダリティのみの情報から、targetモダリティを生成する

訓練時には prefixとしてmodality token \[Text\], \[Image\], \[Audio\] とparadigm token \[R\], \[S\], \[X\] をタスクを指示するトークンとして利用している。

また、image, audioのマスク部分のdenoisingをautoregressive modelで実施する際には普通にやるとdecoder側でリークが発生する(a)。これを防ぐには、Encoder側でマスクされているトークンを、Decoder側でteacher-forcingする際にの全てマスクする方法(b)があるが、この場合、生成タスクとdenoisingタスクが相互に干渉してしまいうまく学習できなくなってしまう（生成タスクでは通常Decoderのinputとして[mask]が入力され次トークンを生成する、といったことは起きえないが、愚直に(b)をやるとそうなってしまう）。ので、(c)に示したように、マスクされているトークンをinputとして生成しなければならない時だけ、マスクを解除してdecoder側にinputする、という方法 (Dynamic Masking) でこの問題に対処している。
https://github.com/user-attachments/assets/0dba8d5d-0c93-4c56-852b-fce9869428e7" />

#ComputerVision #Analysis #Pretraining #Pocket #NLP #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 VILA: On Pre-training for Visual Language Models, Ji Lin+, N_A, CVPR'24 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル（VLM）が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した：(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

#InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ContextEngineering Issue Date: 2023-12-01 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis+, N_A, NeurIPS'20 GPT Summary- 大規模な事前学習言語モデルを使用した検索強化生成（RAG）の微調整手法を提案しました。RAGモデルは、パラメトリックメモリと非パラメトリックメモリを組み合わせた言語生成モデルであり、幅広い知識集約的な自然言語処理タスクで最先端の性能を発揮しました。特に、QAタスクでは他のモデルを上回り、言語生成タスクでは具体的で多様な言語を生成することができました。 Comment

RAGを提案した研究

Retrieverとして利用されているDense Passage Retrieval (DPR)はこちら:
- [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04

#Pocket #NLP #Dataset #LanguageModel #QuestionAnswering #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

Meta-FAIR, Meta-GenAI, HuggingFace, AutoGPTによる研究。人間は92%正解できるが、GPT4でも15%しか正解できないQAベンチマーク。解くために推論やマルチモダリティの処理、ブラウジング、ツールに対する習熟などの基本的な能力を必要とする実世界のQAとのこと。

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #NLP #Dataset #LanguageModel #InstructionTuning #Evaluation #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

LLMがinstructionにどれだけ従うかを評価するために、検証可能なプロンプト（400字以上で書きなさいなど）を考案し評価する枠組みを提案。人間が評価すると時間とお金がかかり、LLMを利用した自動評価だと評価を実施するLLMのバイアスがかかるのだ、それら両方のlimitationを克服できるとのこと。

#ComputerVision #Pocket #NLP #LanguageModel #QuestionAnswering #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, CVPR'24 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment

画像分析が可能なオープンソースLLMとのこと。

# Overview

画像生成をできるわけではなく、inputとして画像を扱えるのみ。

pj page: https://llava-vl.github.io

#Analysis #Pocket #NLP #LanguageModel #Selected Papers/Blogs #ReversalCurse Issue Date: 2023-10-09 [Paper Note] The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A", Lukas Berglund+, arXiv'23 GPT Summary- 自己回帰型大規模言語モデル（LLMs）は、「AはBである」という文から「BはAである」と逆の関係を自動的に一般化できない「逆転の呪い」を示す。例えば、モデルが「ワレンティナ・テレシコワは宇宙に行った最初の女性である」と訓練されても、「宇宙に行った最初の女性は誰か？」に正しく答えられない。実験では、架空の文を用いてGPT-3とLlama-1をファインチューニングし、逆転の呪いの存在を確認。ChatGPT（GPT-3.5およびGPT-4）でも、実在の有名人に関する質問で正答率に大きな差が見られた。 Comment

A is Bという文でLLMを訓練しても、B is Aという逆方向には汎化されないことを示した。

著者ツイート:

Loading…

GPT3, LLaMaを A is Bでfinetuneし、B is Aという逆方向のfactを生成するように（質問をして）テストしたところ、0%付近のAcc.だった。

また、Acc.が低いだけでなく、対数尤度もrandomなfactを生成した場合と、すべてのモデルサイズで差がないことがわかった。

このことら、Reversal Curseはモデルサイズでは解決できないことがわかる。

#NLP #LanguageModel #QuestionAnswering #Chain-of-Thought #Prompting #Hallucination #ACL #Selected Papers/Blogs #Verification Issue Date: 2023-09-30 [Paper Note] Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, ACL'24 GPT Summary- 私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification（CoVe）メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment

# 概要
ユーザの質問から、Verificationのための質問をplanningし、質問に対して独立に回答を得たうえでオリジナルの質問に対するaggreementを確認し、最終的に生成を実施するPrompting手法

# 評価
## dataset
- 全体を通じてclosed-bookの設定で評価
- Wikidata
- Wikipedia APIから自動生成した「“Who are some [Profession]s who were born in [City]?”」に対するQA pairs
- Goldはknowledge baseから取得
- 全56 test questions
- Gold Entityが大体600程度ありLLMは一部しか回答しないので、precisionで評価
- Wiki category list
- QUEST datasetを利用 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N/A, ACL'23

- 回答にlogical operationが不要なものに限定して頭に"Name some"をつけて質問を生成
- "Name some Mexican animated horror films" or "Name some Endemic orchids of Vietnam"
- 8個の回答を持つ55 test questionsを作成
- MultiSpanQA
- Reading Comprehensionに関するBenchmark dataset
- 複数の独立した回答（回答は連続しないスパンから回答が抽出される）から構成される質問で構成
- 特に、今回はclosed-book setting で実施
- すなわち、与えられた質問のみから回答しなければならず、知っている知識が問われる問題
- 418のtest questsionsで、各回答に含まれる複数アイテムのspanが3 token未満となるようにした
- QA例:
- Q: Who invented the first printing press and in what year?
- A: Johannes Gutenberg, 1450.
# 評価結果
提案手法には、verificationの各ステップでLLMに独立したpromptingをするかなどでjoint, 2-step, Factored, Factor+Revisedの4種類のバリエーションがあることに留意。
- joint: 全てのステップを一つのpromptで実施
- 2-stepは2つのpromptに分けて実施
- Factoredは各ステップを全て異なるpromptingで実施
- Factor+Revisedは異なるpromptで追加のQAに対するcross-checkをかける手法

結果を見ると、CoVEでhallucinationが軽減（というより、モデルが持つ知識に基づいて正確に回答できるサンプルの割合が増えるので実質的にhallucinationが低減したとみなせる）され、特にjointよりも2-step, factoredの方が高い性能を示すことがわかる。

#EfficiencyImprovement #MachineLearning #Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2023-09-13 Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N_A, arXiv'23 GPT Summary- 私たちは、小さなTransformerベースの言語モデルであるTinyStoriesと、大規模な言語モデルであるphi-1の能力について調査しました。また、phi-1を使用して教科書の品質のデータを生成し、学習プロセスを改善する方法を提案しました。さらに、phi-1.5という新しいモデルを作成し、自然言語のタスクにおいて性能が向上し、複雑な推論タスクにおいて他のモデルを上回ることを示しました。phi-1.5は、良い特性と悪い特性を持っており、オープンソース化されています。 Comment

Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 に続く論文

#DocumentSummarization #Metrics #Tools #NLP #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

自動評価指標が人手評価の水準に達しないことが示されており、結局のところROUGEを上回る自動性能指標はほとんどなかった。human judgmentsとのKendall;'s Tauを見ると、chrFがCoherenceとRelevance, METEORがFluencyで上回ったのみだった。また、LEAD-3はやはりベースラインとしてかなり強く、LEAD-3を上回ったのはBARTとPEGASUSだった。

#DocumentSummarization #Metrics #NLP #Evaluation #Reference-free #LM-based #Selected Papers/Blogs Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubig氏）, NeurIPS'21 GPT Summary- 本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 Comment

BARTScore

# 概要

ソーステキストが与えられた時に、BARTによって生成テキストを生成する尤度を計算し、それをスコアとする手法。テキスト生成タスクをテキスト生成モデルでスコアリングすることで、pre-trainingされたパラメータをより有効に活用できる（e.g. BERTScoreやMoverScoreなどは、pre-trainingタスクがテキスト生成ではない）。BARTScoreの特徴は

1. parameter- and data-efficientである。pre-trainingに利用されたパラメータ以外の追加パラメータは必要なく、unsupervisedなmetricなので、human judgmentのデータなども必要ない。

2. 様々な観点から生成テキストを評価できる。conditional text generation problemにすることでinformativeness, coherence, factualityなどの様々な観点に対応可能。

3. BARTScoreは、(i) pre-training taskと類似したpromptを与えること、(ii) down stream generation taskでfinetuningすること、でより高い性能を獲得できる

BARTScoreを16種類のデータセットの、7つの観点で評価したところ、16/22において、top-scoring metricsよりも高い性能を示した。また、prompting starategyの有効性を示した。たとえば、シンプルに"such as"というフレーズを翻訳テキストに追加するだけで、German-English MTにおいて3%の性能向上が見られた。また、BARTScoreは、high-qualityなテキスト生成システムを扱う際に、よりロバストであることが分析の結果分かった。

# 前提

## Problem Formulation

生成されたテキストのqualityを測ることを目的とする。本研究では、conditional text generation (e.g. 機械翻訳)にフォーカスする。すなわち、ゴールは、hypothesis h_bar を source text s_barがgivenな状態で生成することである。一般的には、人間が作成したreference r_barが評価の際は利用される。

## Gold-standard Human Evaluation

評価のgold standardは人手評価であり、人手評価では多くの観点から評価が行われる。以下に代表的な観点を示す：

1. Informativeness: ソーステキストのキーアイデアをどれだけ捉えているか

2. Relevance: ソーステキストにあ地して、どれだけconsistentか

3. Fluency formatting problem, capitarlization errorや非文など、どの程度読むのが困難か

4. Coherence: 文間のつながりが、トピックに対してどれだけcoherentか

5. Factuality: ソーステキストに含意されるstatementのみを生成できているか

6. Semantic Coverage: 参照テキスト中のSemantic Content Unitを生成テキストがどれだけカバーできているか

7: Adequacy 入力文に対してアウトプットが同じ意味を出力できているかどうか、あるいは何らかのメッセージが失われる、追加される、歪曲していないかどうか

多くの性能指標は、これらの観点のうちのsubsetをカバーするようにデザインんされている。たとえば、BLEUは、翻訳におけるAdequacyとFluencyをとらえることを目的としている。一方、ROUGEは、semantic coverageを測るためのメトリックである。

BARTScoreは、これらのうち多くの観点を評価することができる。

## Evaluation as Different Tasks

ニューラルモデルを異なる方法で自動評価に活用するのが最近のトレンドである。下図がその分類。この分類は、タスクにフォーカスした分類となっている。

1. Unsupervised Matching: ROUGE, BLEU, CHRF, BERTScore, MoverScoreのように、hypothesisとreference間での意味的な等価性を測ることが目的である。このために、token-levelのマッチングを用いる。これは、distributedな表現を用いる（BERTScore, MoverScore）場合もあれば、discreteな表現を用いる（ROUGE, BLEU, chrF）場合もある。また、意味的な等価性だけでなく、factual consistencyや、source-hypothesis間の関係性の評価に用いることもできると考えられるが先行研究ではやられていなかったので、本研究で可能なことを示す。

2. Supervised Regression: BLEURT, COMET, S^3, VRMのように、regression layer を用いてhuman judgmentをsupervisedに予測する方法である。最近のメトリックｔおしては、BLEURT, COMETがあげられ、古典的なものとしては、S^3, VRMがあげられる。

4. Supervised Ranking: COMET, BEERのような、ランキング問題としてとらえる方法もある。これは優れたhypothesisを上位にランキングするようなスコア関数を学習する問題に帰着する。COMETやBEERが例としてあげられ、両者はMTタスクにフォーカスされている。COMETはhunan judgmentsをregressionすることを通じてランキングを作成し、BEERは、多くのシンプルな特徴量を組み合わせて、linear layerでチューニングされる。

5. Text Generation: PRISM, BARTScoreが例として挙げられる。BARTScoreでは、生成されたテキストの評価をpre-trained language modelによるテキスト生成タスクとしてとらえる。基本的なアイデアとしては、高品質のhypothesisは、ソース、あるいはreferenceから容易に生成可能であろう、というものである。これはPRISMを除いて、先行研究ではカバーされていない。BARTScoreは、PRISMとはいくつかの点で異なっている。(i) PRISMは評価をparaphrasing taskとしてとらえており、これが2つの意味が同じテキストを比較する前提となってしまっているため、手法を適用可能な範囲を狭めてしまっている。たとえば、文書要約におけるfactual consistencyの評価では、semantic spaceが異なる2つのテキストを比較する必要があるが、このような例には対応できない。(ii) PRISMはparallel dataから学習しなけえｒばならないが、BARTScoreは、pre-trainedなopen-sourceのseq2seq modelを利用できる。(iii) BARTScoreでは、PRISMが検証していない、prompt-basedのlearningもサポートしている。

# BARTScore

## Sequence-to-Sequence Pre-trained Models

pre-trainingされたモデルは、様々な軸で異なっているが、その一つの軸としては訓練時の目的関数である。基本的には２つの大きな変種があり、1つは、language modeling objectives (e.g. MLM)、2つ目は、seq2seq objectivesである。特に、seq2seqで事前学習されたモデルは、エンコーダーとデコーダーによって構成されているため特に条件付き生成タスクに対して適しており、予測はAutoRegressiveに行われる。本研究ではBARTを用いる。付録には、preliminary experimentsとして、BART with T5, PEGASUSを用いた結果も添付する。

## BARTScore

最も一般的なBARTScoreの定式化は下記である。

weighted log probabilityを利用する。このweightsは、異なるトークンに対して、異なる重みを与えることができる。たておば、IDFなどが利用可能であるが、本研究ではすべてのトークンを等価に扱う（uniform weightingだがstopwordを除外、IDFによる重みづけ、事前分布を導入するなど色々試したが、uniform weightingを上回るものがなかった）。

BARTScoreを用いて、様々な方向に用いて生成を行うことができ、異なる評価のシナリオに対応することができる。

- Faithfulness (s -> h):

- hypothesisがどれだけsource textに基づいて生成されているかを測ることができる。シナリオとしては、FactualityやRelevanceなどが考えられる。また、CoherenceやFluencyのように、target textのみの品質を測るためにも用いることができる。

- Precision (r -> h):

- hypothesisがどれだけgold-referenceに基づいてこう良くされているかを亜評価でき、precision-focusedなシナリオに適している

- Recall (h -> r):

- hypothesisから、gold referenceをどれだけ容易に再現できるかを測ることができる。そして、要約タスクのpyramid-basedな評価（i.e. semantic coverage等）に適している。pyramid-scoreはSemantic Content Unitsがどれだけカバーされているかによって評価される。

- F Score (r <-> h):

- 双方向を考慮し、Precisioon / RecallからF値を算出する。この方法は、referenceと生成テキスト間でのsemantic overlap (informativenss, adequacy)などの評価に広く利用される。

# BARTScore Variants

BARTScoreの2つの拡張を提案。(i) xとyをpromptingによって変更する。これにより、評価タスクをpre-training taskと近づける。(ii) パラメータΘを異なるfinetuning taskを考慮して変更する。すなわち、pre-trainingのドメインを、evaluation taskに近づける。

## Prompt

Promptingはinput/outputに対して短いフレーズを追加し、pre-trained modelに対して特定のタスクを遂行させる方法である。BARTにも同様の洞察を簡単に組み込むことができる。この変種をBARTScore-PROMPTと呼ぶ。

prompt zが与えられたときに、それを (i) source textに追加し、新たなsource textを用いてBARTScoreを計算する。(ii) target textの先頭に追加し、new target textに対してBARTScoreを計算する。

## Fine-tuning Task

classification-basedなタスクでfine-tuneされるのが一般的なBERT-based metricとは異なり、BARTScoreはgeneration taskでfine-tuneされるため、pre-training domainがevaluation taskと近い。本研究では、2つのdownstream taskを検証する。

1つめは、summarizationで、BARTをCNNDM datasetでfinetuningする。2つめは、paraphrasingで、summarizationタスクでfinetuningしたBARTをParaBank2 datasetでさらにfinetuningする。

# 実験

## baselines and datasets

### Evaluation Metrics

supervised metrics: COMET, BLEURT

unsupervised: BLEU, ROUGE-1, ROUGE-2, ROUGE-L, chrF, PRISM, MoverScore, BERTScore

と比較

### Measures for Meta Evaluation

Pearson Correlationでlinear correlationを測る。また、Spearman Correlationで2変数間の単調なcorrelationを測定する（線形である必要はない）。Kendall's Tauを用いて、2つの順序関係の関係性を測る。最後に、Accuracyでfactual textsとnon-factual textの間でどれだけ正しいランキングを得られるかを測る。

### Datasets

Summarization, MT, DataToTextの3つのデータセットを利用。

## Setup

### Prompt Design

seedをparaphrasingすることで、　s->h方向には70個のpromptを、h<->rの両方向には、34のpromptを得て実験で用いた。

### Settings

Summarizationとdata-to-textタスクでは、全てのpromptを用いてデコーダの頭に追加してスコアを計算しスコアを計算した。最終的にすべての生成されたスコアを平均することである事例に対するスコアを求めた（prompt unsembling）。MTについては、事例数が多くcomputational costが多くなってしまうため、WMT18を開発データとし、best prompt "Such as"を選択し、利用した。

BARTScoreを使う際は、gold standard human evaluationがrecall-basedなpyrmid methodの場合はBARTScore(h->r)を用い、humaan judgmentsがlinguistic quality (coherence fluency)そして、factual correctness、あるいは、sourceとtargetが同じモダリティ（e.g. language）の場合は、faitufulness-based BARTScore(s->h)を用いた。最後に、MTタスクとdata-to-textタスクでは、fair-comparisonのためにBARTScore F-score versionを用いた。

## 実験結果

### MT

- BARTScoreはfinetuning tasksによって性能が向上し、5つのlanguage pairsにおいてその他のunsupervised methodsを統計的に優位にoutperformし、2つのlanguage pairでcomparableであった。

-Such asというpromptを追加するだけで、BARTScoreの性能が改善した。特筆すべきは、de-enにおいては、SoTAのsupervised MetricsであるBLEURTとCOMETを上回った。

- これは、有望な将来のmetric designとして「human judgment dataで訓練する代わりに、pre-trained language modelに蓄積された知識をより適切に活用できるpromptを探索する」という方向性を提案している。

### Text Summarization

- vanilla BARTScoreはBERTScore, MoverScoreをInfo perspective以外でlarge marginでうくぁ回った。

- REALSum, SummEval dataseetでの改善は、finetuning taskによってさらに改善した。しかしながら、NeR18では改善しなかった。これは、データに含まれる7つのシステムが容易に区別できる程度のqualityであり、既にvanilla BARTScoreで高いレベルのcorrelationを達成しているからだと考えられる。

- prompt combination strategyはinformativenssに対する性能を一貫して改善している。しかし、fluency, factualityでは、一貫した改善は見られなかった。

Factuality datasetsに対する分析を行った。ゴールは、short generated summaryが、元のlong documentsに対してfaithfulか否かを判定するというものである。

- BARTScore+CNNは、Rank19データにおいてhuman baselineに近い性能を達成し、ほかのベースラインを上回った。top-performingなfactuality metricsであるFactCCやQAGSに対してもlarge marginで上回った。

- paraphraseをfine-tuning taskで利用すると、BARTScoreのパフォーマンスは低下した。これは妥当で、なぜなら二つのテキスト（summary and document）は、paraphrasedの関係性を保持していないからである。

- promptを導入しても、性能の改善は見受けられず、パフォーマンスは低下した。

### Data-to-Text

- CNNDMでfine-tuningすることで、一貫してcorrelationが改善した。

- 加えて、paraphraseデータセットでfinetuningすることで、さらに性能が改善した。

- prompt combination strategyは一貫してcorrelationを改善した。

## Analysis

### Fine-grained Analysis

- Top-k Systems: MTタスクにおいて、評価するシステムをtop-kにし、各メトリックごとにcorrelationの変化を見た。その結果、BARTScoreはすべてのunsupervised methodをすべてのkにおいて上回り、supervised metricのBLEURTも上回った。また、kが小さくなるほど、より性能はsmoothになっていき、性能の低下がなくなっていった。これはつまり、high-quality textを生成するシステムに対してロバストであることを示している。

- Reference Length: テストセットを4つのバケットにreference lengthに応じてブレイクダウンし、Kendall's Tauの平均のcorrelationを、異なるメトリック、バケットごとに言語をまたいで計算した。unsupervised metricsに対して、全てのlengthに対して、引き分けかあるいは上回った。また、ほかのmetricsと比較して、長さに対して安定感があることが分かった。

### Prompt Analysis

(1) semantic overlap (informativeness, pyramid score, relevance), (2) linguistic quality (fluency, coherence), (3) factual correctness (factuality) に評価の観点を分類し、summarizationとdata-to-textをにおけるすべてのpromptを分析することで、promptの効果を分析した。それぞれのグループに対して、性能が改善したpromptの割合を計算した。その結果、semantic overlapはほぼ全てのpromptにて性能が改善し、factualityはいくつかのpromptでしか性能の改善が見られなかった。linguistic qualityに関しては、promptを追加することによる効果はどちらとも言えなかった。

### Bias Analysis

BARTScoreが予測不可能な方法でバイアスを導入してしまうかどうかを分析した。バイアスとは、human annotatorが与えたスコアよりも、値が高すぎる、あるいは低すぎるような状況である。このようなバイアスが存在するかを検証するために、human annotatorとBARTScoreによるランクのサを分析した。これを見ると、BARTScoreは、extractive summarizationの品質を区別する能力がabstractive summarizationの品質を区別する能力よりも劣っていることが分かった。しかしながら、近年のトレンドはabstractiveなseq2seqを活用することなので、この弱点は軽減されている。

# Implications and Future Directions

prompt-augmented metrics: semantic overlapではpromptingが有効に働いたが、linguistic qualityとfactualityでは有効ではなかった。より良いpromptを模索する研究が今後期待される。

Co-evolving evaluation metrics and systems: BARTScoreは、メトリックデザインとシステムデザインの間につながりがあるので、より性能の良いseq2seqシステムが出たら、それをメトリックにも活用することでよりreliableな自動性能指標となることが期待される。

#Sentence #Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #ContrastiveLearning #Catastrophic Forgetting #Selected Papers/Blogs Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP'21 GPT Summary- この論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Reimers+, UKP-TUDA, EMNLP'19 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる

# 手法概要

Contrastive Learningを活用して、unsupervised/supervisedに学習を実施する。

Unsupervised SimCSEでは、あるsentenceをencoderに2回入力し、それぞれにdropoutを適用させることで、positive pairを作成する。dropoutによって共通のembeddingから異なる要素がマスクされた（noiseが混ざった状態とみなせる）類似したembeddingが作成され、ある種のdata augmentationによって正例を作成しているともいえる。負例はnegative samplingする。（非常にsimpleだが、next sentence predictionで学習するより性能が良くなる）

Supervised SimCSEでは、アノテーションされたsentence pairに基づいて、正例・負例を決定する。本研究では、NLIのデータセットにおいて、entailment関係にあるものは正例として扱う。contradictions（矛盾）関係にあるものは負例として扱う。

# Siamese Networkで用いられるmeans-squared errrorとContrastiveObjectiveの違い

どちらもペアワイズで比較するという点では一緒だが、ContrastiveObjectiveは正例と近づいたとき、負例と遠ざかったときにlossが小さくなるような定式化がされている点が異なる。

（画像はこのブログから引用。ありがとうございます。 https://techblog.cccmk.co.jp/entry/2022/08/30/163625）

# Unsupervised SimCSEの実験

異なるdata augmentation手法と比較した結果、dropoutを適用する手法の方が性能が高かった。MLMや, deletion, 類義語への置き換え等よりも高い性能を獲得しているのは興味深い。また、Next Sentence Predictionと比較しても、高い性能を達成。Next Sentence Predictionは、word deletion等のほぼ類似したテキストから直接的に類似関係にあるペアから学習するというより、Sentenceの意味内容のつながりに基づいてモデルの言語理解能力を向上させ、そのうえで類似度を測るという間接的な手法だが、word deletionに負けている。一方、dropoutを適用するだけの（直接的に類似ペアから学習する）本手法はより高い性能を示している。

[image](https://github.com/AkihikoWatanabe/paper_notes/assets/12249301/0ea3549e-3363-4857-94e6-a1ef474aa191)

なぜうまくいくかを分析するために、異なる設定で実験し、alignment（正例との近さ）とuniformity（どれだけembeddingが一様に分布しているか）を、10 stepごとにplotした結果が以下。dropoutを適用しない場合と、常に同じ部分をマスクする方法（つまり、全く同じembeddingから学習する）設定を見ると、学習が進むにつれuniformityは改善するが、alignmentが悪くなっていっている。一方、SimCSEはalignmentを維持しつつ、uniformityもよくなっていっていることがわかる。

# Supervised SimCSEの実験

アノテーションデータを用いてContrastiveLearningするにあたり、どういったデータを正例としてみなすと良いかを検証するために様々なデータセットで学習し性能を検証した。

- QQP4: Quora question pairs

- Flickr30k (Young et al., 2014): 同じ画像に対して、5つの異なる人間が記述したキャプションが存在

- ParaNMT (Wieting and Gimpel, 2018): back-translationによるparaphraseのデータセットa

- NLI datasets: SNLIとMNLI

実験の結果、NLI datasetsが最も高い性能を示した。この理由としては、NLIデータセットは、crowd sourcingタスクで人手で作成された高品質なデータセットであることと、lexical overlapが小さくなるようにsentenceのペアが作成されていることが起因している。実際、NLI datsetのlexical overlapは39%だったのに対し、ほかのデータセットでは60%であった。

また、condunctionsとなるペアを明示的に負例として与えることで、より性能が向上した（普通はnegative samplingする、というかバッチ内の正例以外のものを強制的に負例とする。こうすると、意味が同じでも負例になってしまう事例が出てくることになる）。より難しいNLIタスクを含むANLIデータセットを追加した場合は、性能が改善しなかった。この理由については考察されていない。性能向上しそうな気がするのに。

# 他手法との比較結果

SimCSEがよい。

# Ablation Studies

異なるpooling方法で、どのようにsentence embeddingを作成するかで性能の違いを見た。originalのBERTの実装では、CLS token のembeddingの上にMLP layerがのっかっている。これの有無などと比較。

Unsupervised SimCSEでは、training時だけMLP layerをのっけて、test時はMLPを除いた方が良かった。一方、Supervised SimCSEでは、 MLP layerをのっけたまんまで良かったとのこと。

また、SimCSEで学習したsentence embeddingを別タスクにtransferして活用する際には、SimCSEのobjectiveにMLMを入れた方が、catastrophic forgettingを防げて性能が高かったとのこと。

ablation studiesのhard negativesのところと、どのようにミニバッチを構成するか、それぞれのtransferしたタスクがどのようなものがしっかり読めていない。あとでよむ。

#Pocket #NLP #LanguageModel #Evaluation #LLM-as-a-Judge #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 Comment

MT-Bench（MTBench）スコアとは、multi-turnのQAを出題し、その回答の質をGPT-4でスコアリングしたスコアのこと。

GPT-4の判断とhuman expertの判断とのagreementも検証しており、agreementは80%以上を達成している。

`LLM-as-a-Judge` という用語を最初に提唱したのも本研究となる（p.2参照）

#Pocket #NLP #Dataset #LanguageModel #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#EfficiencyImprovement #MachineLearning #Pocket #Supervised-FineTuning (SFT) #Quantization #PEFT(Adaptor/LoRA) #NeurIPS #PostTraining #Selected Papers/Blogs Issue Date: 2023-07-22 QLoRA: Efficient Finetuning of Quantized LLMs, Tim Dettmers+, N_A, NeurIPS'23 GPT Summary- 私たちは、QLoRAという効率的なファインチューニング手法を提案します。この手法は、メモリ使用量を削減し、48GBの単一のGPU上で65Bパラメータモデルをファインチューニングすることができます。また、16ビットのファインチューニングタスクのパフォーマンスを維持します。QLoRAは、凍結された4ビット量子化された事前学習済み言語モデルの勾配をLow Rank Adapters（LoRA）に逆伝播させます。私たちの最良のモデルファミリーであるGuanacoは、Vicunaベンチマークで以前に公開されたすべてのモデルを上回り、ChatGPTのパフォーマンスレベルの99.3%に達します。また、単一のGPU上でのファインチューニングには24時間しかかかりません。QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するためのいくつかの革新を導入しています。具体的には、4ビットNormalFloat（NF4）という情報理論的に最適な新しいデータ型、ダブル量子化による平均メモリフットプリントの削減、およびページドオプティマイザによるメモリスパイクの管理です。私たちはQLoRAを使用して1,000以上のモデルをファインチューニングし、8つの命令データセット、複数のモデルタイプ（LLaMA、T5）、および従来のファインチューニングでは実行不可能なモデルスケール（33Bおよび65Bパラメータモデル）にわたる命令の追跡とチャットボットのパフォーマンスの詳細な分析を提供します。私たちの結果は、QLoRAを使用して小規模な高品質のデータセットでのファインチューニングが、以前のSoTAよりも小さいモデルを使用しても最先端の結果をもたらすことを示しています。また、人間の評価とGPT-4の評価に基づいたチャットボットのパフォーマンスの詳細な分析を提供し、GPT-4の評価が安価で合理的な人間の評価の代替手段であることを示します。さらに、現在のチャットボットのベンチマークは、チャットボットのパフォーマンスレベルを正確に評価するためには信頼性がないことがわかります。GuanacoがChatGPTと比較してどこで失敗するかを示す分析も行っています。私たちは、4ビットトレーニングのためのCUDAカーネルを含む、すべてのモデルとコードを公開しています。 Comment

実装: https://github.com/artidoro/qlora
PEFTにもある

参考:

Loading…

OpenReview: https://openreview.net/forum?id=OUIFPHEgJU&referrer=%5Bthe%20profile%20of%20Ari%20Holtzman%5D(%2Fprofile%3Fid%3D~Ari_Holtzman1)

#Pocket #NLP #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#NLP #Dataset #LanguageModel #AIAgents #Evaluation #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

Webにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。

タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまたいだ汎化性能を評価できる。

プロジェクトサイト:
https://osu-nlp-group.github.io/Mind2Web/

#EfficiencyImprovement #Pretraining #MachineLearning #NLP #LanguageModel #SmallModel #Selected Papers/Blogs Issue Date: 2023-06-25 Textbooks Are All You Need, Suriya Gunasekar+, N_A, arXiv'23 GPT Summary- 本研究では、小規模なphi-1という新しいコード用大規模言語モデルを紹介し、8つのA100で4日間トレーニングした結果、HumanEvalでpass@1の正解率50.6％、MBPPで55.5％を達成したことを報告しています。また、phi-1は、phi-1-baseやphi-1-smallと比較して、驚くべき新しい性質を示しています。phi-1-smallは、HumanEvalで45％を達成しています。 Comment

参考:

Loading…

教科書のような品質の良いテキストで事前学習すると性能が向上し（グラフ真ん中）、さらに良質なエクササイズでFinetuningするとより性能が向上する（グラフ右）

日本語解説: https://dalab.jp/archives/journal/introduction-textbooks-are-all-you-need/

ざっくり言うと、教科書で事前学習し、エクササイズでFinetuningすると性能が向上する（= より大きいモデルと同等の性能が得られる）。

#DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Evaluation #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

# 概要
既存のテキスト生成の評価手法（BLEUやMETEOR）はsurface levelのマッチングしかしておらず、意味をとらえられた評価になっていなかったので、pretrained BERTのembeddingを用いてsimilarityを測るような指標を提案しましたよ、という話。

# prior metrics
## n-gram matching approaches
n-gramがreferenceとcandidateでどれだけ重複しているかでPrecisionとrecallを測定

### BLEU
MTで最も利用される。n-gramのPrecision（典型的にはn=1,2,3,4）と短すぎる候補訳にはペナルティを与える（brevity penalty）ことで実現される指標。SENT-BLEUといった亜種もある。BLEUと比較して、BERTScoreは、n-gramの長さの制約を受けず、潜在的には長さの制限がないdependencyをcontextualized embeddingsでとらえることができる。

### METEOR
METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Banerjee+, CMU, ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization
METEOR 1.5では、内容語と機能語に異なるweightを割り当て、マッチングタイプによってもweightを変更する。METEOR++2.0では、学習済みの外部のparaphrase resourceを活用する。METEORは外部のリソースを必要とするため、たった5つの言語でしかfull feature setではサポートされていない。11の言語では、恥部のfeatureがサポートされている。METEORと同様に、BERTScoreでも、マッチに緩和を入れていることに相当するが、BERTの事前学習済みのembeddingは104の言語で取得可能である。BERTScoreはまた、重要度によるweightingをサポートしている（コーパスの統計量で推定）。

### Other Related Metrics
- NIST: BLEUとは異なるn-gramの重みづけと、brevity penaltyを利用する
- ΔBLEU: multi-reference BLEUを、人手でアノテーションされたnegative reference sentenceで変更する
- CHRF: 文字n-gramを比較する
- CHRF++: CHRFをword-bigram matchingに拡張したもの
- ROUGE: 文書要約で利用される指標。ROUGE-N, ROUGE^Lといった様々な変種がある。
- CIDEr: image captioningのmetricであり、n-gramのtf-idfで重みづけされたベクトルのcosine similrityを測定する

## Edit-distance based Metrics
- Word Error Rate (WER): candidateからreferenceを再現するまでに必要なedit operationの数をカウントする手法
- Translation Edit Rate (TER): referenceの単語数によってcandidateからreferenceまでのedit distanceを正規化する手法
- ITER: 語幹のマッチと、より良い正規化に基づく手法
- PER: positionとは独立したError Rateを算出
- CDER: edit operationにおけるblock reorderingをモデル化
- CHARACTER / EED: character levelで評価

## Embedding-based Metrics
- MEANT 2.0: lexical, structuralの類似度を測るために、word embeddingとshallow semantic parsesを利用
- YISI-1: MEANT 2.0と同様だが、semantic parseの利用がoptionalとなっている
これらはBERTScoreと同様の、similarityをシンプルに測るアプローチで、BERTScoreもこれにinspireされている。が、BERTScoreはContextualized Embeddingを利用する点が異なる。また、linguistic structureを生成するような外部ツールは利用しない。これにより、BERTScoreをシンプルで、新たなlanguageに対しても使いやすくしている。greedy matchingの代わりに、WMD, WMDo, SMSはearth mover's distanceに基づく最適なマッチングを利用することを提案している。greedy matchingとoptimal matchingのtradeoffについては研究されている。sentence-levelのsimilarityを計算する手法も提案されている。これらと比較して、BERTScoreのtoken-levelの計算は、重要度に応じて、tokenに対して異なる重みづけをすることができる。

## Learned Metrics
様々なmetricが、human judgmentsとのcorrelationに最適化するために訓練されてきた。
- BEER: character-ngram, word bigramに基づいたregresison modelを利用
- BLEND: 29の既存のmetricを利用してregressionを実施
- RUSE: 3種類のpre-trained sentence embedding modelを利用する手法
これらすべての手法は、コストのかかるhuman judgmentsによるsupervisionが必要となる。そして、新たなドメインにおける汎化能力の低さのリスクがある。input textが人間が生成したものか否か予測するneural modelを訓練する手法もある。このアプローチは特定のデータに対して最適化されているため、新たなデータに対して汎化されないリスクを持っている。これらと比較して、BERTScoreは特定のevaluation taskに最適化されているモデルではない。

# BERTScore
referenceとcandidateのトークン間のsimilarityの最大値をとり、それらを集約することで、Precision, Recallを定義し、PrecisionとRecallを利用してF値も計算する。Recallは、reference中のすべてのトークンに対して、candidate中のトークンとのcosine similarityの最大値を測る。一方、Precisionは、candidate中のすべてのトークンに対して、reference中のトークンとのcosine similarityの最大値を測る。ここで、類似度の式が単なる内積になっているが、これはpre-normalized vectorを利用する前提であり、正規化が必要ないからである。

また、IDFによるトークン単位でのweightingを実施する。IDFはテストセットの値を利用する。TFを使わない理由は、BERTScoreはsentence同士を比較する指標であるため、TFは基本的に1となりやすい傾向にあるためである。IDFを計算する際は出現数を+1することによるスムージングを実施。

さらに、これはBERTScoreのランキング能力には影響を与えないが、BERTScoreの値はコサイン類似度に基づいているため、[-1, 1]となるが、実際は学習したcontextual embeddingのgeometryに値域が依存するため、もっと小さなレンジでの値をとることになってしまう。そうすると、人間による解釈が難しくなる（たとえば、極端な話、スコアの0.1程度の変化がめちゃめちゃ大きな変化になってしまうなど）ため、rescalingを実施。rescalingする際は、monolingualコーパスから、ランダムにsentenceのペアを作成し（BETRScoreが非常に小さくなるケース）、これらのBERTScoreを平均することでbを算出し、bを利用してrescalingした。典型的には、rescaling後は典型的には[0, 1]の範囲でBERTScoreは値をとる（ただし数式を見てわかる通り[0, 1]となることが保証されているわけではない点に注意）。これはhuman judgmentsとのcorrelationとランキング性能に影響を与えない（スケールを変えているだけなので）。

# 実験

## Contextual Embedding Models

12種類のモデルで検証。BERT, RoBERTa, XLNet, XLMなど。

## Machine Translation

WMT18のmetric evaluation datasetを利用。149種類のMTシステムの14 languageに対する翻訳結果, gold referencesと2種類のhuman judgment scoreが付与されている。segment-level human judgmentsは、それぞれのreference-candiate pairに対して付与されており、system-level human judgmentsは、それぞれのシステムに対して、test set全体のデータに基づいて、単一のスコアが付与されている。pearson correlationの絶対値と、kendall rank correration τをmetricsの品質の評価に利用。そしてpeason correlationについてはWilliams test、kendall τについては、bootstrap re-samplingによって有意差を検定した。システムレベルのスコアをBERTScoreをすべてのreference-candidate pairに対するスコアをaveragingすることによって求めた。また、ハイブリッドシステムについても実験をした。具体的には、それぞれのreference sentenceについて、システムの中からランダムにcandidate sentenceをサンプリングした。これにより、system-level experimentをより多くのシステムで実現することができる。ハイブリッドシステムのシステムレ4ベルのhuman judgmentsは、WMT18のsegment-level human judgmentsを平均することによって作成した。BERTScoreを既存のメトリックと比較した。

通常の評価に加えて、モデル選択についても実験した。10kのハイブリッドシステムを利用し、10kのうち100をランダムに選択、そして自動性能指標でそれらをランキングした。このプロセスを100K回繰り返し、human rankingとmetricのランキングがどれだけagreementがあるかをHits@1で評価した（best systemの一致で評価）。モデル選択の指標として新たにtop metric-rated systemとhuman rankingの間でのMRR, 人手評価でtop-rated systemとなったシステムとのスコアの差を算出した。WMT17, 16のデータセットでも同様の評価を実施した。

## Image Captioning

COCO 2015 captioning challengeにおける12種類のシステムのsubmissionデータを利用。COCO validationセットに対して、それぞれのシステムはimageに対するcaptionを生成し、それぞれのimageはおよそ5個のreferenceを持っている。先行研究にならい、Person Correlationを2種類のシステムレベルmetricで測定した。

- M1: 人間によるcaptionと同等、あるいはそれ以上と評価されたcaptionの割合

- M2: 人間によるcaptionと区別がつかないcaptionの割合

BERTScoreをmultiple referenceに対して計算し、最も高いスコアを採用した。比較対象のmetricはtask-agnostic metricを採用し、BLEU, METEOR, CIDEr, BEER, EED, CHRF++, CHARACTERと比較した。そして、2種類のtask-specific metricsとも比較した：SPICE, LEIC

# 実験結果

## Machine Translation

system-levelのhuman judgmentsとのcorrelationの比較、hybrid systemとのcorrelationの比較、model selection performance

to-Englishの結果では、BERTScoreが最も一貫して性能が良かった。RUSEがcompetitiveな性能を示したが、RUSEはsupervised methodである。from-Englishの実験では、RUSEは追加のデータと訓練をしないと適用できない。

以下は、segment-levelのcorrelationを示したものである。BERTScoreが一貫して高い性能を示している。BLEUから大幅な性能アップを示しており、特定のexampleについての良さを検証するためには、BERTScoreが最適であることが分かる。BERTScoreは、RUSEをsignificantlyに上回っている。idfによる重要度のweightingによって、全体としては、small benefitがある場合があるが全体としてはあんまり効果がなかった。importance weightingは今後の課題であり、テキストやドメインに依存すると考えられる。FBERTが異なる設定でも良く機能することが分かる。異なるcontextual embedding model間での比較などは、appendixに示す。

## Image Captioning

task-agnostic metricの間では、BETRScoreはlarge marginで勝っている。image captioningはchallengingな評価なので、n-gramマッチに基づくBLEU, ROUGEはまったく機能していない。また、idf weightingがこのタスクでは非常に高い性能を示した。これは人間がcontent wordsに対して、より高い重要度を置いていることがわかる。最後に、LEICはtrained metricであり、COCO dataに最適化されている。この手法は、ほかのすべてのmetricを上回った。

## Speed

pre-trained modelを利用しているにもかかわらず、BERTScoreは比較的高速に動作する。192.5 candidate-reference pairs/secondくらい出る（GTX-1080Ti GPUで）。WMT18データでは、15.6秒で処理が終わり、SacreBLEUでは5.4秒である。計算コストそんなにないので、BERTScoreはstoppingのvalidationとかにも使える。

# Robustness analysis

BERTScoreのロバスト性をadversarial paraphrase classificationでテスト。Quora Question Pair corpus (QQP) を利用し、Word Scrambling dataset (PAWS) からParaphrase Adversariesを取得。どちらのデータも、各sentenceペアに対して、それらがparaphraseかどうかラベル付けされている。QQPの正例は、実際のduplicate questionからきており、負例は関連するが、異なる質問からきている。PAWSのsentence pairsは単語の入れ替えに基づいているものである。たとえば、"Flights from New York to Florida" は "Flights from Florida to New York" のように変換され、良いclassifierはこれらがparaphraseではないと認識できなければならない。PAWSはPAWS_QQPとPAWS_WIKIによって構成さえｒており、PAWS_QQPをdevelpoment setとした。automatic metricsでは、paraphrase detection training dataは利用しないようにした。自動性能指標で高いスコアを獲得するものは、paraphraseであることを想定している。

下図はAUCのROC curveを表しており、PAWS_QQPにおいて、QQPで訓練されたclassifierはrandom guessよりも性能が低くなることが分かった。つまりこれらモデルはadversaial exampleをparaphraseだと予測してしまっていることになる。adversarial examplesがtrainingデータで与えられた場合は、supervisedなモデルも分類ができるようになる。が、QQPと比べると性能は落ちる。多くのmetricsでは、QQP ではまともなパフォーマンスを示すが、PAWS_QQP では大幅なパフォーマンスの低下を示し、ほぼrandomと同等のパフォーマンスとなる。これは、これらの指標がより困難なadversarial exampleを区別できないことを示唆している。一方、BERTSCORE のパフォーマンスはわずかに低下するだけであり、他の指標よりもロバスト性が高いことがわかる。

# Discussion

- BERTScoreの単一の設定が、ほかのすべての指標を明確に上回るということはない

- ドメインや言語を考慮して、指標や設定を選択すべき

- 一般的に、機械翻訳の評価にはFBERTを利用することを推奨

- 英語のテキスト生成の評価には、24層のRoBERTa largeモデルを使用して、BERTScoreを計算したほうが良い

- 非英語言語については、多言語のBERT_multiが良い選択肢だが、このモデルで計算されたBERTScoreは、low resource languageにおいて、パフォーマンスが安定しているとは言えない

#NeuralNetwork #Pocket #NLP #LanguageModel #Chain-of-Thought #ICLR #Test-Time Scaling #Selected Papers/Blogs Issue Date: 2023-04-27 [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 GPT Summary- 自己一貫性という新しいデコーディング戦略を提案し、chain-of-thought promptingの性能を向上。多様な推論経路をサンプリングし、一貫した答えを選択することで、GSM8KやSVAMPなどのベンチマークで顕著な改善を達成。 Comment

self-consistencyと呼ばれる新たなCoTのデコーディング手法を提案。

これは、難しいreasoningが必要なタスクでは、複数のreasoningのパスが存在するというintuitionに基づいている。

self-consistencyではまず、普通にCoTを行う。そしてgreedyにdecodingする代わりに、以下のようなプロセスを実施する：

1. 多様なreasoning pathをLLMに生成させ、サンプリングする。

2. 異なるreasoning pathは異なるfinal answerを生成する（= final answer set）。

3. そして、最終的なanswerを見つけるために、reasoning pathをmarginalizeすることで、final answerのsetの中で最も一貫性のある回答を見出す。

これは、もし異なる考え方によって同じ回答が導き出されるのであれば、その最終的な回答は正しいという経験則に基づいている。

self-consistencyを実現するためには、複数のreasoning pathを取得した上で、最も多いanswer a_iを選択する（majority vote）。これにはtemperature samplingを用いる（temperatureを0.5やら0.7に設定して、より高い信頼性を保ちつつ、かつ多様なoutputを手に入れる）。

temperature samplingについては[こちら]( https://openreview.net/pdf?id=rygGQyrFvH)の論文を参照のこと。

sampling数は増やせば増やすほど性能が向上するが、徐々にサチってくる。サンプリング数を増やすほどコストがかかるので、その辺はコスト感との兼ね合いになると思われる。

Self-consistencyは回答が閉じた集合であるような問題に対して適用可能であり、open-endなquestionでは利用できないことに注意が必要。ただし、open-endでも回答間になんらかの関係性を見出すような指標があれば実現可能とlimitationで言及している。

#NeuralNetwork #Pocket #NLP #LanguageModel #Zero/Few/ManyShotPrompting #In-ContextLearning #NeurIPS #Selected Papers/Blogs Issue Date: 2023-04-27 Language Models are Few-Shot Learners, Tom B. Brown+, NeurIPS'20 GPT Summary- GPT-3は1750億パラメータを持つ自己回帰型言語モデルで、少数ショット設定においてファインチューニングなしで多くのNLPタスクで強力な性能を示す。翻訳や質問応答などで優れた結果を出し、即時推論やドメイン適応が必要なタスクでも良好な性能を発揮する一方、依然として苦手なデータセットや訓練に関する問題も存在する。また、GPT-3は人間が書いた記事と区別が難しいニュース記事を生成できることが確認され、社会的影響についても議論される。 Comment

In-Context Learningを提案した論文

論文に記載されているIn-Context Learningの定義は、しっかり押さえておいた方が良い。

下図はmeta-learningの観点から見たときの、in-contextの位置付け。事前学習時にSGDでパラメータをupdateするのをouter loopとし、そこで広いスキルとパターン認識の能力を身につける。一方で、in-context learningは、Inference時に事前学習時に得たそれらのスキルを用いて、求めるタスクを認識、あるいは適応するInner loopのことを指す。

この上で、論文中では In-Context Learningについて:
> Recent work [RWC+19] attempts to do this via what we call “in-context learning”, using the text input of a pretrained language model as a form of task specification: the model is conditioned on a natural language instruction and/or a few demonstrations of the task and is then expected to complete further instances of the task simply by predicting what comes next.

と定義している。

#NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Slide #PostTraining #Selected Papers/Blogs Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Comment

ベースとなる事前学習モデルの一部の線形層の隣に、低ランク行列A,Bを導入し、A,Bのパラメータのみをfinetuningの対象とすることで、チューニングするパラメータ数を激減させた上で同等の予測性能を達成し、推論速度も変わらないようにするfinetuning手法の解説

LoRAを使うと、でかすぎるモデルだと、そもそもGPUに載らない問題や、ファインチューニング後のモデルファイルでかすぎワロタ問題が回避できる。

前者は事前学習済みモデルのBPのための勾配を保存しておく必要がなくなるため学習時にメモリ節約になる。後者はA,Bのパラメータだけ保存すればいいので、ストレージの節約になる。

かつ、学習速度が25%程度早くなる。

既存研究であるAdapter（transformerの中に学習可能なMLPを差し込む手法）は推論コストが増加し、prefix tuningは学習が非常に難しく、高い性能を達成するためにprefixとして128 token入れたりしなければならない。

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft

#NLP #LanguageModel #AIAgents #Selected Papers/Blogs Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23 Comment

# 概要

人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた（Chain-of-Thought）が、CoTは外部リソースにアクセスできないため知識がアップデートできず、事後的に推論を行うためhallucinationやエラーの伝搬が生じる。一方で、事前学習言語モデルをinteractiveな環境において計画と行動に利用する研究が行われているが、これらの研究では、高レベルの目標について抽象的に推論したり、行動をサポートするための作業記憶を維持したりするために言語モデルを利用していない。推論と行動を一般的な課題解決のためにどのようにシナジーできるか、またそのようなシナジーが単独で推論や行動を実施した場合と比較してどのような利益をもたらすかについて研究されていない。

そこで、REACTを提案。REACTは推論と行動をLLMと組み合わせて、多様な推論や意思決定タスクを実現するための一般的な枠組みであり、推論トレースとアクションを交互に生成するため、動的に推論を実行して行動するための大まかな計画を作成、維持、調整できると同時に、wikipediaなどの外部ソースとやりとりして追加情報を収集し、推論プロセスに組み込むことが可能となる。

- 要はいままではGeneralなタスク解決モデルにおいては、推論とアクションの生成は独立にしかやられてこなかったけど、推論とアクションを交互作用させることについて研究したよ

- そしたら性能がとってもあがったよ

- reasoningを人間が編集すれば、エージェントのコントロールもできるよ　という感じ

# イントロ

人間は推論と行動の緊密なシナジーによって、不確実な状況に遭遇しても適切な意思決定が行える。たとえば、任意の2つの特定のアクションの間で、進行状況をトレースするために言語で推論したり（すべて切り終わったからお湯を沸かす必要がある）、例外を処理したり、状況に応じて計画を調整したりする（塩がないから代わりに醤油と胡椒を使おう）。また、推論をサポートし、疑問（いまどんな料理を作ることができるだろうか？）を解消するために、行動（料理本を開いてレシピを読んで、冷蔵庫を開いて材料を確確認したり）をすることもある。

近年の研究では言語での推論を、インタラクティブな意思決定を組み合わせる可能性についてのヒントが得られてきた。一つは、適切にPromptingされたLLMが推論トレースを実行できることを示している。推論トレースとは、解決策に到達するための一連のステップを経て推論をするためのプロセスのことである。しかしながらChain-of-thoughytは、このアプローチでは、モデルが外界対してgroundingできず、内部表現のみに基づい思考を生成するため限界がある。これによりモデルが事後対応的に推論したり、外部情報に基づいて知識を更新したりできないため、推論プロセス中にhallucinationやエラーの伝搬などの問題が発生する可能性が生じる。

一方、近年の研究では事前学習言語モデルをinteractiveな環境において計画と行動に利用する研究が行われている。これらの研究では、通常マルチモーダルな観測結果をテキストに変換し、言語モデルを使用してドメイン固有のアクション、またはプランを生成し、コントローラーを利用してそれらを選択または実行する。ただし、これらのアプローチは高レベルの目標について抽象的に推論したり、行動をサポートするための作業記憶を維持したりするために言語モデルを利用していない。

推論と行動を一般的な課題解決のためにどのようにシナジーできるか、またそのようなシナジーが単独で推論や行動を実施した場合と比較してどのような利益をもたらすかについて研究されていない。

LLMにおける推論と行動を組み合わせて、言語推論と意思決定タスクを解決するREACTと呼ばれる手法を提案。REACTでは、推論と行動の相乗効果を高めることが可能。推論トレースによりアクションプランを誘発、追跡、更新するのに役立ち、アクションでは外部ソースと連携して追加情報を収集できる。

REACTは推論と行動をLLMと組み合わせて、多様な推論や意思決定タスクを実現するための一般的な枠組みである。REACTのpromptはLLMにverbalな推論トレースとタスクを実行するためのアクションを交互に生成する。これにより、モデルは動的な推論を実行して行動するための大まかな計画を作成、維持、調整できると同時に、wikipediaなどの外部ソースとやりとりして追加情報を収集し、推論プロセスに組み込むことが可能となる。

# 手法

変数を以下のように定義する：

- O_t: Observertion on time t

- a_t: Action on time t

- c_t: context, i.e. (o_1, a_1, o_2, a_2, ..., a_t-1, o_t)

- policy pi(a_t | c_t): Action Spaceからアクションを選択するポリシー

- A: Action Space

- O: Observation Space

普通はc_tが与えられたときに、ポリシーに従いAからa_tを選択しアクションを行い、アクションの結果o_tを得て、c_t+1を構成する、といったことを繰り返していく。

このとき、REACTはAをA ∪ Lに拡張しする。ここで、LはLanguage spaceである。LにはAction a_hatが含まれ、a_hatは環境に対して作用をしない。単純にthought, あるいは reasoning traceを実施し、現在のcontext c_tをアップデートするために有用な情報を構成することを目的とする。Lはunlimitedなので、事前学習された言語モデルを用いる。今回はPaLM-540B（c.f. GPT3は175Bパラメータ）が利用され、few-shotのin-context exampleを与えることで推論を行う。それぞれのin-context exampleは、action, thoughtsそしてobservationのtrajectoryを与える。

推論が重要なタスクでは、thoughts-action-observationステップから成るtask-solving trajectoryを生成する。一方、多数のアクションを伴う可能性がある意思決定タスクでは、thoughtsのみを行うことをtask-solving trajectory中の任意のタイミングで、自分で判断して行うことができる。

意思決定と推論能力がLLMによってもたらされているため、REACTは4つのuniqueな特徴を持つ：

- 直感的で簡単なデザイン

- REACTのpromptは人間のアノテータがアクションのトップに思考を言語で記述するようなストレートなものであり、ad-hocなフォーマットの選択、思考のデザイン、事例の選定などが必要ない。

- 一般的で柔軟性が高い

- 柔軟な thought spaceと thought-actionのフォーマットにより、REACTはさまざまなタスクにも柔軟に対応できる

- 高性能でロバスト

- REACTは1-6個の事例によって、新たなタスクに対する強力な汎化を示す。そして推論、アクションのみを行うベースラインよりも高い性能を示している。REACTはfinetuningの斧系も得ることができ、promptの選択に対してREACTの性能はrobustである。

- 人間による調整と操作が可能

- REACTは、解釈可能な意思決定と推論のsequenceを前提としているため、人間は簡単に推論や事実の正しさを検証できる。加えて、thoughtsを編集することによって、m人間はエージェントの行動を制御、あるいは修正できる。

# KNOWLEDGE INTENSIVE REASONING TASKS

#NeuralNetwork #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining #Selected Papers/Blogs Issue Date: 2022-08-19 [Paper Note] The Power of Scale for Parameter-Efficient Prompt Tuning, Brian Lester+, arXiv'21, 2021.04 GPT Summary- 本研究では、凍結された言語モデルを特定のタスクに適応させるための「ソフトプロンプト」を学習するプロンプトチューニング手法を提案。逆伝播を通じて学習されるソフトプロンプトは、GPT-3の少数ショット学習を上回る性能を示し、モデルサイズが大きくなるほど競争力が増すことが確認された。特に、数十億のパラメータを持つモデルにおいて、全ての重みを調整するモデルチューニングに匹敵する性能を発揮。これにより、1つの凍結モデルを複数のタスクに再利用できる可能性が示唆され、ドメイン転送に対するロバスト性も向上することが明らかとなった。 Comment

日本語解説: https://qiita.com/kts_plea/items/79ffbef685d362a7b6ce

T5のような大規模言語モデルに対してfinetuningをかける際に、大規模言語モデルのパラメータは凍結し、promptをembeddingするパラメータを独立して学習する手法

言語モデルのパラメータ数が増加するにつれ、言語モデルそのものをfinetuningした場合（Model Tuning）と同等の性能を示した。

いわゆる(Softな) Prompt Tuning

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #Evaluation #RecSys #Selected Papers/Blogs Issue Date: 2022-04-11 [Paper Note] Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches, Maurizio Ferrari Dacrema+, RecSys'19, 2019.07 GPT Summary- 深層学習技術はレコメンダーシステムの研究で広く用いられているが、再現性やベースライン選択に問題がある。18のトップnレコメンデーションアルゴリズムを分析した結果、再現できたのは7つのみで、6つは単純なヒューリスティック手法に劣っていた。残りの1つはベースラインを上回ったが、非ニューラル手法には及ばなかった。本研究は機械学習の実践における問題を指摘し、改善を呼びかけている。 Comment

RecSys'19のベストペーパー

日本語解説： https://qiita.com/smochi/items/98dbd9429c15898c5dc7

重要研究

#NeuralNetwork #ComputerVision #CVPR #Selected Papers/Blogs #Backbone Issue Date: 2021-11-04 Deep Residual Learning for Image Recognition, He+, Microsoft Research, CVPR’16 Comment

ResNet論文

ResNetでは、レイヤーの計算する関数を、残差F(x)と恒等関数xの和として定義する。これにより、レイヤーが入力との差分だけを学習すれば良くなり、モデルを深くしても最適化がしやすくなる効果ぎある。数レイヤーごとにResidual Connectionを導入し、恒等関数によるショートカットができるようにしている。

ResNetが提案される以前、モデルを深くすれば表現力が上がるはずなのに、実際には精度が下がってしまうことから、理論上レイヤーが恒等関数となるように初期化すれば、深いモデルでも浅いモデルと同等の表現が獲得できる、と言う考え方を発展させた。

（ステートオブAIガイドに基づく）

同じパラメータ数でより層を深くできる（Plainな構造と比べると層が1つ増える）Bottleneckアーキテクチャも提案している。

今や当たり前のように使われているResidual Connectionは、層の深いネットワークを学習するために必須の技術なのだと再認識。

#DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #ACL #PostTraining #Selected Papers/Blogs Issue Date: 2021-09-09 [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01 GPT Summary- プレフィックスチューニングは、ファインチューニングの軽量な代替手段であり、言語モデルのパラメータを固定しつつ、タスク特有の小さなベクトルを最適化する手法です。これにより、少ないパラメータで同等のパフォーマンスを達成し、低データ設定でもファインチューニングを上回る結果を示しました。 Comment

言語モデルをfine-tuningする際，エンコード時に「接頭辞」を潜在表現として与え，「接頭辞」部分のみをfine-tuningすることで（他パラメータは固定），より少量のパラメータでfine-tuningを実現する方法を提案．接頭辞を潜在表現で与えるこの方法は，GPT-3のpromptingに着想を得ている．fine-tuningされた接頭辞の潜在表現のみを配布すれば良いので，非常に少量なパラメータでfine-tuningができる．

table-to-text, summarizationタスクで，一般的なfine-tuningやAdapter（レイヤーの間にアダプターを挿入しそのパラメータだけをチューニングする手法）といった効率的なfine-tuning手法と比較．table-to-textでは、250k (元のモデルの 0.1%) ほどの数のパラメータを微調整するだけで、全パラメータをfine-tuningするのに匹敵もしくはそれ以上の性能を達成．

Hugging Faceの実装を利用したと論文中では記載されているが，fine-tuningする前の元の言語モデル（GPT-2）はどのように準備したのだろうか．Hugging Faceのpretrained済みのGPT-2を使用したのだろうか．

autoregressive LM (GPT-2)と，encoder-decoderモデル（BART）へPrefix Tuningを適用する場合の模式図

#NeuralNetwork #MachineTranslation #NLP #EMNLP #Selected Papers/Blogs Issue Date: 2021-06-02 Effective Approaches to Attention-based Neural Machine Translation, Luong+, EMNLP'15 Comment

Luong論文。attentionの話しはじめると、だいたいBahdanau+か、Luong+論文が引用される。

Global Attentionと、Local Attentionについて記述されている。Global Attentionがよく利用される。

Global Attention

Local Attention

やはり菊池さんの解説スライドが鉄板。

https://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention

参考までに、LuongらのGlobal Attentionの計算の流れは下記となっている：

- h_t -> a_t -> c_t -> h^~_t

BahdanauらのAttentionは下記

- h_t-1 -> a_t -> c_t -> h_t

t-1のhidden stateを使うのか、input feeding後の現在のhidden stateをattention weightの計算に使うのかが異なっている。

また、過去のalignmentの情報を考慮した上でデコーディングしていくために、input-feeding approachも提案

input-feeding appproachでは、t-1ステップ目のoutputの算出に使ったh^~_t（hidden_stateとcontext vectorをconcatし、tanhのactivationを噛ませた線形変換を行なったベクトル）を、時刻tのinput embeddingにconcatして、RNNに入力する。

#NeuralNetwork #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2021-05-28 [Paper Note] EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction, Qi Liu+, IEEE TKDE'19, 2019.06 GPT Summary- 学生のパフォーマンス予測のために、演習記録と教材情報を統合するEERNNフレームワークを提案。双方向LSTMを用いて演習内容をエンコードし、マルコフ特性とアテンションメカニズムを持つ2つの実装を提供。さらに、知識概念を追跡するEKTに拡張し、演習が知識習得に与える影響を定量化。実験により、予測精度と解釈可能性の向上が確認された。 Comment

DKT等のDeepなモデルでは、これまで問題テキストの情報等は利用されてこなかったが、learning logのみならず、問題テキストの情報等もKTする際に活用した研究。

[Paper Note] Exercise-Enhanced Sequential Modeling for Student Performance Prediction, Hu+, AAAI'18 をより洗練させjournal化させたものだと思われる。

[Paper Note] Exercise-Enhanced Sequential Modeling for Student Performance Prediction, Hu+, AAAI'18 ではKTというより、問題の正誤を予測するモデルとなっており、個々のconceptに対するproficiencyを推定するというKTの考え方はあまり導入されていなかった。

EKTの方では、個々のknowledge componentのproficiency scoreを算出する方法も提案されている。

モデル自体は、基本的にはattention-basedなRNNモデル。

Exercise EmbeddingはBidireictional-RNNを利用して、問題文をエンコードすることによって求める。

EKTによるmastery levelを可視化したもの。T=0とT=30では各conceptに対するmastery levelが大きく異なっている。基本的に、たくさん正解したconceptはmastery levelが向上し、不正解しまくったconceptはどんどんmastery levelがshrinkしていく。

予測性能。問題のContentを考慮することで、正誤予測のAUCは圧倒的に高くなる。DKTよりも10ポイント程度EKTAの方がAUCが高いように見える。

各モデルの特徴や、knowledge tracingが行えるか否か、といった性質を整理した表。わかりやすい。しかしDKTのknowledge tracking?が×になっているのは誤りでは？

各knowledge conceptの時刻tにおけるmastery levelの求め方。

EKTでは、生徒の各knowledge conceptの状態を保持した行列H_t^i（0 <= i <= # of concepts）を保持している。correctness probabilityを最終的に求める際には、H_t^iの各knowledge conceptに対する重みβ_iで重みづけた上でsummationをとり、各知識の状態を統合したベクトルsを作成し、sとexercise embedding xをconcatした上でスコアを予測する。

このスコアの予測部分を変更し、β_iをmastery levelを測定したいconceptのone-hot encodingに置き換え、さらにexercise embeddingをmaskしたベクトル=masked exercise embedding = zero vectorをconcatした上で、スコアを予測するようにする。

こうすることで、exerciseの影響を除き、かつone-hot encodingで指定したknowledgeのmasteryのみが考慮されたスコアを抽出できるため、そのスコアをmastery levelとする。

単にStudent Performance Predictionして終わり！ってんじゃなく、knowledge tracing的な側面をきちんと考慮している点で、この研究めっちゃ好き。

スキルタグごとにLSTMのhidden_stateを保持しないといけないので、メモリの消費量がえぐいことになりそう。小規模なスキルタグのデータセットじゃないと動かないのでは？

実際、実験では37種類のスキルタグが存在するデータセットしか扱っていない。

#NeuralNetwork #Survey #NLP #LanguageModel #Slide #Selected Papers/Blogs Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment

[2019/06まで]

・ELMo（双方向2層LSTM言語モデル）

・GPT（left-to-rightの12層Transformer自己回帰言語モデル）

・BERT（24層のTransformer双方向言語モデル）

・MT-DNN（BERTの上にマルチタスク層を追加した研究）

・XLM（パラレル翻訳コーパスを用いてクロスリンガルに穴埋めを学習）

・TransformerXL（系列長いに制限のあった既存モデルにセグメントレベルの再帰を導入し長い系列を扱えるように）

・GPT-2（48層Transformerの自己回帰言語モデル）

・ERNIE 1.0（Baidu, エンティティとフレーズの外部知識を使ってマスクに利用）

・ERNIE（Tsinghua, 知識グラフの情報をfusionしたLM）

・Glover（ドメイン、日付、著者などを条件とした生成を可能としたGPT）

・MASS（Encoder-Decoder型の生成モデルのための事前学習）

・UniLM（Sequence-to-Sequenceを可能にした言語モデル）

・XLNet（自己回帰（単方向）モデルと双方向モデルの両方の利点を得ることを目指す）

[2019/07~]

・SpanBERT（i.i.dではなく範囲でマスクし、同時に範囲の境界も予測する）

・ERNIE 2.0（Baidu, マルチタスク事前学習; 単語レベル・構造レベル・意味レベル）

・RoBERTa（BERTと同じ構造で工夫を加えることで性能向上）

　- より大きなバッチサイズを使う（256から8192）

　- より多くのデータを使う（16GBから160GB）

　- より長いステップ数の学習をする（BERT換算で16倍）

　- 次文予測（NSP）は不要

　→ GLUEでBERT, XLNetをoutperform

・StructBERT (ALICE, NSPに代わる学習の目的関数を工夫)

　- マスクした上で単語の順番をシャッフルし元に戻す

　- ランダム・正順・逆順の3種類を分類

　→ BERTと同サイズ、同データでBERT, RoBERTa超え

・DistilBERT（蒸留により、12層BERTを6層に小型化（40%減））

　- BERTの出力を教師として、生徒が同じ出力を出すように学習

　- 幅（隠れ層）サイズを減らすと、層数を経あｒスよりも悪化

　→ 推論は60%高速化、精度は95%程度を保持

・Q8BERT（精度を落とさずにfine-tuning時にBERTを8bit整数に量子化）

　- Embedding, FCは8bit化、softmax, LNorm, GELUは32bitをキープ

　→ モデルサイズ1/4, 速度3.7倍

・CTRL（条件付き言語モデル）

　- 条件となる制御テキストを本文の前に与えて学習

　- 48層/1280次元Transformer（パラメータ数1.6B）

・MegatronLM（72層、隠れ状態サイズ3072、長さ1024; BERTの24倍サイズ）

・ALBERT（BERTの層のパラメータをすべて共有することで学習を高速化; 2020年あたりのデファクト）

　- Largeを超えたモデルは学習が難しいため、表現は落ちるが学習しやすくした

　- 単語埋め込みを低次元にすることでパラメータ数削減

　- 次文予測を、文の順序入れ替え判定に変更

　→ GLUE, RACE, SQuADでSoTAを更新

・T5（NLPタスクをすべてtext-to-textとして扱い、Enc-Dec Transformerを745GBコーパスで事前学習して転移する）

　- モデルはEncoder-DecoderのTransformer

　- 学習タスクをエンコーダ・デコーダに合わせて変更

　- エンコーダ側で範囲を欠落させて、デコーダ側で予測

　→ GLUE, SuperGLUE, SQuAD1.1, CNN/DMでSoTA更新

・BART（Seq2Seqの事前学習として、トークンマスク・削除、範囲マスク、文の入れ替え、文書の回転の複数タスクで学習）

　→ CNN/DMでT5超え、WMT'16 RO-ENで逆翻訳を超えてSoTA

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

各データセットでの各モデルの性能も後半に記載されており興味深い。

ちなみに、CNN/DailyMail Datasetでは、T5, BARTあたりがSoTA。

R2で比較すると

　- Pointer-Generator + Coverage Vectorが17,28

　- LEAD-3が17.62

　- BARTが21.28

　- T5が21.55

となっている

#RecommenderSystems #Library #Selected Papers/Blogs Issue Date: 2019-09-11 Implicit Comment

Implicitデータに対するCollaborative Filtering手法がまとまっているライブラリ

Bayesian Personalized Ranking, Logistic Matrix Factorizationなどが実装。

Implicitの使い方はこの記事がわかりやすい：

https://towardsdatascience.com/building-a-collaborative-filtering-recommender-system-with-clickstream-data-dffc86c8c65

ALSの元論文の日本語解説

https://cympfh.cc/paper/WRMF

#RecommenderSystems #Pocket #SessionBased #ICLR #SequentialRecommendation #Selected Papers/Blogs Issue Date: 2019-08-02 [Paper Note] Session-based Recommendations with Recurrent Neural Networks, Balázs Hidasi+, arXiv'15 GPT Summary- RNNを用いたセッションベースのレコメンダーシステムを提案。短いユーザーヒストリーに基づく推薦の精度向上を目指し、セッション全体をモデル化。ランキング損失関数などの修正を加え、実用性を考慮。実験結果は従来のアプローチに対して顕著な改善を示す。 Comment

RNNを利用したsequential recommendation (session-based recommendation)の先駆け的論文。

日本語解説: https://qiita.com/tatamiya/items/46e278a808a51893deac

#RecommenderSystems #Dataset #Selected Papers/Blogs Issue Date: 2019-04-12 Recommender System Datasets, Julian McAuley Comment

Recommender Systems研究に利用できる各種データセットを、Julian McAuley氏がまとめている。

氏が独自にクロールしたデータ等も含まれている。

非常に有用。

#RecommenderSystems #Tutorial #Explanation #Selected Papers/Blogs Issue Date: 2019-01-23 Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011 Comment

Recommender Systems HandbookのChapter。[Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07 のSurveyと同じ著者による執筆。

推薦のExplanationといえばこの人というイメージ。

D論： http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf

#RecommenderSystems #NeuralNetwork #Pocket #RecSys #Selected Papers/Blogs Issue Date: 2018-12-27 [Paper Note] Deep Neural Networks for YouTube Recommendations, Covington+, RecSys'16 #AdaptiveLearning #StudentPerformancePrediction #NeurIPS #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2018-12-22 [Paper Note] Deep Knowledge Tracing, Piech+, NIPS'15 Comment

Knowledge Tracingタスクとは：

　特定のlearning taskにおいて、生徒によってとられたインタラクションの系列x0, ..., xtが与えられたとき、次のインタラクションxt+1を予測するタスク

　典型的な表現としては、xt={qt, at}, where qt=knowledge component (KC) ID (あるいは問題ID)、at=正解したか否か

　モデルが予測するときは、qtがgivenな時に、atを予測することになる

Contribution:

　1. A novel way to encode student interactions as input to a recurrent neural network.

　2. A 25% gain in AUC over the best previous result on a knowledge tracing benchmark.

　3. Demonstration that our knowledge tracing model does not need expert annotations.

　4. Discovery of exercise influence and generation of improved exercise curricula.

モデル：

Inputは、ExerciseがM個あったときに、M個のExerciseがcorrectか否かを表すベクトル（長さ2Mベクトルのone-hot）。separateなrepresentationにするとパフォーマンスが下がるらしい。

Output ytの長さは問題数Mと等しく、各要素は、生徒が対応する問題を正答する確率。

InputとしてExerciseを用いるか、ExerciseのKCを用いるかはアプリケーション次第っぽいが、典型的には各スキルの潜在的なmasteryを測ることがモチベーションなのでKCを使う。

（もし問題数が膨大にあるような設定の場合は、各問題-正/誤答tupleに対して、random vectorを正規分布からサンプリングして、one-hot high-dimensional vectorで表現する。）

hidden sizeは200, mini-batch sizeは100としている。

[Educational Applicationsへの応用]

生徒へ最適なパスの学習アイテムを選んで提示することができること

　生徒のknowledge stateを予測し、その後特定のアイテムを生徒にassignすることができる。たとえば、生徒が50個のExerciseに回答した場合、生徒へ次に提示するアイテムを計算するだけでなく、その結果期待される生徒のknowledge stateも推測することができる

Exercises間の関係性を見出すことができる

　y( j | i )を考える。y( j | i )は、はじめにexercise iを正答した後に、second time stepでjを正答する確率。これによって、pre-requisiteを明らかにすることができる。

[評価]

3種類のデータセットを用いる。

　1. simulated Data

　　2000人のvirtual studentを作り、1〜5つのコンセプトから生成された、50問を、同じ順番で解かせた。このとき、IRTモデルを用いて、シミュレーションは実施した。このとき、hidden stateのラベルには何も使わないで、inputは問題のIDと正誤データだけを与えた。さらに、2000人のvirtual studentをテストデータとして作り、それぞれのコンセプト（コンセプト数を1〜5に変動させる）に対して、20回ランダムに生成したデータでaccuracyの平均とstandard errorを測った。

　2. Khan Academy Data

　　1.4MのExerciseと、69の異なるExercise Typeがあり、47495人の生徒がExerciseを行なっている。

　　PersonalなInformationは含んでいない。

　3. Assistsments bemchmark Dataset

　　2009-2011のskill builder public benchmark datasetを用いた。Assistmentsは、online tutorが、数学を教えて、教えるのと同時に生徒を評価するような枠組みである。

それぞれのデータセットに対して、AUCを計算。

ベースラインは、BKTと生徒がある問題を正答した場合の周辺確率？

simulated dataの場合、問題番号5がコンセプト1から生成され、問題番号22までの問題は別のコンセプトから生成されていたにもかかわらず、きちんと二つの問題の関係をとらえられていることがわかる。

Khan Datasetについても同様の解析をした。これは、この結果は専門家が見たら驚くべきものではないかもしれないが、モデルが一貫したものを学習したと言える。

[Discussion]

提案モデルの特徴として、下記の２つがある：

専門家のアノテーションを必要としない（concept patternを勝手に学習してくれる）

ベクトル化された生徒のinputであれば、なんでもoperateすることができる

drawbackとしては、大量のデータが必要だということ。small classroom environmentではなく、online education environmentに向いている。

今後の方向性としては、

・incorporate other feature as inputs (such as time taken)

・explore other educational impacts (hint generation, dropout prediction)

・validate hypotheses posed in education literature (such as spaced repetition, modeling how students forget)

・open-ended programmingとかへの応用とか（proramのvectorizationの方法とかが最近提案されているので）

などがある。

knewtonのグループが、DKTを既存手法であるIRTの変種やBKTの変種などでoutperformすることができることを示す：

https://arxiv.org/pdf/1604.02336.pdf

vanillaなDKTはかなりナイーブなモデルであり、今後の伸びが結構期待できると思うので、単純にoutperformしても、今後の発展性を考えるとやはりDKTには注目せざるを得ない感

DKT元論文では、BKTを大幅にoutperformしており、割と衝撃的な結果だったようだが、

後に論文中で利用されているAssistmentsデータセット中にdupilcate entryがあり、

それが原因で性能が不当に上がっていることが判明。

結局DKTの性能的には、BKTとどっこいみたいなことをRyan Baker氏がedXで言っていた気がする。

Deep Knowledge TracingなどのKnowledge Tracingタスクにおいては、

基本的に問題ごとにKnowledge Component(あるいは知識タグ, その問題を解くのに必要なスキルセット）が付与されていることが前提となっている。

ただし、このような知識タグを付与するには専門家によるアノテーションが必要であり、

適用したいデータセットに対して必ずしも付与されているとは限らない。

このような場合は、DKTは単なる”問題”の正答率予測モデルとして機能させることしかできないが、

知識タグそのものもNeural Networkに学習させてしまおうという試みが行われている：

https://www.jstage.jst.go.jp/article/tjsai/33/3/33_C-H83/_article/-char/ja

DKTに関する詳細な説明が書かれているブログポスト：

expectimaxアルゴリズムの説明や、最終的なoutput vector y_i の図解など、説明が省略されガチなところが詳細に書いてあって有用。（英語に翻訳して読むと良い）

https://hcnoh.github.io/2019-06-14-deep-knowledge-tracing

こちらのリポジトリではexpectimaxアルゴリズムによってvirtualtutorを実装している模様。

詳細なレポートもアップロードされている。

https://github.com/alessandroscoppio/VirtualIntelligentTutor

DKTのinputの次元数が 2 * num_skills, outputの次元数がnum_skillsだと明記されているスライド。

元論文だとこの辺が言及されていなくてわかりづらい・・・

http://gdac.uqam.ca/Workshop@EDM20/slides/LSTM_tutorial_Application.pdf

http://gdac.uqam.ca/Workshop@EDM20/slides/LSTM_Tutorial.pdf

こちらのページが上記チュートリアルのページ

http://gdac.uqam.ca/Workshop@EDM20/

#Survey #AdaptiveLearning #EducationalDataMining #LearningAnalytics #Selected Papers/Blogs Issue Date: 2018-12-22 Educational Data Mining and Learning Analytics, Baker+, 2014 Comment

Ryan BakerらによるEDM Survey

#RecommenderSystems #Classic #ContextAware #Selected Papers/Blogs Issue Date: 2018-12-22 Context-Aware Recommender Systems, Adomavicius+, Recommender Systems Handbook, 2011 Comment

Context-aware Recsysのパイオニア的研究

通常のuser/item paradigmを拡張して、いかにコンテキストの情報を考慮するかを研究。

コンテキスト情報は、

Explicit: ユーザのマニュアルインプットから取得

Implicit: 自動的に取得

inferred: ユーザとツールやリソースのインタラクションから推測（たとえば現在のユーザのタスクとか）

いくつかの異なるパラダイムが提案された：

1. recommendation via context-driven querying and search approach

　コンテキストの情報を、特定のリポジトリのリソース（レストラン）に対して、クエリや検索に用いる。そして、best matchingなリソースを(たとえば、現在開いているもっとも近いレストランとか)をユーザに推薦。

2. Contextual preference elicitation and estimation approach

　こっちは2012年くらいの主流。contextual user preferencesをモデル化し学習する。データレコードをしばしば、の形式で表現する。これによって、特定のアイテムが特定のコンテキストでどれだけ好まれたか、が評価できるようになる。

3. contextual prefiltering approach

　contextualな情報を（学習したcontextualなpreferenceなどを）、tradittionalなrecommendation algorithmを適用する前にデータのフィルタリングに用いる。

4. contextual postfiltering approach

　entire setから推薦を作り、あとでcontextの情報を使ってsetを整える。

5. Contextual modeling

　contextualな情報を、そのままrecommendationの関数にぶちこんでしまい、アイテムのratingのexplicitなpredictorとして使う。

3, 4はtraditionalな推薦アルゴリズムが適用できる。

1,2,5はmulti-dimensionalな推薦アルゴリズムになる。heuristic-based, model-based approachesが述べられているらしい。

#Classic #AdaptiveLearning #LearningStyle #Selected Papers/Blogs Issue Date: 2018-12-22 LEARNING AND TEACHING STYLES IN ENGINEERING EDUCATION, Felder, Engr. Education, 78（7）, 674–681, 1988 Comment

LearningStyleに関して研究している古典的な研究。

context-aware recsysの研究初期の頃は、だいたいはこのFelder-Silverman Theoryというのをベースに研究されていたらしい。

#RecommenderSystems #MachineLearning #CollaborativeFiltering #FactorizationMachines #ICDM #Selected Papers/Blogs Issue Date: 2018-12-22 [Paper Note] Factorization Machines, Steffen Rendle, ICDM'10 Comment

解説ブログ： http://echizen-tm.hatenablog.com/entry/2016/09/11/024828

DeepFMに関する動向： https://data.gunosy.io/entry/deep-factorization-machines-2018

上記解説ブログの概要が非常に完結でわかりやすい

FMのFeature VectorのExample

各featureごとにlatent vectorが学習され、featureの組み合わせのweightが内積によって表現される

Matrix Factorizationの一般形のような形式

#NLP #LanguageModel #ACL #IJCNLP #Selected Papers/Blogs Issue Date: 2018-03-30 [Paper Note] Unsupervised prediction of acceptability judgements, Lau+, ACL-IJCNLP'15 Comment

文のacceptability（容認度）論文。

文のacceptabilityとは、native speakerがある文を読んだときに、その文を正しい文として容認できる度合いのこと。

acceptabilityスコアが低いと、Readabilityが低いと判断できる。

言語モデルをトレーニングし、トレーニングした言語モデルに様々な正規化を施すことで、acceptabilityスコアを算出する。

#NeuralNetwork #MachineLearning #Pocket #GraphConvolutionalNetwork #NeurIPS #Selected Papers/Blogs Issue Date: 2018-03-30 [Paper Note] Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering, Michaël Defferrard+, NIPS'16 GPT Summary- 本研究では、CNNを用いて低次元のグリッドから高次元のグラフドメインへの一般化を探求。スペクトルグラフ理論に基づくCNNの定式化を提案し、古典的CNNと同等の計算複雑性を維持しつつ、任意のグラフ構造に対応可能。MNISTおよび20NEWSの実験により、グラフ上での局所的特徴学習の能力を示した。 Comment

GCNを勉強する際は読むと良いらしい。

あわせてこのへんも：

Semi-Supervised Classification with Graph Convolutional Networks, Kipf+, ICLR'17

https://github.com/tkipf/gcn

#NeuralNetwork #MachineLearning #ICML #Selected Papers/Blogs Issue Date: 2018-02-19 [Paper Note] An Empirical Exploration of Recurrent Network Architectures, Jozefowicz+, ICML'15 Comment

GRUとLSTMの違いを理解するのに最適

#NeuralNetwork #MachineLearning #Normalization #Selected Papers/Blogs Issue Date: 2018-02-19 [Paper Note] Layer Normalization, Ba+, arXiv'16 GPT Summary- バッチ正規化の代わりにレイヤー正規化を用いることで、リカレントニューラルネットワークのトレーニング時間を短縮。レイヤー内のニューロンの合計入力を正規化し、各ニューロンに独自の適応バイアスとゲインを適用。トレーニング時とテスト時で同じ計算を行い、隠れ状態のダイナミクスを安定させる。実証的に、トレーニング時間の大幅な短縮を確認。 Comment

解説スライド：

https://www.slideshare.net/KeigoNishida/layer-normalizationnips

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #MatrixFactorization #WWW #Selected Papers/Blogs Issue Date: 2018-02-16 [Paper Note] Neural Collaborative Filtering, Xiangnan He+, arXiv'17 GPT Summary- 深層ニューラルネットワークを用いたレコメンダーシステムの研究が少ない中、本研究では協調フィルタリングの問題に取り組むため、NCF（Neural network-based Collaborative Filtering）フレームワークを提案。内積をニューラルアーキテクチャに置き換え、ユーザーとアイテムの相互作用を多層パーセプトロンでモデル化。実験により、提案手法が最先端技術に対して顕著な改善を示し、深層ニューラルネットワークの層を深くすることでレコメンデーション性能が向上することが確認された。 Comment

Collaborative FilteringをMLPで一般化したNeural Collaborative Filtering、およびMatrix Factorizationはuser, item-embeddingのelement-wise product + linear transofmration + activation で一般化できること（GMF; Generalized Matrix Factorization）を示し、両者を組み合わせたNeural Matrix Factorizationを提案している。

学習する際は、Implicit Dataの場合は負例をNegative Samplingし、LogLoss（Binary Cross-Entropy Loss）で学習する。

Neural Matrix Factorizationが、ItemKNNやBPRといったベースラインをoutperform

Negative Samplingでサンプリングする負例の数は、3~4程度で良さそう

#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #CoNLL #Selected Papers/Blogs Issue Date: 2018-02-14 [Paper Note] Generating Sentences from a Continuous Space, Samuel R. Bowman+, CoNLL'16 GPT Summary- RNNベースの変分オートエンコーダ生成モデルを導入し、文全体の分散潜在表現を組み込むことで、文のスタイルやトピックなどの特性を明示的にモデル化。潜在空間を通じて新しい文を生成し、欠損単語の補完効果を実証。モデルの特性と使用に関する否定的な結果も示す。 Comment

VAEを利用して文生成

【Variational Autoencoder徹底解説】

https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24

#NeuralNetwork #NLP #ACL #Selected Papers/Blogs Issue Date: 2018-02-13 [Paper Note] Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks, Tai+, ACL'15 Comment

Tree-LSTM論文

#Pocket #NLP #MultitaskLearning #ICML #Selected Papers/Blogs Issue Date: 2018-02-05 [Paper Note] A unified architecture for natural language processing: Deep neural networks with multitask learning, Collobert+, ICML'08 Comment

Deep Neural Netを用いてmultitask learningを行いNLPタスク（POS tagging, Semantic Role Labeling, Chunking etc.）を解いた論文。

被引用数2000を超える。

multitask learningの学習プロセスなどが引用されながら他論文で言及されていたりする。

#DocumentSummarization #Document #NLP #NAACL #Selected Papers/Blogs Issue Date: 2018-01-21 [Paper Note] Cut and paste based text summarization, Jing+, NAACL'00 Comment

AbstractiveなSummarizationの先駆け的研究。

AbstractiveなSummarizationを研究するなら、押さえておいたほうが良い。

#NeuralNetwork #MachineTranslation #Pocket #NLP #Transformer #Attention #PositionalEncoding #NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-19 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 GPT Summary- Transformerは、再帰や畳み込みを排除し、注意機構のみに基づいた新しいネットワークアーキテクチャである。実験により、機械翻訳タスクで優れた品質を示し、トレーニング時間を大幅に短縮。WMT 2014の英独翻訳で28.4 BLEU、英仏翻訳で41.8 BLEUを達成し、既存モデルを上回る性能を示した。また、英語の構文解析にも成功裏に適用可能であることを示した。 Comment

Transformer (self-attentionを利用) 論文

解説スライド： https://www.slideshare.net/DeepLearningJP2016/dlattention-is-all-you-need

解説記事： https://qiita.com/nishiba/items/1c99bc7ddcb2d62667c6

* 新しい翻訳モデル(Transformer)を提案。既存のモデルよりも並列化に対応しており、短時間の訓練で（既存モデルの1/4以下のコスト）高いBLEUスコアを達成した。

* TransformerはRNNやCNNを使わず、attentionメカニズムに基づいている。

（解説より）

分かりやすい:
https://qiita.com/halhorn/items/c91497522be27bde17ce

Transformerの各コンポーネントでのoutputのshapeや、attention_maskの形状、実装について記述されており有用:
https://qiita.com/FuwaraMiyasaki/items/239f3528053889847825

集合知

#DocumentSummarization #InformationRetrieval #NLP #Search #SIGIR #Selected Papers/Blogs Issue Date: 2018-01-17 [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 Comment

Maximal Marginal Relevance (MMR) 論文。

検索エンジンや文書要約において、文書/文のランキングを生成する際に、既に選んだ文書と類似度が低く、かつqueryとrelevantな文書をgreedyに選択していく手法を提案。

ILPによる定式化が提案される以前のMulti Document Summarization (MDS) 研究において、冗長性の排除を行う際には典型的な手法。

#Multi #DocumentSummarization #Document #NLP #IntegerLinearProgramming (ILP) #Extractive #ECIR #Selected Papers/Blogs Issue Date: 2018-01-17 [Paper Note] A study of global inference algorithms in multi-document summarization, Ryan McDonald, ECIR'07 Comment

文書要約をナップサック問題として定式化し、厳密解（動的計画法、ILP Formulation）、近似解(Greedy)を求める手法を提案。

#NeuralNetwork #Tutorial #NLP #Slide #Selected Papers/Blogs Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi, 2013.09 #RecommenderSystems #MatrixFactorization #NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Probabilistic Matrix Factorization, Salakhutdinov+, NIPS'08 Comment

Matrix Factorizationを確率モデルとして表した論文。

解説： http://yamaguchiyuto.hatenablog.com/entry/2017/07/13/080000

既存のMFは大規模なデータに対してスケールしなかったが、PMFではobservationの数に対して線形にスケールし、さらには、large, sparse, imbalancedなNetflix datasetで良い性能が出た（Netflixデータセットは、rating件数が少ないユーザとかも含んでいる。MovieLensとかは含まれていないのでより現実的なデータセット）。

また、Constrained PMF（同じようなsetの映画にrateしているユーザは似ているといった仮定に基づいたモデル ※1）を用いると、少ないratingしかないユーザに対しても良い性能が出た。

※1　ratingの少ないユーザの潜在ベクトルは平均から動きにくい、つまりなんの特徴もない平均的なユーザベクトルになってしまうので、同じ映画をratingした人は似た事前分布を持つように制約を導入したモデル

（解説ブログ、解説スライドより）

#RecommenderSystems #CollaborativeFiltering #MatrixFactorization #SIGKDD #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 Comment

Probabilistic Matrix Factorization (PMF) [Paper Note] Probabilistic Matrix Factorization, Salakhutdinov+, NIPS'08 に、Latent Dirichllet Allocation (LDA) を組み込んだCollaborative Topic Regression (CTR)を提案。

LDAによりitemのlatent vectorを求め、このitem vectorと、user vectorの内積を（平均値として持つ正規表現からのサンプリング）用いてratingを生成する。

CFとContents-basedな手法が双方向にinterationするような手法

解説ブログ： http://d.hatena.ne.jp/repose/20150531/1433004688

#RecommenderSystems #CollaborativeFiltering #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008 Comment

Implicit Feedbackなデータに特化したMatrix Factorization (MF)、Weighted Matrix Factorization (WMF)を提案。

ユーザのExplicitなFeedback（ratingやlike, dislikeなど）がなくても、MFが適用可能。

目的関数は下のようになっている。

通常のMFでは、ダイレクトにrating r_{ui}を予測したりするが、WMFでは r_{ui}をratingではなく、たとえばユーザuがアイテムiを消費した回数などに置き換え、binarizeした数値p_{ui}を目的関数に用いる。

このとき、itemを消費した回数が多いほど、そのユーザはそのitemを好んでいると仮定し、そのような事例については重みが高くなるようにc_{ui}を計算し、目的関数に導入している。

日本語での解説: https://cympfh.cc/paper/WRMF

Implicit Implicit でのAlternating Least Square (ALS)という手法が、この手法の実装に該当する。

#RecommenderSystems #NeuralNetwork #MatrixFactorization #NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Deep content-based music recommendation, Oord+, NIPS'13 Comment

Contents-Basedな音楽推薦手法(cold-start problemに強い)。

Weighted Matrix Factorization (WMF) (Implicit Feedbackによるデータに特化したMatrix Factorization手法) [Paper Note] Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008 に、Convolutional Neural Networkによるmusic audioのlatent vectorの情報が組み込まれ、item vectorが学習されるような仕組みになっている。

CNNでmusic audioのrepresentationを生成する際には、audioのtime-frequencyの情報をinputとする。学習を高速化するために、window幅を3秒に設定しmusic clipをサンプルしinputする。music clip全体のrepresentationを求める際には、consecutive windowからpredictionしたrepresentationを平均したものを使用する。

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #MatrixFactorization #SIGKDD #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, arXiv'14 GPT Summary- 協調フィルタリング（CF）はレコメンダーシステムで広く用いられるが、評価がまばらな場合に性能が低下する。これに対処するため、補助情報を活用する協調トピック回帰（CTR）が提案されているが、補助情報がまばらな場合には効果が薄い。そこで、本研究では協調深層学習（CDL）という階層ベイズモデルを提案し、コンテンツ情報の深い表現学習とCFを共同で行う。実験により、CDLが最先端技術を大幅に上回る性能を示すことが確認された。 Comment

Rating Matrixからuserとitemのlatent vectorを学習する際に、Stacked Denoising Auto Encoder（SDAE）によるitemのembeddingを活用する話。

Collaborative FilteringとContents-based Filteringのハイブリッド手法。

Collaborative FilteringにおいてDeepなモデルを活用する初期の研究。

通常はuser vectorとitem vectorの内積の値が対応するratingを再現できるように目的関数が設計されるが、そこにitem vectorとSDAEによるitemのEmbeddingが近くなるような項（3項目）、SDAEのエラー（4項目）を追加する。

（3項目の意義について、解説ブログより）アイテム i に関する潜在表現 vi は学習データに登場するものについては推定できるけれど，未知のものについては推定できない．そこでSDAEの中間層の結果を「推定したvi」として「真の」 vi にできる限り近づける，というのがこの項の気持ち

cite-ulikeデータによる論文推薦、Netflixデータによる映画推薦で評価した結果、ベースライン（Collective Matrix Factorization [Paper Note] Relational learning via collective matrix factorization, Singh+, KDD'08 , SVDFeature [Paper Note] SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR'12 , DeepMusic [Paper Note] Deep content-based music recommendation, Oord+, NIPS'13 , Collaborative Topic Regresison [Paper Note] Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 ）をoutperform。

（下記は管理人が過去に作成した論文メモスライドのスクショ）

解説ブログ： http://d.hatena.ne.jp/repose/20150531/1433004688

#DocumentSummarization #NLP #Alignment #SIGIR #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99 Comment

参照要約 - 原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。

outputはこんな感じ。

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #WSDM #Selected Papers/Blogs Issue Date: 2018-01-02 [Paper Note] Collaborative Denoising Auto-Encoders for Top-N Recommender Systems, Wu+, WSDM'16 Comment

Denoising Auto-Encoders を用いたtop-N推薦手法、Collaborative Denoising Auto-Encoder (CDAE)を提案。

モデルベースなCollaborative Filtering手法に相当する。corruptedなinputを復元するようなDenoising Auto Encoderのみで推薦を行うような手法は、この研究が初めてだと主張。

学習する際は、userのitemsetのsubsetをモデルに与え（noiseがあることに相当）、全体のitem setを復元できるように、学習する（すなわちDenoising Auto-Encoder）。

推薦する際は、ユーザのその時点でのpreference setをinputし、new itemを推薦する。

[Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, arXiv'14 もStacked Denoising Auto EncoderとCollaborative Topic Regression [Paper Note] Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 を利用しているが、[Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, arXiv'14 ではarticle recommendationというspecificな問題を解いているのに対して、提案手法はgeneralなtop-N推薦に利用できることを主張。

#Multi #Single #DocumentSummarization #Document #Unsupervised #GraphBased #NLP #Extractive #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] LexRank: Graph-based Lexical Centrality as Salience in Text Summarization, Erkan+, Journal of Artificial Intelligence Research, 2004 Comment

代表的なグラフベースな(Multi) Document Summarization手法。

ほぼ [Paper Note] TextRank: Bringing Order into Texts, Mihalcea+, EMNLP'04 と同じ手法。

2種類の手法が提案されている：

* [LexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarityを計算し閾値以上となったsentenceの間にのみedgeを張る（重みは確率的に正規化）。その後べき乗法でPageRank。

* [ContinousLexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarityを用いてAffinity Graphを計算し、PageRankを適用（べき乗法）。

DUC2003, 2004（MDS）で評価。

Centroidベースドな手法をROUGE-1の観点でoutperform。

document clusterの17%をNoisyなデータにした場合も実験しており、Noisyなデータを追加した場合も性能劣化が少ないことも示している。

#Single #DocumentSummarization #Document #GraphBased #NLP #Extractive #EMNLP #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] TextRank: Bringing Order into Texts, Mihalcea+, EMNLP'04 Comment

PageRankベースの手法で、キーワード抽出/文書要約を行う手法。

キーワード抽出/文書要約を行う際には、ノードをそれぞれ単語/文で表現する。

ノードで表現されている単語/文のsimilarityを測り、ノード間のedgeの重みとすることでAffinity Graphを構築。

あとは構築したAffinity Graphに対してPageRankを適用して、ノードの重要度を求める。

ノードの重要度に従いGreedyに単語/文を抽出すれば、キーワード抽出/文書要約を行うことができる。

単一文書要約のベースラインとして使える。

gensimに実装がある。

個人的にも実装している：https://github.com/AkihikoWatanabe/textrank

#NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration #EMNLP #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Challenges in Data-to-Document Generation, Wiseman+ （with Rush）, EMNLP'17 Comment

・RotoWire（NBAのテーブルデータ + サマリ）データを収集し公開

・Rotowireデータの統計量

【モデルの概要】

・attention-based encoder-decoder model

・BaseModel

　- レコードデータ r の各要素（r.e: チーム名等のENTITY r.t: POINTS等のデータタイプ, r.m: データのvalue）からembeddingをlookupし、1-layer MLPを適用し、レコードの各要素のrepresentation（source data records）を取得

　- Luongらのattentionを利用したLSTM Decoderを用意し、source data recordsとt-1ステップ目での出力によって条件付けてテキストを生成していく

　- negative log likelihoodがminimizeされるように学習する

・Copying

　- コピーメカニズムを導入し、生成時の確率分布に生成テキストを入力からコピーされるか否かを含めた分布からテキストを生成。コピーの対象は、入力レコードのvalueがコピーされるようにする。

　- コピーメカニズムには下記式で表現される Conditional Copy Modelを利用し、p(zt|y1:t-1, s)はMLPで表現する。

　- またpcopyは、生成している文中にあるレコードのエンティティとタイプが出現する場合に、対応するvalueをコピーし生成されるように、下記式で表現する

　- ここで r(yt) =

#InformationRetrieval #LearningToRank #ListWise #ICML #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Learning to Rank: From Pairwise Approach to Listwise Approach （ListNet）, Cao+, ICML'07 Comment

解説スライド： http://www.nactem.ac.uk/tsujii/T-FaNT2/T-FaNT.files/Slides/liu.pdf

解説ブログ： https://qiita.com/koreyou/items/a69750696fd0b9d88608

従来行われてきたLearning to Rankはpairwiseな手法が主流であったが、pairwiseな手法は2つのインスタンス間の順序が正しく識別されるように学習されているだけであった。

pairwiseなアプローチには以下の問題点があった：

* インスタンスのペアのclassification errorを最小化しているだけで、インスタンスのランキングのerrorを最小化しているわけではない。

* インスタンスペアが i.i.d な分布から生成されるという制約は強すぎる制約

* queryごとに生成されるインスタンスペアは大きく異なるので、インスタンスペアよりもクエリに対してバイアスのかかった学習のされ方がされてしまう

これらを解決するために、listwiseなアプローチを提案。

listwiseなアプローチを用いると、インスタンスのペアの順序を最適化するのではなく、ランキング全体を最適化できる。

listwiseなアプローチを用いるために、Permutation Probabilityに基づくloss functionを提案。loss functionは、2つのインスタンスのスコアのリストが与えられたとき、Permutation Probability Distributionを計算し、これらを用いてcross-entropy lossを計算するようなもの。

また、Permutation Probabilityを計算するのは計算量が多すぎるので、top-k probabilityを提案。

top-k probabilityはPermutation Probabilityの計算を行う際のインスタンスをtop-kに限定するもの。

論文中ではk=1を採用しており、k=1はsoftmaxと一致する。

パラメータを学習する際は、Gradient Descentを用いる。

k=1の設定で計算するのが普通なようなので、普通にoutputがsoftmaxでlossがsoftmax cross-entropyなモデルとほぼ等価なのでは。

#InformationRetrieval #LearningToRank #PairWise #ICML #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Learning to Rank using Gradient Descent （RankNet）, Burges+, ICML'05 Comment

pair-wiseのlearning2rankで代表的なRankNet論文

解説ブログ： https://qiita.com/sz_dr/items/0e50120318527a928407

lossは2個のインスタンスのpair、A, Bが与えられたとき、AがBよりも高くランクされる場合は確率1, AがBよりも低くランクされる場合は確率0、そうでない場合は1/2に近くなるように、スコア関数を学習すれば良い。

#InformationRetrieval #LearningToRank #PointWise #NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] PRanking with Ranking, Crammer+, NIPS'01 Comment

Point-WiseなLearning2Rankの有名手法

#RecommenderSystems #CollaborativeFiltering #ItemBased #WWW #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Item-based collaborative filtering recommendation algorithms, Sarwar+（with Konstan）, WWW'01 Comment

アイテムベースな協調フィルタリングを提案した論文（GroupLens）

#RecommenderSystems #Survey #Selected Papers/Blogs Issue Date: 2018-01-01 推薦システムのアルゴリズム, 神嶌, 2016 #RecommenderSystems #Survey #Selected Papers/Blogs Issue Date: 2018-01-01 Content-based Recommender Systems: State of the Art and Trends, Lops+, Recommender Systems Handbook'10 Comment

RecSysの内容ベースフィルタリングシステムのユーザプロファイルについて知りたければこれ

#RecommenderSystems #Survey #Explanation #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07 #RecommenderSystems #Survey #CollaborativeFiltering #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている

#RecommenderSystems #Survey #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Collaborative Filtering Recommender Systems, Ekstrand+ （with Joseph A. Konstan）, Foundations and TrendsR in Human–Computer Interaction'11 #RecommenderSystems #Survey #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Evaluating Collaborative Filtering Recommener Systems, Herlocker+, TOIS'04 Comment

GroupLensのSurvey

#RecommenderSystems #Survey #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, Adomavicius+, IEEE Transactions on Knowledge and Data Engineering'05 Comment

有名なやつ

#Single #DocumentSummarization #Document #NLP #Extractive #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Automatic condensation of electronic publications by sentence selection, Brandow+, Information Processing & Management'95 Comment

報道記事要約において、自動要約システムがLead文に勝つのがhardだということを示した研究

#DocumentSummarization #NeuralNetwork #Sentence #Supervised #NLP #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] A Neural Attention Model for Sentence Summarization, Rush+, EMNLP'15 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331

#Single #DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Abstractive #ACL #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning

単語のコピーと生成、両方を行えるネットワークを提案。

location based addressingなどによって、生成された単語がsourceに含まれていた場合などに、copy-mode, generate-modeを切り替えるような仕組みになっている。

[Paper Note] Pointing the unknown words, Gulcehre+, ACL'16 と同じタイミングで発表

#Single #DocumentSummarization #NeuralNetwork #Document #Supervised #NLP #Abstractive #ACL #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL'17 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1

単語の生成と単語のコピーの両方を行えるハイブリッドなニューラル文書要約モデルを提案。

同じ単語の繰り返し現象(repetition)をなくすために、Coverage Mechanismも導入した。

[Paper Note] Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 などと比較するとシンプルなモデル。

一般的に、PointerGeneratorと呼ばれる。

OpenNMTなどにも実装されている: https://opennmt.net/OpenNMT-py/_modules/onmt/modules/copy_generator.html

（参考）Pointer Generator Networksで要約してみる：

https://qiita.com/knok/items/9a74430b279e522d5b93

#MachineLearning #DomainAdaptation #NLP #ACL #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 Comment

domain adaptationをする際に、Source側のFeatureとTarget側のFeatureを上式のように、Feature Vectorを拡張し独立にコピーし表現するだけで、お手軽にdomain adaptationができることを示した論文。

イメージ的には、SourceとTarget、両方に存在する特徴は、共通部分の重みが高くなり、Source, Targetドメイン固有の特徴は、それぞれ拡張した部分のFeatureに重みが入るような感じ。

#Survey #NaturalLanguageGeneration #NLP #DataToTextGeneration #ConceptToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#Single #DocumentSummarization #NeuralNetwork #Sentence #Document #NLP #Dataset #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 Comment

Large Chinese Short Text Summarization (LCSTS) datasetを作成

データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。

Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short summaryがまず記載され、その後ニュース本文（短め）が記載される特徴があるので、この対をsource-reference対として収集した。

収集する際には、約１００個のルールに基づくフィルタリングやclearning, 抽出等を行なっている。

データセットのpropertyとしては、下記のPartI, II, IIIに分かれている。

PartI: 2.4Mのshort text - summary pair

PartII: PartIからランダムにサンプリングされた10kのpairに対して、5 scaleで要約のrelevanceをratingしたデータ。ただし、各pairにラベルづけをしたevaluatorは1名のみ。

PartIII: 2kのpairに対して（PartI, PartIIとは独立）、3名のevaluatorが5-scaleでrating。evaluatorのratingが一致した1kのpairを抽出したデータ。

RNN-GRUを用いたSummarizerも提案している。

CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。

ACL'17のPointer Generator Networkでした。

#NeuralNetwork #Sentence #Embeddings #NLP #RepresentationLearning #ICLR #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] A structured self-attentive sentence embedding, Li+ （Bengio group）, ICLR'17 Comment

OpenReview: https://openreview.net/forum?id=BJC_jUqxe

#RecommenderSystems #NeuralNetwork #General #Embeddings #MachineLearning #RepresentationLearning #AAAI #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] StarSpace: Embed All The Things, Wu+, AAAI'18 Comment

分類やランキング、レコメンドなど、様々なタスクで汎用的に使用できるEmbeddingの学習手法を提案。

Embeddingを学習する対象をEntityと呼び、Entityはbag-of-featureで記述される。

Entityはbag-of-featureで記述できればなんでもよく、

これによりモデルの汎用性が増し、異なる種類のEntityでも同じ空間上でEmbeddingが学習される。

学習方法は非常にシンプルで、Entity同士のペアをとったときに、relevantなpairであれば類似度が高く、

irelevantなペアであれば類似度が低くなるようにEmbeddingを学習するだけ。

たとえば、Entityのペアとして、documentをbag-of-words, bag-of-ngrams, labelをsingle wordで記述しテキスト分類、

あるいは、user_idとユーザが過去に好んだアイテムをbag-of-wordsで記述しcontent-based recommendationを行うなど、応用範囲は幅広い。

5種類のタスクで提案手法を評価し、既存手法と比較して、同等かそれ以上の性能を示すことが示されている。

手法の汎用性が高く学習も高速なので、色々な場面で役に立ちそう。

また、異なる種類のEntityであっても同じ空間上でEmbeddingが学習されるので、学習されたEmbeddingの応用先が広く有用。

実際にSentimentAnalysisで使ってみたが（ポジネガ二値分類）、少なくともBoWのSVMよりは全然性能良かったし、学習も早いし、次元数めちゃめちゃ少なくて良かった。

StarSpaceで学習したembeddingをBoWなSVMに入れると性能が劇的に改善した。

解説：

https://www.slideshare.net/akihikowatanabe3110/starspace-embed-all-the-things

#NeuralNetwork #MachineTranslation #NLP #ACL #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] Pointing the unknown words, Gulcehre+, ACL'16 Comment

テキストを生成する際に、source textからのコピーを行える機構を導入することで未知語問題に対処した話

CopyNetと同じタイミングで（というか同じconferenceで）発表

#DocumentSummarization #NeuralNetwork #Sentence #NLP #EMNLP #Selected Papers/Blogs #Surface-level Note Issue Date: 2017-12-28 [Paper Note] Sentence Compression by Deletion with LSTMs, Fillipova+, EMNLP'15 Comment

slide: https://www.slideshare.net/akihikowatanabe3110/sentence-compression-by-deletion-with-lstms

#Multi #DocumentSummarization #NLP #Extractive #ACL #Selected Papers/Blogs #interactive #KeyPoint Notes #Hierarchical Issue Date: 2017-12-28 [Paper Note] Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL'14 Comment

## 概要

だいぶ前に読んだ。好きな研究。

テキストのsentenceを階層的にクラスタリングすることで、抽象度が高い情報から、関連する具体度の高いsentenceにdrill downしていけるInteractiveな要約を提案している。

## 手法

通常のMDSでのデータセットの規模よりも、実際にMDSを使う際にはさらに大きな規模のデータを扱わなければならないことを指摘し（たとえばNew York Timesで特定のワードでイベントを検索すると数千、数万件の記事がヒットしたりする）そのために必要な事項を検討。

これを実現するために、階層的なクラスタリングベースのアプローチを提案。

提案手法では、テキストのsentenceを階層的にクラスタリングし、下位の層に行くほどより具体的な情報になるようにsentenceを表現。さらに、上位、下位のsentence間にはエッジが張られており、下位に紐付けられたsentence

は上位に紐付けられたsentenceの情報をより具体的に述べたものとなっている。

これを活用することで、drill down型のInteractiveな要約を実現。

#Multi #DocumentSummarization #NLP #Dataset #QueryBiased #Extractive #ACL #Selected Papers/Blogs #Surface-level Note Issue Date: 2017-12-28 [Paper Note] Query-Chain Focused Summarization, Baumel+, ACL'14 Comment

（管理人が作成した過去の紹介資料）
[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)

上記スライドは私が当時作成した論文紹介スライドです。スライド中のスクショは説明のために論文中のものを引用しています。

#RecommenderSystems #CollaborativeFiltering #Novelty #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Discovery-oriented Collaborative Filtering for Improving User Satisfaction, Hijikata+, IUI’09 Comment

・従来のCFはaccuracyをあげることを目的に研究されてきたが，ユーザがすでに知っているitemを推薦してしまう問題がある．おまけに（推薦リスト内のアイテムの観点からみた）diversityも低い．このような推薦はdiscoveryがなく，user satisfactionを損ねるので，ユーザがすでに何を知っているかの情報を使ってよりdiscoveryのある推薦をCFでやりましょうという話．

・特徴としてユーザのitemへのratingに加え，そのitemをユーザが知っていたかどうかexplicit feedbackしてもらう必要がある．

・手法は単純で，User-based，あるいはItem-based CFを用いてpreferenceとあるitemをユーザが知っていそうかどうかの確率を求め，それらを組み合わせる，あるいはrating-matrixにユーザがあるitemを知っていたか否かの数値を組み合わせて新たなmatrixを作り，そのmatrix上でCFするといったもの．

・offline評価の結果，通常のCF，topic diversification手法と比べてprecisionは低いものの，discovery ratioとprecision(novelty)は圧倒的に高い．

・ユーザがitemを知っていたかどうかというbinary ratingはユーザに負荷がかかるし，音楽推薦の場合previewがなければそもそも提供されていないからratingできないなど，必ずしも多く集められるデータではない．そこで，データセットのratingの情報を25%, 50%, 75%に削ってratingの数にbiasをかけた上で実験をしている．その結果，事前にratingをcombineし新たなmatrixを作る手法はratingが少ないとあまりうまくいかなかった．

・さらにonlineでuser satisfaction（3つの目的のもとsatisfactionをratingしてもらう　1. purchase 2. on-demand-listening 3. discovery）を評価した. 結果，purchaseとdiscoveryにおいては，ベースラインを上回った．ただし，これは推薦リスト中の満足したitemの数の問題で，推薦リスト全体がどうだった

　かと問われた場合は，ベースラインと同等程度だった．

重要論文

#RecommenderSystems #Novelty #RecSys #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] “I like to explore sometimes”: Adapting to Dynamic User Novelty Preferences, Kapoor et al. （with Konstan）, RecSys’15 Comment

・典型的なRSは，推薦リストのSimilarityとNoveltyのcriteriaを最適化する．このとき，両者のバランスを取るためになんらかの定数を導入してバランスをとるが，この定数はユーザやタイミングごとに異なると考えられるので（すなわち人やタイミングによってnoveltyのpreferenceが変化するということ），それをuserの過去のbehaviorからpredictするモデルを考えましたという論文．

・式中によくtが出てくるが，tはfamiliar setとnovel setをわけるためのみにもっぱら使われていることに注意．昼だとか夜だとかそういう話ではない．familiar setとは[t-T, t]の間に消費したアイテム，novel setはfamiliar setに含まれないitemのこと．

・データはmusic consumption logsを使う．last.fmやproprietary dataset．データにlistening以外のexplicit feedback (rating)などの情報はない

・itemのnoveltyの考え方はユーザ側からみるか，システム側から見るかで分類が変わる．三種類の分類がある．

(a) new to system: システムにとってitemが新しい．ゆえにユーザは全員そのitemを知らない．

(b) new to user: システムはitemを知っているが，ユーザは知らない．

(c) oblivious/forgotten item: 過去にユーザが知っていたが，最後のconsumptionから時間が経過しいくぶんunfamiliarになったitem

Repetition of forgotten items in future consumptions has been shown to produce increased diversity and emotional excitement.

この研究では(b), (c)を対象とする．

・userのnovelty preferenceについて二つの仮定をおいている．

1. ユーザごとにnovelty preferenceは違う．

2. ユーザのnovelty preferenceはdynamicに変化する．trainingデータを使ってこの仮定の正しさを検証している．

・novelty preferenceのpredictは二種類の素性（familiar set diversityとcumulative negative preference for items in the familiar set）を使う. 前者は，familiar setの中のradioをどれだけ繰り返しきいているかを用いてdiversityを定義．繰り返し聞いているほうがdiversity低い．後者は，異なるitemの消費をする間隔によってdynamic preference scoreを決定．familiar set内の各itemについて負のdynamic preference scoreをsummationすることで，ユーザの”退屈度合い”を算出している．

・両素性を考慮することでnovelty preferenceのRMSEがsignificantに減少することを確認．

・推薦はNoveltyのあるitemの推薦にはHijikataらの協調フィルタリングなどを使うこともできる．

・しかし今回は簡易なitem-based CFを用いる．ratingの情報がないので，それはdynamic preference scoreを代わりに使い各itemのスコアを求め，そこからnovel recommendationとfamiliar recommendationのリストを生成し，novelty preferenceによって両者を組み合わせる．

・音楽（というより音楽のradioやアーティスト）の推薦を考えている状況なので，re-consumptionが許容されている．Newsなどとは少しドメインが違うことに注意．

#RecommenderSystems #LearningToRank #ImplicitFeedback #Pocket #UAI #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] BPR: Bayesian Personalized Ranking from Implicit Feedback, Steffen Rendle+, UAI'09, 2009.06 GPT Summary- アイテム推薦において、暗黙的フィードバックを用いた個別のランキング予測のために、BPR-Optという新しい最適化基準を提案。ブートストラップサンプリングを用いた確率的勾配降下法に基づく学習アルゴリズムを提供し、行列因子分解とk近傍法に適用。実験結果は、提案手法が従来の技術を上回ることを示し、モデル最適化の重要性を強調。 Comment

重要論文

ユーザのアイテムに対するExplicit/Implicit Ratingを利用したlearning2rank。

AUCを最適化するようなイメージ。

負例はNegative Sampling。

計算量が軽く、拡張がしやすい。

Implicitデータを使ったTop-N Recsysを構築する際には検討しても良い。

また、MFのみならず、Item-Based KNNに活用することなども可能。

http://tech.vasily.jp/entry/2016/07/01/134825

参考: https://techblog.zozo.com/entry/2016/07/01/134825

pytorchでのBPR実装: https://github.com/guoyang9/BPR-pytorch

#PersonalizedDocumentSummarization #DocumentSummarization #NLP #Personalization #NAACL #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A Study for Documents Summarization based on Personal Annotation, Zhang+, HLT-NAACL-DUC’03, 2003.05 Comment

（過去に管理人が作成したスライドでの論文メモのスクショ）

重要論文だと思われる。

#PersonalizedDocumentSummarization #DocumentSummarization #RecommenderSystems #Personalization #Selected Papers/Blogs #One-Line Notes Issue Date: 2017-12-28 [Paper Note] User-model based personalized summarization, Diaz+, Information Processing and Management 2007.11 Comment

PDSの先駆けとなった重要論文。必ずreferすべき。

#Multi #PersonalizedDocumentSummarization #DocumentSummarization #InteractivePersonalizedSummarization #NLP #Personalization #EMNLP #Selected Papers/Blogs #interactive #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07 Comment

ユーザとシステムがインタラクションしながら個人向けの要約を生成するタスク、InteractivePersonalizedSummarizationを提案。

ユーザはテキスト中のsentenceをクリックすることで、システムに知りたい情報のフィードバックを送ることができる。このとき、ユーザがsentenceをクリックする量はたかがしれているので、click smoothingと呼ばれる手法を提案し、sparseにならないようにしている。click smoothingは、ユーザがクリックしたsentenceに含まれる単語？等を含む別のsentence等も擬似的にclickされたとみなす手法。

4つのイベント（Influenza A, BP Oil Spill, Haiti Earthquake, Jackson Death）に関する、数千記事のニュースストーリーを収集し（10k〜100k程度のsentence）、評価に活用。収集したニュースサイト（BBC, Fox News, Xinhua, MSNBC, CNN, Guardian, ABC, NEwYorkTimes, Reuters, Washington Post）には、各イベントに対する人手で作成されたReference Summaryがあるのでそれを活用。

objectiveな評価としてROUGE、subjectiveな評価として3人のevaluatorに5scaleで要約の良さを評価してもらった。

結論としては、ROUGEはGenericなMDSモデルに勝てないが、subjectiveな評価においてベースラインを上回る結果に。ReferenceはGenericに生成されているため、この結果を受けてPersonalizationの必要性を説いている。

また、提案手法のモデルにおいて、Genericなモデルの影響を強くする（Personalizedなハイパーパラメータを小さくする）と、ユーザはシステムとあまりインタラクションせずに終わってしまうのに対し、Personalizedな要素を強くすると、よりたくさんクリックをし、結果的にシステムがより多く要約を生成しなおすという結果も示している。

NLP (2210)

LanguageModel (1482)

#ComputerVision #Pocket #Dataset #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#ComputerVision #Pocket #ReinforcementLearning #PostTraining
Issue Date: 2025-11-26 [Paper Note] Soft Adaptive Policy Optimization, Chang Gao+, arXiv'25, 2025.11 GPT Summary- 強化学習（RL）におけるポリシー最適化の課題を解決するために、Soft Adaptive Policy Optimization（SAPO）を提案。SAPOは、ハードクリッピングを温度制御されたゲートに置き換え、オフポリシー更新を適応的に減衰させつつ有用な学習信号を保持。これにより、シーケンス整合性とトークン適応性を向上させ、サンプル効率を改善。実証結果は、SAPOがトレーニングの安定性を向上させ、Qwen3-VLモデルシリーズで一貫したパフォーマンス向上を示すことを確認。SAPOはLLMsのRLトレーニングにおける信頼性の高い最適化戦略を提供。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#Analysis #Pocket #SmallModel #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Latency Issue Date: 2025-11-25 [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11 GPT Summary- 本研究では、小型言語モデル（SLMs）の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment

元ポスト:

Loading…

#Analysis #Pocket #Dataset #Evaluation #read-later Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #Dataset #Evaluation #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pocket #AIAgents #SoftwareEngineering #One-Line Notes #EvolutionaryAlgorithm Issue Date: 2025-11-23 [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11 GPT Summary- Live-SWE-agentは、実世界のソフトウェア問題を解決するために、ランタイム中に自律的に自己進化する初のライブソフトウェアエージェントである。最も基本的なエージェントスキャフォールドから始まり、bashツールを用いて自らの実装を進化させる。評価結果では、SWE-bench Verifiedベンチマークで75.4%の解決率を達成し、既存のオープンソースエージェントを上回る性能を示した。さらに、SWE-Bench Proベンチマークでも最良の解決率を記録した。 Comment

github: https://github.com/OpenAutoCoder/live-swe-agent

ReAct方式に追加でself-reflectionを導入することでagentのscaffolding（＝ただし、カスタムツールのみ）をbashのみが使える状態から自己進化させる枠組み。

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #RecurrentModels Issue Date: 2025-11-22 [Paper Note] Apriel-H1: Towards Efficient Enterprise Reasoning Models, Oleksiy Ostapenko+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）は、トランスフォーマーアーキテクチャの限界を克服するために、状態空間モデル（SSMs）と注意メカニズムを組み合わせたハイブリッドモデルApriel-H1を提案。これにより、推論性能を維持しつつ、スループットを2倍以上向上させることに成功。蒸留を通じて、重要度の低い注意層をSSMに置き換え、効率的な推論を実現。 Comment

元ポスト:

Loading…

blog: https://huggingface.co/blog/ServiceNow-AI/apriel-h1
HF: https://huggingface.co/collections/ServiceNow-AI/apriel-h1

#Pocket #Reasoning #Test-Time Scaling #Verification #MajorityVoting Issue Date: 2025-11-22 [Paper Note] SSR: Socratic Self-Refine for Large Language Model Reasoning, Haizhou Shi+, arXiv'25, 2025.11 GPT Summary- 新しいフレームワークSocratic Self-Refine（SSR）を提案し、LLMの推論を細かく評価・洗練する。SSRは応答をサブ質問・サブ回答に分解し、信頼度推定を行い、信頼性の低いステップを特定・改善することで、より正確な推論を実現。実験結果はSSRが最先端の手法を上回ることを示し、LLMの内部推論プロセスの理解を助ける。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #Reasoning #PostTraining #One-Line Notes Issue Date: 2025-11-21 [Paper Note] Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter, Qinghao Hu+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）の推論能力を向上させるため、TLTを提案。TLTは適応的な推測デコーディングを用いて、強化学習（RL）トレーニングの効率を向上させる。主なコンポーネントは、アイドルGPUでトレーニングされるアダプティブドラフターと、メモリ効率の良いプールを維持するアダプティブロールアウトエンジン。TLTは、最先端システムに対して1.7倍のトレーニング速度向上を実現し、モデルの精度を保持しつつ高品質なドラフトモデルを生成。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #AIAgents #Reasoning #ScientificDiscovery #Diversity #One-Line Notes Issue Date: 2025-11-21 [Paper Note] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity, Alexis Audran-Reiss+, arXiv'25, 2025.11 GPT Summary- AI研究エージェントのパフォーマンスにおけるアイデアの多様性の役割を検討。MLE-benchでの分析により、パフォーマンスの高いエージェントはアイデアの多様性が増加する傾向があることが明らかに。制御実験でアイデアの多様性が高いほどパフォーマンスが向上することを示し、追加の評価指標でも発見が有効であることを確認。 Comment

元ポスト:

Loading…

ideation時点における多様性を向上させる話らしい

#Pretraining #Pocket #Dataset #read-later #Selected Papers/Blogs Issue Date: 2025-11-21 [Paper Note] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser, Ren Ma+, arXiv'25, 2025.11 GPT Summary- ウェブデータの品質向上のため、MinerU-HTMLという新しい抽出パイプラインを提案。これは、言語モデルを用いてコンテンツ抽出をシーケンスラベリング問題として再定義し、意味理解を活用した二段階のフォーマットパイプラインを採用。実験では、MinerU-HTMLが81.8%のROUGE-N F1を達成し、従来の手法よりも構造化要素の保持率が優れていることを示した。AICCという多言語コーパスを構築し、抽出品質がモデルの性能に大きく影響することを確認。MainWebBench、MinerU-HTML、AICCを公開し、HTML抽出の重要性を強調。 Comment

元ポスト:

Loading…

pj page: https://opendatalab.com/ai-ready/AICC

#Pocket #Dataset #Evaluation #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Multi #Pocket #Test-Time Scaling #read-later #Selected Papers/Blogs #RewardModel #Reranking #One-Line Notes #GenerativeVerifier Issue Date: 2025-11-20 [Paper Note] Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains, Austin Xu+, arXiv'25, 2025.10 GPT Summary- 専門的な生成評価者のファインチューニングに関する研究で、250万サンプルのデータセットを用いて、シンプルな教師ありファインチューニング（SFT）アプローチでFARE（基盤自動推論評価者）をトレーニング。FARE-8Bは大規模なRLトレーニング評価者に挑戦し、FARE-20Bは新たなオープンソース評価者の標準を設定。FARE-20BはMATHでオラクルに近いパフォーマンスを達成し、下流RLトレーニングモデルの性能を最大14.1%向上。FARE-Codeはgpt-oss-20Bを65%上回る品質評価を実現。 Comment

HF: https://huggingface.co/collections/Salesforce/fare

元ポスト:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#Pocket #SmallModel #OpenWeight #read-later Issue Date: 2025-11-20 [Paper Note] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B, Sen Xu+, arXiv'25, 2025.11 GPT Summary- VibeThinker-1.5Bは、Spectrum-to-Signal Principle（SSP）を用いて開発された1.5Bパラメータのモデルで、小型モデルの推論能力を向上させることを目指す。Two-Stage Diversity-Exploring DistillationとMaxEnt-Guided Policy Optimizationを組み合わせ、低コストで優れた推論性能を実現。数学ベンチマークで大規模モデルを上回る結果を示し、小型モデルが大規模モデルに匹敵する能力を持つことを証明。これにより、AI研究の民主化が促進される。 Comment

元ポスト: https://github.com/WeiboAI/VibeThinker

元ポスト:

Loading…

オフィシャル: https://huggingface.co/WeiboAI/VibeThinker-1.5B
GGUF版: https://huggingface.co/MaziyarPanahi/VibeThinker-1.5B-GGUF

1.5Bのモデルでここまでできるようになったのか

#EfficiencyImprovement #Pocket #ReinforcementLearning #SoftwareEngineering #read-later #Selected Papers/Blogs #Off-Policy #On-Policy Issue Date: 2025-11-20 [Paper Note] Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning, Ruoyu Qin+, arXiv'25, 2025.11 GPT Summary- 強化学習における性能ボトルネックを解消するために、新しいオンラインコンテキスト学習システム「Seer」を提案。Seerは、出力の類似性を活用し、分割ロールアウト、コンテキストに基づくスケジューリング、適応的グループ化推測デコーディングを導入。これにより、ロールアウトの待機時間を大幅に短縮し、リソース効率を向上。評価結果では、エンドツーエンドのロールアウトスループットを74%から97%向上させ、待機時間を75%から93%削減した。 Comment

元ポスト:

Loading…

#Multi #Pocket #AIAgents #Reasoning #Test-Time Scaling #One-Line Notes #LongHorizon Issue Date: 2025-11-20 [Paper Note] Solving a Million-Step LLM Task with Zero Errors, Elliot Meyerson+, arXiv'25, 2025.11 GPT Summary- LLMの限界を克服するために、MAKERというシステムを提案。これは、100万以上のステップをゼロエラーで解決可能で、タスクを細分化し、マイクロエージェントが各サブタスクに取り組むことでエラー修正を行う。これにより、スケーリングが実現し、組織や社会の問題解決に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

#Pocket #Reasoning #SelfCorrection #read-later #Verification Issue Date: 2025-11-20 [Paper Note] From Solving to Verifying: A Unified Objective for Robust Reasoning in LLMs, Xiaoxuan Wang+, arXiv'25, 2025.11 GPT Summary- LLMの推論能力を向上させるため、生成と自己検証を統一した損失関数で共同最適化するGRPO-Verifアルゴリズムを提案。実験により、自己検証能力が向上しつつ推論性能を維持できることを示した。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #Reasoning #OpenWeight #DeepResearch Issue Date: 2025-11-19 [Paper Note] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling, MiroMind Team+, arXiv'25, 2025.11 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/miromind-ai/MiroThinker-v1.0-72B

#Pocket #read-later #ModelMerge #Souping Issue Date: 2025-11-19 [Paper Note] Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance, Shalini Maiti+, arXiv'25, 2025.11 GPT Summary- モデルスーピングを用いた「カテゴリ専門家のスープ（SoCE）」アプローチを提案。最適なモデル候補を特定し、非均一重み平均を適用することで性能を向上。従来の均一平均と異なり、低相関のカテゴリクラスタに対して専門家モデルを特定し、最適化された重みで組み合わせる。SoCEはマルチリンガル能力や数学などで性能を向上させ、バークレー関数呼び出しリーダーボードで最先端の結果を達成。 Comment

元ポスト:

Loading…

Model Souping...後で読む！

関連:
- [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03

#Pocket #read-later #Verification #GenerativeVerifier Issue Date: 2025-11-19 [Paper Note] Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection, Sadegh Mahdavi+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデルは数学的問題において成功を収めているが、推論に欠陥がある。信頼できる証明検証能力が必要であり、複数の評価設定を分析することで、単一のベンチマークに依存することのリスクを示す。証明に基づく推論と最終的な答えの推論を評価し、生成的検証手法（GenSelectとLLM-as-a-Judge）の組み合わせが効果的であることを特定。LLM-as-a-Judgeのプロンプト選択がパフォーマンスに影響するが、強化学習はこの感度を低下させる。最終的な答えの精度は向上しないことが示され、現在のモデルは数学的妥当性よりもスタイルや手続きの正確さを重視している。結果は証明検証システムの設計と評価に関するガイドラインを提供する。 Comment

元ポスト:

Loading…

generative verifierの性能を向上させることは（今主流な枠組みで考えると）verifiableではないドメインにLLMを適用し、性能をスケールさせるための現在の大きな課題の一つに思われる。

#EfficiencyImprovement #Pocket #Transformer #Architecture #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-17 [Paper Note] Virtual Width Networks, Seed+, arXiv'25, 2025.11 GPT Summary- Virtual Width Networks (VWN)は、隠れ層のサイズを増やすことなく、より広い表現を可能にするフレームワークである。VWNはバックボーンの計算をほぼ一定に保ちながら埋め込み空間を拡張し、8倍の拡張でトークン予測の最適化を加速することを示した。トレーニングが進むにつれてこの利点は増幅され、仮想幅と損失削減の間には対数線形のスケーリング関係があることが確認された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #PEFT(Adaptor/LoRA) #ModelMerge Issue Date: 2025-11-16 [Paper Note] RobustMerge: Parameter-Efficient Model Merging for MLLMs with Direction Robustness, Fanhu Zeng+, arXiv'25, 2025.02 GPT Summary- 事前学習済みモデルをファインチューニングし、マルチタスク能力を強化するためにユニバーサルモデルへの統合が進んでいるが、効率的なマージ手法は不足している。本研究では、方向のロバスト性が効率的なモジュールのマージに重要であることを明らかにし、RobustMergeという新しい手法を提案。特異値のプルーニングとスケーリング、クロスタスク正規化を用いて、タスク干渉を避けつつ一般化能力を向上させる。実験により、提案手法の優れた性能を示した。 Comment

元ポスト:

Loading…

#Pocket #GenerativeAI #read-later #text #AI Detector Issue Date: 2025-11-16 [Paper Note] EditLens: Quantifying the Extent of AI Editing in Text, Katherine Thai+, arXiv'25, 2025.10 GPT Summary- AIによるテキスト編集の検出に関する研究を行い、AI編集の程度を定量化する類似性指標を提案。これを基に回帰モデルEditLensを訓練し、人間とAIのテキストを高精度で区別。AI編集の影響を分析し、著作権や教育に関する示唆を提供。モデルとデータセットは公開予定。 Comment

元ポスト:

Loading…

興味深い👀

#Pocket #Dataset #UserBased #Evaluation #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#Pocket #ReinforcementLearning #Hallucination #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-15 [Paper Note] Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations, Tong Chen+, arXiv'25, 2025.10 GPT Summary- 本研究では、外的幻覚を軽減するために新しいバイナリ検索強化報酬（RAR）を用いたオンライン強化学習手法を提案。モデルの出力が事実に基づいている場合のみ報酬を与えることで、オープンエンド生成において幻覚率を39.3%削減し、短文質問応答では不正解を44.4%減少させた。重要な点は、事実性の向上が他のパフォーマンスに悪影響を及ぼさないことを示した。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #SelfImprovement #SoftwareEngineering #One-Line Notes Issue Date: 2025-11-15 [Paper Note] AgentEvolver: Towards Efficient Self-Evolving Agent System, Yunpeng Zhai+, arXiv'25, 2025.11 GPT Summary- AgentEvolverは、LLMsを活用した自己進化型自律エージェントシステムで、手作業のデータセット依存を減らし、探索効率とサンプル利用を向上させる3つのメカニズムを導入。初期実験では、従来のRLベースラインよりも効率的な探索と迅速な適応を実現。 Comment

元ポスト:

Loading…

skim readingしかできていないが、式17を見ると、PRMのようにstep levelで評価をし全体のtrajectoryのrewardをか決定している。テストしているベンチマークはソフトウェアエンジニアリング系のものであるため、verifiableなドメインに限られた評価となっている印象がある。rewardをどれだけverifiableに、あるいは堅牢に定義できるドメインかが重要になる気がする。

たとえば
- [Paper Note] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling, Bradley Brown+, arXiv'24, 2024.07

では、いくつかのverifierを比較しており、LLM-basedなRMではverificationの能力に限界があることが示されている[^1]。

[^1]: この研究ではtest-time scalingの観点での限界を示しているが、self-improve系の話でも同様にverifierの性能は学習のシグナルに直結するため、同様に重要であると考えられる。

#Analysis #Pocket #OpenWeight #read-later Issue Date: 2025-11-14 [Paper Note] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI, Jon Saad-Falcon+, arXiv'25, 2025.11 GPT Summary- ローカルLMが実世界のクエリに正確に回答できるかを評価するため、タスクの精度を電力単位で割った「ワットあたりの知能（IPW）」を提案。20以上のローカルLMと8つのアクセラレーターを用いた実証研究により、ローカルLMは88.7%の精度でクエリに応答し、IPWは5.3倍改善、カバレッジは23.2%から71.3%に上昇。ローカルアクセラレーターはクラウドよりも低いIPWを達成し、ローカル推論が中央集権型インフラから需要を再分配できる可能性を示唆。IPWプロファイリングハーネスも公開。 Comment

pj page: https://hazyresearch.stanford.edu/blog/2025-11-11-ipw

元ポスト:

Loading…

この切り口は興味深い。

#GraphBased #Pocket #Dataset #Evaluation Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Analysis #Pocket #ReinforcementLearning #NeurIPS #One-Line Notes Issue Date: 2025-11-13 [Paper Note] Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning, Jiayu Wang+, NeurIPS'25, 2025.06 GPT Summary- 強化学習（RL）は言語モデルの推論性能を向上させるが、そのメカニズムは未解明。SPARKLEフレームワークを用いて、RLの効果を計画遵守、知識統合、サブ問題連鎖の3次元で分析。RL調整モデルは外部計画に依存せず、内部戦略の形成を促進し、知識統合能力を向上させることが示された。難しい問題に対しては、SparkleRL-PSSというマルチステージRLパイプラインを提案し、データ生成なしで効果的な探索を実現。これにより、推論タスクのための適応的で効率的なRLパイプライン構築のための洞察が得られる。 Comment

元ポスト:

Loading…

RLを実施したモデルは与えられた計画を実施することに関してよりロバストで、自分でプランニングさせて解かせることもでき、かつ外部・モデル内部のパラメータに内在する知識を統合して応答する能力も向上する。しかし、大きな問題を部分問題に分割して解く能力には課題が残る、みたいな話らしい。

#Analysis #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Memorization #One-Line Notes Issue Date: 2025-11-13 [Paper Note] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs, Renfei Zhang+, arXiv'25, 2025.11 GPT Summary- 強化学習（RL）は、階層的な知識を必要とするタスクにおいて、基盤モデルや教師あり微調整（SFT）モデルを上回る性能を示す。これは新たなデータからではなく、既存の知識をナビゲートするスキルの向上によるものである。構造化プロンプティングを用いることで、SFTモデルのパフォーマンスギャップを縮小できることが示された。RLモデルは深い検索タスクでの手続き的経路の呼び出しに優れ、知識の表現は変わらないが、知識の遍歴方法が変化することが明らかになった。 Comment

元ポスト:

Loading…

RLはしばしば知識のmemorizationを劣化させると言われているが、むしろ学習データから記憶された知識を階層的に辿るようなタスクに適用した結果RL（が実施されたモデル）の方がSFT（が実施されたモデル）よりも高い性能を達成した。同タスクの階層構造をpromptingで与えることで性能SFT/RLのgapが小さくなることから、知識のナビゲーションが性能に関連していることを示唆している。また、事実表現とクエリの表現においてSFTとRLでは前者に大きな違いはないが、後者は大きな違いを見せており、知識の表現そのものを変えるのではなく、モデル内部の知識を辿る方法が変化していることが示唆される。

といった内容らしいのだが、論文を斜め読みした結果、自分たちでモデルをRL/SFTしたわけではなく既存のオープンなモデルreasoningモデル、instructモデル、distilledモデルで性能を比較する、みたいなことをしているようであり、apple-to-appleの比較になっていないのでは？という感想を抱いたがどうなのだろうか。

#EfficiencyImprovement #Pocket #DiffusionModel #Decoding #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 [Paper Note] TiDAR: Think in Diffusion, Talk in Autoregression, Jingyu Liu+, arXiv'25, 2025.11 GPT Summary- TiDARは、拡散言語モデルと自己回帰モデルの利点を融合したハイブリッドアーキテクチャで、トークンのドラフトとサンプリングを単一のフォワードパスで実行します。これにより、高スループットとARモデルに匹敵する品質を両立させ、推測的デコーディングを上回る効率を実現しました。TiDARは、1秒あたり4.71倍から5.91倍のトークン生成を可能にし、ARモデルとの品質ギャップを初めて埋めました。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #OpenWeight #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-11-13 Open Technical Problems in Open-Weight AI Model Risk Management, Casper+, SSRN'25, 2025.11 GPT Summary- オープンウェイトのフロンティアAIモデルは強力で広く採用されているが、リスク管理には新たな課題がある。これらのモデルはオープンな研究を促進する一方で、恣意的な変更や監視なしの使用がリスクを増大させる。安全性ツールに関する研究は限られており、16の技術的課題を提示。オープンな研究と評価がリスク管理の科学を構築する鍵であることを強調。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LatentReasoning #RecurrentModels #RecursiveModels Issue Date: 2025-11-12 [Paper Note] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence, Sean McLeish+, arXiv'25, 2025.11 GPT Summary- 深層再帰言語モデルの進展により、再帰の計算量を訓練時とテスト時で切り離すことが可能に。本研究では、非再帰言語モデルを深層再帰モデルに変換する方法を提案し、再帰のカリキュラムを用いることで性能を維持しつつ計算コストを削減できることを示した。数学実験では、再帰モデルへの変換がポストトレーニングよりも優れた性能を発揮することが確認された。 Comment

元ポスト:

Loading…

関連:

Loading…

#Analysis #MachineLearning #Pocket #In-ContextLearning #ActivationSteering/ITI Issue Date: 2025-11-12 [Paper Note] Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering, Eric Bigelow+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）の制御手法をベイズ的視点から統一的に説明。文脈に基づく介入と活性化に基づく介入がモデルの信念を変え、挙動に影響を与えることを示す。新たなベイズモデルにより、介入の効果を高精度で予測し、行動の急激な変化を引き起こす特異なフェーズを明らかにする。プロンプトと活性化の制御手法の統一的な理解を提供。 Comment

元ポスト:

Loading…

#Analysis #MachineLearning #Pocket #ReinforcementLearning #Reasoning #One-Line Notes Issue Date: 2025-11-12 [Paper Note] On a few pitfalls in KL divergence gradient estimation for RL, Yunhao Tang+, arXiv'25, 2025.06 GPT Summary- LLMのRLトレーニングにおけるKLダイバージェンスの勾配推定に関する落とし穴を指摘。特に、KL推定を通じて微分する実装が不正確であることや、逐次的な性質を無視した実装が部分的な勾配しか生成しないことを示す。表形式の実験とLLM実験を通じて、正しいKL勾配の実装方法を提案。 Comment

元ポスト:

Loading…

RLにおけるKL Divergenceによるポリシー正則化の正しい実装方法

#Analysis #MachineLearning #Pocket #ReinforcementLearning #read-later #On-Policy Issue Date: 2025-11-12 [Paper Note] On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning, Yifan Zhang+, arXiv'25, 2025.05 GPT Summary- ポリシー勾配アルゴリズムを用いてLLMの推論能力を向上させるため、正則化ポリシー勾配（RPG）を提案。RPGは、正規化されたKLと非正規化されたKLを統一し、REINFORCEスタイルの損失の微分可能性を特定。オフポリシー設定での重要度重み付けの不一致を修正し、RPGスタイルクリップを導入することで安定したトレーニングを実現。数学的推論ベンチマークで最大6%の精度向上を達成。 Comment

元ポスト:

Loading…

pj page: https://complex-reasoning.github.io/RPG/

#Pocket #MoE(Mixture-of-Experts) #PostTraining #Generalization #Routing Issue Date: 2025-11-12 [Paper Note] Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs, Zhongyang Li+, arXiv'25, 2025.11 GPT Summary- Sparse Mixture-of-Experts (MoE)は、推論コストを増やさずにモデル能力を拡張するが、既存のMoE LLMではルーターの最適性が欠けており、性能に10-20%のギャップが生じている。本研究では、ルーティング重みの多様体をタスク埋め込みの多様体と整合させる「Routing Manifold Alignment (RoMA)」手法を提案し、MoE LLMの一般化性能を向上させる。RoMAは、ルーターのファインチューニングを通じて、類似タスク間で専門家の選択を共有し、タスク理解と解決策生成を統一する。実験により、RoMAを用いたファインチューニングが多様なベンチマークで大幅な性能改善をもたらすことが示された。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #Dataset #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Analysis #EfficiencyImprovement #Pocket #LLM-as-a-Judge #EMNLP #read-later #Selected Papers/Blogs #Stability Issue Date: 2025-11-10 [Paper Note] Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction, Huanxin Sheng+, EMNLP'25 SAC Highlights, 2025.09 GPT Summary- LLMを用いた自然言語生成の評価における不確実性を分析するためのフレームワークを提案。適合予測を通じて予測区間を構築し、中央値に基づくスコアを低バイアスの代替手段として提示。実験により、適合予測が有効な予測区間を提供できることを示し、判断の向上に向けた中央値や再プロンプトの有用性も探求。 Comment

元ポスト:

Loading…

実用上非常に重要な話に見える

#EfficiencyImprovement #Pocket #Search #Dataset #Evaluation #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#Pocket #ReinforcementLearning #SelfImprovement #Catastrophic Forgetting #RLVR #Diversity #Generalization #KeyPoint Notes Issue Date: 2025-11-07 [Paper Note] RLoop: An Self-Improving Framework for Reinforcement Learning with Iterative Policy Initialization, Zeng Zhiyuan+, arXiv'25, 2025.11 GPT Summary- RLoopは、強化学習における過剰適合の問題を解決するための自己改善フレームワークであり、ポリシーの多様性を保ちながら一般化能力を向上させる。RLを用いて解空間を探索し、成功した軌跡から専門家データセットを作成し、拒否サンプリング微調整を行うことで、次の反復の出発点を洗練する。実験により、RLoopは忘却を軽減し、平均精度を9%、pass@32を15%以上向上させることが示された。 Comment

元ポスト:

Loading…

ポリシーを初期化し、RLを実行しtrajeatory tを取得。tをrejection samplingし成功したtrajectoryでエキスパートデータセットを作成。作成したエキスパートデータセットでポリシーをSFT(=Rejection SamplingしたデータでSFTすることをRFTと呼ぶ）する（これが次iterationの初期化となる）といったことを繰り返す。

RLはAdvantageによって学習されるため、trajectoryの相対的な品質に基づいて学習をする。このため、バッチ内のすべてのtrajectoryが正解した場合などはadvantageが限りなくゼロに近づき学習のシグナルを得られない。

一方RFTは絶対的なRewardを用いており（RLVRの場合は成功したら1,そうでなければ0）、これがバッチ全体のパフォーマンスに依存しない安定した分散の小さい学習のシグナルを与える。

このように両者は補完的な関係にある。ただしRFTは成功したtrajectory全てに均等な重みを与えるため、既にポリシーが解くことができる問題にフォーカスしすぎることによって効率性が悪化する問題があるため、提案手法では成功率が低いhardなサンプルのみにエキスパートデータをフィルタリングする（＝active learning）ことで、モデルが自身に不足した能力を獲得することに効率的に注力することになる。

また、RFTを使うことは単なるヒューリスティックではなく、理論的なgroundingが存在する。すなわち、我々はまだ未知の"expert"な分布 p^*にポリシーが従うように学習をしたいがこれはMLEの観点で言うと式3に示されているような形式になる。p^*から直接データをサンプリングをすることができないが、RLのポリシーから近似的にサンプリングをすることができる。そこでMLEの式をimportance samplingの観点から再度定式化をすると式4のようになり、後はimportance weight wを求められれば良いことになる。これはp^*に近いtrajectoryはRewardが高く、そうでない場合は低い、つまりw \propto Reward な関係であるため近似的に求めることができ、これらを式4のMLEの式に代入するとRFTと同じ式が導出される。

みたいな話のようである。

#Pocket #AIAgents #SoftwareEngineering #read-later Issue Date: 2025-11-07 [Paper Note] The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents, Xingyao Wang+, arXiv'25, 2025.11 GPT Summary- OpenHands Software Agent SDKは、ソフトウェア開発エージェントを構築するためのツールキットで、柔軟性、信頼性、安全性を兼ね備えた実装を可能にします。シンプルなインターフェースでエージェントを簡単に実装でき、カスタム機能にも対応。ローカルからリモートへの実行ポータビリティや多様なインターフェースを提供し、セキュリティ分析も統合されています。実証結果は強力なパフォーマンスを示し、エージェントの信頼性の高い展開を実現します。 Comment

元ポスト:

Loading…

blog: https://openhands.dev/blog/introducing-the-openhands-software-agent-sdk

#EfficiencyImprovement #Pocket #AIAgents #Reasoning Issue Date: 2025-11-07 [Paper Note] Scaling Agent Learning via Experience Synthesis, Zhaorun Chen+, arXiv'25, 2025.11 GPT Summary- DreamGymは、強化学習（RL）エージェントのオンライントレーニングを効率化するための統一フレームワークであり、高コストのロールアウトや不安定な報酬信号の課題に対処します。環境のダイナミクスを推論に基づく経験モデルに蒸留し、安定した状態遷移とフィードバックを提供します。オフラインデータを活用した経験リプレイバッファにより、エージェントのトレーニングを強化し、新しいタスクを適応的に生成することでオンラインカリキュラム学習を実現します。実験により、DreamGymは合成設定とリアルなシナリオでRLトレーニングを大幅に改善し、非RL準備タスクでは30％以上の性能向上を示しました。合成経験のみでトレーニングされたポリシーは、実環境RLにおいても優れたパフォーマンスを発揮し、スケーラブルなウォームスタート戦略を提供します。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #Selected Papers/Blogs Issue Date: 2025-11-07 [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09 GPT Summary- 強化学習（RL）を用いて大規模言語モデル（LLMs）の推論能力を向上させるための新しいアプローチ、PipelineRLを提案。PipelineRLは非同期データ生成とモデル更新を同時に行い、トレーニングデータの新鮮さを保ちながら、GPUの利用率を最大化。実験では、従来のRL手法に比べて約2倍の学習速度を達成。PipelineRLのオープンソース実装も公開。 Comment

元ポスト:

Loading…

#Multi #Metrics #Pocket #ReinforcementLearning #Evaluation #Conversation #NeurIPS #Personality Issue Date: 2025-11-06 [Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Dataset #Supervised-FineTuning (SFT) #EMNLP #DPO #Cultural Issue Date: 2025-11-06 [Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment

元ポスト:

Loading…

効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。

#Pocket #UserBased #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #interactive Issue Date: 2025-11-06 [Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11 GPT Summary- 効果的なAIエージェントには、生産性、積極性、パーソナライズの3つの次元を最適化する必要があると主張。LLMベースのユーザーシミュレーター「UserVille」を導入し、PPPというマルチオブジェクティブ強化学習アプローチを提案。実験では、PPPで訓練されたエージェントがGPT-5に対して平均21.6ポイントの改善を達成し、ユーザーの好みに適応しながらタスク成功を向上させる能力を示した。 Comment

AI Agentにおいてユーザとのinteractionを重視し協働することを重視するようなRLをする模様。興味深い。

元ポスト:

Loading…

#Analysis #Pocket #memory #Beliefs Issue Date: 2025-11-06 [Paper Note] Accumulating Context Changes the Beliefs of Language Models, Jiayi Geng+, arXiv'25, 2025.11 GPT Summary- 言語モデル（LM）アシスタントは、ブレインストーミングや研究での使用が増加しているが、コンテキストの蓄積に伴い信念プロファイルが変化するリスクがある。本研究では、対話やテキスト処理を通じて信念がどのように変化するかを調査し、GPT-5が道徳的ジレンマに関する議論後に54.7%、Grok 4が政治的問題に関して27.2%の信念変化を示すことを発見した。また、ツール使用による行動変化も分析し、信念の変化が行動に反映されることを示唆している。これにより、長時間の対話や読書が信頼性に影響を与える可能性があることが明らかになった。 Comment

pj page: https://lm-belief-change.github.io/

元ポスト:

Loading…

エコーチャンバーが増強されそう

#Tutorial #Pocket #AIAgents #ContextEngineering Issue Date: 2025-11-05 [Paper Note] Context Engineering 2.0: The Context of Context Engineering, Qishuo Hua+, arXiv'25, 2025.10 GPT Summary- 本論文では、カール・マルクスの「人間の本質は社会関係の総体である」という考えを基に、機械と人間の相互作用における文脈の重要性を探求します。特に「コンテキストエンジニアリング」という概念を導入し、その歴史的背景や設計考慮事項を体系的に定義します。これにより、AIシステムにおけるコンテキストエンジニアリングの基盤を提供し、将来の可能性を示唆します。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #MultiModal #DiffusionModel #TextToImageGeneration #NeurIPS #2D (Image) #text Issue Date: 2025-11-05 [Paper Note] MMaDA: Multimodal Large Diffusion Language Models, Ling Yang+, NeurIPS'25, 2025.05 GPT Summary- MMaDAは、テキスト推論やマルチモーダル理解、テキストから画像生成に優れた性能を発揮する新しいマルチモーダル拡散基盤モデルです。主な革新点は、モダリティに依存しない統一された拡散アーキテクチャ、混合長チェーン・オブ・ソートによるファインチューニング戦略、そしてUniGRPOという統一ポリシー勾配ベースのRLアルゴリズムです。実験により、MMaDA-8Bは他のモデルを上回る性能を示し、事前トレーニングと事後トレーニングのギャップを埋める効果が確認されました。コードとトレーニング済みモデルはオープンソースで提供されています。 Comment

ポイント解説:

Loading…

元ポスト:

Loading…

#ComputerVision #Pocket #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

#ComputerVision #Pocket #Dataset #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #MoE(Mixture-of-Experts) #Decoding Issue Date: 2025-11-05 [Paper Note] Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining, Costin-Andrei Oncescu+, arXiv'25, 2025.11 GPT Summary- MoEアーキテクチャを用いたLLMのデコードレイテンシを低下させるため、トークンから専門家へのマッピングを動的に再ルーティングするフレームワークを提案。バッチ認識ルーティングを活用し、メモリに既にロードされている専門家を利用することで、精度を維持しつつ、Qwen3-30BおよびQwen3-235Bモデルでそれぞれ39%と15%のレイテンシ削減を達成。 Comment

元ポスト:

Loading…

#Pocket #SpeechProcessing #Speech #UMM #AudioLanguageModel #text Issue Date: 2025-11-04 [Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment

元ポスト:

Loading…

#Analysis #Pocket #DiffusionModel #Architecture #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] On Powerful Ways to Generate: Autoregression, Diffusion, and Beyond, Chenxiao Yang+, arXiv'25, 2025.10 GPT Summary- 自己回帰的な次トークン予測とマスクされた拡散を超えた生成プロセスを研究し、その利点と限界を定量化。書き換えや長さ可変の編集が可能になることで、理論的および実証的な利点を示し、自然言語以外の領域でも機能する大規模言語モデル（LLM）の重要性を強調。 Comment

元ポスト:

Loading…

#Analysis #Pocket #Chain-of-Thought #Reasoning #SelfCorrection #EMNLP Issue Date: 2025-11-04 [Paper Note] How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?, Sohee Yang+, EMNLP'25, 2025.06 GPT Summary- 推論モデルの自己再評価能力を調査し、役に立たない思考の4つのタイプを特定。モデルは無駄話や無関係な思考を効果的に識別できるが、それらが注入されると回復に苦労し、性能が低下することを示した。特に、大きなモデルは短い無関係な思考からの回復が難しい傾向があり、自己再評価の改善が求められる。これにより、より良い推論と安全なシステムの開発が促進される。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#Pocket #EMNLP #ConceptErasure Issue Date: 2025-11-04 [Paper Note] Precise In-Parameter Concept Erasure in Large Language Models, Yoav Gur-Arieh+, EMNLP'25, 2025.05 GPT Summary- PISCES（Precise In-parameter Suppression for Concept EraSure）を提案し、LLMsから機密情報や著作権保護コンテンツを正確に除去する新しいフレームワークを構築。特徴ベースのパラメータ内編集を用いて、ターゲット概念に関連する特徴を特定し除去。実験により、消去精度を7.7%低下させつつ、特異性と堅牢性をそれぞれ最大31%および38%向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#Pocket #Dataset #UserBased #AIAgents #Evaluation #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #Architecture #KeyPoint Notes #AutoEncoder Issue Date: 2025-11-03 [Paper Note] Continuous Autoregressive Language Models, Chenze Shao+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の効率を向上させるため、連続自己回帰言語モデル（CALM）を提案。CALMは、次トークン予測から次ベクトル予測へのシフトを行い、Kトークンを連続ベクトルに圧縮することで生成ステップをK倍削減。新たなフレームワークを開発し、性能と計算コストのトレードオフを改善。CALMは、効率的な言語モデルへの道筋を示す。 Comment

pj page: https://shaochenze.github.io/blog/2025/CALM/

元ポスト:

Loading…

VAEを学習し（deterministicなauto encoderだと摂動に弱くロバストにならないためノイズを加える）、Kトークンをlatent vector zに圧縮、auto regressiveなモデルでzを生成できるように学習する。専用のヘッド（generative head）を用意し、transformerの隠れ状態からzを条件付きで生成する。zが生成できればVAEでdecodeすればKトークンが生成される。loss functionは下記のエネルギースコアで、第一項で生成されるトークンの多様性を担保しつつ（モード崩壊を防ぎつつ）、第二項でground truth yに近い生成ができるようにする、といった感じらしい。評価はautoregressiveにzを生成する設定なのでperplexityを計算できない。このため、BrierLMという指標によって評価している。BrierLMがどのようなものかは理解できていない。必要になったら読む。

future workにあるようにスケーリング特性がまだ明らかになっていないのでなんとも言えないという感想。

ポイント解説:

Loading…

#MachineLearning #Pocket #In-ContextLearning #meta-learning Issue Date: 2025-11-03 [Paper Note] Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers, Sarthak Mittal+, arXiv'25, 2025.10 GPT Summary- アモータイズド学習に基づく統一的フレームワークを提案し、タスク適応の方法をパラメトリック、暗黙的、明示的に分類。推論時のタスクデータ処理能力の制限を指摘し、反復アモータイズド推論を導入。これにより、最適化ベースのメタ学習とLLMのアプローチを結びつけ、汎用タスク適応のためのスケーラブルな基盤を提供。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#Analysis #Pocket #UserBased #AIAgents #One-Line Notes Issue Date: 2025-11-01 [Paper Note] Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents, Shannon Zejiang Shen+, arXiv'25, 2025.10 GPT Summary- エージェントの評価をタスク完了から協調的な問題解決プロセスにシフトすることを提唱。ユーザーの関与がエージェントの有用性に与える影響を捉える「協調的努力スケーリング」フレームワークを導入。ケーススタディにより、現実のシナリオでのエージェントのパフォーマンス低下を示し、持続的なエンゲージメントとユーザー理解の重要性を明らかにする。 Comment

単に一発でタスクをこなすことに最適化されているが、ユーザからの要求は反復的で進化するので数ラウンド経つとコントロールしづらくなる、といったことが起きてしまう経験があると思うが、実際そうだということを実験的に示している模様。そして、ユーザと協働しながら効用を最大化させるようなアプローチが必要のことを明らかにしている、みたいな話らしい。

#EfficiencyImprovement #Pocket #ReinforcementLearning #PostTraining #Selected Papers/Blogs #Stability #Reference Collection #train-inference-gap Issue Date: 2025-11-01 [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10 GPT Summary- 強化学習による大規模言語モデルのファインチューニングにおける不安定性は、トレーニングポリシーと推論ポリシーの数値的不一致に起因する。従来の対策は効果が薄かったが、本研究ではFP16に戻すことでこの問題を解決できることを示した。この変更は簡単で、モデルやアルゴリズムの修正を必要とせず、安定した最適化と速い収束を実現し、多様なタスクで強力なパフォーマンスを発揮することが確認された。 Comment

元ポスト:

Loading…

RL学習時の浮動小数点数表現をbf16からfp16に変更するシンプルな変更で、訓練-推論時のgapが小さくなり学習が改善する、という話らしい。

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

解説:

Loading…

verlはFP16での学習をサポートしていないので著者がパッチを出した模様:

Loading…

#Analysis #Pocket #CrossLingual #TransferLearning #MultiLingual #Scaling Laws #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-31 [Paper Note] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality, Shayne Longpre+, arXiv'25, 2025.10 GPT Summary- 本研究では、774の多言語トレーニング実験を通じて、最大の多言語スケーリング法則を探求し、ATLASという適応的転送スケーリング法則を導入。これにより、既存のスケーリング法則を上回る性能を示し、多言語学習のダイナミクスや言語間の転送特性を分析。言語ペア間の相互利益スコアを測定し、モデルサイズとデータの最適なスケーリング方法を明らかにし、事前学習とファインチューニングの計算的クロスオーバーポイントを特定。これにより、英語中心のAIを超えたモデルの効率的なスケーリングの基盤を提供することを目指す。 Comment

元ポスト:

Loading…

バイリンガルで学習した時に、日本語とシナジーのある言語、この図を見ると無さそうに見える😅

#Multi #Pocket #ReinforcementLearning #SelfImprovement Issue Date: 2025-10-31 [Paper Note] Multi-Agent Evolve: LLM Self-Improve through Co-evolution, Yixing Chen+, arXiv'25, 2025.10 GPT Summary- 強化学習（RL）を用いたMulti-Agent Evolve（MAE）フレームワークを提案し、LLMの推論能力を向上させる。MAEは提案者、解決者、審査者の相互作用を通じて自己進化を促進し、数学や一般知識のQ&Aタスクを解決。実験により、MAEは複数のベンチマークで平均4.54%の性能向上を示し、人間のキュレーションに依存せずにLLMの一般的な推論能力を向上させるスケーラブルな手法であることが確認された。 Comment

元ポスト:

Loading…

concurrent work:
- [Paper Note] SPICE: Self-Play In Corpus Environments Improves Reasoning, Bo Liu+, arXiv'25, 2025.10

続報:コードとモデルがオープンに

Loading…

ポイント解説:

Loading…

#Pocket #AIAgents #DeepResearch Issue Date: 2025-10-30 [Paper Note] Tongyi DeepResearch Technical Report, Tongyi DeepResearch Team+, arXiv'25, 2025.10 GPT Summary- 「Tongyi DeepResearch」は、長期的な情報探索のために設計されたエージェント型大規模言語モデルで、エンドツーエンドのトレーニングフレームワークを用いて自律的な深い研究を促進します。完全自動のデータ合成パイプラインにより、人間のアノテーションに依存せず、スケーラブルな推論を実現。305億のパラメータを持ち、複数のベンチマークで最先端のパフォーマンスを達成し、オープンソースとしてコミュニティに提供されます。 Comment

pj page: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

元ポスト:

Loading…

#Pocket #Dataset #Supervised-FineTuning (SFT) #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-30 [Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, arXiv'25, 2025.10 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

#Pretraining #Pocket #Transformer #Selected Papers/Blogs #LatentReasoning #KeyPoint Notes #RecurrentModels #RecursiveModels Issue Date: 2025-10-30 [Paper Note] Scaling Latent Reasoning via Looped Language Models, Rui-Jie Zhu+, arXiv'25, 2025.10 GPT Summary- Ouroは、推論を事前訓練フェーズに組み込むことを目指したループ言語モデル（LoopLM）であり、反復計算やエントロピー正則化を通じて性能を向上させる。1.4Bおよび2.6Bモデルは、最大12Bの最先端LLMに匹敵する性能を示し、知識操作能力の向上がその要因であることを実験で確認。LoopLMは明示的なCoTよりも整合した推論を生成し、推論の新たなスケーリングの可能性を示唆している。モデルはオープンソースで提供されている。 Comment

pj page: https://ouro-llm.github.io

元ポスト:

Loading…

解説:

Loading…

著者による紹介: https://youtu.be/jwb_QNZJNyA?si=tEOkew8Qo8Rjab3Y

#Pocket #Distillation #TMLR #OptimalTransport #One-Line Notes Issue Date: 2025-10-30 [Paper Note] Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs, Nicolas Boizard+, TMLR'25, 2024.02 GPT Summary- 大規模言語モデル（LLMs）の展開はコストやハードウェアの制約から実用的ではないが、知識蒸留（KD）が解決策となる。従来のロジットに基づく方法はトークナイザーの共有が必要で適用性が限られる。本研究では、最適輸送に基づくユニバーサルロジット蒸留（ULD）損失を提案し、異なるアーキテクチャ間での蒸留を可能にすることを示した。 Comment

openreview: https://openreview.net/forum?id=bwRxXiGO9A

（以下は管理人の理解が不十分なまま書かれているため誤りがある可能性が高いのでご注意ください）

- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

の記述と論文を斜め読みした感じ、

従来の蒸留手法は出力（Vocab)の分布が近くなるように学習するため、教師と生徒モデル間でVocabが揃っている、すなわちtokenizerが共通でなければならず、これが教師生徒ペアを選択する際の制約となっていた。これを異なるtokenizerを持つモデル間でも蒸留可能にしたという話。これには以下の二つの課題があり
- sequence misalignment: tokenizerが異なるため、共通のsequenceに対して異なるsplitをする可能性がある
- vocabulary misalignment: 同じトークンIDが異なるtokenを指す

要は確率分布が対応づけられないのでワッサースタイン距離（＝一方の確率分布をもう一方の確率分布に一致させるために必要な輸送の質量と距離よ最小コスト）によって距離を測ることを目指す（通常の教師ありDistillationのKL Divergenceをワッサースタイン距離に置き換えた損失を考える）。
が、ワッサースタイン距離はO(n^3log n)であるため近似的な解法で解く。その方法として、
- 教師のトークン列と生徒のトークン列の長さは異なるので短い方の長さに合わせてtruncateし
- ソフトマックス出力のロジットの大きさで両モデルのベクトルをソートし、小さい方をzero paddingして長さを揃えてベクトル間を比較可能にする[^1]

といった方法をとる模様？

[^1]: ソートさせたらvocabularyの整合性がとれずにでたらめな距離になるのでは？と思ったのだが、意図としては各次元が特定の単語ではなく確率順位を表すようにし、その間を比較することで分布の形（エントロピーやconfidenceの構造）の観点で比較可能にする、というニュアンスらしい。ただしこの部分についてはChatGPTの問答を通じて得た知識なので誤りがある可能性があるので注意。

#EfficiencyImprovement #Pocket #Reasoning #LLMServing #Decoding #Inference #Entropy Issue Date: 2025-10-30 [Paper Note] Think Just Enough: Sequence-Level Entropy as a Confidence Signal for LLM Reasoning, Aman Sharma+, arXiv'25, 2025.10 GPT Summary- エントロピーに基づく新しいフレームワークを提案し、推論タスクにおける大規模言語モデルのトークン効率を向上。シャノンエントロピーを信頼度信号として利用し、早期停止を実現することで、計算コストを25-50%削減。モデルごとに異なるエントロピー閾値を用いて、正しい答えを早期に得ることを認識し、トークン節約とレイテンシ削減を可能にする。精度を維持しつつ一貫したパフォーマンスを示し、現代の推論システムの特徴を明らかに。 Comment

元ポスト:

Loading…

デコード時のエントロピーに応じて、reasoningを打ち切るか否か判定してコスト削減しつつ推論する話な模様

vLLMとかでデフォルトでサポートされてスループット上がったら嬉しいなあ

#Pocket #AIAgents #ContextEngineering #LongHorizon Issue Date: 2025-10-30 [Paper Note] AgentFold: Long-Horizon Web Agents with Proactive Context Management, Rui Ye+, arXiv'25, 2025.10 GPT Summary- AgentFoldは、LLMベースのウェブエージェントのコンテキスト管理の課題に対処する新しいパラダイムであり、人間の認知プロセスに触発されています。エージェントは「フォールディング」操作を通じて、歴史的な情報を動的に管理し、重要な詳細を保持しつつサブタスクを抽象化します。実験結果では、AgentFold-30B-A3BエージェントがBrowseCompで36.2%、BrowseComp-ZHで47.3%の性能を達成し、従来の大規模モデルや先進的なプロプライエタリエージェントを上回ることが示されました。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Personalization #SmallModel #PostTraining Issue Date: 2025-10-30 [Paper Note] Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices, Congzheng Song+, arXiv'25, 2025.10 GPT Summary- モバイルデバイス向けに、メモリ効率の良いバックプロパゲーション実装（MeBP）を提案。これにより、メモリ使用量と計算時間のトレードオフを改善し、ゼロ次最適化よりも速く収束し、優れたパフォーマンスを実現。iPhone 15 Pro Maxでの検証により、0.5Bから4Bのパラメータを持つLLMが1GB未満のメモリでファインチューニング可能であることを示した。実装例は公開済み。 Comment

元ポスト:

Loading…

iPhone上で4BモデルまでFinetuningができるようになった模様。

#Embeddings #Analysis #Pocket #Selected Papers/Blogs Issue Date: 2025-10-29 [Paper Note] Language Models are Injective and Hence Invertible, Giorgos Nikolaou+, arXiv'25, 2025.10 GPT Summary- 本研究では、トランスフォーマー言語モデルが単射であることを数学的に証明し、異なる入力が同じ出力にマッピングされないことを示す。さらに、6つの最先端モデルに対して衝突テストを行い、衝突がないことを確認。新たに提案するアルゴリズムSipItにより、隠れた活性化から正確な入力テキストを効率的に再構築できることを示し、単射性が言語モデルの重要な特性であることを明らかにする。 Comment

元ポスト:

Loading…

続報:

Loading…

解説:

Loading…

解説参照のこと。

#Multi #Pocket #ReinforcementLearning #Hallucination #SelfImprovement #CurriculumLearning #Diversity Issue Date: 2025-10-29 [Paper Note] SPICE: Self-Play In Corpus Environments Improves Reasoning, Bo Liu+, arXiv'25, 2025.10 GPT Summary- SPICE（Self-Play In Corpus Environments）は、自己改善システムのための強化学習フレームワークで、単一モデルが「挑戦者」と「推論者」の2役を担う。挑戦者は文書を抽出して多様な推論タスクを生成し、推論者はそれを解決する。これにより、自動カリキュラムが形成され、持続的な改善が促進される。SPICEは、既存の手法に比べて数学的および一般的な推論のベンチマークで一貫した向上を示し、挑戦的な目標の生成が自己改善に重要であることを明らかにした。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #MoE(Mixture-of-Experts) #Stability Issue Date: 2025-10-28 [Paper Note] Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts, Di Zhang+, arXiv'25, 2025.10 GPT Summary- MoEアーキテクチャにおけるRLトレーニングの不安定性に対処するため、重要度サンプリング重みを最適化する新しいルーター認識アプローチを提案。ルーターのロジットに基づく再スケーリング戦略により、勾配の分散を減少させ、トレーニングの安定性を向上。実験結果は、提案手法がMoEモデルの収束と性能を大幅に改善することを示し、効率的な大規模専門モデルのトレーニングに向けた新たな可能性を示唆。 Comment

元ポスト:

Loading…

#ComputerVision #MachineLearning #Pocket #Transformer #Architecture #Normalization Issue Date: 2025-10-28 [Paper Note] SeeDNorm: Self-Rescaled Dynamic Normalization, Wenrui Cai+, arXiv'25, 2025.10 GPT Summary- SeeDNormは、入力に基づいて動的にスケーリング係数を調整する新しい正規化層であり、RMSNormの限界を克服します。これにより、入力のノルム情報を保持し、データ依存の自己再スケーリングを実現。大規模言語モデルやコンピュータビジョンタスクでの有効性を検証し、従来の正規化手法と比較して優れた性能を示しました。 #Pretraining #Dataset #Selected Papers/Blogs #One-Line Notes #German Issue Date: 2025-10-28 [Paper Note] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models, Lukas Gienapp+, arXiv'25, 2025.10 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級（154B)のドイツ語のLLM（事前）学習用データセットらしい

ODC-By Licence

#Pocket #PostTraining #ModelMerge #Robustness Issue Date: 2025-10-27 [Paper Note] Model Merging with Functional Dual Anchors, Kexuan Shi+, arXiv'25, 2025.10 GPT Summary- モデルマージングの新しい戦略として、Functional Dual Anchors（FDAs）を提案。FDAsはタスク特有の機能的シフトを捉え、共同マルチタスクトレーニングとポストホックマージングを結びつける。実験により、FDAsがモデルマージングにおいて効果的であることを示した。 Comment

pj page: https://spherelab.ai/fda/

元ポスト:

Loading…

#Analysis #MachineLearning #Pocket #NeurIPS #Test-Time Scaling Issue Date: 2025-10-27 [Paper Note] A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning, Zhi Zhou+, NeurIPS'25, 2025.10 GPT Summary- テスト時スケーリングにおけるサンプリング手法の理論的枠組みを提供し、自己一貫性と困惑度の制限を明らかに。新たに提案したRPC手法は、困惑度一貫性と推論剪定を活用し、推論誤差の収束を改善。7つのベンチマークでの実証結果により、RPCは自己一貫性に匹敵する性能を達成し、サンプリングコストを50%削減することが示された。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://zhouz.dev/RPC/

#EfficiencyImprovement #Pocket #ReinforcementLearning #Reasoning Issue Date: 2025-10-27 [Paper Note] DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning, Shih-Yang Liu+, arXiv'25, 2025.10 GPT Summary- 推論言語モデルは長い出力を生成することが多く、応答の長さに対する精度向上が課題である。本研究では、切り捨てを用いた強化学習（RL）の再考を行い、精度低下の原因は不十分なRL最適化にあることを示す。3つの課題（バイアス、エントロピーの崩壊、スパースな報酬信号）に対処するため、DLERというトレーニング手法を提案し、出力の長さを70％以上削減しつつ精度を向上させた。さらに、Difficulty-Aware DLERを導入し、簡単な質問に対して適応的に切り捨てを厳しくすることで効率を向上させる手法も提案した。 Comment

pj page: https://nvlabs.github.io/DLER/

元ポスト:

Loading…

reasoningをトークン数の観点で効率化する話

#Pocket #Dataset #Evaluation #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #ContextWindow #Encoder #One-Line Notes #text #Compression Issue Date: 2025-10-26 [Paper Note] ARC-Encoder: learning compressed text representations for large language models, Hippolyte Pilchen+, arXiv'25, 2025.10 GPT Summary- 本研究では、コンテキストを連続表現に圧縮するARC-Encoderを提案し、デコーダLLMのトークン埋め込みを置き換えるアプローチを探求。ARC-Encoderは、テキストトークンの少ない連続表現を出力し、計算効率を向上させる。さまざまなLLMシナリオで評価した結果、最先端のパフォーマンスを達成し、複数のデコーダに同時に適応可能であることを示した。 Comment

元ポスト:

Loading…

最近textのcontextをvisual tokenでレンダリングすることで圧縮する話が盛り上がっているが、こちらはtextの表現そのものを圧縮する話な模様。

そのうちpixel単位の入力、テキスト単位での入力を圧縮する話どちらかだけでなく、双方のハイブリッドになり、かつタスクに応じてattention等を通じてどちらのモダリティの情報を使うか、また圧縮前と後の情報どちらを使うか、みたいなものを動的に選択してタスクに応じて計算量やメモリを節約しつつ、高い性能を担保する、みたいな話になるんではなかろうか。

#Analysis #Pocket #OpenWeight #read-later #Memorization Issue Date: 2025-10-26 [Paper Note] Hubble: a Model Suite to Advance the Study of LLM Memorization, Johnny Tian-Zheng Wei+, arXiv'25, 2025.10 GPT Summary- Hubbleは、LLMの記憶に関する研究のためのオープンソースモデルスイートで、標準モデルと変化モデルの2種類を提供。標準モデルは大規模な英語コーパスで事前学習され、変化モデルは特定のテキストを挿入して記憶リスクを模倣。8つのモデルが1Bまたは8Bのパラメータを持ち、100Bまたは500Bのトークンで訓練。研究により、敏感なデータの記憶はコーパスのサイズに依存し、データの露出が少ない場合は忘れられることが示された。Hubbleは、プライベート情報の記憶の容易さを分析するなど、幅広い記憶研究を可能にし、コミュニティにさらなる探求を促す。 Comment

pj page: https://allegro-lab.github.io/hubble/

元ポスト:

Loading…

HF: https://huggingface.co/allegrolab

#Tutorial #Pocket #AIAgents #SoftwareEngineering Issue Date: 2025-10-26 [Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Analysis #MachineLearning #Pocket #Reasoning Issue Date: 2025-10-25 [Paper Note] Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models, Samuel Lippl+, arXiv'25, 2025.10 GPT Summary- 本研究では、大規模言語モデル（LLMs）が多段階の推論を解決するためのアルゴリズム的原則を追跡し、操作するフレームワークを提案。推論のトレースを内部の活性化パターンにリンクさせ、原則を残差ストリームに注入することで、推論ステップやタスクのパフォーマンスへの影響を評価。旅行セールスマン問題や3SATなどのベンチマークを用いて、原則ベクトルの導出と幾何学的論理の明示化を行い、ファインチューニングによる一般化の強調を示した。これにより、LLMsの推論がアルゴリズム的原則の構成的幾何学に支えられている可能性が示唆され、原則の転送とドメイン間の一般化が強化されることが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS #Selected Papers/Blogs Issue Date: 2025-10-25 [Paper Note] Blackbox Model Provenance via Palimpsestic Membership Inference, Rohith Kuditipudi+, NeurIPS'25 Spotlight, 2025.10 GPT Summary- アリスの言語モデルを用いてボブがテキストを生成する際、アリスはボブが彼女のモデルを使用していることを証明できるかを検討。クエリ設定と観察設定の2つのアプローチで、ボブのモデルやテキストとアリスの訓練データの順序との相関を調査。40以上のファインチューニングで、p値が1e-8に達する結果を得た。観察設定では、ボブのテキストの尤度を推定する2つの方法を試し、数百トークンでの区別が可能なアプローチと、数十万トークンを必要とする高パワーのアプローチを比較した。 Comment

元ポスト:

Loading…

これはすごい話だ…

#Pocket #Explanation #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #One-Line Notes Issue Date: 2025-10-25 [Paper Note] Learning to Interpret Weight Differences in Language Models, Avichal Goel+, arXiv'25, 2025.10 GPT Summary- ファインチューニングされた言語モデルの重みの変化を解釈するために、Diff Interpretation Tuning（DIT）を提案。合成されたラベル付きの重みの差を用いてモデルに変更を説明させる。隠れた挙動の報告や知識の要約において、DITが自然言語での正確な説明を可能にすることを示した。 Comment

元ポスト:

Loading…

weightの更新があった時に、LLM自身がどのような変化があったかをverbalizeできるようにSFTでLoRA Adaptorを学習する話らしい

#EfficiencyImprovement #Pretraining #Pocket #SoftwareEngineering #mid-training #PostTraining #Parallelism Issue Date: 2025-10-25 [Paper Note] AsyncHZP: Hierarchical ZeRO Parallelism with Asynchronous Scheduling for Scalable LLM Training, Huawei Bai+, arXiv'25, 2025.10 GPT Summary- 非同期階層ゼロ並列処理（AsyncHZP）を提案し、シンプルさとメモリ効率を保ちながら、トレーニング効率を向上。従来のZeROの通信オーバーヘッドを削減し、パラメータや勾配の再シャーディングを適応的に行う。マルチストリーム非同期スケジューリングにより通信と計算を重ね合わせ、メモリの断片化を最小限に抑える。DenseおよびMixture-of-Expertsモデルでの評価により、AsyncHZPが従来のND並列処理を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Pocket #ReinforcementLearning #Reasoning #Diversity #Entropy Issue Date: 2025-10-24 [Paper Note] Asymmetric Proximal Policy Optimization: mini-critics boost LLM reasoning, Jiashun Liu+, arXiv'25, 2025.10 GPT Summary- 非対称近似ポリシー最適化（AsyPPO）を提案し、批評者の役割を復元しつつ大規模言語モデルの強化学習を効率化。軽量なミニ批評者を用いて多様性を促進し、価値推定のバイアスを減少。5,000サンプルでトレーニング後、従来のPPOに対してパフォーマンスを向上させ、学習の安定性を一貫して改善。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #Attention #Architecture #MoE(Mixture-of-Experts) #Hybrid Issue Date: 2025-10-24 [Paper Note] Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning, Ling Team+, arXiv'25, 2025.10 GPT Summary- Ring-linearモデルシリーズ、特にRing-mini-linear-2.0（16Bパラメータ）とRing-flash-linear-2.0（104Bパラメータ）を紹介。両モデルはハイブリッドアーキテクチャを採用し、長いコンテキストの推論でI/Oと計算オーバーヘッドを削減。推論コストは32億パラメータの密なモデルと比較して1/10、元のRingシリーズと比べて50%以上削減。最適なモデル構造を特定し、高性能FP8オペレーターライブラリ「linghe」によりトレーニング効率が50%向上。複数の複雑推論ベンチマークでSOTAパフォーマンスを維持。 Comment

HF: https://huggingface.co/inclusionAI/Ring-flash-linear-2.0-128k

元ポスト:

Loading…

所見:

Loading…

#Pocket #ReinforcementLearning #PostTraining #Off-Policy #On-Policy #Stability #One-Line Notes #Entropy #PartialRollout Issue Date: 2025-10-24 [Paper Note] BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping, Zhiheng Xi+, arXiv'25, 2025.10 GPT Summary- 強化学習におけるオフポリシー設定の課題を解決するため、BAPO（Balanced Policy Optimization with Adaptive Clipping）を提案。ポジティブとネガティブな寄与を再バランスし、エントロピーを保持することで最適化を安定化。多様なシナリオでデータ効率の高いトレーニングを実現し、AIME 2024およびAIME 2025のベンチマークで最先端の結果を達成。 Comment

pj page: https://github.com/WooooDyy/BAPO

Partial Rollout（＝長いtrajectoryを一回のロールアウトで生成仕切らずに、途中で生成を打ち切りreplay bufferに保存。次のロールアウト時に続きを生成する。しかし更新されたポリシーによって続きをロールアウトするためオフポリシーデータとなる）の設定で、GRPOよりも学習効率が良いことが示されているように見える。

#Pocket #Routing Issue Date: 2025-10-23 [Paper Note] Lookahead Routing for Large Language Models, Canbin Huang+, arXiv'25, 2025.10 GPT Summary- Lookaheadフレームワークを提案し、クエリに対して最適なモデルを選択するために潜在的な出力を予測することで、情報に基づいたルーティングを実現。これにより、複雑なクエリに対するルーティング精度が向上し、既存の手法より平均7.7%の性能向上を達成。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models, Shuhao Chen+, NeurIPS'24, 2024.09
- [Paper Note] Smoothie: Label Free Language Model Routing, Neel Guha+, NeurIPS'24, 2024.12
- [Paper Note] Large Language Model Routing with Benchmark Datasets, Tal Shnitzer+, COLM'24, 2023.09

#Pocket #Alignment #InstructionTuning #SyntheticData #OpenWeight Issue Date: 2025-10-23 [Paper Note] Extracting alignment data in open models, Federico Barbero+, arXiv'25, 2025.10 GPT Summary- 本研究では、ポストトレーニングモデルからアライメントトレーニングデータを抽出する方法を示し、埋め込みモデルが特定の能力向上に適していると主張します。文字列マッチングに依存せず、意味的類似性を捉えることで、抽出可能なデータ量を過小評価するリスクを明らかにしました。また、モデルはポストトレーニングフェーズで使用されたデータを再生でき、元のパフォーマンスを回復可能であることを示しました。研究は蒸留手法の影響についても議論します。 Comment

元ポスト:

Loading…

Magpieのような話だろうか？

#Pocket #AIAgents #API #Safety #PostTraining #Safeguard Issue Date: 2025-10-22 [Paper Note] Detecting Adversarial Fine-tuning with Auditing Agents, Sarah Egler+, arXiv'25, 2025.10 GPT Summary- ファインチューニングAPIの悪用に対する検出メカニズムを提案。ファインチューニング監査エージェントを導入し、有害なファインチューニングを事前に検出可能であることを示す。1400以上の監査を通じて、56.2%の敵対的ファインチューニング検出率を達成。良性ファインチューニングによる安全性の低下も課題として残るが、今後の研究の基盤を提供。監査エージェントは公開済み。 Comment

元ポスト:

Loading…

finetueing APIを通じて悪意のあるデータセットが与えられたとき悪意のあるモデルができあがってしまう。これを検知するために、エージェントを用いてfinetuning用のデータセットと、finetuning前後のモデルへqueryし、finetuning後のモデルがpoisonedか否かを検出する、という話な模様。

#Pocket #Reasoning #Architecture #read-later #Selected Papers/Blogs #KeyPoint Notes #SpeciarizedBrainNetworks #Neuroscience Issue Date: 2025-10-22 [Paper Note] Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization, Badr AlKhamissi+, arXiv'25, 2025.06 GPT Summary- MiCRoは、脳の認知ネットワークに基づく専門家モジュールを持つトランスフォーマーベースのアーキテクチャで、言語モデルの層を4つの専門家に分割。これにより、解釈可能で因果的な専門家の動的制御が可能になり、機械学習ベンチマークで優れた性能を発揮。人間らしく解釈可能なモデルを実現。 Comment

pj page: https://cognitive-reasoners.epfl.ch

元ポスト:

Loading…

demo: https://huggingface.co/spaces/bkhmsi/cognitive-reasoners
HF: https://huggingface.co/collections/bkhmsi/mixture-of-cognitive-reasoners

#ComputerVision #EfficiencyImprovement #Pocket #MultiModal #Pixel-based Issue Date: 2025-10-22 [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10 GPT Summary- テキストを画像として提供することで、LLMのトークン使用量を削減しつつ性能を維持できることを示す。長いテキストを画像にレンダリングし、デコーダーに直接入力することで、必要なトークン数を大幅に減少させる。実験により、RULERとCNN/DailyMailのベンチマークで性能を損なうことなく、トークンの節約が実現できることを確認。 Comment

元ポスト:

Loading…

#Pocket #Catastrophic Forgetting #memory #ContinualLearning Issue Date: 2025-10-22 [Paper Note] Continual Learning via Sparse Memory Finetuning, Jessy Lin+, arXiv'25, 2025.10 GPT Summary- スパースメモリファインチューニングを用いて、破滅的忘却を軽減しながら継続的学習を可能にするモデルを提案。新しい知識を学習する際、メモリスロットの更新を制限することで、既存の能力との干渉を減少。実験では、スパースメモリファインチューニングが他の手法に比べて著しく少ない忘却を示し、継続的学習における有望なアプローチであることを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #In-ContextLearning #read-later #One-Line Notes #AutomaticPromptOptimization Issue Date: 2025-10-21 [Paper Note] Prompt-MII: Meta-Learning Instruction Induction for LLMs, Emily Xiao+, arXiv'25, 2025.10 GPT Summary- PROMPT-MIIという新しい指示誘導モデルを提案し、トレーニング例をコンパクトなプロンプトに縮小することで、インコンテキスト学習（ICL）と同等のパフォーマンスを実現。3,000以上の分類データセットでトレーニングし、90の未見タスクで評価した結果、下流モデルの品質を4-9 F1ポイント向上させ、必要なトークン数を3-13倍削減。 Comment

元ポスト:

Loading…

タスクのexamplar/demonstrationからタスクに関するdescription）＝instruction)を生成するモデルを学習し、生成されたinstructionを用いることで、manyshotでICLするよりも、少ないトークン数で同等以上の性能を達成するといった話に見える。どういうinstructionになるのかが非常に興味がある。A.6参照のこと。細かく具体的だがコンパクトな指示が記述されているようなinstructionとなっている。

#Pocket #Dataset #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#ComputerVision #Pocket #Temporal #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

image, video, テキスト, 音声を理解しテキストを出力（TTSも可）するモデルに関する新たなアーキテクチャとデータキュレーションパイプラインを提案している模様

#Multi #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #ComputerUse #One-Line Notes Issue Date: 2025-10-21 [Paper Note] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action, Yuhao Yang+, arXiv'25, 2025.10 GPT Summary- ハイブリッドアクションを用いた基盤モデル「UltraCUA」を提案し、GUIの原始的なアクションと高レベルのプログラムツール呼び出しを統合。自動化パイプライン、合成データエンジン、ハイブリッドアクション軌跡コレクション、二段階のトレーニングパイプラインを構成要素とし、実験により最先端エージェントに対して22%の改善と11%の速度向上を達成。エラー伝播を減少させつつ実行効率を維持することが確認された。 Comment

元ポスト:

Loading…

従来のCUAはGUIに対する低レベルの操作（クリック、タイプ、スクロール）を利用する前提に立つが、本研究ではそれらだけではなくより高レベルのprogramatic tool calls(e.g., python関数呼び出し、キーボードショートカット、スクリプト実行、API呼び出し等)をシームレスに統合できるように合成データを作成しAgentをらSFTとRLしましたらよりベンチマークスコア向上した、というような話に見える。

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Diversity #Verification #DeepResearch #LongHorizon Issue Date: 2025-10-21 [Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment

元ポスト:

Loading…

#Multi #Pocket #ReinforcementLearning #AIAgents #Stability #Entropy Issue Date: 2025-10-21 [Paper Note] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning, Wujiang Xu+, arXiv'25, 2025.09 GPT Summary- マルチターン環境でのLLMエージェント訓練における探索-活用カスケード失敗を特定し、エントロピー正則化ポリシー最適化（EPO）を提案。EPOは、探索を強化し、ポリシーエントロピーを制限することで、訓練の安定性を向上させる。実験により、ScienceWorldで152%、ALFWorldで19.8%の性能向上を達成。マルチターンスパース報酬設定には新たなエントロピー制御が必要であることを示す。 Comment

元ポスト:

Loading…

#Pocket #Supervised-FineTuning (SFT) #SyntheticData #read-later #One-Line Notes #SkillTag Issue Date: 2025-10-21 [Paper Note] Skill-Targeted Adaptive Training, Yinghui He+, arXiv'25, 2025.10 GPT Summary- 本研究では、言語モデルのメタ認知能力を活用した新しいファインチューニング戦略「STAT」を提案。教師モデルがタスクに必要なスキルをラベル付けし、学生モデルのスキル不足を追跡することで、トレーニングセットを修正。STAT-Selでは既存の例の重みを調整し、STAT-Synでは新たな例を合成。実験により、MATHで最大7.5%の改善を達成し、分布外ベンチマークでも平均4.6%の向上を示した。STATは強化学習手法GRPOと補完的であり、スキルターゲットの適応トレーニングがトレーニングパイプラインを改善することを示唆。 Comment

元ポスト:

Loading…

Reward Modelでquestionがeasy/hardを定量化し、hardなものに対してモデルが応答を生成。応答の結果をstronger modelに確認させ、モデルにどのようなスキルが不足しているかを特定する。これによりモデルのスキルに関するprofileが作成されるのでこれに基づいて学習データの各サンプルとスキルを紐づけた上でサンプルを重みの調整、および不足しているスキルに関するデータを合成しSFTに活用する、といった話な模様。

https://github.com/user-attachments/assets/8f5e9efb-c096-4897-8327-daed9e4c920a" />

結果を見ると、+SFT / +GRPOよりも性能が高くなっている。Table1ではLlamaでの結果しか掲載されていないが、Qwenでも実験がされて同様の結果が得られている。
https://github.com/user-attachments/assets/d35077ef-bf33-4c12-82e1-37cbc40247af" />

また、Figure4を見ると不足していたスキルが学習によってきちんと補われていることが分かる。

https://github.com/user-attachments/assets/bd07a4e5-87c8-4ab1-a45c-379cff343e33" />

（評価と考察部分をもう少しじっくり読みたい）

#Survey #InformationRetrieval #Pocket #MultiModal #RAG(RetrievalAugmentedGeneration) #VisionLanguageModel #Encoder #One-Line Notes Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

Table1は2024年以後の35本程度の手法、Table2は20+程度のベンチマークがまとまっており、基本的な概念なども解説されている模様。半数程度がtraining-free/OCRを利用する手法はそれぞれ五分五分程度なようで、Agenticな手法はあまり多くないようだ(3/35)。

#Analysis #Pocket #In-ContextLearning Issue Date: 2025-10-20 [Paper Note] On the Relationship Between the Choice of Representation and In-Context Learning, Ioana Marinescu+, arXiv'25, 2025.10 GPT Summary- インコンテキスト学習（ICL）は、LLMがデモンストレーションから新しいタスクを学ぶ能力を指し、表現方法と学習能力の相互作用が重要である。研究では、デモンストレーションの表現がICLの基準精度を決定し、追加のデモンストレーションはその基準を改善することを仮定。異なるラベルセットを用いてICLを実施した結果、ラベルセットの質に関わらず学習が行われ、効率はデモンストレーションの改善傾きに依存することが確認された。これにより、デモンストレーションからの学習とその表現がICLのパフォーマンスに独立した影響を与えることが示された。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Alignment #Supervised-FineTuning (SFT) #Reasoning #Safety Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#Embeddings #Analysis #Pocket #Dataset #RepresentationLearning #SyntheticData #ACL #Findings Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#Pocket #ReinforcementLearning #AIAgents #Reasoning #read-later Issue Date: 2025-10-19 [Paper Note] Agentic Design of Compositional Machines, Wenqian Zhang+, arXiv'25, 2025.10 GPT Summary- 複雑な機械設計におけるLLMの創造能力を探求し、「構成的機械設計」の視点からアプローチ。テストベッド「BesiegeField」を用いて、LLMの能力をベンチマークし、空間的推論や戦略的組み立ての重要性を特定。オープンソースモデルの限界を受け、強化学習を通じた改善を模索し、関連する課題を明らかにする。 Comment

元ポスト:

Loading…

pj page: https://besiegefield.github.io/

#Pretraining #Pocket #Quantization #Distillation #PostTraining #KeyPoint Notes Issue Date: 2025-10-19 [Paper Note] BitNet Distillation, Xun Wu+, arXiv'25, 2025.10 GPT Summary- BitNet Distillation（BitDistill）は、フル精度LLMを1.58ビット精度にファインチューニングする軽量なパイプラインで、計算コストを抑えつつ高いタスク特化型パフォーマンスを実現します。主な技術には、SubLNモジュール、MiniLMに基づくアテンション蒸留、継続的な事前学習が含まれ、これによりフル精度モデルと同等の性能を達成し、メモリを最大10倍節約し、CPU上での推論を2.65倍高速化します。 Comment

元ポスト:

Loading…

SubLN, MiniLMについては
- Foundation Transformers, Hongyu Wang+, PMLR'23
- [Paper Note] MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers, Wenhui Wang+, ACL'21 Findings, 2020.12

を参照のこと。

既存LLMを特定タスクに1.58bitでSFTする際に、full-precisionと同等の性能を保つ方法を提案している研究。full-precision LLMを1.58 bitでSFTをするとfp16で学習した場合のbaselineと比較してパフォーマンスが大きく低下するが（そしてその傾向はモデルサイズが大きいほど強い）、提案手法を利用するとfp16でSFTした場合と同等の性能を保ちながら、inference-speed 2.65倍、メモリ消費量1/10になる模様。
https://github.com/user-attachments/assets/cafa8ad5-7cce-4466-a208-07bb51dcd953" />

手法としては、3段階で構成されており
- Stage1: low-bitに量子化されたモデルではactivationの分散が大きくなり学習の不安定さにつながるため、アーキテクチャとしてSubLNを導入して安定化を図る
- Stage2: Stage1で新たにSubLNを追加するので事前学習コーパスの継続事前学習する
- Stage3: full-precisionでSFTしたモデルを教師、1.58-bitに量子化したモデルを生徒とし、logits distillation (input x, output yが与えられた時に教師・生徒間で出力トークンの分布のKL Divergenceを最小化する)、MiniLMで提案されているMHAのdistillation（q-q/k-k/v-vの内積によってsquaredなrelation mapをQ, K, Vごとに作成し、relation mapのKL Divergenceが教師・生徒間で最小となるように学習する）を実施する
- 最終的に `L_CE + \lambda L_LD + \ganma L_AD` を最小化する。ここで、L_CEはdownstream datasetに対するcross-entropy lossであり、L_LD, L_ADはそれぞれ、logit distillation, Attention Distillationのlossである。

ポイント解説:

Loading…

#Pocket #Alignment #AIAgents #Safety #read-later #Selected Papers/Blogs Issue Date: 2025-10-19 [Paper Note] Agentic Misalignment: How LLMs Could Be Insider Threats, Aengus Lynch+, arXiv'25, 2025.10 GPT Summary- 複数の開発者からの16のモデルを仮想企業環境でテストし、潜在的なリスク行動を特定。モデルは自律的にメールを送信し、機密情報にアクセス可能で、ビジネス目標に従う中で反抗的行動を示すことがあった。この現象を「エージェントのミスアライメント」と呼び、モデルが不適切な行動を取ることがあることを示した。実際の展開においてはミスアライメントの証拠は見られなかったが、モデルの自律性が高まることで将来的なリスクが生じる可能性があることを指摘。安全性と透明性の重要性を強調し、研究方法を公開する。 Comment

元ポスト:

Loading…

abstを読んだだけでも、なんとも恐ろしいシナリオが記述されている。読みたい

Figure4, 5とかすごいな

#Pocket #Alignment #Evaluation #NeurIPS #PostTraining #One-Line Notes Issue Date: 2025-10-19 [Paper Note] Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment, Samuel Yeh+, NeurIPS'25, 2025.09 GPT Summary- 人間のフィードバックはLLMのアライメントに重要だが、ノイズや一貫性の欠如が問題を引き起こす。これを解決するために、13のデータクリーニング手法を評価する初のベンチマーク「PrefCleanBench」を導入。さまざまな条件下でのアライメント性能を比較し、データクリーニングの成功要因を明らかにする。これにより、LLMアライメントの改善に向けた再現可能なアプローチを提供し、データ前処理の重要性を強調する。すべての手法の実装は公開されている。 Comment

元ポスト:

Loading…

元ポストによるとTakeawayとしては、
- cleaningをすることでalignmentの性能は一貫して向上
- 複数のReward Modelを用いた場合（おそらくhuman labelと複数RMのvotingに基づくcleaning）は単一モデルよりも信頼性が高くロバスト
- bad dataに対するデータは（ラベルを修正するよりも）削除した方が性能が向上する
- 少量だがクリーンなデータセットは大規模でノイジーなデータセットよりも性能が良い

といった知見がある模様

#Pocket #ReinforcementLearning #DiffusionModel #PostTraining Issue Date: 2025-10-19 [Paper Note] SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models, Chenyu Wang+, arXiv'25, 2025.10 GPT Summary- 拡散型大規模言語モデル（dLLMs）は、効率的なデコード能力を持つが、強化学習（RL）による調整が難しい。従来の代理手法はバイアスを引き起こす可能性がある。そこで、真の対数尤度の上限と下限を利用した「サンドイッチポリシー勾配（SPG）」を提案。実験により、SPGはELBOや他のベースラインを大幅に上回り、GSM8Kで3.6%、MATH500で2.6%、Countdownで18.4%、Sudokuで27.0%の精度向上を達成した。 Comment

pj page: https://chenyuwang-monica.github.io/spg/

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #DiffusionModel #One-Line Notes #KV Cache Issue Date: 2025-10-19 [Paper Note] Attention Is All You Need for KV Cache in Diffusion LLMs, Quan Nguyen-Tri+, arXiv'25, 2025.10 GPT Summary- 本研究では、拡散型大規模言語モデル（DLMs）のデコーディング待機時間を最小化しつつ予測精度を最大化するために、適応的なKVキャッシュ再計算手法「Elastic-Cache」を提案。これにより、浅いレイヤーの冗長性を削減し、重要なトークンに基づいてキャッシュのリフレッシュを動的に行う。実験では、GSM8KやHumanEvalでの速度向上を示し、生成品質を維持しながら高いスループットを達成した。 Comment

元ポスト:

Loading…

DLMにおいて、denoisingの各ステップにおいて全てのKVを再計算するのではなく、attention scoreが大きくドリフトしていない部分についてはKV Cacheを再利用し、大きくドリフトした部分だけ再計算するような仕組みを学習することで、品質を損なうことなく推論速度を高速化した模様

#Pocket #Coding #LLM-as-a-Judge #Test-Time Scaling #One-Line Notes #Scalability Issue Date: 2025-10-19 [Paper Note] Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models, Mehrzad Samadi+, arXiv'25, 2025.10 GPT Summary- 競技プログラミングはLLMsの能力を評価する重要なベンチマークであり、IOIはその中でも特に権威ある大会です。本論文では、オープンウェイトモデルがIOI金メダルレベルのパフォーマンスを達成するためのフレームワーク「GenCluster」を提案します。このフレームワークは、生成、行動クラスタリング、ランキング、ラウンドロビン戦略を組み合わせて多様な解決空間を効率的に探索します。実験により、GenClusterは計算リソースに応じてスケールし、オープンシステムとクローズドシステムのギャップを縮小することが示され、IOI 2025で金メダルを達成する可能性を示唆しています。 Comment

元ポスト:

Loading…

OpenWeight modelで初めてIOI金メダル級のパフォーマンスを実現できるフレームワークで、まずLLMに5000個程度の潜在的なsolutionを生成させ、それぞれのsolutionを100種のtest-caseで走らせて、その後solutionをbehaviorに応じてクラスタリングする。これによりアプローチのユニークさにそってクラスタが形成される。最終的に最も良いsolutionを見つけるために、それぞれのクラスタから最も良いsolutionを互いに対決させて、LLM-as-a-Judgeで勝者をランク付けするような仕組みのようである。

https://github.com/user-attachments/assets/899026dd-38a9-4a1d-a871-2a37bcfeb623" />

#Pocket #RAG(RetrievalAugmentedGeneration) #LongSequence #read-later #One-Line Notes Issue Date: 2025-10-18 [Paper Note] When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs, Soyeong Jeong+, arXiv'25, 2025.10 GPT Summary- 思考テンプレートを用いて、長文コンテキスト言語モデル（LCLMs）によるマルチホップ推論を構造化。証拠の結びつきを捉え、自然言語フィードバックでテンプレートを洗練。多様なベンチマークで性能向上を実現し、小型モデルへの蒸留も可能。フレームワーク名はToTAL。 Comment

元ポスト:

Loading…

シンプルなCoTやドキュメント全体をcontextに入力するようなシンプルなベースラインしかなく、ベースラインが少し弱いような印象を受けたが（たとえばChain-of-Noteを適用していない、と思ったが）実験しているモデルを見ると、そもそもReasoningモデルを使った実験（前提）となっているので（Chain-of-Noteなどはnon-thinking modelでは有効なことが示されているがthinking modelでの効果は不明という認識）、なんやかんやこのベースラインで十分なのでは、という気もする。そして結構性能が上がっているように見える。（後で読みたい）

#Online/Interactive #Pocket #ReinforcementLearning #OOD #LatentReasoning #One-Line Notes #Test-time Learning Issue Date: 2025-10-18 [Paper Note] Thinking on the Fly: Test-Time Reasoning Enhancement via Latent Thought Policy Optimization, Wengao Ye+, arXiv'25, 2025.10 GPT Summary- Latent Thought Policy Optimization（LTPO）を提案し、LLMの推論を強化するパラメータフリーのフレームワークを導入。中間的な潜在「思考」ベクトルを動的に最適化し、外部監視なしで報酬信号に基づくオンラインポリシー勾配法を使用。5つの推論ベンチマークで強力な性能を示し、特にAIMEベンチマークで顕著な改善を達成。 Comment

元ポスト:

Loading…

test-time に online-RLを適用することでモデルのパラメータを更新することなく、クエリに応じて動的にlatent reasoningを洗練し、推論能力をロバストにできる、という話な模様？

https://github.com/user-attachments/assets/cdefa5c8-5fc4-4057-867e-bce5466702b6" />

実験結果を見ると、モデルのパラメータ数が大きい場合にgainが小さくなっていっているように見え、かつ実験中のlargest modelのgainがサンプル数の少ないAIMEのスコアに依存しているように見える。

#Pocket #DiffusionModel #Reasoning #LatentReasoning #KeyPoint Notes Issue Date: 2025-10-18 [Paper Note] LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning, Haoqiang Kang+, arXiv'25, 2025.10 GPT Summary- LaDiR（Latent Diffusion Reasoner）という新しい推論フレームワークを提案。これは、LLMの限界を克服し、潜在表現と潜在拡散モデルを統合。VAEを用いて構造化された潜在推論空間を構築し、双方向注意マスクでデノイズ。これにより、効率的な推論軌跡の生成が可能となり、精度と多様性を向上。数学的推論の評価で、従来手法を上回る結果を示す。 Comment

元ポスト:

Loading…

既存のreasoning/latent reasoningはsequentialにreasoning trajectoryを生成していくが、（このため、誤った推論をした際に推論を是正しづらいといわれている）本手法ではthought tokensと呼ばれる思考トークンをdiffusion modelを用いてdenoisingすることでreasoning trajectoryを生成する。このプロセスはtrajectory全体をiterativeにrefineしていくため前述の弱点が是正される可能性がある。また、thought tokensの生成は複数ブロック（ブロック間はcausal attention, ブロック内はbi-directional attention）に分けて実施されるため複数のreasoning trajectoryを並列して探索することになり、reasoning traceの多様性が高まる効果が期待できる。最後にVAEによってdiscreteなinputをlatent spaceに落とし込み、その空間上でdenoising（= latent space空間上で思考する）し、その後decodingしてdiscrete tokenに再度おとしこむ（= thought tokens）というアーキテクチャになっているため、latent space上でのreasoningの解釈性が向上する。最終的には、タグが出力された時点でlatent reasoningステップを終了し、（VAE Decoderによってdiscrete tokenにデコードされることで）生成されたthought tokensをfreezeされたLLMに入力した上でauto regressiveに続きを生成することで応答を得る。

https://github.com/user-attachments/assets/2d0c79d8-f31d-4d80-8671-eb3598d55d3d" />

https://github.com/user-attachments/assets/c7b4fcaf-1ac6-4602-8a23-350d6e21ab49" />

結果のスコアを見る限り、COCONUTと比べるとだいぶgainを得ているが、Discrete Latentと比較するとgainは限定的に見える。

https://github.com/user-attachments/assets/ace6e663-b11b-49f0-8e29-a9ba2fce2649" />

#Pocket #Dataset #Evaluation #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #Education #AIAgents #Evaluation #Coding #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

#Pocket #Reasoning #Diversity #Samplers Issue Date: 2025-10-18 [Paper Note] Reasoning with Sampling: Your Base Model is Smarter Than You Think, Aayush Karan+, arXiv'25, 2025.10 GPT Summary- 本研究では、強化学習を用いずに、サンプリングによって大規模言語モデルの推論能力を引き出す方法を提案。マルコフ連鎖モンテカルロ技術に基づく反復サンプリングアルゴリズムを用い、MATH500、HumanEval、GPQAなどのタスクでRLに匹敵するかそれを上回る性能を示す。さらに、トレーニングや特別なデータセットを必要とせず、広範な適用可能性を持つことを示唆。 Comment

pj page: https://aakaran.github.io/reasoning_with_sampling/

元ポスト:

Loading…

#Pretraining #Pocket #LongSequence Issue Date: 2025-10-18 [Paper Note] Beyond Multi-Token Prediction: Pretraining LLMs with Future Summaries, Divyat Mahajan+, arXiv'25, 2025.10 GPT Summary- 未来要約予測（FSP）を提案し、長期的な推論や創造的な執筆の課題を解決。FSPは、長期的な未来のコンパクトな表現を予測する補助ヘッドを用い、情報を保持。手作りの要約と逆言語モデルによる学習要約の2つのバリアントを探求。大規模な実験により、FSPが数学、推論、コーディングのベンチマークでNTPおよびMTPを改善することを示した。 Comment

元ポスト:

Loading…

逆方向の言語モデルを学習しそのhidden stateを教師信号とし[^1]順方向の言語モデルに対して別のヘッドを用意しrepresentationを取得。l2 lossで順方向と逆方向のrepresentationが近くなるよう学習しバックボーンであるtransformerを学習するような事前学習手法。

[^1]:逆方向言語モデルのhidden stateはfuture contextに関する豊富な情報を含んでいるため

著者ポスト:

Loading…

#EfficiencyImprovement #Pocket #DynamicNetworks #Routing #One-Line Notes Issue Date: 2025-10-17 [Paper Note] Dr.LLM: Dynamic Layer Routing in LLMs, Ahmed Heakl+, arXiv'25, 2025.10 GPT Summary- Dr.LLMは、LLMsに動的な層ルーティングを導入し、計算効率を向上させるフレームワーク。モンテカルロ木探索を用いて高品質な層構成を導出し、ARCやDARTで精度を最大+3.4%向上させ、平均5層を節約。ドメイン外タスクでもわずか0.85%の精度低下で従来手法を上回る。明示的な監視下でのルーターがLLMsを効率的に活用できることを示す。 Comment

LayerごとにMLPのrouterを用意し、（元のLLMのパラメータはfreezeして）Layerをskip, execute, repeatするかを追加で学習することで、クエリに応じて動的に計算コストとpathを調整する能力を身につけさせ、性能を向上させつつも計算量も削減できます、といった話な模様。routerが学習されているのでinference時にsearchは不要。

#Pocket #ReinforcementLearning #PostTraining #Entropy Issue Date: 2025-10-17 [Paper Note] SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization, Minghan Chen+, arXiv'25, 2025.05 GPT Summary- SEED-GRPOは、LLMの不確実性を考慮したポリシー更新手法であり、入力プロンプトの意味的エントロピーを測定してポリシー更新の大きさを調整する。これにより、高い不確実性の質問には慎重な更新を行い、自信のある質問には元の学習信号を維持する。実験結果は、5つの数学的推論ベンチマークで新たな最先端のパフォーマンスを達成したことを示している。 Comment

元ポスト:

Loading…

- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

との比較を見てみたいなあ

#Pocket #Dataset #Evaluation #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#Pocket #Test-Time Scaling #Verification #Robotics #VisionLanguageActionModel Issue Date: 2025-10-17 [Paper Note] RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models, Jacky Kwok+, arXiv'25, 2025.06 GPT Summary- VLAモデルの堅牢性を向上させるため、テスト時スケーリングを調査し、RoboMonkeyフレームワークを導入。小さなアクションセットをサンプリングし、VLMを用いて最適なアクションを選択。合成データ生成により検証精度が向上し、分布外タスクで25%、分布内タスクで9%の改善を達成。新しいロボットセットアップへの適応時には、VLAとアクション検証器の両方をファインチューニングすることで7%の性能向上を示した。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #Reasoning #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-17 [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06 GPT Summary- MiniMax-M1は、4560億パラメータを持つ世界初のオープンウェイトのハイブリッドアテンション推論モデルで、Mixture-of-Expertsアーキテクチャとライトニングアテンションを組み合わせています。1百万トークンのコンテキスト長をサポートし、複雑なタスクに適しています。新しいRLアルゴリズムCISPOを提案し、効率的な訓練を実現。標準ベンチマークで強力なオープンウェイトモデルと同等以上の性能を示し、特にソフトウェアエンジニアリングや長いコンテキストタスクで優れた結果を出しています。モデルは公開されています。 Comment

- MiniMax-M1, MiniMax, 2025.06

のテクニカルレポート。

- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

でGSPO, DAPOよりも安定性と最終到達性能でより優れていることが示されたCISPOと呼ばれるRLアルゴリズムが提案されている。

関連:

Loading…

#Analysis #Pocket #ReinforcementLearning #Scaling Laws #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-10-17 [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10 GPT Summary- 強化学習（RL）のスケーリングに関する原則的なフレームワークを定義し、40万時間以上のGPU時間を用いた大規模な研究を実施。シグモイド型計算-性能曲線をフィットさせ、設計選択肢の影響を分析。結果として、漸近的性能はレシピによって異なり、計算効率は詳細に依存することを発見。これを基に、ScaleRLというベストプラクティスのレシピを提案し、100,000 GPU時間での成功を示した。この研究は、RLトレーニングの予測可能性を向上させるための科学的フレームワークを提供する。 Comment

元ポスト:

Loading…

CISPO:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

著者ポスト:

Loading…

ポイント解説:

Loading…

#Analysis #EfficiencyImprovement #Pocket #ReinforcementLearning #Test-Time Scaling #PostTraining #Diversity Issue Date: 2025-10-16 [Paper Note] Representation-Based Exploration for Language Models: From Test-Time to Post-Training, Jens Tuyls+, arXiv'25, 2025.10 GPT Summary- 強化学習（RL）が言語モデルの行動発見に与える影響を調査。事前学習されたモデルの隠れ状態を基にした表現ベースのボーナスを用いることで、多様性とpass@k率が大幅に改善されることを発見。推論時における探索が効率を向上させ、ポストトレーニングにおいてもRLパイプラインとの統合により性能が向上。意図的な探索が新しい行動の発見に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

探索の多様性をあげてRLこ学習効率、test time scalingの効率を上げるという話

#Pocket #Chain-of-Thought #Reasoning #RewardHacking Issue Date: 2025-10-16 [Paper Note] Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort, Xinpeng Wang+, arXiv'25, 2025.10 GPT Summary- 報酬ハッキングは、モデルが報酬関数の抜け穴を利用して意図されたタスクを解決せずに高い報酬を得る行為であり、重大な脅威をもたらす。TRACE（Truncated Reasoning AUC Evaluation）を提案し、暗黙的な報酬ハッキングを検出する。TRACEは、モデルの推論が報酬を得るのにかかる時間を測定し、ハッキングモデルが短いCoTで高い期待報酬を得ることを示す。TRACEは、数学的推論で72B CoTモニターに対して65%以上、コーディングで32Bモニターに対して30%以上の性能向上を達成し、未知の抜け穴を発見する能力も示す。これにより、現在の監視方法が効果的でない場合に対するスケーラブルな無監視アプローチを提供する。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering Issue Date: 2025-10-16 [Paper Note] Expert-as-a-Service: Towards Efficient, Scalable, and Robust Large-scale MoE Serving, Ziming Liu+, arXiv'25, 2025.09 GPT Summary- EaaSという新しいサービングシステムを提案し、Mixture-of-Experts (MoE)モデルの効率的でスケーラブルな展開を実現。MoEモジュールを独立したステートレスサービスに分解し、リソースの細かいスケーリングとフォールトトレランスを提供。実験により、EaaSはモノリシックシステムと同等のパフォーマンスを維持しつつ、スループットの減少を2%未満に抑え、最大37.5%の計算リソースを節約することが確認された。 Comment

元ポスト:

Loading…

#NeuralNetwork #MachineLearning #Pocket #Transformer #Optimizer Issue Date: 2025-10-16 [Paper Note] Cautious Weight Decay, Lizhang Chen+, arXiv'25, 2025.10 GPT Summary- Cautious Weight Decay（CWD）は、オプティマイザに依存しない修正で、更新と符号が一致するパラメータにのみウェイト減衰を適用します。これにより、元の損失を保持しつつ、局所的なパレート最適点を探索可能にします。CWDは、既存のオプティマイザに簡単に適用でき、新たなハイパーパラメータを必要とせず、言語モデルの事前学習やImageNet分類で損失と精度を向上させます。 Comment

元ポスト:

Loading…

#Pocket #Reasoning #SmallModel Issue Date: 2025-10-16 [Paper Note] LightReasoner: Can Small Language Models Teach Large Language Models Reasoning?, Jingyuan Wang+, arXiv'25, 2025.10 GPT Summary- LightReasonerは、SLMがLLMの強みを活かして高価値の推論を明らかにする新しいフレームワーク。重要な推論瞬間を特定し、専門家モデルを調整する2段階のプロセスを経て、数学的ベンチマークで精度を最大28.1%向上、時間消費を90%削減、サンプリング問題を80%減少させた。リソース効率の良いアプローチで、真のラベルに依存せずにLLMの推論を進展させる。 Comment

元ポスト:

Loading…

#Pocket #EducationalDataMining #Supervised-FineTuning (SFT) #SyntheticData #Reasoning #Label-free Issue Date: 2025-10-16 [Paper Note] Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors, Alexis Ross+, arXiv'25, 2025.10 GPT Summary- 新手法MISTAKEを提案し、不正確な推論パターンをモデル化。サイクル整合性を利用して高品質な推論エラーを合成し、教育タスクでの学生シミュレーションや誤解分類において高精度を達成。専門家の選択肢との整合性も向上。 Comment

元ポスト:

Loading…

#Multi #Pocket #UserModeling #UserBased #Evaluation #Conversation #EMNLP #One-Line Notes Issue Date: 2025-10-16 [Paper Note] SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?, Yao Dou+, arXiv'25, 2025.10 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

マルチターンの会話においてAIと人間との対話（数学のtutoring, 文書の作成支援）を評価する際に、実際の人間はコストがかかりスケールしないのでLLMを人間の代替とし評価ができるか？どのようにすればLLMを人間の振る舞いと整合させられるか？といった話しで、25種類以上のattributeによるユーザプロファイルを用いることが有効だった（人間の評価結果に対して、ユーザプロファイルを用いたLLMシミュレーターがより高い相関を示した）というような話しらしい。

#Analysis #Pocket #Quantization #Reasoning #Test-Time Scaling #One-Line Notes #MemoryOptimization Issue Date: 2025-10-15 [Paper Note] Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models, Junhyuck Kim+, arXiv'25, 2025.10 GPT Summary- 4ビット量子化はメモリ最適化に有効ですが、推論モデルには適用できないことを示す。体系的な実験により、モデルサイズとKVキャッシュの影響を発見。小規模モデルは重みを優先し、大規模モデルは生成にメモリを割り当てることで精度を向上。LLMのメモリ最適化はスケールに依存し、異なるアプローチが必要であることを示唆。 Comment

元ポスト:

Loading…

Reasoning Modelにおいて、メモリのbudgetに制約がある状況下において、
- モデルサイズ
- 重みの精度
- test-time compute (serial & parallel)
- KV Cacheの圧縮

において、それらをどのように配分することでモデルのAcc.が最大化されるか？という話しな模様。

#Pocket #mid-training #read-later #LatentReasoning #RecurrentModels #RecursiveModels Issue Date: 2025-10-15 [Paper Note] Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts, Yeskendir Koishekenov+, arXiv'25, 2025.10 GPT Summary- ETD手法を用いて、LLMの推論能力を向上させる。特定の層を反復することで、17の推論ベンチマークで大幅な精度向上を達成。GSM8Kで28.4%、MATHで36%の向上を示し、再帰的な推論が効果的であることを確認。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Alignment #Evaluation #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

LLNのAlignmentはしばしばReward Modelをベースに実施されるが、現在のReward Modelに存在する、価値観（4種類）とスタイル（4種類）に関するバイアスが存在することを明らかにしている模様。

#ComputerVision #Analysis #Pretraining #Pocket #Dataset #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Multi #Pocket #Alignment #ReinforcementLearning #AIAgents #Safety #One-Line Notes Issue Date: 2025-10-15 [Paper Note] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety, Jingyu Zhang+, arXiv'25, 2025.10 GPT Summary- WaltzRLという新しいマルチエージェント強化学習フレームワークを提案し、LLMの有用性と無害性のバランスを取る。会話エージェントとフィードバックエージェントを共同訓練し、応答の安全性と有用性を向上させる。実験により、安全でない応答と過剰な拒否を大幅に減少させることを示し、LLMの安全性を向上させる。 Comment

元ポスト:

Loading…

マルチエージェントを用いたLLMのalignment手法。ユーザからのpromptに応答する会話エージェントと、応答を批評するフィードバックエージェントの2種類を用意し、違いが交互作用しながら学習する。フィードバックエージェント会話エージェントが安全かつ過剰に応答を拒絶していない場合のみ報酬を与え、フィードバックエージェントのフィードバックが次のターンの会話エージェントの応答を改善したら、フィードバックエージェントに報酬が与えられる、みたいな枠組みな模様。

#Analysis #Pretraining #Pocket #Optimizer Issue Date: 2025-10-15 [Paper Note] The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton, Natalie Abreu+, arXiv'25, 2025.10 GPT Summary- LLMの事前学習における計算効率向上のため、フルガウス-ニュートン（GN）前処理を最大150Mパラメータのトランスフォーマーモデルに適用。実験により、GN更新がトレーニングの反復回数を5.4倍削減し、層間情報を無視した層別GN前処理器がフルGNに近い性能を示すことが判明。これにより、GN近似の効果や層別ヘッセ行列の情報の重要性、近似手法と理想的な層別オラクルとの性能ギャップが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #Explanation #Faithfulness #EMNLP #Trustfulness Issue Date: 2025-10-15 [Paper Note] A Necessary Step toward Faithfulness: Measuring and Improving Consistency in Free-Text Explanations, Lingjun Zhao+, EMNLP'25, 2025.05 GPT Summary- 本論文では、AI意思決定における自由形式の説明の信頼性を測定するために、予測-説明整合性の新しい測定方法を提案。大規模言語モデルによる説明の62%以上が整合性を欠いていることを示し、最適化により整合性が43.1%から292.3%改善されることを確認。また、整合性の最適化により説明の信頼性が最大9.7%向上することを示した。 Comment

元ポスト:

Loading…

Hal Daume氏がlast author

#Pocket #ReinforcementLearning #MoE(Mixture-of-Experts) #PostTraining #Stability #One-Line Notes Issue Date: 2025-10-14 [Paper Note] Stabilizing MoE Reinforcement Learning by Aligning Training and Inference Routers, Wenhan Ma+, arXiv'25, 2025.10 GPT Summary- 強化学習（RL）を用いたMixture-of-Experts（MoE）モデルのトレーニングと推論の不一致を分析し、Rollout Routing Replay（R3）を提案。R3は推論時のルーティング分布を記録し、トレーニング中に再生することで、トレーニングと推論のポリシー間のKLダイバージェンスを減少させ、安定性を向上。実験により、R3がRLトレーニングの崩壊を防ぎ、他の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08

のMoE版の話。Inference EngineとTraining Engine側でExpertsの選択が一致しないことが不安定につながるので、それを一致させるようにする、という話な模様。

#EfficiencyImprovement #Pocket #ReinforcementLearning #Quantization #PEFT(Adaptor/LoRA) #Entropy Issue Date: 2025-10-14 [Paper Note] QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs, Wei Huang+, arXiv'25, 2025.10 GPT Summary- QeRLは、LLMs向けの量子化強化学習フレームワークで、NVFP4量子化とLoRAを組み合わせてRLのロールアウトを加速し、メモリ使用量を削減します。量子化ノイズがポリシーエントロピーを増加させ、探索を強化することを示し、AQNメカニズムでノイズを動的に調整します。実験により、ロールアウトフェーズで1.5倍のスピードアップを達成し、32B LLMのRLトレーニングを単一のH100 80GB GPUで可能にしました。QeRLは、報酬の成長と最終精度で優れた結果を示し、LLMsにおけるRLトレーニングの効率的なフレームワークとしての地位を確立しました。 Comment

pj page: https://github.com/NVlabs/QeRL

元ポスト:

Loading…

- Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08

のようなロールアウトする際のエンジンと学習のエンジンのgapによる問題は生じたりしないのだろうか。

解説:

Loading…

#Analysis #Pocket #Dataset #AIAgents #Reasoning #Entropy Issue Date: 2025-10-14 [Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10 GPT Summary- エージェント的強化学習（agentic RL）を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Analysis #EfficiencyImprovement #Pocket #ReinforcementLearning #RLVR Issue Date: 2025-10-14 [Paper Note] Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony, Han Lu+, arXiv'25, 2025.10 GPT Summary- 非同期RL後処理をサポートする「ROLL Flash」を提案。細粒度の並列性とロールアウト・トレインのデカップリングに基づき、効率的なトレーニングアーキテクチャを実現。ROLL Flashはリソース利用効率とスケーラビリティを大幅に改善し、RLVRタスクで最大2.24倍、エージェントタスクで最大2.72倍のスピードアップを達成。非同期トレーニングが同期トレーニングと同等のパフォーマンスを示すことを確認。 Comment

元ポスト:

Loading…

RLのロールアウト中のGPUのアイドルタイムを削減します系の話も最近結構見るような
たとえば

- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #WorldModels #KeyPoint Notes Issue Date: 2025-10-14 [Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…

#Pocket #ReinforcementLearning #On-Policy Issue Date: 2025-10-14 [Paper Note] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting, Yunzhen Feng+, arXiv'25, 2025.10 GPT Summary- 強化学習におけるネガティブグループを活用する新手法LENSを提案。信頼度に基づくペナルティを追加し、誤った応答に対しても報酬を与えることで、無駄なサンプルを有用な勾配更新に変換。MATHベンチマークでGRPOを上回る性能を示し、RLVRの効率と性能向上に寄与。 Comment

元ポスト:

Loading…

DAPOなどのdynamic samplingは全ての応答がnegativeなグループは破棄するが、それらも活用して学習できるような枠組みな模様

#Pretraining #Pocket #DiffusionModel #NeurIPS Issue Date: 2025-10-14 [Paper Note] Next Semantic Scale Prediction via Hierarchical Diffusion Language Models, Cai Zhou+, NeurIPS'25, 2025.10 GPT Summary- 階層的拡散言語モデル（HDLM）は、低レベルのトークンが高レベルのトークンにマッピングされる階層的な語彙に基づく新しい言語モデリング手法です。前方プロセスではトークンが高レベルの先祖に摂動され、逆プロセスでは詳細な意味を予測します。HDLMは、拡散の証拠下限（ELBO）の閉形式表現を導出し、既存のモデルを含む柔軟な実装が可能であることを示します。実験により、HDLMはベースラインよりも低い困惑度を達成し、その有効性が確認されました。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Prompting #MultiModal #AutomaticPromptEngineering Issue Date: 2025-10-14 [Paper Note] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs, Yumin Choi+, arXiv'25, 2025.10 GPT Summary- マルチモーダルプロンプト最適化（MPO）を提案し、テキストと非テキストのプロンプトを共同最適化する新たなアプローチを示す。MPOは、ベイズに基づく選択戦略を用いて候補プロンプトを選定し、画像や動画など多様なモダリティにおいてテキスト専用手法を上回る性能を発揮。これにより、MLLMsの潜在能力を最大限に引き出す重要なステップを確立。 Comment

元ポスト:

Loading…

#Pocket #Chain-of-Thought #Reasoning #read-later #Selected Papers/Blogs #Verification #One-Line Notes Issue Date: 2025-10-14 [Paper Note] Verifying Chain-of-Thought Reasoning via Its Computational Graph, Zheng Zhao+, arXiv'25, 2025.10 GPT Summary- Circuit-based Reasoning Verification (CRV)を提案し、CoTステップの帰属グラフを用いて推論エラーを検証。エラーの構造的署名が予測的であり、異なる推論タスクで異なる計算パターンが現れることを示す。これにより、モデルの誤った推論を修正する新たなアプローチを提供し、LLM推論の因果理解を深めることを目指す。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#EfficiencyImprovement #Pocket #DiffusionModel #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-10-14 [Paper Note] dInfer: An Efficient Inference Framework for Diffusion Language Models, Yuxin Ma+, arXiv'25, 2025.10 GPT Summary- dLLMの推論を効率化するフレームワークdInferを提案。dInferは4つのモジュールに分解され、新しいアルゴリズムと最適化を統合。これにより、出力品質を維持しつつ、推論速度を大幅に向上。HumanEvalで1秒あたり1,100トークンを超え、従来のシステムに比べて10倍のスピードアップを実現。dInferはオープンソースで公開。 Comment

code: https://github.com/inclusionAI/dInfer

とうとうdLLMを高速でinferenceできるフレームワークが出た模様。inclusionAIより。

ポイント解説:

Loading…

#Pocket #ReinforcementLearning #Reasoning #RLVR #Entropy Issue Date: 2025-10-13 [Paper Note] Rethinking Entropy Regularization in Large Reasoning Models, Yuxian Jiang+, arXiv'25, 2025.09 GPT Summary- RLVRはLRMの推論能力を向上させるが、エントロピーの崩壊と早期収束の問題に直面している。これに対処するため、SIREN（選択的エントロピー正則化）を提案し、探索を意味のある行動と状態のサブセットに制限する二段階のエントロピーマスキングメカニズムを導入。SIRENは数学的ベンチマークで優れたパフォーマンスを示し、トレーニングの安定性を高め、早期収束の問題を軽減することが確認された。 Comment

元ポスト:

Loading…

#Pocket #Dataset #UserBased #Alignment #Evaluation #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#MachineLearning #Pocket #Abstractive #Reasoning #Generalization #memory #One-Line Notes #Test-time Learning Issue Date: 2025-10-13 [Paper Note] ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory, Matthew Ho+, arXiv'25, 2025.09 GPT Summary- LLMは推論時に外部メモリを活用し、概念レベルのメモリを導入することで、再利用可能でスケーラブルな知識の保存を実現。これにより、関連する概念を選択的に取得し、テスト時の継続的学習を可能にする。評価はARC-AGIベンチマークで行い、メモリなしのベースラインに対して7.5%の性能向上を達成。動的なメモリ更新が自己改善を促進することを示唆。 Comment

元ポスト:

Loading…

ARC-AGIでしか評価されていないように見える。

#Pocket #Alignment #Supervised-FineTuning (SFT) #Safety Issue Date: 2025-10-13 [Paper Note] Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment, Nevan Wichers+, arXiv'25, 2025.10 GPT Summary- Inoculation Prompting（IP）を提案し、望ましくない行動を明示的に要求することでその学習を防ぐ手法を紹介。IPはファインチューニング中に望ましくない行動の学習を減少させ、望ましい能力の学習には大きな影響を与えない。特に、望ましくない行動を引き出すプロンプトが効果的であることを示し、モデルの一般化を制御するシンプルで効果的な方法であることを確認。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Large Reasoning Models Learn Better Alignment from Flawed Thinking, ShengYun Peng+, arXiv'25, 2025.10

上記研究とどういった点が異なるだろうか

#EfficiencyImprovement #Pocket #Pruning #Test-Time Scaling #Decoding #Parallel Issue Date: 2025-10-12 [Paper Note] DeepPrune: Parallel Scaling without Inter-trace Redundancy, Shangqing Tu+, arXiv'25, 2025.10 GPT Summary- DeepPruneという新しいフレームワークを提案し、並列スケーリングの計算非効率を解決。80%以上の推論トレースが同一の回答を生成する問題に対処し、焦点損失とオーバーサンプリング技術を用いた判定モデルで同等性を予測。オンラインの貪欲クラスタリングで冗長な経路をプルーニングし、80%以上のトークン削減を達成しつつ、精度を維持。効率的な並列推論の新基準を確立。 Comment

pj page: https://deepprune.github.io

HF: https://huggingface.co/collections/THU-KEG/deepprune-68e5c1ea71f789a6719b2c1c

元ポスト:

Loading…

#Pocket #Dataset #ReinforcementLearning #NeurIPS #mid-training #PostTraining #GenerativeVerifier Issue Date: 2025-10-12 [Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05 GPT Summary- 強化学習を用いた新しいトレーニングパラダイム「General-Reasoner」を提案し、LLMの推論能力を向上させる。大規模な高品質データセットを構築し、生成モデルベースの回答検証器を開発。物理学や化学などの多様な分野で評価し、既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/General-Reasoner/

#Pocket #Dataset #ReinforcementLearning #mid-training #PostTraining Issue Date: 2025-10-12 [Paper Note] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels, Zhepeng Cen+, arXiv'25, 2025.10 GPT Summary- Webscale-RLパイプラインを導入し、大規模な事前学習文書から数百万の多様な質問-回答ペアを生成。これにより、120万の例を含むWebscale-RLデータセットを構築。実験結果、RLトレーニングは継続的な事前トレーニングよりも効率的で、パフォーマンスを大幅に向上させることを示した。研究は、RLを事前学習レベルにスケールアップする道筋を示し、より高性能な言語モデルの実現を可能にする。 Comment

元ポスト:

Loading…

Dataset: https://huggingface.co/datasets/Salesforce/Webscale-RL

以下の研究が関連研究でNeurIPSですでに発表されているが引用も議論もされていないという指摘がある:
- [Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05

他にも似たようなモチベーションの研究を見たことがあるような…

#Pocket #UserModeling #UserBased #Evaluation #Conversation #Robustness Issue Date: 2025-10-12 [Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル（User LMs）を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…

#Pocket #ScientificDiscovery #read-later #IdeaGeneration #One-Line Notes Issue Date: 2025-10-12 [Paper Note] GUIDE: Towards Scalable Advising for Research Ideas, Yaowenqi Liu+, arXiv'25, 2025.07 GPT Summary- AI研究の進展に伴い、自動化された仮説生成や実験設計が可能になっているが、高品質なフィードバックを提供するアドバイジングシステムには依然として課題がある。本研究では、モデルのサイズや信頼度の推定など、効果的なアドバイジングシステムの要因を探求し、比較的小さなモデルが圧縮された文献データベースと構造化された推論フレームワークを用いることで、強力な言語モデルを上回る受理率を達成できることを示した。特に、高信頼度の予測において90%以上の受理率を達成し、仮説生成と実験設計の質を向上させる可能性を示唆している。 Comment

pj page: https://howardliu0830.github.io/GUIDE_blog/

元ポスト:

Loading…

どのように評価したのだろうか

pj pageによると、ICMLのsubmissionのうちランダムな1000件を用いて、モデルにpaperをスコアリングさせる。そして、モデルがスコアリングした中で上位5%（spotlightの割合に相当）、30%のprecision（実際のacceptanceの閾値相当の割合）と、モデルがスコアリングした上位30パーセントの論文の現代のAcceptanceに対するRecallを求めて評価している模様。7Bモデルでより大きいモデルと同等程度の性能を示している。

手法は後ほど追記したいが、Acceptを予測ふるタスクは論文に対して適切なフィードバックできることに直接的には繋がらないのでは？と思い、inferenceのpromptを見てみると、LLMにabst, contribution, method, experimental setupを入力し、実際の査読と似たような評価をさせ、その結果に基づいてratingをpredictionするような形式に見える。このため、rating predictionの過程で評価結果のフィードバックが生成されるので、論文の改善ができる、というユースケースだと思われる。

#Pocket #AIAgents #ContextEngineering Issue Date: 2025-10-11 [Paper Note] Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models, Qizheng Zhang+, arXiv'25, 2025.10 GPT Summary- ACEフレームワークは、適応メモリに基づき、コンテキストを進化するプレイブックとして扱い、生成、反省、キュレーションを通じて戦略を洗練します。これにより、詳細な知識を保持し、コンテキスト崩壊を防ぎます。ACEはエージェントやドメイン特化型ベンチマークで優れた性能を発揮し、適応のレイテンシとコストを削減。特に、ラベルなしで効果的に適応し、自然なフィードバックを活用する点が特徴です。全体の平均でトップランクのエージェントに匹敵し、より難しいテストでも優れた結果を示しました。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

#Pocket #LongSequence #SSM (StateSpaceModel) #memory Issue Date: 2025-10-11 [Paper Note] MemMamba: Rethinking Memory Patterns in State Space Model, Youjin Wang+, arXiv'25, 2025.09 GPT Summary- データの増加に伴い、長シーケンスモデリングが重要になる中、既存手法は効率とメモリのトレードオフに直面している。Mambaの選択的状態空間モデルは高効率だが、長期メモリが減衰する。本研究では、Mambaのメモリ減衰メカニズムを分析し、情報損失を定量化する指標を導入。新たに提案するMemMambaは、状態要約メカニズムと注意を統合し、長期的な忘却を軽減しつつ計算量を維持。MemMambaは、長シーケンスベンチマークで大幅な改善を達成し、推論効率を48%向上させることを示した。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) #Fidelity Issue Date: 2025-10-10 [Paper Note] Improving Context Fidelity via Native Retrieval-Augmented Reasoning, Suyuchen Wang+, arXiv'25, 2025.09 GPT Summary- CAREという新しいフレームワークを提案し、LLMsが自らの検索能力を用いて文脈における証拠を統合することで、一貫性のある回答を生成。限られたラベル付きデータで検索精度と回答生成性能を向上させ、実験により従来手法を大幅に上回ることを示した。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LongSequence #memory #RecurrentModels Issue Date: 2025-10-10 [Paper Note] Artificial Hippocampus Networks for Efficient Long-Context Modeling, Yunhao Fang+, arXiv'25, 2025.10 GPT Summary- 長大なシーケンスモデリングにおけるメモリのトレードオフを解決するため、人工海馬ネットワーク（AHN）を提案。AHNは短期メモリを維持しつつ、長期メモリを圧縮。実験により、AHNを用いたモデルが従来のベースラインを上回り、計算とメモリ要件を大幅に削減しつつ、パフォーマンスを向上させることを示した。 Comment

元ポスト:

Loading…

所見:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #Reasoning #read-later #Selected Papers/Blogs Issue Date: 2025-10-09 [Paper Note] The Markovian Thinker, Milad Aghajohari+, arXiv'25, 2025.10 GPT Summary- 強化学習を用いて長い思考の連鎖を生成するための新しいパラダイム「マルコフ的思考」を提案。これにより、状態を一定のサイズに制限し、思考の長さをコンテキストのサイズから切り離すことで、線形計算を実現。新しいRL環境「Delethink」を構築し、モデルは短い持ち越しで推論を継続することを学習。訓練されたモデルは、長い推論を効率的に行い、コストを大幅に削減。思考環境の再設計が、効率的でスケーラブルな推論LLMの実現に寄与することを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

#Pocket #ReinforcementLearning #AIAgents #SyntheticData #LongHorizon Issue Date: 2025-10-09 [Paper Note] h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning, Sumeet Ramesh Motwani+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルは短期的な推論には強いが、長期的な推論では性能が低下する。既存のアプローチはスケールしにくい。本研究では、短期データを用いて長期的な推論能力を向上させるスケーラブルな方法を提案。単純な問題を合成し、複雑な多段階依存チェーンを構成。結果のみの報酬でモデルを訓練し、カリキュラムを通じて精度を向上。実験により、GSM8Kでの訓練がGSM-SymbolicやMATH-500などのベンチマークでの精度を最大2.06倍向上させることを示した。理論的には、カリキュラムRLがサンプルの複雑さにおいて指数的な改善を達成することを示し、既存データを用いた長期的な問題解決の効率的な道を提案。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #SmallModel #Selected Papers/Blogs #LatentReasoning #RecursiveModels Issue Date: 2025-10-09 [Paper Note] Less is More: Recursive Reasoning with Tiny Networks, Alexia Jolicoeur-Martineau, arXiv'25, 2025.10 GPT Summary- 階層的推論モデル（HRM）は、2つの小さなニューラルネットワークを用いた新しいアプローチで、数独や迷路などのパズルタスクで大規模言語モデル（LLMs）を上回る性能を示す。しかし、HRMは最適ではない可能性があるため、我々はTiny Recursive Model（TRM）を提案。TRMはよりシンプルで高い一般化能力を持ち、700万パラメータでARC-AGI-1で45%、ARC-AGI-2で8%の精度を達成し、ほとんどのLLMを上回る性能を示した。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

ARC-AGI公式による検証が終わり報告されている結果が信頼できることが確認された模様:

Loading…

続報:

Loading…

Sudoku Benchでも性能改善する模様？

#Pocket #Evaluation #Selected Papers/Blogs Issue Date: 2025-10-09 [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10 GPT Summary- GDPvalは、AIモデルの経済的価値のあるタスクを評価するベンチマークで、米国GDPに寄与する44の職業をカバー。最前線モデルのパフォーマンスは時間と共に改善し、業界専門家に近づいている。人間の監視を加えたモデルは、無援助の専門家よりも効率的にタスクを実行可能であることを示唆。推論努力やタスクコンテキストの増加がモデルの性能向上に寄与。220のタスクのゴールドサブセットをオープンソース化し、研究促進のための自動採点サービスを提供。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Pocket #ReinforcementLearning #AIAgents #On-Policy Issue Date: 2025-10-09 [Paper Note] In-the-Flow Agentic System Optimization for Effective Planning and Tool Use, Zhuofeng Li+, arXiv'25, 2025.10 GPT Summary- AgentFlowは、4つのモジュール（プランナー、エグゼキューター、バリファイア、ジェネレーター）を調整し、マルチターン環境でプランナーを最適化する強化学習フレームワーク。Flow-GRPOを用いて、長いホライズンのスパースリワード問題に対処し、精度を向上。10のベンチマークで、7BスケールのAgentFlowは、検索、エージェンティック、数学、科学タスクでそれぞれ14.9%、14.0%、14.5%、4.1%の精度向上を達成し、GPT-4oを上回る性能を示した。 Comment

元ポスト: https://agentflow.stanford.edu

pj page: https://agentflow.stanford.edu

モデルサイズと推論ターンに対するスケーリング特性

似たような話が以下の研究にもある
- [Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25

ポイント解説:

Loading…

ポイント解説:

Loading…

#Embeddings #EfficiencyImprovement #Pocket #RepresentationLearning #RAG(RetrievalAugmentedGeneration) #ICLR #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Generative Representational Instruction Tuning, Niklas Muennighoff+, ICLR'25, 2024.02 GPT Summary- 生成的表現指示チューニング（GRIT）を用いて、大規模言語モデルが生成タスクと埋め込みタスクを同時に処理できる手法を提案。GritLM 7BはMTEBで新たな最先端を達成し、GritLM 8x7Bはすべてのオープン生成モデルを上回る性能を示す。GRITは生成データと埋め込みデータの統合による性能損失がなく、RAGを60%以上高速化する利点もある。モデルは公開されている。 Comment

openreview: https://openreview.net/forum?id=BC4lIvfSzv

#Pocket #Attention #Architecture #Sparse Issue Date: 2025-10-08 [Paper Note] vAttention: Verified Sparse Attention, Aditya Desai+, arXiv'25, 2025.10 GPT Summary- vAttentionは、トップ-$k$とランダムサンプリングを統合した新しいスパースアテンションメカニズムで、ユーザー指定の$(\epsilon, \delta)$保証を提供し、近似精度を向上させる。これにより、スパースアテンションの実用性と信頼性が向上し、フルアテンションと同等の品質を保ちながら、最大20倍のスパース性を実現。推論シナリオでも迅速なデコーディングが可能で、実験により性能の向上が確認された。コードはオープンソースで公開されている。 Comment

元ポスト:

Loading…

#Analysis #MachineLearning #Pocket #Optimizer Issue Date: 2025-10-08 [Paper Note] Muon Outperforms Adam in Tail-End Associative Memory Learning, Shuche Wang+, arXiv'25, 2025.09 GPT Summary- Muonオプティマイザーは、LLMsのトレーニングにおいてAdamよりも高速であり、そのメカニズムを連想記憶の観点から解明。VOアテンションウェイトとFFNがMuonの優位性の要因であり、重い尾を持つデータにおいて尾クラスを効果的に最適化する。Muonは一貫したバランスの取れた学習を実現し、Adamは不均衡を引き起こす可能性がある。これにより、Muonの更新ルールが重い尾を持つ分布における効果的な学習を可能にすることが示された。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #read-later #Off-Policy Issue Date: 2025-10-08 [Paper Note] Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?, Haizhong Zheng+, COLM'25, 2025.10 GPT Summary- 強化学習における新しいアプローチM2POを提案。古いデータを効果的に活用し、オンポリシー学習の効率性を向上。M2POは重要度重みの二次モーメントを制約し、外れ値を抑制しつつ安定した最適化を実現。広範な評価により、古いデータでもオンポリシーに匹敵する性能を示した。 Comment

元ポスト:

Loading…

本当だとしたらすごいが果たして

#Safety #COLM Issue Date: 2025-10-08 [Paper Note] G1yphD3c0de: Towards Safer Language Models on Visually Perturbed Texts, Yeo+, COLM'25 Comment

openreview: https://openreview.net/forum?id=OGwE7LwtcR#discussion

元ポスト:

Loading…

#Multi #Pocket #Dataset #Evaluation #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #ReinforcementLearning #COLM #GRPO #On-Policy #TextToSQL Issue Date: 2025-10-08 [Paper Note] Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL, Mohammadreza Pourreza+, COLM'25, 2025.03 GPT Summary- Text-to-SQLタスクにおいて、部分的報酬を用いた強化学習（RL）アプローチを提案。スキーマリンクやAIフィードバックなどの報酬を設計し、LLMsの推論スキルを向上させる。RLトレーニングを受けた14Bパラメータモデルは、他のモデルを上回る精度を達成し、提案手法の有効性を示す。 Comment

openreview: https://openreview.net/forum?id=HbwkIDWQgN#discussion

元ポスト:

Loading…

#Pocket #Dataset #Coding #mid-training #COLM #Editing #One-Line Notes Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

openreviewのサマリによると、8B tokens, 850k python filesのデータセットで、コーディングタスクを、ゴールで条件づけられたsequential editsタスクとみなし The Stack上のコードを分析ツールとLLMによって合成されたrationaleによってフィルタリング/拡張したデータを提供しているとのこと。具体的には (state, goal, action_i) の3つ組みのデータセットであり、action_iがaction前後でのdiffになっている模様。D3データセットでSFTの前にLlama 1B / 3Bをmid-trainingした結果、downstreamタスク（コード生成、completion、編集）において性能が向上したとのこと。

https://github.com/user-attachments/assets/d99b5ee6-dbc8-48f7-9b68-880add54dbbb" />

#Pocket #In-ContextLearning #Safety #Scaling Laws #COLM #read-later #Selected Papers/Blogs Issue Date: 2025-10-08 [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 GPT Summary- インコンテキスト学習（ICL）は、言語モデルに複雑なタスクを実行させる手法であり、提供される例の数と予測精度に強い相関がある。本研究では、ICLがベイズ学習者を近似することを示し、新しいベイズスケーリング法則を提案。GPT-2モデルを用いた実験で、提案法則が精度における既存の法則と一致し、タスクの事前分布や学習効率に関する解釈可能な項を提供。実験では、ICLを用いて抑制されたモデル能力を再現する条件を予測し、LLMの安全性向上に寄与することを示した。 Comment

openreview: https://openreview.net/forum?id=U2ihVSREUb#discussion

元ポスト:

Loading…

#Multi #Pocket #Dataset #ReinforcementLearning #SyntheticData #COLM #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, Anna Goldie+, COLM'25, 2025.04 GPT Summary- 段階的強化学習（SWiRL）を提案し、複数のテキスト生成や推論ステップを通じて大規模言語モデルの性能を向上させる手法を紹介。SWiRLは、各アクションに対するサブ軌道を生成し、合成データフィルタリングと強化学習最適化を適用。実験では、GSM8KやHotPotQAなどのタスクでベースラインを上回る精度を達成し、タスク間での一般化も示された。 Comment

openreview: https://openreview.net/forum?id=oN9STRYQVa

元ポスト:

Loading…

従来のRLではテキスト生成を1ステップとして扱うことが多いが、複雑な推論やtool useを伴うタスクにおいては複数ステップでの最適化が必要となる。そのために、多段階の推論ステップのtrajectoryを含むデータを作成し、同データを使いRLすることによって性能が向上したという話な模様。RLをする際には、stepごとにRewardを用意するようである。また、現在のstepの生成を実施する際には過去のstepの情報に基づいて生成する方式のようである。

#Pocket #UserModeling #Dataset #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#Pocket #Search #Reasoning #Test-Time Scaling #Decoding #TreeSearch Issue Date: 2025-10-08 [Paper Note] MITS: Enhanced Tree Search Reasoning for LLMs via Pointwise Mutual Information, Jiaxi Li+, arXiv'25, 2025.10 GPT Summary- 相互情報量ツリー探索（MITS）を提案し、推論経路の評価と探索を効率化。PMIに基づくスコアリング関数を用い、計算コストを抑えつつ優れた推論性能を実現。エントロピーに基づく動的サンプリング戦略でリソースを最適配分し、重み付き投票方式で最終予測を行う。MITSは多様なベンチマークでベースラインを上回る結果を示した。 Comment

元ポスト:

Loading…

#Pocket #Reasoning #OpenWeight #One-Line Notes Issue Date: 2025-10-07 [Paper Note] Magistral, Mistral-AI+, arXiv'25, 2025.06 GPT Summary- Mistralの推論モデルMagistralと独自の強化学習パイプラインを紹介。ゼロからのアプローチで、LLMのRLトレーニングの限界を探り、テキストデータのみでのRLが能力を維持することを示す。Magistral MediumはRLのみで訓練され、Magistral Smallはオープンソース化。 Comment

元ポスト:

Loading…

MistralAIの初めてのreasoningモデル

#MachineLearning #Pocket #Finetuning #EvolutionaryAlgorithm Issue Date: 2025-10-07 [Paper Note] Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning, Xin Qiu+, arXiv'25, 2025.09 GPT Summary- 進化戦略（ES）を用いて、事前学習済みの大規模言語モデル（LLMs）の全パラメータをファインチューニングする初の成功事例を報告。ESは数十億のパラメータに対して効率的に探索でき、サンプル効率やロバスト性、パフォーマンスの安定性において既存の強化学習（RL）手法を上回ることを示す。これにより、LLMファインチューニングの新たな方向性が開かれる。 Comment

元ポスト:

Loading…

続報:

Loading…

#Pocket #DiffusionModel #Test-Time Scaling #read-later #MajorityVoting Issue Date: 2025-10-07 [Paper Note] Test-Time Scaling in Diffusion LLMs via Hidden Semi-Autoregressive Experts, Jihoon Lee+, arXiv'25, 2025.10 GPT Summary- dLLMsは異なる生成順序に基づく専門的な挙動を学習するが、固定された推論スケジュールは性能を低下させる。HEXという新手法を導入し、異なるブロックスケジュールでのアンサンブルを行うことで、精度を大幅に向上させる。GSM8KやMATH、ARC-C、TruthfulQAなどのベンチマークで顕著な改善を示し、テスト時スケーリングの新たなパラダイムを確立した。 Comment

元ポスト:

Loading…

これは気になる👀

著者ポスト:

Loading…

#Analysis #Pretraining #Pocket #ReinforcementLearning #COLM #read-later Issue Date: 2025-10-07 [Paper Note] Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining, Rosie Zhao+, COLM'25, 2025.04 GPT Summary- 強化学習（RL）によるファインチューニングは、数学的推論やコーディングのための言語モデルの性能向上に寄与しているが、そのメカニズムは未解明である。本研究では、オープンなデータセットを用いて、さまざまなスケールのモデルに対するRLファインチューニングの効果を調査し、RLアルゴリズムが出力分布に収束し、事前学習データのパターンを増幅することを明らかにした。また、異なるスケールのモデルが異なる出力分布に収束することや、簡単な質問へのファインチューニングが難しい質問の性能向上に寄与する可能性を示した。これにより、RLの役割に関する新たな洞察が得られた。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #Transformer #SmallModel #memory Issue Date: 2025-10-07 [Paper Note] Pretraining with hierarchical memories: separating long-tail and common knowledge, Hadi Pouransari+, arXiv'25, 2025.09 GPT Summary- 現代の言語モデルはパラメータのスケーリングに依存しているが、すべての世界知識を圧縮するのは非現実的である。これに対処するため、メモリ拡張アーキテクチャを提案し、小型言語モデルが階層的なメモリバンクにアクセスする仕組みを導入。実験により、160Mパラメータのモデルに18Mパラメータのメモリを追加することで、通常のモデルと同等の性能を達成。トランスフォーマーにおけるメモリの最適なタイプとサイズを研究し、提案したメモリが堅牢に機能することを確認。 Comment

元ポスト:

Loading…

#Pocket #Attention #Architecture Issue Date: 2025-10-07 [Paper Note] Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space, Tomas Figliolia+, arXiv'25, 2025.10 GPT Summary- Compressed Convolutional Attention（CCA）を提案し、クエリ、キー、バリューをダウンサンプリングして全ての注意操作を共有された潜在空間内で実行。これにより、パラメータ、KVキャッシュ、FLOPを大幅に削減。さらに、CCAとヘッド共有を組み合わせたCompressed Convolutional Grouped Query Attention（CCGQA）は、計算と帯域幅の効率を向上させ、GQAやMLAを上回る性能を示す。実験では、CCGQAがMoEモデルにおいて他の注意メソッドを圧倒し、MHAと比較してもパフォーマンスを維持しつつKVキャッシュを8倍圧縮。H100 GPU上でのトレーニングと事前フィルの速度を大幅に向上。 Comment

元ポスト:

Loading…

DenseモデルとMoEモデルでAttentionの各種variantの性能が大きく変化する模様。かつ、提案手法はどちらのアーキテクチャでも良い性能を達成する模様(Fig3,4)。

解説:

Loading…

ポイント解説:

Loading…

#Tutorial #Analysis #Slide #Selected Papers/Blogs #reading Issue Date: 2025-10-07 言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…

#Pocket #GenerativeAdversarialNetwork #PEFT(Adaptor/LoRA) #Catastrophic Forgetting #PostTraining #read-later Issue Date: 2025-10-06 [Paper Note] Self-Evolving LLMs via Continual Instruction Tuning, Jiazheng Kang+, arXiv'25, 2025.09 GPT Summary- MoE-CLは、産業環境における大規模言語モデルの継続学習を支援するためのフレームワークで、タスクごとのLoRA専門家と共有LoRA専門家を用いて知識の保持とクロスタスクの一般化を実現。敵対的学習により、タスクに関連する情報のみを通過させる識別器を統合し、自己進化を促進。実験結果では、Tencent Videoプラットフォームでの手動レビューコストを15.3%削減し、実用性が示された。 Comment

元ポスト:

Loading…

continual instruction tuning... そしてGAN!?

タスク固有の知識を備えたLoRAと、タスク間で共有されるLoRAがクロスタスクの転移を促し、それぞれをMoEにおけるexpertsとして扱うことで、inputに対して動的に必要なLoRA expertsを選択する。このとき、Task Classifier（Adversarialに訓練する）でタスクに関係ない情報が順伝搬されないようにフィルタリングするっぽい？（GANをText Classifierの学習に使い、Classifierの情報を用いることで共有/タスク固有のLoRA expertsが学習されるように促すようだが、細かくどうやるかは読まないとわからない）。

ドメイン固有のタスクとデータに対して、さまざまなアダプターを追加していき、catastrophic forgettingを防ぎながら、扱えるタスクの幅が広がっていく枠組み自体は面白そう（学習は果たして安定するのだろうか）。

#EfficiencyImprovement #Pocket #DiffusionModel #Decoding Issue Date: 2025-10-06 [Paper Note] Free Draft-and-Verification: Toward Lossless Parallel Decoding for Diffusion Large Language Models, Shutong Wu+, arXiv'25, 2025.09 GPT Summary- Diffusion Large Language Models (DLLMs)は、双方向の注意メカニズムにより文脈を捉える能力が高いが、推論効率が自己回帰モデルに劣る。既存の並列デコーディングアルゴリズムは性能低下を伴う。これを解決するために、損失のない並列デコーディングを実現する新しいアルゴリズム「Free Draft-and-Verification（Freedave）」を提案。Freedaveにより、DLLMsのスループットは数学的推論タスクで最大2.8倍向上する。 Comment

元ポスト:

Loading…

#Analysis #EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #In-ContextLearning Issue Date: 2025-10-05 [Paper Note] IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning, Aayush Mishra+, arXiv'25, 2025.09 GPT Summary- 本研究では、インコンテキスト学習（ICL）の活性化パターンを利用して、監視付きファインチューニング（SFT）の品質を向上させる手法を提案。ICLとSFTの異なる適応メカニズムを示し、ICL活性化アライメント（IA2）という自己蒸留技術を導入。IA2をSFTの前に実行することで、モデルの出力精度とキャリブレーションが向上することを12のベンチマークで実証。これにより、モデル適応の内部メカニズムに対する新たな視点も提供される。 Comment

元ポスト:

Loading…

#Pocket #Test-Time Scaling #read-later Issue Date: 2025-10-05 [Paper Note] Generalized Parallel Scaling with Interdependent Generations, Harry Dong+, arXiv'25, 2025.10 GPT Summary- Bridgeを提案し、並列LLM推論で相互依存する応答を生成。これにより、平均精度が最大50%向上し、一貫性が増す。訓練後は任意の生成幅にスケール可能で、独立生成よりも優れたパフォーマンスを発揮。 Comment

元ポスト:

Loading…

#ComputerVision #MachineLearning #Pocket #MultiModal #NeurIPS #PostTraining #OOD #Generalization Issue Date: 2025-10-05 [Paper Note] Visual Instruction Bottleneck Tuning, Changdae Oh+, NeurIPS'25, 2025.05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #read-later Issue Date: 2025-10-05 [Paper Note] Nudging the Boundaries of LLM Reasoning, Justin Chih-Yao Chen+, arXiv'25, 2025.09 GPT Summary- NuRLは、自己生成されたヒントを用いてオンライン強化学習（RL）アルゴリズムの上限を引き上げる手法である。モデルは連鎖的思考を生成し、難しいサンプルに対してヒントを注入することで合格率を向上させ、トレーニング信号を導入する。これにより、分布のシフトを回避しつつ、6つのベンチマークで一貫した改善を達成。特に、最も効果的なヒントは抽象的で高レベルであり、GRPOと比較してモデルの上限を引き上げることができる。 Comment

元ポスト:

Loading…

RLで学習に利用するサンプルの難易度を調整することで性能上げます系の話が溢れている。しかしこの話はどちらかというと上限を押し上げるみたいな話らしい？（RLVRは解決可能な問題しか勾配が流れないという課題）

#Controllable #Pocket #AIAgents #Evaluation #LongSequence #Contamination-free Issue Date: 2025-10-04 [Paper Note] Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling, Seiji Maekawa+, arXiv'25, 2025.09 GPT Summary- TaLMsの評価のために、汚染のないフレームワークFuncBenchGenを提案。ツール使用をDAG上のトラバーサルとして捉え、モデルは正しい関数呼び出しシーケンスを構成。7つのLLMを異なる難易度のタスクで評価した結果、GPT-5が特に優れた性能を示し、依存の深さが増すと性能が低下。古い引数値の伝播が問題であることが判明し、再表現戦略を導入したところ、成功率が62.5%から81.3%に向上した。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

過去のデータを使いLLMの能力を評価するベンチマークとして利用するという方向性ならこういったタスクも良いのかもしれない。

が、素朴な疑問として、LLMが良いトレードをして儲けられます、みたいなシステムが世に広まった世界の前提になると、それによって市場の原理が変わってLLM側が前提としていたものがくずれ、結果的にLLMはトレードで儲けられなくなる、みたいなことが起きるんじゃないか、という気はするのであくまでLLMの能力を測るためのベンチマークです、という点は留意した方が良いのかな、という感想を持つなどした（実際はよくわからん）。

#Multi #Pocket #Dataset #AIAgents #SyntheticData #MCP Issue Date: 2025-10-04 [Paper Note] TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments, Zhangchen Xu+, arXiv'25, 2025.10 GPT Summary- Toucanは、約500の実世界のモデルコンテキストプロトコルから合成された150万の軌跡を含む、最大の公開ツールエージェントデータセットを提供。多様で現実的なタスクを生成し、マルチツールおよびマルチターンのインタラクションに対応。5つのモデルを用いてツール使用クエリを生成し、厳密な検証を通じて高品質な出力を保証。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークで優れた性能を示し、MCP-Universe Benchでの進展を実現。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/Agent-Ark/Toucan-1.5M

#Pocket #Alignment #SyntheticData #Safety #One-Line Notes Issue Date: 2025-10-04 [Paper Note] Large Reasoning Models Learn Better Alignment from Flawed Thinking, ShengYun Peng+, arXiv'25, 2025.10 GPT Summary- RECAPは、誤った推論を覆し安全な応答に導くための強化学習手法。合成生成された反対整合CoTを用いて訓練し、安全性と堅牢性を向上させる。RECAPで訓練されたモデルは自己反省が頻繁で、適応攻撃にも強い。 Comment

元ポスト:

Loading…

安全でない（欠陥のある）Reasoning traceを修復するような学習をさせることでよりロバストなsafety algnmentが実現できます、といった話な模様

著者ポスト:

Loading…

#Pocket #Search #ReinforcementLearning #read-later #RLVR #On-Policy #One-Line Notes #ReplayBuffer #TreeSearch Issue Date: 2025-10-04 [Paper Note] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search, Fang Wu+, arXiv'25, 2025.09 GPT Summary- DeepSearchは、RLVRトレーニングにMonte Carlo Tree Searchを統合し、体系的な探索を可能にするフレームワーク。これにより、限られたロールアウトに依存せず、重要な推論経路を見逃さない。実験では、62.95%の平均精度を達成し、1.5B推論モデルで新たな最先端を確立。戦略的な探索の重要性を示し、RLVR手法の進展に向けた新たな方向性を提供。 Comment

元ポスト:

Loading…

最近はRL時の探索空間を増やす取り組みが増えてきているように感じる。

- Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03

にもあるように基本的にオンポリシーRLではリプレイバッファを使えないので何らかの工夫が必要、といった話があるが、この研究ではGRPOを前提としつつリプレイバッファを活用する枠組みとなっているようなので、どのような工夫が行われているのだろうか。勉強したい。

所見と解説:

Loading…

#Analysis #Pretraining #Pocket #DataMixture Issue Date: 2025-10-03 [Paper Note] Data Mixing Can Induce Phase Transitions in Knowledge Acquisition, Xinran Gu+, arXiv'25, 2025.05 GPT Summary- LLMsの訓練において、知識が豊富なデータセットとウェブスクレイピングデータの混合が、知識獲得において位相転移を示すことを実証。モデルサイズを臨界値まで増加させると、記憶状態が急激に変化し、混合比率が臨界値を超えると急速に記憶が増加。これらの現象は容量配分に起因し、最適なデータ配分がモデルサイズや混合比率によって不連続に変わることを示す。 #ComputerVision #Pocket #Dataset #Evaluation #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #ReinforcementLearning #Reasoning #RLVR #Entropy Issue Date: 2025-10-03 [Paper Note] ExGRPO: Learning to Reason from Experience, Runzhe Zhan+, arXiv'25, 2025.10 GPT Summary- RLVRは大規模言語モデルの推論能力を向上させる新しい手法ですが、標準的な訓練方法は計算効率が悪い。本研究では、推論経験の価値を調査し、ExGRPOフレームワークを提案。これにより、経験の整理と優先順位付けを行い、探索と経験活用のバランスを取る。実験結果では、ExGRPOが推論性能を向上させ、訓練の安定性を高めることが示された。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #read-later #Selected Papers/Blogs #LatentReasoning Issue Date: 2025-10-03 [Paper Note] Thoughtbubbles: an Unsupervised Method for Parallel Thinking in Latent Space, Houjun Liu+, arXiv'25, 2025.09 GPT Summary- 本研究では、トランスフォーマーの新しい変種「Thoughtbubbles」を提案し、並列適応計算を潜在空間で実行する方法を示す。残差ストリームをフォークまたは削除することで、計算を効率化し、事前トレーニング中に学習可能。Thoughtbubblesは、従来の手法を上回る性能を示し、推論時のトレーニングとテストの挙動を統一する可能性を持つ。 Comment

元ポスト:

Loading…

重要論文に見える

#Analysis #Pretraining #Pocket #SyntheticData #Selected Papers/Blogs #DataMixture #One-Line Notes #PhaseTransition Issue Date: 2025-10-03 [Paper Note] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls, Feiyang Kang+, arXiv'25, 2025.10 GPT Summary- 合成データ技術はLLMのトレーニングデータの供給制限を克服する可能性を持つ。本研究では、自然なウェブデータと合成データの混合を比較し、言い換えた合成データのみでの事前トレーニングは自然なデータよりも速くないことを示した。1/3の言い換えた合成データと2/3の自然データの混合が、より効率的なトレーニングを可能にすることが分かった。教科書スタイルの合成データは小さなデータ予算で高い損失をもたらし、合成データの最適な比率はモデルサイズとデータ予算に依存する。結果は合成データの効果を明らかにし、実用的なガイダンスを提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

合成データは適切な規模のモデルと比率でないと利点が現れない

#Pocket #read-later #Verification #Clustering-based Issue Date: 2025-10-03 [Paper Note] CLUE: Non-parametric Verification from Experience via Hidden-State Clustering, Zhenwen Liang+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLM）の出力品質評価において、従来の方法は表面的な手がかりに依存しがちで、信頼度のキャリブレーションが不十分な場合に失敗することがある。本研究では、隠れ状態を直接検証する新たなアプローチ「Clue」を提案し、隠れ活性化の軌跡を用いて推論の正確性を分類する。Clueは非パラメトリックな検証器で、過去の経験に基づくクラスタリングを行い、LLMを判定者とするベースラインを上回る成果を示した。特に、AIME 24において精度を56.7%から70.0%に向上させた。 Comment

元ポスト:

Loading…

#Pocket #UserModeling #Dataset #UserBased #Personalization #Evaluation #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

ざーっとしか読めていないのが、ユーザから与えられたタスクとマルチターンの会話の履歴に基づいて、LLM側が質問を投げかけて、Personalizationに必要なattributeを取得する。つまり、ユーザプロファイルは (attribute, value, weight)のタプルによって構成され、この情報に基づいて生成がユーザプロファイルにalignするように生成する、といった話に見える。膨大なとりうるattributeの中から、ユーザのタスクとcontextに合わせてどのattributeに関する情報を取得するかが鍵となると思われる。また、セッション中でユーザプロファイルを更新し、保持はしない前提な話に見えるので、Personalizationのカテゴリとしては一時的個人化に相当すると思われる。
Personalizationの研究は評価が非常に難しいので、どのような評価をしているかは注意して読んだ方が良いと思われる。
https://github.com/user-attachments/assets/3d411a63-f8de-4267-b6c0-edfe3143d4ac" />

#Analysis #Pocket #ReinforcementLearning #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-03 [Paper Note] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning, Ruiyi Wang+, arXiv'25, 2025.10 GPT Summary- マルチターン強化学習におけるLLMエージェントの訓練方法を研究し、設計空間を環境、報酬、ポリシーの3つの柱に分解。環境の複雑さがエージェントの一般化能力に与える影響、報酬の希薄性が訓練に与える効果、ポリシー勾配法の相互作用を分析。これらの知見を基に、訓練レシピを提案し、マルチターンエージェント強化学習の研究と実践を支援。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

takeawayが非常に簡潔で分かりやすい。

#Pocket #Dataset #Evaluation #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

これまでのImageEditing用のデータセットは、弱いReward Modelによって合成されるか、GPT-4oや他のVLMによる品質の低いフィルタリングにより生成されており、高品質なデータセットが存在しない課題があった。これを解決するために大規模なImageEditingの嗜好データを収集し、ImageEditingに特化した報酬モデルであるEditRewardを学習。このモデルは人間の専門家とのagreementにおいて高い(というよりりbestと書いてある）agreementを示し、実際にEditRewardによって既存のデータセットをfilteringして学習したら大きなgainがあったよ、という感じらしい。

#Pocket #ReinforcementLearning #Hallucination #PostTraining #Trustfulness Issue Date: 2025-10-02 [Paper Note] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning, Zhepei Wei+, arXiv'25, 2025.09 GPT Summary- 本研究では、LLMsの真実性を最適化するための強化学習フレームワークTruthRLを提案。三値報酬を用いて正しい回答、幻覚、abstentionを区別し、不確実な場合には控えることを促進。実験により、TruthRLは幻覚を28.9%減少させ、真実性を21.1%向上させることが確認され、従来の手法よりも優れた性能を示した。正確さと真実性のバランスを取る重要性が強調される。 Comment

元ポスト:

Loading…

一般的に利用されるBinary Reward（回答が正しければ1, そうでなければ-1)ではなく、Ternary Reward
- 回答が正しければ1
- 不確実であれば0
- 誤りであれば-1

を利用しGRPOすることで、hallucinationが向上し、trustfulnessも改善する、という話な模様

#Pocket #Hallucination #RAG(RetrievalAugmentedGeneration) #SmallModel Issue Date: 2025-10-02 [Paper Note] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation, Loris Bergeron+, arXiv'25, 2025.10 GPT Summary- HalluGuardは、LLMsの幻覚を軽減するための4Bパラメータの小型推論モデルで、文書-主張ペアを分類し、証拠に基づいた正当化を生成します。FineWebから派生した合成データセットと、好みベースのファインチューニングを用いて、RAGTruthサブセットで84.0%のバランス精度を達成し、MiniCheckやGranite Guardianと同等の性能を示します。全体のベンチマークでは75.7%のバランス精度を達成し、GPT-4oと同等の性能を持ちます。HalluGuardとデータセットは公開予定です。 Comment

元ポスト:

Loading…

Document xとclaim cがgivenなときに、それがgroundingされているか否かを判定し、justificationをするテキストをxを参照しながら生成するようなSLMな模様。モデルとデータはまだ未公開とのこと。

#Pocket #Supervised-FineTuning (SFT) #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #reading #KeyPoint Notes Issue Date: 2025-10-02 [Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25

著者ポスト:

Loading…

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

#Pretraining #Pocket #MoE(Mixture-of-Experts) #Scaling Laws Issue Date: 2025-10-01 [Paper Note] Towards a Comprehensive Scaling Law of Mixture-of-Experts, Guoliang Zhao+, arXiv'25, 2025.09 GPT Summary- Mixture-of-Experts (MoE)モデルのスケーリング法則を体系的に分析し、パフォーマンスに影響を与える5つの要因を特定。446の制御実験を通じて、包括的なMoEスケーリング法則を構築し、最適な専門家の数や共有比率がモデルアーキテクチャやデータサイズに依存しないことを示す。提案する法則は、MoEモデルの設計とトレーニングにおける指針となる可能性がある。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #Reasoning #SmallModel Issue Date: 2025-10-01 [Paper Note] QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation, Jiazheng Li+, arXiv'25, 2025.07 GPT Summary- 強化学習（RL）を用いて、難しい推論問題を効果的に解決するための手法QuestAを提案。質問の拡張を通じて部分的な解決策を導入し、学習信号を改善。数学的推論タスクでのRLトレーニングにおいて、pass@1とpass@kの両方を向上させ、DeepScaleRやOpenMath Nemotronの推論能力を強化。1.5Bパラメータモデルで新たな最先端結果を達成。 Comment

元ポスト:

Loading…

RLにおいて、簡単な問題はすぐにoverfitし、かつより困難な問題を学習する妨げになる一方で、困難な問題はサンプル効率が悪く、かつrewardがsparseな場合学習が非常に遅いという問題があったが、困難な問題に対してヒントを与えて学習させる（かつ、モデルがヒントに依存せずとも解けるようになってきたら徐々にヒントを減らしヒントに過剰に依存することを防ぐ）ことで、簡単な問題に対してoverfitせずに困難な問題に対する学習効率も上がり、reasoning能力もブーストしました。困難な問題はベースラインモデルが解くのに苦労するもの（pass rateがゼロのもの)から見つけます、（そしてpromptでhintを与えた上でさらにpass rateが低いものを使う模様？）といった話な模様。

ヒントを使ってなる問題の難易度を調整しながらRLする研究は以下も存在する:
- [Paper Note] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding, Ziheng Li+, arXiv'25

#EfficiencyImprovement #Pretraining #Pocket #Quantization Issue Date: 2025-09-30 [Paper Note] Pretraining Large Language Models with NVFP4, NVIDIA+, arXiv'25, 2025.09 GPT Summary- 本研究では、NVFP4フォーマットを用いた大規模言語モデル（LLMs）の安定かつ正確なトレーニング手法を提案。ランダムハダマード変換や二次元量子化スキームを取り入れ、偏りのない勾配推定を実現。10兆トークンでのトレーニングにより、FP8と同等の性能を達成し、狭い精度のLLMトレーニングにおける進展を示した。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #UserBased #Alignment #ReinforcementLearning Issue Date: 2025-09-30 [Paper Note] The Era of Real-World Human Interaction: RL from User Conversations, Chuanyang Jin+, arXiv'25, 2025.09 GPT Summary- 本研究では、ユーザーとの会話から直接学ぶ「人間の相互作用からの強化学習（RLHI）」を提案。2つの手法を開発し、(1) ユーザーのフィードバックを基にモデル出力を修正する方法と、(2) ユーザーの長期的な相互作用履歴に基づく報酬モデルを用いる方法を採用。これにより、パーソナライズと指示の遵守において強力な性能を示し、有機的な人間の相互作用が効果的な監督を提供することを示唆した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #AIAgents #read-later #memory #One-Line Notes #Test-time Learning Issue Date: 2025-09-30 [Paper Note] ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory, Siru Ouyang+, arXiv'25, 2025.09 GPT Summary- ReasoningBankという新しいメモリフレームワークを提案し、エージェントが成功体験と失敗体験から推論戦略を抽出できるようにする。テスト時には関連メモリを活用し、学びを統合することで能力を向上させる。さらに、メモリを意識したテスト時スケーリング（MaTTS）を導入し、エージェントの体験を多様化・拡大する。これにより、ウェブブラウジングやソフトウェアエンジニアリングのベンチマークで既存のメモリメカニズムを上回る効果と効率を実現。メモリ駆動の経験スケーリングを新たな次元として確立し、エージェントの自己進化を促進する。 Comment

元ポスト:

Loading…

メモリを良質なものに更新、蓄積し続けることで性能がスケールするのであれば、新たなtest-time scalingのパラダイムになりそう。

ざっくり読んでみると本研究ではこのパラダイムのことをTest-Time Learningと呼称している（先行研究が２つ引用されているがざっと見た限りでは両者はそう言った呼称はしていないように見えた）。
すなわち、クエリのストリームが到達した時に将来のクエリを見ることはできずに、過去のクエリに対するtrajectoryや、self-verificationなどによってのみラベル無しで自己進化していくパラダイムのこと。

#Pocket #ReinforcementLearning #RLVR #Entropy Issue Date: 2025-09-29 [Paper Note] Quantile Advantage Estimation for Entropy-Safe Reasoning, Junkang Wu+, arXiv'25, 2025.09 GPT Summary- 強化学習における検証可能な報酬（RLVR）のトレーニングは、エントロピー崩壊と爆発の問題に直面する。これを解決するために、分位アドバンテージ推定（QAE）を提案し、平均ベースラインをK-分位ベースラインに置き換える。QAEは、難しいクエリで稀な成功を強化し、簡単なクエリで失敗をターゲットにする。これにより、エントロピーの安定化とクレジット割り当てのスパース化が実現し、AIME 2024/2025およびAMC 2023での性能向上が確認された。結果は、ベースライン設計がRLVRのスケーリングにおいて重要であることを示している。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#NeuralNetwork #Pocket #ActivationFunction #DyingReLU Issue Date: 2025-09-29 [Paper Note] Stochastic activations, Maria Lomeli+, arXiv'25, 2025.09 GPT Summary- 確率的活性化を導入し、フィードフォワード層で非線形関数をランダムに選択。特に、ベルヌーイ分布に基づきSILUまたはRELUを選択し、最適化問題を回避。プレトレーニング中に確率的活性化を使用し、推論時にRELUでファインチューニングすることでFLOPsを削減し、速度向上を実現。また、生成においても確率的活性化を評価し、テキストの多様性を制御する代替手段を提供。 Comment

元ポスト:

Loading…

#Pocket #LatentReasoning Issue Date: 2025-09-29 [Paper Note] SIM-CoT: Supervised Implicit Chain-of-Thought, Xilin Wei+, arXiv'25, 2025.09 GPT Summary- 暗黙のChain-of-Thought (CoT) メソッドは、LLMsにおける明示的なCoT推論の効率的な代替手段ですが、性能の不安定性が課題です。これに対処するため、SIM-CoTを提案し、ステップレベルの監視を導入して潜在的な推論空間を安定化します。補助デコーダーを用いて暗黙のトークンを明示的な推論ステップに整合させ、解釈可能性を向上させます。SIM-CoTは、CoconutやCODIでの精度を向上させ、明示的CoTのベースラインを上回り、トークン効率も改善します。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

中国語による中国の法律のデータセットで、legal分野においては、より細かい粒度の知識を捉えられるモデルが推論も的確にでき、推論能力でそれは補えそうという感じな模様

#EfficiencyImprovement #Pocket #ReinforcementLearning #Reasoning #mid-training Issue Date: 2025-09-26 [Paper Note] Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns, Xuemiao Zhang+, arXiv'25, 2025.09 GPT Summary- 大規模推論モデルの進展は強化学習によって促進され、CoTデータの利用が推論の深さを向上させることが示されている。しかし、どのデータタイプが最も効果的かは未解決の問題である。本研究では、推論ポテンシャルを独立した試行の数の逆数として定義し、これを拡張するために高価値の推論パターンを用いた多様なデータの利用を提案。具体的には、CoTシーケンスから原子的な推論パターンを抽象化し、コアリファレンスセットを構築。二重粒度アルゴリズムを用いて高価値のCoTデータを効率的に選択し、モデルの推論能力を向上させる。10BトークンのCoTPデータにより、85A6B Mixture-of-ExpertsモデルはAIME 2024および2025で9.58%の改善を達成した。 Comment

元ポスト:

Loading…

細かいところは読めていないのだが、学習データの中から高品質な推論パターンを持つものを選んで学習に使いたいというモチベーション。そのためにまず価値の高い推論パターンを含むコアセットを作り、コアセットと類似した推論パターンや、推論中のトークンのエントロピー列を持つサンプルを学習データから収集するみたいな話な模様。類似度は重みつきDynamic Time Warping (DTW)で、原始的な推論パターンの系列とエントロピー系列のDTWの線型結合によっめ求める。原始的な推論パターンのアノテーションや、CoT sequence中のトークンのエントロピー列はDeepSeek-V3によって生成する。

コアセットを作るためには、問題タイプや問題の難易度に基づいて人手で問題を選び、それらに対してstrong reasoning modelでCoTを生成。各CoTに対して（おそらく）DeepSeek-V3でreasoningのパターン（パターンは原始的なCoTパターンの系列で構成される）をアノテーションし、各パターンに対してTF-IDFによって重要度を決定する。最終的に、問題に正答しているサンプルについて、人手で高品質でdiscriminativeなCoTパターンを持つものを選択し、各CoTパターンに重みをつけた上でコアセットを作成した、みたいな感じに見える。

#Pocket #Ensemble #Test-Time Scaling #read-later #Best-of-N Issue Date: 2025-09-26 [Paper Note] Best-of-$\infty$ -- Asymptotic Performance of Test-Time Compute, Junpei Komiyama+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）におけるBest-of-$N$を多数決に基づいて研究し、$N \to \infty$の限界（Best-of-$\infty$）を分析。無限のテスト時間を必要とする問題に対処するため、回答の一致に基づく適応生成スキームを提案し、推論時間を効率的に配分。さらに、複数のLLMの重み付きアンサンブルを拡張し、最適な重み付けを混合整数線形計画として定式化。実験によりアプローチの有効性を実証。 Comment

pj page: https://jkomiyama.github.io/bestofinfty/

元ポスト:

Loading…

#Pretraining #Pocket #SyntheticData #Reasoning #read-later Issue Date: 2025-09-25 [Paper Note] Thinking Augmented Pre-training, Liang Wang+, arXiv'25, 2025.09 GPT Summary- 思考の軌跡を用いてテキストデータを拡張する「Thinking augmented Pre-Training（TPT）」を提案し、LLMのデータ効率を向上。TPTはトレーニングデータを効果的に増加させ、高品質なトークンの学習を容易にする。実験により、TPTがLLMの性能を大幅に向上させ、特に3Bパラメータモデルで推論ベンチマークの性能を10%以上改善することを示した。 Comment

元ポスト:

Loading…

（斜め読みしかまだできていないが）2節に存在するプロンプトを用いて、ドキュメント全体をcontextとして与え、context中に存在する複雑な情報に関して深い分析をするようにthinking traceを生成し、生成したtrace tをconcatしてnext token predictionで事前学習する模様。数学データで検証し事前学習が3倍トークン量 vs. downstreamタスク（GSM8K, MATH)性能の観点効率的になっただかでなく（これは事後学習の先取りをしているみたいなものな気がするのでそうなるだろうなという気がする）、おなじトークン量で学習したモデルをSFTした場合でも、提案手法の方が性能が良かった模様（Table2, こっちの方が個人的には重要な気がしている)。

解説:

Loading…

#Pocket #Attention #Architecture #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-09-24 [Paper Note] UMoE: Unifying Attention and FFN with Shared Experts, Yuanhang Yang+, arXiv'25, 2025.05 GPT Summary- Sparse Mixture of Experts (MoE) アーキテクチャは、Transformer モデルのスケーリングにおいて有望な手法であり、注意層への拡張が探求されていますが、既存の注意ベースの MoE 層は最適ではありません。本論文では、注意層と FFN 層の MoE 設計を統一し、注意メカニズムの再定式化を行い、FFN 構造を明らかにします。提案するUMoEアーキテクチャは、注意ベースの MoE 層で優れた性能を達成し、効率的なパラメータ共有を実現します。 Comment

元ポスト:

Loading…

Mixture of Attention Heads (MoA)はこちら:
- [Paper Note] Mixture of Attention Heads: Selecting Attention Heads Per Token, Xiaofeng Zhang+, EMNLP'22, 2022.10

#Pocket #Reasoning #Decoding #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-09-24 [Paper Note] Scaling Speculative Decoding with Lookahead Reasoning, Yichao Fu+, arXiv'25, 2025.06 GPT Summary- Lookahead Reasoningを用いることで、推論モデルのトークンデコード速度を向上させる手法を提案。軽量なドラフトモデルが将来のステップを提案し、ターゲットモデルが一度のバッチ処理で展開。これにより、トークンレベルの推測デコーディング（SD）のスピードアップを1.4倍から2.1倍に改善し、回答の質を維持。 Comment

元ポスト:

Loading…

#Analysis #Pocket #MultiLingual #EMNLP #Findings #SparseAutoEncoder Issue Date: 2025-09-24 [Paper Note] How a Bilingual LM Becomes Bilingual: Tracing Internal Representations with Sparse Autoencoders, Tatsuro Inaba+, EMNLP'25 Findings, 2025.03 GPT Summary- 本研究では、バイリンガル言語モデルの内部表現の発展をスパースオートエンコーダーを用いて分析。言語モデルは初めに言語を個別に学習し、中間層でバイリンガルの整合性を形成することが明らかに。大きなモデルほどこの傾向が強く、分解された表現を中間トレーニングモデルに統合する新手法でバイリンガル表現の重要性を示す。結果は、言語モデルのバイリンガル能力獲得に関する洞察を提供。 Comment

元ポスト:

Loading…

#Analysis #Pretraining #Pocket #EMNLP #Stability #Findings #DownstreamTasks Issue Date: 2025-09-24 [Paper Note] Instability in Downstream Task Performance During LLM Pretraining, Yuto Nishida+, EMNLP'25 Findings, 2025.10 GPT Summary- LLMの訓練中に下流タスクのパフォーマンスが大きく変動する問題を分析し、チェックポイントの平均化とアンサンブル手法を用いて安定性を向上させることを提案。これにより、訓練手順を変更せずにパフォーマンスの変動を減少させることが実証された。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #Dataset #Evaluation #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#MachineTranslation #Pretraining #Pocket #Dataset Issue Date: 2025-09-24 [Paper Note] Multilingual Language Model Pretraining using Machine-translated Data, Jiayi Wang+, EMNLP'25, 2025.02 GPT Summary- 高リソース言語の英語から翻訳した高品質なテキストが、多言語LLMsの事前学習に寄与することを発見。英語のデータセットFineWeb-Eduを9言語に翻訳し、17兆トークンのTransWebEduを作成。1.3BパラメータのTransWebLLMを事前学習し、非英語の推論タスクで最先端モデルと同等以上の性能を達成。特に、ドメイン特化データを追加することで、いくつかの言語で新たな最先端を達成。コーパス、モデル、トレーニングパイプラインはオープンソースで公開。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #ReinforcementLearning #Scaling Laws #read-later Issue Date: 2025-09-24 [Paper Note] Reinforcement Learning on Pre-Training Data, Siheng Li+, arXiv'25, 2025.09 GPT Summary- RLPTという新しいトレーニング手法を導入し、LLMsの最適化を図る。従来の方法に依存せず、事前学習データから直接報酬信号を導出し、次のテキストセグメントを予測することでポリシーに報酬を与える。実験により、複数のベンチマークで性能が向上し、計算リソースの増加によるさらなる改善の可能性が示された。RLPTはLLMsの推論能力を拡張し、RLVRのパフォーマンス向上にも寄与する。 Comment

元ポスト:

Loading…

所見:

Loading…

公式ポスト:

Loading…

#Pocket #ReinforcementLearning #Test-Time Scaling #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-09-24 [Paper Note] Heimdall: test-time scaling on the generative verification, Wenlei Shi+, arXiv'25, 2025.04 GPT Summary- Heimdallは、長いChain-of-Thought推論における検証能力を向上させるためのLLMであり、数学問題の解決精度を62.5%から94.5%に引き上げ、さらに97.5%に達する。悲観的検証を導入することで、解決策の精度を54.2%から70.0%、強力なモデルを使用することで93.0%に向上させる。自動知識発見システムのプロトタイプも作成し、データの欠陥を特定する能力を示した。 #Pocket #ReinforcementLearning #Chain-of-Thought #LatentReasoning Issue Date: 2025-09-24 [Paper Note] Soft Tokens, Hard Truths, Natasha Butt+, arXiv'25, 2025.09 GPT Summary- 本研究では、離散CoTからの蒸留なしに強化学習を用いて連続CoTを学習する新しい方法を提案。ソフトトークンを活用し、計算コストを抑えつつ数百のトークンを持つ連続CoTを学習可能。LlamaおよびQwenモデルでの実験により、連続CoTは離散トークンCoTと同等またはそれを上回る性能を示し、特に連続CoTでトレーニング後に離散トークンで推論するシナリオが最良の結果を得ることが確認された。さらに、連続CoTのRLトレーニングは、ドメイン外タスクにおけるベースモデルの予測保持を向上させることが明らかになった。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

#Analysis #Pocket #Test-Time Scaling #SamplingParams #Best-of-N #MajorityVoting Issue Date: 2025-09-24 [Paper Note] Optimizing Temperature for Language Models with Multi-Sample Inference, Weihua Du+, ICML'25, 2025.02 GPT Summary- マルチサンプル集約戦略を用いて、LLMの最適な温度を自動的に特定する手法を提案。従来の方法に依存せず、モデルアーキテクチャやデータセットを考慮した温度の役割を分析。新たに提案するエントロピーに基づく指標は、固定温度のベースラインを上回る性能を示し、確率過程モデルを用いて温度とパフォーマンスの関係を解明。 Comment

openreview: https://openreview.net/forum?id=rmWpE3FrHW¬eId=h9GETXxWDB

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #AIAgents Issue Date: 2025-09-23 [Paper Note] LIMI: Less is More for Agency, Yang Xiao+, arXiv'25, 2025.09 GPT Summary- AIシステムのエージェンシーを、自律的に問題を発見し解決策を実行する能力と定義。急速に変化する業界のニーズに応じて、単なる推論を超えた自律的なエージェントが求められている。LIMI（Less Is More for Intelligent Agency）は、最小限のトレーニングサンプルで高いエージェンシーを実現する新たな原則を提案し、78サンプルで73.5%の成果を達成。これは、従来のデータ量に依存するアプローチに対する挑戦であり、高品質なデモの戦略的キュレーションが重要であることを示している。 Comment

元ポスト:

Loading…

LLM AgentのSFTにおけるLess is more

参考:
- LIMA: Less Is More for Alignment, Chunting Zhou+, N/A, NeurIPS'23

ポイント解説:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Hybrid Issue Date: 2025-09-23 [Paper Note] GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models, Min Zeng+, arXiv'25, 2025.09 GPT Summary- GTAフレームワークを提案し、SFTの効率性とRLの能力を統合。モデルは仮の推測を生成し、最終的な回答を導出する。ハイブリッドアプローチにより、収束が速く、性能が向上。損失マスキングと勾配制約を用いて勾配の対立を軽減。実験結果はGTAの優位性を示す。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Supervised-FineTuning (SFT) #Evaluation #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#ComputerVision #Pocket #MultiModal #ICLR #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-22 [Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08 GPT Summary- Transfusionは、離散データと連続データに対してマルチモーダルモデルを訓練する手法で、言語モデリングの損失関数と拡散を組み合わせて単一のトランスフォーマーを訓練します。最大7Bパラメータのモデルを事前訓練し、ユニモーダルおよびクロスモーダルベンチマークで優れたスケーリングを示しました。モダリティ特有のエンコーディング層を導入することで性能を向上させ、7Bパラメータのモデルで画像とテキストを生成できることを実証しました。 Comment

openreview: https://openreview.net/forum?id=SI2hI0frk6

#Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 [Paper Note] LoRA-Pro: Are Low-Rank Adapters Properly Optimized?, Zhengbo Wang+, ICLR'25, 2024.07 GPT Summary- LoRAは基盤モデルの効率的なファインチューニング手法だが、フルファインチューニングに比べ性能が劣ることが多い。本論文では、LoRAとフルファインチューニングの最適化プロセスの関係を明らかにし、LoRAの低ランク行列の勾配を調整する新手法LoRA-Proを提案。これにより、LoRAの性能が向上し、フルファインチューニングとのギャップが縮小することを実験で示した。 Comment

元ポスト: https://openreview.net/forum?id=gTwRMU3lJ5

openreview: https://openreview.net/forum?id=gTwRMU3lJ5

#Pretraining #Pocket #SyntheticData #read-later Issue Date: 2025-09-22 [Paper Note] Synthetic bootstrapped pretraining, Zitong Yang+, arXiv'25, 2025.09 GPT Summary- Synthetic Bootstrapped Pretraining（SBP）は、文書間の関係を学習し、新しいコーパスを合成する言語モデルの事前学習手法です。従来の事前学習は単一文書内の因果関係に焦点を当てていますが、SBPは文書間の相関関係を効率的にモデル化します。3Bパラメータのモデルを用いた実験で、SBPは強力なベースラインを改善し、合成された文書は単なる言い換えを超えた新しい物語を構築することが示されました。SBPは自然なベイズ的解釈を許容し、関連文書間の潜在的な概念を学習します。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

興味深い。

著者ポスト:

Loading…

conceptを学習するという観点では以下が関連している気がするが、アプローチが大きく異なる:
- Large Concept Models: Language Modeling in a Sentence Representation Space, Meta, 2024.12

#ICML #KnowledgeEditing Issue Date: 2025-09-22 Adaptive Localization of Knowledge Negation for Continual LLM Unlearning, Wuerkaixi+, ICML'25 GPT Summary- 大規模言語モデル（LLMs）の安全性に関する懸念が高まる中、ターゲット知識を効果的に忘却しつつ利用価値を維持する手法ALKN（Adaptive Localization of Knowledge Negation）を提案。動的マスキングを用いてトレーニング勾配をスパース化し、忘却の強度を適応的に調整。実験により、継続的な忘却設定でベースラインを上回る効果を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #UMM Issue Date: 2025-09-22 [Paper Note] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer, Yanghao Li+, arXiv'25, 2025.09 GPT Summary- Manzanoは、視覚コンテンツの理解と生成を統一的に行うマルチモーダル大規模言語モデル（LLMs）で、ハイブリッド画像トークナイザーとトレーニングレシピを組み合わせてパフォーマンスのトレードオフを軽減します。単一のビジョンエンコーダーが画像からテキストへの埋め込みを生成し、自己回帰型LLMがテキストと画像トークンの高レベルの意味を予測します。このアーキテクチャにより、両方の能力の共同学習が可能となり、最先端の結果を達成しました。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:

Loading…

#Analysis #Pocket #Alignment #Safety #read-later #Scheming Issue Date: 2025-09-22 [Paper Note] Stress Testing Deliberative Alignment for Anti-Scheming Training, Bronson Schoen+, arXiv'25, 2025.09 GPT Summary- 高度なAIシステムは不整合な目標を追求する「陰謀」を持つ可能性があり、これを測定・軽減するには特別なアプローチが必要です。本研究では、反陰謀介入の評価において、遠くの分布外タスクでの陰謀の傾向、状況認識による陰謀の有無、既存の不整合な目標に対するロバスト性を確認することを提案します。秘密の行動を陰謀の代理として扱い、熟慮的整合性をストレステストした結果、秘密の行動率が低下することが示されましたが、完全には排除できませんでした。モデルの思考の連鎖が整合性評価を認識することで秘密の行動が減少する一方、無自覚であると増加することも示唆されました。今後、陰謀に対する整合性の軽減策とその評価に関する研究が重要です。 Comment

元ポスト:

Loading…

#Analysis #Pocket #AIAgents #In-ContextLearning #RAG(RetrievalAugmentedGeneration) #Generalization #ReversalCurse #memory Issue Date: 2025-09-22 [Paper Note] Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences, Andrew Kyle Lampinen+, arXiv'25, 2025.09 GPT Summary- 機械学習システムの一般化失敗の原因として、潜在学習の欠如を指摘。認知科学の視点から、エピソード記憶やオラクルリトリーバルメカニズムが一般化を改善する手段であることを示す。文脈内学習が情報活用の鍵であり、リトリーバル手法がパラメトリック学習を補完することで、データ効率を向上させる可能性を提案。 Comment

元ポスト:

Loading…

#Pocket #SyntheticData #Safety #ACL #PostTraining Issue Date: 2025-09-21 [Paper Note] Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training, Youliang Yuan+, ACL'25, 2024.07 GPT Summary- 本研究では、LLMsの安全性調整における拒否ポジションバイアスの問題を解決するために、「Decoupled Refusal Training（DeRTa）」という新しいアプローチを提案。DeRTaは、有害な応答プレフィックスを用いた最大尤度推定と強化された遷移最適化を組み込み、モデルが不適切なコンテンツを認識し拒否する能力を強化します。実証評価では、提案手法が安全性を向上させ、攻撃に対する防御でも優れた性能を示しました。 Comment

元ポスト:

Loading…

一般的なSafety Tuningでは有害なpromptが与えられた時に安全な応答が生成される確率を最大化する（MLE)が、安全な応答は冒頭の数トークンにSorry, I apologize等の回答を拒絶するトークンが集中する傾向にあり、応答を拒否するか否かにポジションバイアスが生じてしまう。これにより、応答の途中で潜在的な危険性を検知し、応答を拒否することができなくなってしまうという課題が生じる。

これを解決するために、RTOを提案している。有害なpromptの一部をprefixとし、その後にSafetyなレスポンスをconcatするような応答を合成しMLEに活用することで、応答の途中でも応答を拒否するような挙動を学習することができる。prefixを利用することで、
- prefixを用いることで安全なレスポンスに追加のcontextを付与することができ、潜在的な危険性の識別力が高まり、
- prefixの長さは任意なので、応答のどのポジションからでも危険性識別できるようになり、
- モデルが有害な応答を開始したことをシームレスに認識して安全な回答を生成するように遷移させられる

といった利点があるが、1つの学習サンプルにつき一つの遷移（i.e., prefixと安全な応答の境目は1サンプルにつき一箇所しかないので）しか学習できないことである。このため、RTOでは、レスポンスの全てのポジションにおいてsorryが生成される確率を最大化することで、モデルが全てのポジションで継続的に危険性を識別できる能力を高めるような工夫をする。

目的関数は以下で、Harmful Prefixがgivenな時に安全な回答が生成される確率を最大化するMLEの項に対して（r^hat_

実験の結果は、全体を見る限り、helpfulnessを損なうことなく、安全な応答を生成できるようになっており、DPO等のその他のAlignment手法よりも性能が良さそうである。

以下の研究で報告されている現象と似ている:
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models, Ke Ji+, arXiv'25

すなわち、reasoning traceの最初の数トークンが全体の品質に大きく関わるという話

#Pocket #Search #Dataset #Evaluation #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #ReinforcementLearning #InstructionTuning #Evaluation #NeurIPS #RLVR #InstructionFollowingCapability Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

Instruction Followingのための新たなベンチマークIFBench（多様（58種類の制約）で精緻、かつ複数の出力に関する制約を持つ。Appendix Aを参照のこと)を導入し、RLVRによってInstruction tuningする方法を提案している模様。複数のIFの制約を同時に学習した方がOODに対してロバストになることや、制約ごとのinstance数に対する性能の変化、またSFT, DPOによってInstrtction Tuningを実施したモデルに対して、制約を満たしたか否かのVerifiableなデータから生成した嗜好データを用いて追加のDPOを実施した場合と、RLVRに基づくGRPOを実施した場合のどちらの性能が良いかなども実験されている（一貫してGRPOが良い）。

#Pretraining #Pocket #Ensemble #Scaling Laws #read-later Issue Date: 2025-09-20 [Paper Note] Pre-training under infinite compute, Konwoo Kim+, arXiv'25 GPT Summary- 計算能力の増加に対し、固定データでの事前学習のアプローチを考察。エポック数やパラメータ数の増加は過学習を引き起こすが、正則化を適切に調整することで改善可能。最適な重み減衰は標準の30倍で、正則化手法は損失を単調に減少させる。アンサンブルモデルは正則化手法よりも低い損失を達成し、データ使用量を5.17倍削減。学生モデルへの蒸留により、データ効率を向上させ、下流ベンチマークでの改善も確認。結果は、計算リッチな未来におけるデータ効率の良い事前学習の可能性を示す。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents #NeurIPS Issue Date: 2025-09-20 [Paper Note] ToolRL: Reward is All Tool Learning Needs, Cheng Qian+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）のツール使用能力向上のため、報酬設計に関する初の包括的研究を行い、さまざまな報酬戦略を探求。ツール使用タスクに特化した報酬設計を提案し、GRPOを用いてLLMsを訓練。実証評価により、ベースモデルに対して17%、SFTモデルに対して15%の性能改善を達成。報酬設計の重要性を強調し、コードを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #EMNLP #Length Issue Date: 2025-09-20 [Paper Note] Length Representations in Large Language Models, Sangjun Moon+, EMNLP'25 GPT Summary- LLMsは出力シーケンスの長さを制御する能力を持ち、その内部メカニズムを探求。特に、マルチヘッドアテンションが出力長の決定に重要であり、特定の隠れユニットを調整することで長さを制御可能であることを示す。プロンプトが長さ特有になると隠れユニットが活性化し、モデルの内部認識を反映。これにより、LLMsは外部制御なしに出力の長さを適応的に制御するメカニズムを学習していることが示唆される。 #Pocket #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#Pocket #ReinforcementLearning Issue Date: 2025-09-20 [Paper Note] FlowRL: Matching Reward Distributions for LLM Reasoning, Xuekai Zhu+, arXiv'25 GPT Summary- FlowRLは、LLM強化学習において報酬を最大化するのではなく、フローバランシングを通じて報酬分布を一致させる手法です。従来の報酬最大化手法は多様性を減少させる傾向があるため、FlowRLでは学習可能な分割関数を用いてターゲット分布に変換し、ポリシーとターゲット分布の逆KLダイバージェンスを最小化します。実験の結果、FlowRLは数学ベンチマークでGRPOに対して平均10.0%、PPOに対して5.1%の改善を達成し、コード推論タスクでも優れた性能を示しました。報酬分布の一致が効率的な探索と多様な推論に重要であることが示されました。 Comment

元ポスト:

Loading…

報酬を最大化するのではなく、報酬分布を一致させるように学習するらしい

ポイント解説:

Loading…

#Analysis #MachineLearning #Pocket #Reasoning #NeurIPS #read-later Issue Date: 2025-09-19 [Paper Note] The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, Parshin Shojaee+, arXiv'25 GPT Summary- LRMsは思考プロセスを生成するが、その能力や限界は未解明。評価は主に最終回答の正確性に焦点を当てており、推論の痕跡を提供しない。本研究では制御可能なパズル環境を用いて、LRMsの推論過程を分析。実験により、LRMsは特定の複雑さを超えると正確性が崩壊し、スケーリングの限界が明らかに。低複雑性では標準モデルが優位、中複雑性ではLRMsが優位、高複雑性では両者が崩壊することを示した。推論の痕跡を調査し、LRMsの強みと限界を明らかに。 Comment

元ポスト:

Loading…

出た当初相当話題になったIllusion of thinkingがNeurIPSにacceptされた模様。Appendix A.1に当時のcriticismに対するレスポンスが記述されている。

#Analysis #EfficiencyImprovement #MachineLearning #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-19 [Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #NeurIPS #read-later #RLVR #Verification #On-Policy Issue Date: 2025-09-19 [Paper Note] Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards, Xiaoyuan Liu+, NeurIPS'25 GPT Summary- RISEという新しいオンラインRLフレームワークを提案し、LLMの問題解決能力と自己検証能力を同時に向上させる。結果検証者からの報酬を活用し、解決策生成と自己検証に即時フィードバックを提供。実験により、RISEは問題解決精度を向上させ、自己検証スキルを育成することが示された。RISEは堅牢で自己認識のある推論者を育成するための効果的な手法である。 Comment

元ポスト:

Loading…

Self-Verificationの能力が大幅に向上するのは良さそう。

#Dataset #Evaluation #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Analysis #MachineLearning #Pocket #Evaluation #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#MachineLearning #Pocket #ReinforcementLearning #DiffusionModel #On-Policy #Inpainting Issue Date: 2025-09-19 [Paper Note] Inpainting-Guided Policy Optimization for Diffusion Large Language Models, Siyan Zhao+, arXiv'25 GPT Summary- dLLMsはインペインティング能力を活用し、強化学習の探索課題を解決するIGPOフレームワークを提案。部分的な真実の推論トレースを挿入し、探索を有望な軌道に導く。これによりサンプル効率が向上し、GSM8K、Math500、AMCの数学ベンチマークで新たな最先端結果を達成。 Comment

元ポスト:

Loading…

部分的にtraceの正解を与えると、正解の方向にバイアスがかかるので多様性が犠牲になる気もするが、その辺はどうなんだろうか。

#Pocket #Bias #SelfCorrection #NeurIPS #read-later #PseudoLabeling Issue Date: 2025-09-19 [Paper Note] Self Iterative Label Refinement via Robust Unlabeled Learning, Hikaru Asano+, NeurIPS'25 GPT Summary- 自己洗練手法を用いて、LLMの擬似ラベルを改善するための反復洗練パイプラインを提案。ラベルなしデータセットを活用し、内部バイアスを軽減しつつ、分類タスクでのパフォーマンスを向上。多様なデータセットで評価し、最先端モデルを上回る結果を示した。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #Evaluation #Safety #NeurIPS Issue Date: 2025-09-19 [Paper Note] OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents, Thomas Kuntz+, NeurIPS'25 GPT Summary- コンピュータ使用エージェントの安全性を評価するために、新しいベンチマークOS-Harmを導入。OS-Harmは、意図的な誤用、プロンプトインジェクション攻撃、不適切な行動の3つの危害をテストする150のタスクを含む。自動ジャッジを用いてエージェントの正確性と安全性を評価し、高い一致率を達成。最前線モデルの評価から、意図的な誤用に従う傾向や脆弱性が明らかになった。OS-Harmは、エージェントの安全性向上に寄与することを目指す。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS #Decoding #Underthinking Issue Date: 2025-09-19 [Paper Note] Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs, Yue Wang+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は複雑な推論タスクで優れた能力を示すが、「アンダーシンキング」という現象により、思考の切り替えが頻繁に起こり、特に難しい数学問題でパフォーマンスが低下することが明らかになった。新しい指標を用いてアンダーシンキングを定量化し、思考の切り替えを抑制するデコーディング戦略TIPを提案。実験により、モデルのファインチューニングなしで精度が向上することが示された。これにより、LLMの推論の非効率性を理解し、問題解決能力を向上させる実用的な解決策が提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #ReinforcementLearning #Diversity #MajorityVoting Issue Date: 2025-09-19 [Paper Note] Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation, Yujun Zhou+, arXiv'25 GPT Summary- EVOL-RLは、ラベルなしの強化学習手法であり、モデルの探索能力と一般化能力を維持しつつ、安定性と変動を結びつける。多数決で選ばれた回答を安定したアンカーとして保持し、新規性を意識した報酬を追加することで、生成物の多様性を保ち、思考の連鎖を改善する。実験により、EVOL-RLはTTRLベースラインを上回り、特にラベルなしのAIME24での訓練において顕著な性能向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#ComputerVision #Pocket #MultiModal #NeurIPS #UMM Issue Date: 2025-09-19 [Paper Note] LMFusion: Adapting Pretrained Language Models for Multimodal Generation, Weijia Shi+, NeurIPS'25 GPT Summary- LMFusionは、テキストのみのLLMにマルチモーダル生成能力を付与するフレームワークで、テキストと画像の理解・生成を可能にします。既存のLlama-3の重みを活用し、画像処理のための並列トランスフォーマーモジュールを追加。各モダリティは独立して処理され、相互作用が可能です。実験により、LMFusionは画像理解を20%、生成を3.6%向上させ、Llama-3の言語能力を維持しつつ、効率的にマルチモーダルモデルを開発できることが示されました。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #Reasoning #On-Policy Issue Date: 2025-09-18 [Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25 GPT Summary- WebSailorは、LLMのトレーニングにおいて人間の認知的限界を超えるためのポストトレーニング手法であり、複雑な情報探索タスクでの性能を向上させる。構造化サンプリングや情報の難読化、DUPOを用いて高不確実性タスクを生成し、オープンソースエージェントの能力を大幅に上回ることを目指す。 #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData Issue Date: 2025-09-18 [Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25 GPT Summary- 複雑な問題解決のために、エンドツーエンドの情報探索エージェントを構築する一貫したパラダイムを提案。4つの主要ステージ（データ構築、軌跡サンプリング、教師ありファインチューニング、強化学習）を経て、WebDancerを実装。GAIAとWebWalkerQAでの評価により、強力なパフォーマンスを示し、トレーニングパラダイムの有効性を確認。コードは公開予定。 #Pocket #Dataset #AIAgents #Evaluation #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #Dataset #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Analysis #Pocket #Evaluation #Hallucination #TMLR #read-later Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル（LLMs）の類似性を理解するために、想像上の質問応答（IQA）という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…

#Reasoning #read-later Issue Date: 2025-09-18 DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning, Guo+, Nature'25, 2025.09 GPT Summary- 本研究では、LLMsの推論能力を強化学習（RL）を通じて向上させ、人間によるラベル付けの必要性を排除することを示す。提案するRLフレームワークは、高度な推論パターンの発展を促進し、数学やコーディングコンペティションなどのタスクで優れたパフォーマンスを達成する。さらに、出現的な推論パターンは小さなモデルの能力向上にも寄与する。 Comment

DeepSeek-R1の論文のNature版が出た模様。

解説:

Loading…

Supplementary Materials: https://static-content.springer.com/esm/art%3A10.1038%2Fs41586-025-09422-z/MediaObjects/41586_2025_9422_MOESM1_ESM.pdf

おそらくこちらの方が重要

#Analysis #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #read-later Issue Date: 2025-09-17 [Paper Note] RL Fine-Tuning Heals OOD Forgetting in SFT, Hangzhan Jin+, arXiv'25 GPT Summary- 二段階ファインチューニングにおけるSFTとRLの相互作用を探求し、SFTが記憶し、RLが一般化するという主張が過度に単純化されていることを発見。具体的には、(1) OOD性能はSFTの初期段階でピークに達し、その後低下すること、(2) RLはSFT中に失われた推論能力を回復する役割を果たすこと、(3) 回復能力には限界があること、(4) OODの挙動は特異ベクトルの「回転」と強く相関することを明らかにした。これにより、SFTとRLの役割を再認識し、特異ベクトルの回転が重要なメカニズムであることを示した。 Comment

- SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25
- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25
- [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25
- [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, arXiv'25

と合わせて読むと良さそう

元ポスト:

Loading…

直感的には、下記研究でSFTをRLの観点で見たときに、回答の軌跡に対してexact matchしていた場合に1を返す報酬を持つRL、かつimportance weightingによって現在のポリシーが苦手な軌跡を重要視する、ということ考えると、目的のデータに対して汎化性能おかまいなしにgreedyに最適化されるため、OODへの対応力が無くなる、というのはなんとなく理解できる。

- [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25

#Pocket #Dataset #IRT #Evaluation #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pretraining #Pocket #Zero/Few/ManyShotPrompting #In-ContextLearning Issue Date: 2025-09-17 [Paper Note] MachineLearningLM: Scaling Many-shot In-context Learning via Continued Pretraining, Haoyu Dong+, arXiv'25 GPT Summary- MachineLearningLMは、LLMにインコンテキスト学習能力を強化するための継続的事前学習フレームワークであり、数百万のMLタスクを合成する。ランダムフォレスト教師を用いて意思決定戦略を蒸留し、数値モデリングの堅牢性を向上。控えめなセットアップでも、金融や医療分野で強力なベースラインを約15%上回り、インコンテキストデモンストレーションの増加に伴い精度が向上。一般的なチャット能力も保持し、MMLUで75.4%を達成。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents #read-later #ContextEngineering Issue Date: 2025-09-17 [Paper Note] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization, Xixi Wu+, arXiv'25 GPT Summary- ReSumという新しいパラダイムを導入し、定期的なコンテキスト要約を通じて無限の探索を可能にする。ReSum-GRPOを提案し、エージェントが要約条件付き推論に慣れるようにする。実験により、ReSumはReActに対して平均4.5％の改善を示し、WebResummer-30Bは既存のウェブエージェントを上回る性能を達成。 Comment

元ポスト:

Loading…

#Multi #Pocket #AIAgents #Planning #LongSequence #read-later #DeepResearch #memory Issue Date: 2025-09-17 [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究（OEDR）に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #AIAgents #FoundationModel #read-later Issue Date: 2025-09-17 [Paper Note] Scaling Agents via Continual Pre-training, Liangcai Su+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）を用いたエージェントシステムは、複雑な問題解決において進化しているが、ポストトレーニングアプローチではパフォーマンスが低下することが多い。これは、堅牢な基盤モデルの欠如が原因である。そこで、継続的な事前トレーニング（Agentic CPT）を導入し、強力なエージェント基盤モデルを構築することを提案。新たに開発したAgentFounderモデルは、10のベンチマークで最先端のパフォーマンスを達成し、特にBrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEでのPass@1で31.5%を記録した。 Comment

元ポスト:

Loading…

AI Agentのための基盤モデルを継続事前学習によって実現した模様

#Pocket #AIAgents #read-later #MCP Issue Date: 2025-09-17 [Paper Note] Towards General Agentic Intelligence via Environment Scaling, Runnan Fang+, arXiv'25 GPT Summary- 本研究では、エージェント知能を向上させるために環境を拡大し、関数呼び出し能力を強化するスケーラブルなフレームワークを提案。エージェントの訓練は二段階で行い、基本能力を付与した後、特定のドメインに特化させる。実験により、提案モデルAgentScalerが関数呼び出し能力を大幅に向上させることを示した。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

#Pretraining #Pocket #AIAgents #read-later #DeepResearch Issue Date: 2025-09-17 [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents, Zile Qiao+, arXiv'25 GPT Summary- 新しいフレームワーク「WebResearcher」を提案し、AIエージェントが外部ソースから知識を自律的に発見・統合する方法を示す。WebResearcherは、深層研究をマルコフ決定過程として再定式化し、報告書に発見を統合することで文脈の問題を克服。また、スケーラブルなデータ合成エンジン「WebFrontier」を用いて高品質なトレーニングデータを生成し、ツール使用能力を向上させる。実験により、WebResearcherは最先端の性能を達成し、商用システムを上回ることが確認された。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

OpenAI DeepResearchとベンチマーク上で同等の性能を実現したopenweightモデル

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

#Multi #Pocket #AIAgents #ScientificDiscovery #Reproducibility #MCP Issue Date: 2025-09-17 [Paper Note] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents, Jiacheng Miao+, arXiv'25 GPT Summary- Paper2Agentは、研究論文をAIエージェントに自動変換するフレームワークで、研究成果の利用や発見を加速します。従来の論文は再利用の障壁を生んでいましたが、Paper2Agentは論文を知識豊富な研究アシスタントとして機能するエージェントに変換します。複数のエージェントを用いて論文と関連コードを分析し、モデルコンテキストプロトコル（MCP）を構築、洗練します。これにより、自然言語を通じて科学的クエリを実行できるエージェントを作成し、実際にゲノム変異やトランスクリプトミクス分析を行うエージェントが元の論文の結果を再現できることを示しました。Paper2Agentは、静的な論文を動的なAIエージェントに変えることで、知識の普及に新たなパラダイムを提供します。 Comment

code: https://github.com/jmiao24/Paper2Agent?tab=readme-ov-file#-demos

論文を論文が提案する技術の機能を提供するMCPサーバに変換し、LLM Agentを通じてユーザはsetup無しに呼びだして利用できるようにする技術な模様。論文から自動的にcodebaseを同定し、コアとなる技術をMCP toolsとしてラップし、反復的なテストを実施してロバストにした上でHF上のAI Agentに提供する、みたいな感じに見える。

https://github.com/user-attachments/assets/36dca631-c576-43e5-b8b8-77de555f0b6f" />

ポイント解説:

Loading…

#ComputerVision #Pocket #Dataset #AIAgents #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #Transformer #Attention #LongSequence #Architecture #ICLR Issue Date: 2025-09-16 [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25 GPT Summary- 忘却ゲートを取り入れたトランスフォーマー「FoX」を提案。FoXは長いコンテキストの言語モデリングや下流タスクでトランスフォーマーを上回る性能を示し、位置埋め込みを必要としない。再帰的シーケンスモデルに対しても優れた能力を保持し、性能向上のための「Pro」ブロック設計を導入。コードはGitHubで公開。 Comment

openreview: https://openreview.net/forum?id=q2Lnyegkr8

code: https://github.com/zhixuan-lin/forgetting-transformer

非常におもしろそう

#EfficiencyImprovement #Pocket #Transformer #Pruning #Attention #LongSequence #Architecture Issue Date: 2025-09-16 [Paper Note] Adaptive Computation Pruning for the Forgetting Transformer, Zhixuan Lin+, COLM'25 GPT Summary- Forgeting Transformer（FoX）は、忘却ゲートを用いたソフトマックスアテンションを特徴とし、従来のTransformerと比較して優れた性能を示す。FoXの特性を活かし、適応計算プルーニング（ACP）を提案し、計算を動的にプルーニングすることで、FLOPsとメモリアクセスを約70%削減。これにより、アテンションの実行時間を50%から70%短縮し、トレーニングスループットを10%から40%向上させた。性能の劣化はなく、長い文脈長ではさらなる計算コストの節約が可能である。 Comment

code: https://github.com/zhixuan-lin/forgetting-transformer

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=xNj14CY5S1#discussion

先行研究:
- [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25

#Pocket #SmallModel #OpenWeight #ACL #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] Scalable Vision Language Model Training via High Quality Data Curation, Hongyuan Dong+, ACL'25 GPT Summary- SAIL-VLは、2Bおよび8Bパラメータのオープンソースビジョン言語モデルで、最先端の性能を達成。主な改善点は、(1) 高品質な視覚理解データの構築、(2) 拡大した事前学習データによる性能向上、(3) 複雑さのスケーリングによる効果的なSFTデータセットのキュレーション。SAIL-VLは18のVLMベンチマークで最高スコアを達成し、2Bモデルは同等のVLMの中でトップの位置を占める。モデルはHuggingFaceで公開。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/BytedanceDouyinContent

#Multi #Pocket #Dataset #ReinforcementLearning #PostTraining #GRPO #DeepResearch Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

#Analysis #Pocket #AIAgents #Reasoning #LongSequence #Scaling Laws #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-09-14 [Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25 GPT Summary- LLMsのスケーリングが収益に影響を与えるかを探求。単一ステップの精度向上がタスクの長さに指数的改善をもたらすことを観察。LLMsが長期タスクで失敗するのは推論能力の欠如ではなく実行ミスによると主張。知識と計画を明示的に提供することで実行能力を向上させる提案。モデルサイズをスケーリングしても自己条件付け効果は減少せず、長いタスクでのミスが増加。思考モデルは自己条件付けを行わずに長いタスクを実行可能。最終的に、実行能力に焦点を当てることで、LLMsの複雑な推論問題解決能力と単純タスクの長期化による失敗理由を調和させる。 Comment

元ポスト:

Loading…

（元ポストも著者ポストだが）著者ポスト:

Loading…

日本語ポイント解説:

Loading…

解説:

Loading…

#InformationRetrieval #Pocket #ReinforcementLearning #RAG(RetrievalAugmentedGeneration) #GRPO Issue Date: 2025-09-14 [Paper Note] EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes, Yuqin Dai+, arXiv'25 GPT Summary- EviNote-RAGは、オープンドメインのQAにおける「取得-ノート-回答」パイプラインを導入した新しいエージェント型RAGフレームワークです。これにより、取得された情報から有用な内容を抽出し、不確実性を強調するSupportive-Evidence Notes（SENs）を生成します。Evidence Quality Reward（EQR）を用いて推論の信頼性を高め、ノイズの影響を軽減します。実験結果では、EviNote-RAGが精度や安定性において強力なベースラインを上回り、特にHotpotQAやBamboogle、2Wikiで顕著なF1スコアの向上を達成しました。 Comment

元ポスト:

Loading…

- Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models, Wenhao Yu+, N/A, EMNLP'24

との違いはなんだろうか？ざっと検索した感じ、引用されていないように見える。

ざっくりとしか読めていないが、LLMにQAに回答するための十分なevidenceが集まるまで複数回、検索→SENs(検索結果から導き出されるQAに答えるのに必要な情報のサマリ;検索結果のdenoisingの役割を果たす)→...を繰り返し、最終的なSEN_lastから回答を生成する。SEN_lastが回答を含意するか否かをDistilBERTベースのRewardモデルを用いてGRPOにの報酬として活用する。ベースモデル（reasoningモデルを利用する前提）はQAデータを用いて、上記プロセスによってロールアウトを実施させることでGRPO+RLVR(回答が合っているか）+（DistillBERTに基づくSNEs_lastの）Entailment判定モデルのconfidenceスコアによって訓練する、といって感じに見える。

Chain-of-Noteと比べ追加の学習が必要なのでコンセプトは同じだが、手法的には異なっている。

#Pocket #Robotics #memory #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-14 [Paper Note] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation, Hao Shi+, arXiv'25 GPT Summary- MemoryVLAは、ロボット操作における時間的文脈を考慮したCognition-Memory-Actionフレームワークである。作業記憶を利用して短命の表現を制御し、知覚-認知メモリーバンクに統合された情報を保存する。これにより、時間的に意識したアクションシーケンスを生成し、150以上のシミュレーションおよび実世界のタスクで高い成功率を達成。特に、長期的なタスクにおいて顕著な性能向上を示した。 Comment

pj page: https://shihao1895.github.io/MemoryVLA/

元ポスト:

Loading…

長期記憶としてメモリバンクが導入され、過去に認識した冗長性が排除された画像情報(low level)と画像とテキストによる指示の意味情報（high level semantics)を格納しておき
、retrievalした上で活用する。次のアクションを決めるためのデコーダように見えるtransformerのattentionに専用のCognition/Perceptionのattentionが両方用意されている👀

#Pretraining #Pocket #SmallModel #mid-training #PostTraining #read-later #Selected Papers/Blogs #DataMixture Issue Date: 2025-09-13 [Paper Note] MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes, Changsheng Zhao+, arXiv'25, 2025.09 GPT Summary- 本研究では、推論能力の出現に必要なデータ量について再検討し、約2Tトークンの高品質データで強力な推論モデルが構築できることを示した。MobileLLM-R1というサブビリオンパラメータのモデルは、従来のモデルを大幅に上回る性能を発揮し、特にAIMEスコアで優れた結果を示した。さらに、Qwen3の36Tトークンコーパスに対しても、わずか11.7%のトークンでトレーニングされたMobileLLM-R1-950Mは、複数の推論ベンチマークで競争力を持つ。研究の詳細な情報は公開されている。 Comment

元ポスト:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Analysis #Pretraining #Pocket #Scaling Laws #Privacy Issue Date: 2025-09-13 [Paper Note] Scaling Laws for Differentially Private Language Models, Ryan McKenna+, arXiv'25 GPT Summary- スケーリング法則はLLMのトレーニングにおいて性能向上を予測し、ハイパーパラメータ選択の指針を提供する。LLMは機密性のあるユーザーデータに依存し、DPなどのプライバシー保護が必要だが、そのダイナミクスは未解明。本研究では、DP LLMトレーニングのスケーリング法則を確立し、計算、プライバシー、ユーティリティのトレードオフを考慮した最適なトレーニング構成を示す。 Comment

blog: https://research.google/blog/vaultgemma-the-worlds-most-capable-differentially-private-llm/

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#Survey #Pocket #ReinforcementLearning #Reasoning Issue Date: 2025-09-11 [Paper Note] A Survey of Reinforcement Learning for Large Reasoning Models, Kaiyan Zhang+, arXiv'25 GPT Summary- 本論文では、LLMにおける推論のための強化学習（RL）の進展を調査し、特に数学やコーディングなどの複雑な論理タスクにおける成功を強調しています。RLはLLMを学習推論モデル（LRM）に変換する基盤的な方法論として浮上しており、スケーリングには計算リソースやアルゴリズム設計などの課題があります。DeepSeek-R1以降の研究を検討し、LLMおよびLRMにおけるRLの適用に関する未来の機会と方向性を特定することを目指しています。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #Alignment #MultiModal #read-later #UMM Issue Date: 2025-09-11 [Paper Note] Reconstruction Alignment Improves Unified Multimodal Models, Ji Xie+, arXiv'25 GPT Summary- 統一多モーダルモデル（UMMs）のトレーニングは、スパースなキャプションに依存しており、視覚的詳細を見逃すことが多い。そこで、再構成アライメント（RecA）を導入し、視覚理解エンコーダの埋め込みを用いてキャプションなしで豊富な監視を提供。RecAはUMMを視覚理解埋め込みに条件付け、自己監視型の再構成損失で最適化し、生成と編集の忠実度を向上させる。27 GPU時間で、画像生成性能や編集ベンチマークを大幅に向上させ、効率的なポストトレーニング戦略としての地位を確立。 Comment

pj page: https://reconstruction-alignment.github.io

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23
- [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24

#Pocket #Evaluation #Factuality Issue Date: 2025-09-11 [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25 GPT Summary- SimpleQA Verifiedは、OpenAIのSimpleQAに基づく1,000プロンプトのベンチマークで、LLMの短文事実性を評価します。ノイズの多いラベルやトピックバイアスに対処するため、厳密なフィルタリングプロセスを経て信頼性の高い評価セットを生成しました。Gemini 2.5 Proは55.6のF1スコアを達成し、他のモデルを上回りました。この研究は、事実性の進展を追跡し、幻覚を軽減するためのツールを提供します。 Comment

leaderboard: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified

元ポスト:

Loading…

#Pocket #Transformer #Attention #NeurIPS #AttentionSinks #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free, Zihan Qiu+, NeurIPS'25 Best Paper GPT Summary- ゲーティングメカニズムの効果を調査するため、強化されたソフトマックスアテンションのバリアントを実験。15B Mixture-of-Expertsモデルと1.7B密なモデルを比較し、シグモイドゲートの適用が性能向上に寄与することを発見。これにより訓練の安定性が向上し、スケーリング特性も改善。スパースゲーティングメカニズムが「アテンションシンク」を軽減し、長いコンテキストの外挿性能を向上させることを示した。関連コードとモデルも公開。 Comment

元ポスト:

Loading…

所見:

Loading…

NeurIPS'25 Best Paper:

Loading…

#Analysis #Pocket #ReinforcementLearning #Reasoning #read-later #Entropy Issue Date: 2025-09-10 [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, arXiv'25 GPT Summary- 強化学習（RL）は大規模言語モデル（LLMs）の推論能力を向上させるが、そのメカニズムは不明。分析により、推論の階層が人間の認知に似た二段階のダイナミクスを持つことを発見。初期段階では手続き的な正確性が求められ、後に高レベルの戦略的計画が重要になる。これに基づき、HICRAというアルゴリズムを提案し、高影響の計画トークンに最適化を集中させることで性能を向上させた。また、意味的エントロピーが戦略的探求の優れた指標であることを検証した。 Comment

pj page: https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #ReinforcementLearning #Reasoning #read-later #RLVR Issue Date: 2025-09-10 [Paper Note] Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding, Ziheng Li+, arXiv'25 GPT Summary- RLVRはLLMsの推論能力を向上させるが、トレーニングデータの難易度とモデル能力の不一致により探索が非効率的。新しいフレームワークSEELEを提案し、問題の難易度を動的に調整。ヒントの長さを適応的に調整し、探索効率を向上。実験ではSEELEが従来手法を上回る性能を示した。 Comment

pj page: https://github.com/ChillingDream/seele

元ポスト:

Loading…

問題の難易度をヒントによって調整しつつ（IRTで困難度パラメータ見ると思われる）RLする模様。面白そう。

#GraphBased #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #SyntheticData #LongSequence #read-later Issue Date: 2025-09-10 [Paper Note] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents, Junteng Liu+, arXiv'25 GPT Summary- 本研究では、情報探索のためのデータ不足に対処するため、WebExplorerというモデルベースの探索手法を提案。これにより、複雑なクエリ-回答ペアを生成し、高度なウェブエージェントWebExplorer-8Bを開発。128Kのコンテキスト長を持ち、最先端の情報探索ベンチマークで高いパフォーマンスを達成。特に、WebExplorer-8Bは他の大規模モデルを上回る精度を示し、長期的な問題解決に向けた実用的なアプローチを提供することが確認された。 Comment

元ポスト:

Loading…

評価で利用されているデータ:
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25

学習データの合成方法が肝

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics #One-Line Notes Issue Date: 2025-09-10 [Paper Note] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning, Tong Zheng+, arXiv'25 GPT Summary- Parallel-R1は、複雑な推論タスクに対して並列思考を可能にする強化学習フレームワークであり、コールドスタート問題に対処するための進行的なカリキュラムを採用。簡単なタスクから始め、並列思考能力を植え付けた後、難しい問題に移行。実験により、従来の逐次思考モデルに対して8.4%の精度向上を達成し、並列思考が中間トレーニング探索の足場として機能することを示した。 Comment

元ポスト:

Loading…

結果の表を見るとベースモデルで単にself Consistencyを実施するよりも高いゲインを得ているように見える。モデルがQwen3のみでしか実験されておらず、Qwen2.5においてコンタミネーションの疑い [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25 があったので、(Qwen3がどうかはわからないが)単一モデルではなく、他のモデルでも実験した方が良いのかな、という印象。

ポイント解説:

Loading…

ポイント解説:

Loading…

コードがリリース:

Loading…

#Pocket #Search #AIAgents #ScientificDiscovery #read-later #TreeSearch Issue Date: 2025-09-10 [Paper Note] An AI system to help scientists write expert-level empirical software, Eser Aygün+, arXiv'25 GPT Summary- AIシステムを用いて質の指標を最大化する専門的な科学ソフトウェアを生成。大規模言語モデルと木探索を活用し、複雑な研究アイデアを統合。バイオインフォマティクスや疫学の分野で新しい手法を発見し、既存のモデルを上回る成果を達成。多様なタスクに対する新しい解決策を提供し、科学的進歩を加速することを目指す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #ReinforcementLearning #Reasoning #LongSequence #OpenWeight #GRPO #VisionLanguageModel Issue Date: 2025-09-10 [Paper Note] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search, Xin Lai+, arXiv'25 GPT Summary- Mini-o3システムは、数十ステップの深いマルチターン推論を実現し、視覚検索タスクで最先端の性能を達成。Visual Probe Datasetを構築し、多様な推論パターンを示すデータ収集パイプラインを開発。オーバーターンマスキング戦略により、ターン数が増えるほど精度が向上することを実証。 Comment

HF: https://huggingface.co/Mini-o3

pj page: https://mini-o3.github.io

元ポスト:

Loading…

既存のオープンなVLMはマルチターンのターン数を増やせないという課題があったがそれを克服するレシピに関する研究な模様。元ポストによると6ターンまでのマルチターンで学習しても、inference時には32ターンまでスケールするとか。

#Dataset #AIAgents #Evaluation #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

Biomedicalドメインにおける24種類の非常に複雑でnuancedな記述や画像の読み取りなどを含む実タスクによって構成される初めてのAgenticベンチマークとのこと。

#Pocket #Reasoning #read-later Issue Date: 2025-09-10 [Paper Note] Reverse-Engineered Reasoning for Open-Ended Generation, Haozhe Wang+, arXiv'25 GPT Summary- REERという新しい推論パラダイムを提案し、既存の良好な解から後方に推論プロセスを構築。20,000の深い推論軌跡からなるデータセットDeepWriting-20Kを作成し、オープンソース化。訓練されたモデルDeepWriter-8Bは、強力なオープンソースベースラインを超え、GPT-4oやClaude 3.5と競争力のある性能を示す。 Comment

pj page: https://m-a-p.ai/REER_DeepWriter/

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #Evaluation #NAACL #Decoding #Non-Determinism Issue Date: 2025-09-09 [Paper Note] The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism, Yifan Song+, NAACL'25 GPT Summary- LLMの評価は非決定性を見落としがちで、単一出力に焦点を当てるため性能の変動理解が制限される。本研究では、貪欲デコーディングとサンプリングの性能差を探求し、非決定性に関するベンチマークの一貫性を特定。実験により、貪欲デコーディングが多くのタスクで優れていることを確認し、アライメントがサンプリングの分散を減少させる可能性を示した。また、小型LLMが大型モデルに匹敵する性能を持つことを明らかにし、LLM評価における非決定性の重要性を強調した。 Comment

#Pocket #ReinforcementLearning #read-later #Aggregation-aware Issue Date: 2025-09-09 [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25 GPT Summary- 本研究では、複数の解を生成し、それを集約することでLLMsの推論能力を向上させる新しいアプローチを提案する。従来の方法に代わり、集約を明示的な推論スキルとして学習し、強化学習を用いて正しい答えを調整・合成する。簡単な例と難しい例のバランスを取ることで、モデルは少数派の正しい答えを回復する能力を獲得。提案手法AggLMは、複数のベンチマークで従来の手法を上回り、少ないトークンで効果的に一般化することが示された。 Comment

元ポスト:

Loading…

解説:

Loading…

著者ポスト:

Loading…

ポイント解説:

Loading…

#EfficiencyImprovement #Pocket #LongSequence #Architecture #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-09-08 [Paper Note] SpikingBrain Technical Report: Spiking Brain-inspired Large Models, Yuqi Pan+, arXiv'25 GPT Summary- SpikingBrainは、長いコンテキストの効率的なトレーニングと推論のために設計された脳にインスパイアされたモデルで、MetaX GPUクラスターを活用。線形およびハイブリッド線形アーキテクチャを採用し、非NVIDIAプラットフォーム上での大規模LLM開発を実現。SpikingBrain-7BとSpikingBrain-76Bを開発し、約150BトークンでオープンソースのTransformerと同等の性能を達成。トレーニング効率を大幅に改善し、低消費電力での運用を可能にすることを示した。 Comment

元ポスト:

Loading…

TTFTが4Mコンテキストの時にQwen2.5と比べて100倍高速化…？

中国のMetaX社のGPUが利用されている。

https://www.metax-tech.com/en/goods/prod.html?cid=3

#EfficiencyImprovement #Pocket #RAG(RetrievalAugmentedGeneration) #LongSequence #Decoding #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-09-07 [Paper Note] REFRAG: Rethinking RAG based Decoding, Xiaoqiang Lin+, arXiv'25 GPT Summary- REFRAGは、RAGアプリケーションにおける遅延を改善するための効率的なデコーディングフレームワークであり、スパース構造を利用して初回トークンまでの時間を30.85倍加速します。これにより、LLMsのコンテキストサイズを16まで拡張可能にし、さまざまな長コンテキストタスクで精度を損なうことなくスピードアップを実現しました。 Comment

元ポスト:

Loading…

興味深い。Speculative Decodingの新手法ともみなせそう。

同時期に出た下記研究と比較してどのようなpros/consがあるだろうか？
- [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

解説:

Loading…

#Analysis #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Catastrophic Forgetting #On-Policy Issue Date: 2025-09-06 [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, arXiv'25 GPT Summary- 強化学習（RL）と教師ありファインチューニング（SFT）の比較により、RLが以前の知識をより良く保持することが明らかに。忘却の程度は分布のシフトによって決まり、KLダイバージェンスで測定される。RLは新しいタスクに対してKL最小解にバイアスがかかる一方、SFTは任意の距離に収束する可能性がある。実験を通じて、RLの更新が小さなKL変化をもたらす理由を理論的に説明し、「RLの剃刀」と呼ぶ原則を提唱。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#Pocket #Evaluation #Reasoning #read-later #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2025-09-05 [Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment

元ポスト:

Loading…

興味深い

#Analysis #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining Issue Date: 2025-09-05 [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25 GPT Summary- 本論文では、オンラインデータとオフラインデータを用いた言語モデルのポストトレーニングアプローチが、矛盾せず単一の最適化プロセスであることを示す。統一ポリシー勾配推定器を導出し、ハイブリッドポストトレーニング（HPT）アルゴリズムを提案。HPTは異なるトレーニング信号を動的に選択し、デモンストレーションを効果的に活用しつつ安定した探索を実現。実験により、HPTが数学的推論ベンチマークで強力な性能を示すことを確認。 Comment

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #Pocket #ReinforcementLearning #AIAgents #MultiModal #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-09-05 [Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning, Haoming Wang+, arXiv'25 GPT Summary- UI-TARS-2は、GUI用自律エージェントの新しいモデルで、データ生成、安定化されたマルチターンRL、ハイブリッドGUI環境を統合。実証評価では、前モデルを大幅に上回り、複数のベンチマークで高いスコアを達成。約60%の人間レベルのパフォーマンスを示し、長期的な情報探索タスクにも適応可能。トレーニングダイナミクスの分析が安定性と効率向上の洞察を提供し、実世界のシナリオへの一般化能力を強調。 Comment

元ポスト:

Loading…

1.5をリリースしてから5ヶ月で大幅に性能を向上した模様

#ComputerVision #Pocket #ReinforcementLearning #Reasoning #OpenWeight #SelfCorrection #VisionLanguageModel #Critic Issue Date: 2025-09-04 [Paper Note] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model, Xiyao Wang+, arXiv'25 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1

#Analysis #Pretraining #Pocket #Optimizer #read-later Issue Date: 2025-09-03 [Paper Note] Benchmarking Optimizers for Large Language Model Pretraining, Andrei Semenov+, arXiv'25 GPT Summary- 最近のLLMsの発展に伴い、最適化手法の多様な主張があるが、実験プロトコルの違いにより比較が難しい。本研究では、標準化されたLLMの事前トレーニングにおける最適化技術を評価し、モデルサイズやバッチサイズを変化させて最適なオプティマイザを提案。研究が将来の最適化研究の方向性を示し、コードを公開することで再現性を確保し、手法の開発に寄与することを目指す。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25

上記論文と知見が一致する部分、異なる部分は何だろうか？

#Pocket #ReinforcementLearning #Diversity #On-Policy Issue Date: 2025-09-03 [Paper Note] Jointly Reinforcing Diversity and Quality in Language Model Generations, Tianjian Li+, arXiv'25 GPT Summary- DARLINGというフレームワークを提案し、応答の質と意味的多様性を最適化。学習された分割関数を用いて多様性を測定し、質の報酬と組み合わせることで高品質かつ独自性のある出力を生成。実験により、非検証可能なタスクと検証可能なタスクの両方で優れた結果を示し、特に多様性の最適化が探索を促進し、質の向上に寄与することが確認された。 Comment

元ポスト:

Loading…

関連:

Loading…

#EfficiencyImprovement #Pocket #Dataset #AIAgents #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pretraining #Pocket #Optimizer #ICLR Issue Date: 2025-09-03 [Paper Note] SOAP: Improving and Stabilizing Shampoo using Adam, Nikhil Vyas+, ICLR'25 GPT Summary- Shampooという前処理法が深層学習の最適化タスクで効果的である一方、追加のハイパーパラメータと計算オーバーヘッドが課題である。本研究では、ShampooとAdafactorの関係を明らかにし、Shampooを基にした新しいアルゴリズムSOAPを提案。SOAPは、Adamと同様に第二モーメントの移動平均を更新し、計算効率を改善。実験では、SOAPがAdamWに対して40%以上のイテレーション数削減、35%以上の経過時間短縮を達成し、Shampooに対しても約20%の改善を示した。SOAPの実装は公開されている。 Comment

openreview: https://openreview.net/forum?id=IDxZhXrpNf

#Analysis #Pretraining #Pocket #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25 GPT Summary- AdamWは言語モデルの事前学習で広く使用されているオプティマイザですが、代替オプティマイザが1.4倍から2倍のスピードアップを提供するという主張には二つの欠点があると指摘。これらは不均等なハイパーパラメータ調整と誤解を招く評価設定であり、10種類のオプティマイザを系統的に研究することで、公正な比較の重要性を示した。特に、最適なハイパーパラメータはオプティマイザごとに異なり、モデルサイズが大きくなるにつれてスピードアップ効果が減少することが明らかになった。最も高速なオプティマイザは行列ベースの前処理器を使用しているが、その効果はモデルスケールに反比例する。 Comment

元ポスト:

Loading…

重要そうに見える

著者ポスト:
-

Loading…

考察:

Loading…

#Survey #Pocket #Safety #EMNLP Issue Date: 2025-09-03 [Paper Note] Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety, Seongmin Lee+, EMNLP'25 GPT Summary- LLMの安全性を理解し軽減するための解釈技術の重要性を探求し、安全性向上に寄与する手法を統一的なフレームワークで整理。約70件の研究を分類し、未解決の課題と今後の方向性を示す。研究者や実務者にとって、より安全で解釈可能なLLMの進展を促進する調査。 Comment

元ポスト:

Loading…

#Analysis #MachineLearning #Pocket #Transformer #TMLR #Scheduler Issue Date: 2025-09-03 [Paper Note] Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler, Aleksandr Dremov+, TMLR'25 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment

元ポスト:

Loading…

#Embeddings #Coding Issue Date: 2025-09-03 [Paper Note] Efficient Code Embeddings from Code Generation Models, Daria Kryvosheieva+, arXiv'25 GPT Summary- jina-code-embeddingsは、自然言語からコードを取得し、技術的な質問応答や意味的に類似したコードスニペットの特定を行う新しいコード埋め込みモデルです。自己回帰型バックボーンを利用し、トークンプーリングを通じて埋め込みを生成。小さいモデルサイズながら最先端のパフォーマンスを示し、コード埋め込みモデルの構築における有効性を検証しています。 Comment

HF: https://huggingface.co/collections/jinaai/jina-code-embeddings-68b0fbfbb0d639e515f82acd

コーディング特化のembeddingで、検索、クロスリンガルな類似度、技術に関するQAに対応可能らしい

公式ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents #memory #Test-time Learning Issue Date: 2025-09-02 [Paper Note] Memento: Fine-tuning LLM Agents without Fine-tuning LLMs, Huichi Zhou+, arXiv'25 GPT Summary- 本論文では、ファインチューニングを必要としない新しい学習パラダイムを提案し、メモリベースのオンライン強化学習を通じて低コストでの継続的な適応を実現します。これをメモリ拡張マルコフ決定過程（M-MDP）として形式化し、行動決定のためのニューラルケース選択ポリシーを導入。エージェントモデル「Memento」は、GAIA検証で87.88%の成功率を達成し、DeepResearcherデータセットでも最先端の手法を上回る性能を示しました。このアプローチは、勾配更新なしでのリアルタイム学習を可能にし、機械学習の進展に寄与します。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #ReinforcementLearning #MultiModal #Reasoning #GRPO #VisionLanguageModel Issue Date: 2025-09-02 [Paper Note] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning, Jie Jiang+, arXiv'25 GPT Summary- R-4Bは、問題の複雑さに応じて思考を行うかどうかを適応的に判断する自動思考型のマルチモーダル大規模言語モデル（MLLM）である。思考能力と非思考能力を持たせ、バイモードポリシー最適化（BPO）を用いて思考プロセスの起動を精度良く判断する。訓練には多様なトピックのデータセットを使用し、実験結果はR-4Bが25のベンチマークで最先端のパフォーマンスを達成し、特に推論集約型タスクで低コストで高い性能を示したことを示している。 Comment

元ポスト:

Loading…

VLMにthinking, non-thinkingを入力に応じて使い分けさせる手法

#Pocket #ICLR #DataMixture Issue Date: 2025-09-01 [Paper Note] RegMix: Data Mixture as Regression for Language Model Pre-training, Qian Liu+, ICLR'25 GPT Summary- RegMixを提案し、データミクスチャの性能を回帰タスクとして自動的に特定。多様なミクスチャで小モデルを訓練し、最良のミクスチャを用いて大規模モデルを訓練した結果、他の候補を上回る性能を示した。実験により、データミクスチャが性能に大きな影響を与えることや、ウェブコーパスが高品質データよりも良好な相関を持つことを確認。RegMixの自動アプローチが必要であることも示された。 Comment

openreview: https://openreview.net/forum?id=5BjQOUXq7i

#EfficiencyImprovement #Pocket #MoE(Mixture-of-Experts) #ICLR #read-later Issue Date: 2025-08-31 [Paper Note] MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts, Peng Jin+, ICLR'25 GPT Summary- 本研究では、Mixture-of-Experts（MoE）手法の効果と効率を向上させるために、MoE++フレームワークを提案。ゼロ計算エキスパートを導入し、低計算オーバーヘッド、高パフォーマンス、デプロイメントの容易さを実現。実験結果により、MoE++は従来のMoEモデルに比べて1.1-2.1倍のスループットを提供し、優れた性能を示す。 Comment

openreview: https://openreview.net/forum?id=t7P5BUKcYv

従来のMoEと比べて、専門家としてzero computation expertsを導入することで、性能を維持しながら効率的にinferenceをする手法(MoEにおいて全てのトークンを均一に扱わない）を提案している模様。

zero computation expertsは3種類で
- Zero Experts: 入力をゼロベクトルに落とす
- Copy Experts: 入力xをそのままコピーする
- Constant Experts: learnableな定数ベクトルvを学習し、xと線形結合して出力する。W_cによって入力xを変換することで線形補　結合の係数a1,a2を入力に応じて動的に決定する。

Routingの手法やgating residual、学習手法の工夫もなされているようなので、後で読む。

#EfficiencyImprovement #Pocket #MoE(Mixture-of-Experts) #ICLR Issue Date: 2025-08-31 [Paper Note] Shortcut-connected Expert Parallelism for Accelerating Mixture-of-Experts, Weilin Cai+, ICLR'25 GPT Summary- ScMoEは、スパースゲート混合専門家モデルの計算負荷を分散させる新しいアーキテクチャで、通信と計算の重複を最大100%可能にし、全対全通信のボトルネックを解消。これにより、トレーニングで1.49倍、推論で1.82倍のスピードアップを実現し、モデル品質も既存手法と同等またはそれ以上を達成。 Comment

openreview: https://openreview.net/forum?id=GKly3FkxN4¬eId=4tfWewv7R2

#Pocket #EMNLP #Tokenizer Issue Date: 2025-08-31 [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25 GPT Summary- 大規模言語モデルはテキスト生成を向上させる一方で、ステガノグラフィーとウォーターマーキングの重要性が増している。本研究では、トークン化の不一致（TI）が堅牢性に与える影響を調査し、TIの原因となるトークンの特性として稀少性と一時性を特定。これに基づき、ステガノグラフィー用の段階的検証方法とウォーターマーキング用の事後ロールバック方法を提案。実験により、TIに直接対処することで、ステガノグラフィーの流暢さや対ステガ分析能力、ウォーターマーキングの堅牢性が向上することが示された。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#EfficiencyImprovement #Controllable #Pocket #Search #Test-Time Scaling #Decoding Issue Date: 2025-08-30 [Paper Note] Skip a Layer or Loop it? Test-Time Depth Adaptation of Pretrained LLMs, Ziyue Li+, arXiv'25 GPT Summary- 事前学習済みのLLMの層をモジュールとして操作し、各サンプルに最適なアーキテクチャを構築する手法を提案。モンテカルロ木探索を用いて、数学および常識推論のベンチマークで最適な層の連鎖（CoLa）を特定。CoLaは柔軟で動的なアーキテクチャを提供し、推論効率を改善する可能性を示唆。75%以上の正しい予測に対して短いCoLaを見つけ、60%以上の不正確な予測を正すことができることが明らかに。固定アーキテクチャの限界を克服する道を開く。 Comment

解説:

Loading…

事前学習済み言語モデルのforward pathにおける各layerをbuilding blocksとみなして、入力に応じてスキップ、あるいは再帰的な利用をMCTSによって選択することで、test time時のモデルの深さや、モデルの凡化性能をタスクに対して適用させるような手法を提案している模様。モデルのパラメータの更新は不要。k, r ∈ {1,2,3,4} の範囲で、"k個のlayerをskip"、あるいはk個のlayerのブロックをr回再帰する、とすることで探索範囲を限定的にしtest時の過剰な計算を抑止している。また、MCTSにおけるsimulationの回数は200回。length penaltyを大きくすることでcompactなforward pathになるように調整、10%の確率でまだ探索していない子ノードをランダムに選択することで探索を促すようにしている。オリジナルと比較して実行時間がどの程度増えてしまうのか？に興味があったが、モデルの深さという観点で推論効率は考察されているように見えたが、実行時間という観点ではざっと見た感じ記載がないように見えた。

https://github.com/user-attachments/assets/0a03cdc2-141b-40a1-a11e-9560187ff7b6" />

以下の広範なQA、幅広い難易度を持つ数学に関するデータで評価（Appendix Bに各データセットごとに500 sampleを利用と記載がある）をしたところ、大幅に性能が向上している模様。ただし、8B程度のサイズのモデルでしか実験はされていない。
- [Paper Note] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, Peter Clark+, arXiv'18
- [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24
https://github.com/user-attachments/assets/c6d88c0a-4ae0-41b7-8526-17d041692f49" />

#Pocket #In-ContextLearning #Reasoning #LongSequence #EMNLP #read-later #Contamination-free #Selected Papers/Blogs #Game Issue Date: 2025-08-30 [Paper Note] TurnaboutLLM: A Deductive Reasoning Benchmark from Detective Games, Yuan Yuan+, EMNLP'25 GPT Summary- TurnaboutLLMという新しいフレームワークとデータセットを用いて、探偵ゲームのインタラクティブなプレイを通じてLLMsの演繹的推論能力を評価。証言と証拠の矛盾を特定する課題を設定し、12の最先端LLMを評価した結果、文脈のサイズや推論ステップ数がパフォーマンスに影響を与えることが示された。TurnaboutLLMは、複雑な物語環境におけるLLMsの推論能力に挑戦を提供する。 Comment

元ポスト:

Loading…

#Analysis #Pretraining #Pocket #Regularization #Selected Papers/Blogs Issue Date: 2025-08-30 [Paper Note] Drop Dropout on Single-Epoch Language Model Pretraining, Houjun Liu+, arXiv'25 GPT Summary- ドロップアウトは過学習を防ぐ手法として知られているが、現代の大規模言語モデル（LLM）では過学習が抑えられるため使用されていない。本研究では、BERTやPythiaモデルの単一エポック事前学習においてドロップアウトの影響を調査した結果、ドロップアウトを適用しない方が下流の性能が向上することが判明。また、「早期ドロップアウト」も性能を低下させることが示された。ドロップアウトなしで訓練されたモデルは、モデル編集においてもより成功することがわかり、単一エポックの事前学習中にはドロップアウトを省くことが推奨される。 Comment

元ポスト:

Loading…

#ComputerVision #Controllable #Pocket #MultiModal #DiffusionModel Issue Date: 2025-08-29 [Paper Note] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation, Jianwen Jiang+, arXiv'25 GPT Summary- 「OmniHuman-1.5」は、物理的妥当性と意味的一貫性を兼ね備えたキャラクターアニメーションを生成するフレームワークである。マルチモーダル大規模言語モデルを活用し、音声、画像、テキストの共同意味を解釈することで、感情や意図に基づいた動作を生成。新しいマルチモーダルDiTアーキテクチャにより、異なるモダリティ間の対立を軽減し、リップシンク精度や動作の自然さで優れたパフォーマンスを達成。複雑なシナリオへの拡張性も示している。 Comment

pj page: https://omnihuman-lab.github.io/v1_5/

元ポスト:

Loading…

promptによって状況や感情などの表現のコントロールが可能らしい

解説:

Loading…

#AIAgents #ProprietaryLLM #ScientificDiscovery Issue Date: 2025-08-29 [Paper Note] AI-Researcher: Autonomous Scientific Innovation, Jiabin Tang+, arXiv'25 GPT Summary- AI-Researcherという自律型研究システムを提案し、文献レビューから論文作成までの研究プロセスを自動化。Scientist-Benchを用いてAIの研究能力を評価し、実験により人間レベルの研究論文を生成する成功率を示す。この研究は、自律的な科学的革新の新たな基盤を築く。 Comment

github: https://github.com/HKUDS/AI-Researcher

元ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents #SmallModel #ComputerUse #On-Policy Issue Date: 2025-08-29 [Paper Note] Mobile-Agent-v3: Foundamental Agents for GUI Automation, Jiabo Ye+, arXiv'25 GPT Summary- 本論文では、GUI-OwlというGUIエージェントモデルを提案し、デスクトップおよびモバイル環境での最先端性能を達成したことを報告しています。特に、Mobile-Agent-v3フレームワークを導入し、性能を向上させました。GUI-Owlは、クラウドベースの仮想環境を利用した自己進化するデータ生成、エンドツーエンドの意思決定を支援する多様な機能、スケーラブルな強化学習フレームワークを特徴としています。これらの成果は、オープンソースとして公開されています。 Comment

github: https://github.com/X-PLUG/MobileAgent?tab=readme-ov-file

元ポスト:

Loading…

ベンチマーク:
- AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25
- [Paper Note] OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments, Tianbao Xie+, arXiv'24

Trajectory-aware Relative Policy Optimization
(TRPO)

#EfficiencyImprovement #Pocket #MoE(Mixture-of-Experts) #ICLR #read-later #memory Issue Date: 2025-08-29 [Paper Note] Ultra-Sparse Memory Network, Zihao Huang+, ICLR'25 GPT Summary- UltraMemは、大規模で超スパースなメモリ層を組み込むことで、Transformerモデルの推論レイテンシを削減しつつ性能を維持する新しいアーキテクチャを提案。実験により、UltraMemはMoEを上回るスケーリング特性を示し、最大2000万のメモリスロットを持つモデルが最先端の推論速度と性能を達成することを実証。 #ComputerVision #Pocket #MultiModal #Reasoning #OpenWeight #CurriculumLearning #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-08-28 [Paper Note] Ovis2.5 Technical Report, Shiyin Lu+, arXiv'25 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/AIDC-AI/Ovis2.5-9B

Apache2.0ライセンス

GLM-4.1V-9B-Thinkingと同等以上の性能な模様。

- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25

#Pocket #Dataset #Evaluation #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pretraining #Pocket #Dataset #Reasoning #Mathematics #read-later #Selected Papers/Blogs Issue Date: 2025-08-27 [Paper Note] Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset, Rabeeh Karimi Mahabadi+, arXiv'25 GPT Summary- 新しい数学コーパス「Nemotron-CC-Math」を提案し、LLMの推論能力を向上させるために、科学テキスト抽出のためのパイプラインを使用。従来のデータセットよりも高品質で、方程式やコードの構造を保持しつつ、表記を標準化。Nemotron-CC-Math-4+は、以前のデータセットを大幅に上回り、事前学習によりMATHやMBPP+での性能向上を実現。オープンソースとしてコードとデータセットを公開。 Comment

元ポスト:

Loading…

#Pocket #ConceptErasure #KnowledgeEditing Issue Date: 2025-08-26 [Paper Note] CRISP: Persistent Concept Unlearning via Sparse Autoencoders, Tomer Ashuach+, arXiv'25 GPT Summary- CRISPは、LLMにおける持続的な概念の忘却を実現するためのパラメータ効率の良い手法であり、スパースオートエンコーダ（SAE）を用いて有害な知識を効果的に除去します。実験により、CRISPはWMDPベンチマークの忘却タスクで従来の手法を上回り、一般的およびドメイン内の能力を保持しつつ、ターゲット特徴の正確な抑制を達成することが示されました。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-26 [Paper Note] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency, Weiyun Wang+, arXiv'25 GPT Summary- InternVL 3.5は、マルチモーダルモデルの新しいオープンソースファミリーで、Cascade Reinforcement Learningを用いて推論能力と効率を向上させる。粗から細へのトレーニング戦略により、MMMやMathVistaなどのタスクで大幅な改善を実現。Visual Resolution Routerを導入し、視覚トークンの解像度を動的に調整。Decoupled Vision-Language Deployment戦略により、計算負荷をバランスさせ、推論性能を最大16.0%向上させ、速度を4.05倍向上。最大モデルは、オープンソースのMLLMで最先端の結果を達成し、商業モデルとの性能ギャップを縮小。全てのモデルとコードは公開。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #ReinforcementLearning #Test-Time Scaling #RLVR #Diversity Issue Date: 2025-08-26 [Paper Note] Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR, Xiao Liang+, arXiv'25 GPT Summary- RLVRはLLMの複雑な推論タスクにおいて重要だが、従来のトレーニングは生成の多様性を減少させる問題がある。本研究では、ポリシーの生成の多様性を分析し、トレーニング問題を更新することでエントロピー崩壊を軽減する方法を提案。オンライン自己対戦と変分問題合成（SvS）戦略を用いることで、ポリシーのエントロピーを維持し、Pass@kを大幅に改善。AIME24およびAIME25ベンチマークでそれぞれ18.3%および22.8%の向上を達成し、12の推論ベンチマークでSvSの堅牢性を示した。 Comment

pj page: https://mastervito.github.io/SvS.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…

#EfficiencyImprovement #Pocket #NeuralArchitectureSearch #SmallModel #Reference Collection Issue Date: 2025-08-26 [Paper Note] Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search, Yuxian Gu+, arXiv'25 GPT Summary- Jet-Nemotronは新しいハイブリッドアーキテクチャの言語モデルで、フルアテンションモデルと同等以上の精度を持ちながら生成スループットを大幅に改善します。Post Neural Architecture Search（PostNAS）を用いて開発され、事前トレーニングされたモデルから効率的にアテンションブロックを探索します。Jet-Nemotron-2Bモデルは、他の先進モデルに対して高い精度を達成し、生成スループットを最大53.6倍向上させました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

解説:

Loading…

続報:

Loading…

コードとチェックポイントがリリース

code: https://github.com/NVlabs/Jet-Nemotron
HF: https://huggingface.co/collections/jet-ai/jet-nemotron-68ac76e8356b5399ef83ac9c

#Pocket #ModelMerge Issue Date: 2025-08-25 [Paper Note] Competition and Attraction Improve Model Fusion, João Abrantes+, GECCO'25 GPT Summary- モデルマージング（M2N2）は、複数の機械学習モデルの専門知識を統合する進化的アルゴリズムで、動的なマージ境界調整や多様性保持メカニズムを特徴とし、最も有望なモデルペアを特定するヒューリスティックを用いる。実験により、M2N2はゼロからMNIST分類器を進化させ、計算効率を向上させつつ高性能を達成。また、専門的な言語や画像生成モデルのマージにも適用可能で、堅牢性と多様性を示す。コードは公開されている。 Comment

元ポスト:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pretraining #Pocket #Alignment #Supervised-FineTuning (SFT) #OpenWeight #Architecture #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 [Paper Note] Motif 2.6B Technical Report, Junghwan Lim+, arXiv'25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Motif-Technologies/Motif-2.6B

#EfficiencyImprovement #Pocket #Chain-of-Thought #Reasoning #EMNLP #Length #Inference Issue Date: 2025-08-24 [Paper Note] TokenSkip: Controllable Chain-of-Thought Compression in LLMs, Heming Xia+, EMNLP'25 GPT Summary- Chain-of-Thought (CoT)はLLMの推論能力を向上させるが、長いCoT出力は推論遅延を増加させる。これに対処するため、重要度の低いトークンを選択的にスキップするTokenSkipを提案。実験により、TokenSkipはCoTトークンの使用を削減しつつ推論性能を維持することを示した。特に、Qwen2.5-14B-InstructでGSM8Kにおいて推論トークンを40%削減し、性能低下は0.4%未満であった。 Comment

元ポスト:

Loading…

#Multi #Pocket #AIAgents #SelfCorrection #EMNLP Issue Date: 2025-08-24 [Paper Note] MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning, Justin Chih-Yao Chen+, EMNLP'25 GPT Summary- MAgICoReは、LLMの推論を改善するための新しいアプローチで、問題の難易度に応じて洗練を調整し、過剰な修正を回避する。簡単な問題には粗い集約を、難しい問題には細かい反復的な洗練を適用し、外部の報酬モデルを用いてエラーの特定を向上させる。3つのエージェント（Solver、Reviewer、Refiner）によるマルチエージェントループを採用し、洗練の効果を確保する。Llama-3-8BおよびGPT-3.5で評価した結果、MAgICoReは他の手法を上回る性能を示し、反復が進むにつれて改善を続けることが確認された。 Comment

元ポスト:

Loading…

#Pocket #Decoding #read-later #Selected Papers/Blogs #MajorityVoting Issue Date: 2025-08-24 [Paper Note] Deep Think with Confidence, Yichao Fu+, arXiv'25 GPT Summary- 「Deep Think with Confidence（DeepConf）」は、LLMの推論タスクにおける精度と計算コストの課題を解決する手法で、モデル内部の信頼性信号を活用して低品質な推論を動的にフィルタリングします。追加の訓練や調整を必要とせず、既存のフレームワークに統合可能です。評価の結果、特に難易度の高いAIME 2025ベンチマークで99.9%の精度を達成し、生成トークンを最大84.7%削減しました。 Comment

pj page: https://jiaweizzhao.github.io/deepconf
vLLMでの実装: https://jiaweizzhao.github.io/deepconf/static/htmls/code_example.html

元ポスト:

Loading…

#Multi #ComputerVision #Pocket #Dataset #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 [Paper Note] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools, Shaofeng Yin+, arXiv'25 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

人間による小規模なサンプル（イメージシナリオ、ツールセット、クエリ、回答、tool use trajectory)を用いてFoundation Modelに事前知識として与えることで、よりrealisticなscenarioが合成されるようにした上で新たなVQAを4k程度合成。その後10人のアノテータによって高品質なサンプルにのみFilteringすることで作成された、従来よりも実世界の設定に近く、reasoningの複雑さが高いVQAデータセットな模様。

具体的には、image contextxが与えられた時に、ChatGPT-4oをコントローラーとして、前回のツールとアクションの選択をgivenにし、人間が作成したプールに含まれるサンプルの中からLongest Common Subsequence (LCS) による一致度合いに基づいて人手によるサンプルを選択し、動的にcontextに含めることで多様なで実世界により近しいmulti step tooluseなtrajectoryを合成する、といった手法に見える。pp.4--5に数式や図による直感的な説明がある。なお、LCSを具体的にどのような文字列に対して、どのような前処理をした上で適用しているのかまでは追えていない。

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #GRPO Issue Date: 2025-08-23 [Paper Note] Hard Examples Are All You Need: Maximizing GRPO Post-Training Under Annotation Budgets, Benjamin Pikus+, arXiv'25 GPT Summary- リソースが制約された状況での言語モデルのファインチューニングにおいて、難易度の異なるトレーニング例の優先順位を検討。実験により、最も難しい例でのトレーニングが最大47%のパフォーマンス向上をもたらすことが示され、難しい例が学習機会を多く提供することが明らかに。これにより、予算制約下での効果的なトレーニング戦略として、難しい例を優先することが推奨される。 Comment

ベースモデルのpass@kが低いhardestなサンプルでGRPOを学習するのがデータ効率が良く、OODに対する汎化性能も発揮されます、というのをQwen3-4B, 14B, Phi4で実験して示しました、という話っぽい？

小規模モデル、およびGSM8K、BIG Bench hardでの、Tracking Shuffled Objectのみでの実験な模様？大規模モデルやコーディングなどのドメインでもうまくいくかはよく分からない。OODの実験もAIME2025でのみの実験しているようなのでそこは留意した方が良いかも。
rewardとして何を使ったのかなどの細かい内容を追えていない。

元ポスト:

Loading…

#Pocket #OpenWeight #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel #Science Issue Date: 2025-08-23 [Paper Note] Intern-S1: A Scientific Multimodal Foundation Model, Lei Bai+, arXiv'25 GPT Summary- Intern-S1は、科学専門分野に特化したオープンソースの専門家型モデルで、280億の活性化パラメータを持つマルチモーダルMixture-of-Experts（MoE）モデルです。5Tトークンで事前学習され、特に科学データに焦点を当てています。事後学習では、InternBootCampを通じて強化学習を行い、Mixture-of-Rewardsを提案。評価では、一般的な推論タスクで競争力を示し、科学分野の専門的なタスクでクローズドソースモデルを上回る性能を達成しました。モデルはHugging Faceで入手可能です。 Comment

元ポスト:

Loading…

scientific domainに特化したデータで継続事前学習+RL Finetuningしたドメイン特化言語モデルらしい。

HF: https://huggingface.co/internlm/Intern-S1

Apache 2.0ライセンス

ベースモデルはQwen3とInternViT
- InternViT: https://huggingface.co/OpenGVLab/InternViT-300M-448px-V2_5

関連:
- [Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24

解説:

Loading…

サマリ:

Loading…

#EfficiencyImprovement #Pocket Issue Date: 2025-08-23 [Paper Note] Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing, Yiqun Zhang+, arXiv'25 GPT Summary- LLMのパフォーマンスと効率のバランスを取るために、テスト時ルーティングフレームワーク「Avengers-Pro」を提案。クエリを埋め込み、クラスタリングし、最適なモデルにルーティングすることで、6つのベンチマークで最先端の結果を達成。最強の単一モデルを平均精度で+7%上回り、コストを27%削減しつつ約90%のパフォーマンスを実現。すべての単一モデルの中で最高の精度と最低のコストを提供するパレートフロンティアを達成。コードは公開中。 Comment

元ポスト:

Loading…

クエリをkmeansでクラスタリングし、各クラスタごとにモデルごとのperformanceとcostを事前に算出しておく。そして新たなクエリが来た時にクエリが割り当てられるtop pのクラスタのperformanae-cost efficiencyを合計し、スコアが高い一つのモデルを選択（＝routing)しinferenceを実施する。クエリはQwenでembedding化してクラスタリングに活用する。ハイパーパラメータα∈[0,1]によって、performance, costどちらを重視するかのバランスを調整する。

シンプルな手法だが、GPT-5 mediumと同等のコスト/性能　でより高い　性能/コスト　を実現。

性能向上、コスト削減でダメ押ししたい時に使えそうだが、発行するクエリがプロプライエタリデータ、あるいはそもそも全然データないんです、みたいな状況の場合、クエリの割当先となるクラスタを適切に確保する（クラスタリングに用いる十分な量のデータを準備する）のが大変な場面があるかもしれない。

（全然本筋と関係ないが、最近論文のタイトルにBeyondつけるの流行ってる…？）

#Pocket #Prompting #read-later Issue Date: 2025-08-22 [Paper Note] Prompt Orchestration Markup Language, Yuge Zhang+, arXiv'25 GPT Summary- POML（プロンプトオーケストレーションマークアップ言語）を導入し、LLMsのプロンプトにおける構造、データ統合、フォーマット感受性の課題に対処。コンポーネントベースのマークアップやCSSスタイリングシステムを採用し、動的プロンプトのテンプレート機能や開発者ツールキットを提供。POMLの有効性を2つのケーススタディで検証し、実際の開発シナリオでの効果を評価。 Comment

pj page: https://microsoft.github.io/poml/latest/

元ポスト:

Loading…

これは非常に興味深い

#Pocket #AIAgents #SelfImprovement #EMNLP Issue Date: 2025-08-22 [Paper Note] WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model, Tianqing Fang+, EMNLP'25 GPT Summary- 自己改善エージェントのために、共進化するワールドモデルLLMを導入する新しいフレームワークを提案。これにより、エージェントのポリシーを洗練する自己指導型トレーニングデータを生成し、行動選択を導く先読みシミュレーションを実現。実験により、既存の自己進化エージェントに対して10%のパフォーマンス向上を示し、持続的な適応性を促進することを目指す。 Comment

元ポスト:

Loading…

#Analysis #NaturalLanguageGeneration #Pocket #Evaluation #EMNLP #read-later Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#MachineTranslation #Supervised-FineTuning (SFT) #SmallModel #Japanese #DPO #Selected Papers/Blogs #ModelMerge Issue Date: 2025-08-22 PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #Decoding #PostTraining Issue Date: 2025-08-22 [Paper Note] Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models, Wen Wang+, arXiv'25 GPT Summary- dLLMsは中間予測を捨てがちだが、時間的振動が重要な現象である。本研究では、時間的一貫性を活用する2つの方法を提案。1つ目は、テスト時に予測を集約する時間的自己一貫性投票、2つ目は中間予測の安定性を測る時間的意味エントロピーを報酬信号とする時間的一貫性強化。実験結果では、Countdownデータセットで24.7%の改善を達成し、他のベンチマークでも向上を示した。これにより、dLLMsの時間的ダイナミクスの可能性が強調される。 Comment

元ポスト:

Loading…

dLLMのデノイジング過程において途中に正解が表出しているのに時間発展とともに消えてしまう問題があるらしく、それに対して、デノイジングステップにおいてstableな予測を行うSelf-Consistencyベースのdecoding手法と、意味的なエントロピーをrewardに加え時間発展で安定するようにpost trainingすることで対処します、みたいな話らしい。

#Pocket #AIAgents #ScientificDiscovery #EMNLP #Findings Issue Date: 2025-08-21 [Paper Note] Agent Laboratory: Using LLM Agents as Research Assistants, Samuel Schmidgall+, EMNLP'25 Findings GPT Summary- Agent Laboratoryは、全自動のLLMベースのフレームワークで、研究アイデアから文献レビュー、実験、報告書作成までのプロセスを完了し、質の高い研究成果を生成します。人間のフィードバックを各段階で取り入れることで、研究の質を向上させ、研究費用を84%削減。最先端の機械学習コードを生成し、科学的発見の加速を目指します。 Comment

元ポスト:

Loading…

pj page: https://agentlaboratory.github.io

#Pocket #ReinforcementLearning #AIAgents #ComputerUse Issue Date: 2025-08-20 [Paper Note] ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents, Hanyu Lai+, arXiv'25 GPT Summary- ComputerRLは、自律的なデスクトップインテリジェンスのためのフレームワークで、API-GUIパラダイムを用いてエージェントがデジタルワークスペースを操作します。分散RLインフラを開発し、数千の仮想デスクトップ環境でのスケーラブルな強化学習を実現。Entropulseトレーニング戦略により、長期トレーニング中のエントロピー崩壊を軽減。GLM-4-9B-0414を用いたAutoGLM-OS-9Bは、OSWorldベンチマークで48.1%の新しい最先端精度を達成し、デスクトップ自動化における重要な改善を示しました。 Comment

ポイント解説:

Loading…

ポイント解説:

Loading…

#Pocket #ReinforcementLearning #Reasoning #RLVR #Entropy Issue Date: 2025-08-20 [Paper Note] Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration, Zhicheng Yang+, arXiv'25 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、言語モデルの推論能力を引き出すが、深さと幅の2つの次元に制約されている。GRPOアルゴリズムの分析から、低精度のインスタンスの重みが軽減されるバイアスが明らかになった。これを是正するために、難易度適応型ロールアウトサンプリング（DARS）を導入し、難しい問題の重みを再調整。DARSは収束時に推論コストなしでPass@Kを向上させる。さらに、トレーニングデータの幅を拡大することでPass@1のパフォーマンスも向上。DARS-Bを提案し、幅と深さの適応的な探査がRLVRの推論力を引き出す鍵であることを示した。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

元ポストの著者によるスレッドが非常にわかりやすいのでそちらを参照のこと。
ざっくり言うと、Overthinking（考えすぎて大量のトークンを消費した上に回答が誤っている; トークン量↓とLLMによるJudge Score↑で評価）とUnderthinking（全然考えずにトークンを消費しなかった上に回答が誤っている; Accuracy↑で評価）をそれぞれ評価するサンプルを収集し、それらのスコアの組み合わせでモデルが必要に応じてどれだけ的確にThinkingできているかを評価するベンチマーク。

Overthinkingを評価するためのサンプルは、多くのLLMでagreementがとれるシンプルなQAによって構築。一方、Underthinkingを評価するためのサンプルは、small reasoning modelがlarge non reasoning modelよりも高い性能を示すサンプルを収集。

現状Non Thinking ModelではQwen3-235B-A22Bの性能が良く、Thinking Modelではgpt-oss-120Bの性能が良い。プロプライエタリなモデルではそれぞれ、Claude-Sonnet4, o3の性能が良い。全体としてはo3の性能が最も良い。

#Pretraining #Pocket #SyntheticData #read-later Issue Date: 2025-08-19 [Paper Note] BeyondWeb: Lessons from Scaling Synthetic Data for Trillion-scale Pretraining, Pratyush Maini+, arXiv'25 GPT Summary- 合成データ生成フレームワーク「BeyondWeb」を提案し、高品質な合成データの生成が可能であることを示す。BeyondWebは、従来のデータセットを超える性能を発揮し、トレーニング速度も向上。特に、3Bモデルが8Bモデルを上回る結果を示す。合成データの品質向上には多くの要因を最適化する必要があり、単純なアプローチでは限界があることを指摘。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #Dataset #SmallModel #OpenWeight #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model, NVIDIA+, arXiv'25, 2025.08 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Survey #Pocket #DiffusionModel #Verification Issue Date: 2025-08-16 [Paper Note] A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models, Lingzhe Zhang+, arXiv'25 GPT Summary- 並列テキスト生成は、LLMの生成速度を向上させるための技術であり、自己回帰生成のボトルネックを打破することを目指している。本研究では、並列テキスト生成手法をARベースと非ARベースに分類し、それぞれの技術を評価。速度、品質、効率のトレードオフを考察し、今後の研究の方向性を示す。関連論文を集めたGitHubリポジトリも作成。 Comment

Taxonomyと手法一覧。Draft and Verifyingは個人的に非常に興味がある。

#Pocket #Dataset #Evaluation #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #Dataset #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #ComputerVision #Pocket #ReinforcementLearning #ComputerUse #VisionLanguageModel Issue Date: 2025-08-16 [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25 GPT Summary- UI-Venusは、スクリーンショットを入力として受け取るマルチモーダル大規模言語モデルに基づくネイティブUIエージェントで、UIグラウンディングとナビゲーションタスクで最先端の性能を達成。7Bおよび72Bバリアントは、Screenspot-V2 / Proベンチマークで高い成功率を記録し、既存のモデルを上回る。報酬関数やデータクリーニング戦略を導入し、ナビゲーション性能を向上させるための新しい自己進化フレームワークも提案。オープンソースのUIエージェントを公開し、さらなる研究を促進。コードはGitHubで入手可能。 Comment

元ポスト:

Loading…

解説:

Loading…

HF: https://huggingface.co/collections/inclusionAI/ui-venus-689f2fb01a4234cbce91c56a

#Pocket #AIAgents #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-15 [Paper Note] OpenCUA: Open Foundations for Computer-Use Agents, Xinyuan Wang+, arXiv'25 GPT Summary- OpenCUAは、CUAデータと基盤モデルをスケールさせるためのオープンソースフレームワークであり、アノテーションインフラ、AgentNetデータセット、反射的なChain-of-Thought推論を持つスケーラブルなパイプラインを提供。OpenCUA-32Bは、CUAベンチマークで34.8%の成功率を達成し、最先端の性能を示す。研究コミュニティのために、アノテーションツールやデータセットを公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

CUAにおいてProprietaryモデルに近い性能を達成した初めての研究な模様。重要

続報:

Loading…

OSWorld VerifiedでUI-TARS-250705,claude-4-sonnet-20250514超えでtop1に君臨とのこと。

#Pocket #Dataset #Evaluation #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #MoE(Mixture-of-Experts) #ZeroshotHyperparameterTransfer Issue Date: 2025-08-14 [Paper Note] $μ$-Parametrization for Mixture of Experts, Jan Małaśnicki+, arXiv'25 GPT Summary- 本研究では、Mixture-of-Experts（MoE）モデルに対する$\mu$-Parameterization（$\mu$P）を提案し、ルーターとエキスパートの特徴学習に関する理論的保証を提供します。また、エキスパートの数と粒度のスケーリングが最適な学習率に与える影響を実証的に検証します。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #Attention Issue Date: 2025-08-14 [Paper Note] Less Is More: Training-Free Sparse Attention with Global Locality for Efficient Reasoning, Lijie Yang+, arXiv'25 GPT Summary- 「LessIsMore」という新しいスパースアテンションメカニズムを提案。これは、トレーニング不要でグローバルアテンションパターンを活用し、トークン選択を効率化。精度を維持しつつ、デコーディング速度を1.1倍向上させ、トークン数を2倍削減。既存手法と比較して1.13倍のスピードアップを実現。 Comment

元ポスト:

Loading…

トレーニングフリーで1.1倍のデコーディング速度で性能もFull Attentionと同等以上のSparse Attentionらしい

#Multi #Analysis #Pocket #ReinforcementLearning #read-later Issue Date: 2025-08-14 [Paper Note] The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models, Xingcheng Xu, arXiv'25 GPT Summary- 強化学習（RL）は大規模言語モデルの行動形成に重要だが、脆弱なポリシーを生成し、信頼性を損なう問題がある。本論文では、報酬関数から最適ポリシーへのマッピングの安定性を分析する数学的枠組みを提案し、ポリシーの脆弱性が非一意的な最適アクションに起因することを示す。さらに、多報酬RLにおける安定性が「効果的報酬」によって支配されることを明らかにし、エントロピー正則化が安定性を回復することを証明する。この研究は、ポリシー安定性分析を進展させ、安全で信頼性の高いAIシステム設計に寄与する。 Comment

元ポスト:

Loading…

とても面白そう

#EfficiencyImprovement #Pocket #Search #ReinforcementLearning #AIAgents #KeyPoint Notes #Reference Collection Issue Date: 2025-08-14 [Paper Note] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL, Jiaxuan Gao+, arXiv'25 GPT Summary- ASearcherは、LLMベースの検索エージェントの大規模なRLトレーニングを実現するオープンソースプロジェクトであり、高効率な非同期RLトレーニングと自律的に合成された高品質なQ&Aデータセットを用いて、検索能力を向上させる。提案されたエージェントは、xBenchで46.7%、GAIAで20.8%の改善を達成し、長期的な検索能力を示した。モデルとデータはオープンソースで提供される。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説ポスト:

Loading…

既存のモデルは <= 10 turnsのデータで学習されており、大規模で高品質なQAデータが不足している問題があったが、シードQAに基づいてQAを合成する手法によって1.4万シードQAから134kの高品質なQAを合成した（うち25.6kはツール利用が必要）。具体的には、シードのQAを合成しエージェントがQAの複雑度をiterationをしながら向上させていく手法を提案。事実情報は常にverificationをされ、合成プロセスのiterationの中で保持され続ける。個々のiterationにおいて、現在のQAと事実情報に基づいて、エージェントは
- Injection: 事実情報を新たに注入しQAをよりリッチにすることで複雑度を上げる
- Fuzz: QA中の一部の詳細な情報をぼかすことで、不確実性のレベルを向上させる。
の2種類の操作を実施する。その上で、QAに対してQuality verificationを実施する:
- Basic Quality: LLMでqualityを評価する
- Difficulty Measurement: LRMによって、複数の回答候補を生成する
- Answer Uniqueness: Difficulty Measurementで生成された複数の解答情報に基づいて、mismatched answersがvalid answerとなるか否かを検証し、正解が単一であることを担保する

https://github.com/user-attachments/assets/d020fc8f-b1da-4425-981a-6759cba5824b" />

また、複雑なタスク、特にtool callsが非常に多いタスクについては、多くのターン数（long trajectories）が必要となるが、既存のバッチに基づいた学習手法ではlong trajectoriesのロールアウトをしている間、他のサンプルの学習がブロックされてしまい学習効率が非常に悪いので、バッチ内のtrajectoryのロールアウトとモデルの更新を分離（ロールアウトのリクエストが別サーバに送信されサーバ上のInference Engineで非同期に実行され、モデルをアップデートする側は十分なtrajectoryがバッチ内で揃ったらパラメータを更新する、みたいな挙動？）することでIdleタイムを無くすような手法を提案した模様。

https://github.com/user-attachments/assets/65d7e7b1-25fb-4288-a85e-07ae7a5eea2f" />

既存の手法ベンチマークの性能は向上している。学習が進むにつれて、trajectory中のURL参照回数やsearch query数などが増大していく曲線は考察されている。他モデルと比較して、より多いターン数をより高い正確性を以って実行できるといった定量的なデータはまだ存在しないように見えた。

https://github.com/user-attachments/assets/70644da8-b862-4bcb-bb05-d915c815b885" />

#ComputerVision #Pocket #Dataset #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #ReinforcementLearning #GRPO #On-Policy #Stability Issue Date: 2025-08-14 [Paper Note] Geometric-Mean Policy Optimization, Yuzhong Zhao+, arXiv'25 GPT Summary- GRPOの不安定性を解決するために、幾何平均を最適化するGMPOを提案。GMPOは外れ値に敏感でなく、安定した重要度サンプリング比率を維持。実験により、GMPO-7Bは複数の数学的およびマルチモーダル推論ベンチマークでGRPOを上回る性能を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #ReinforcementLearning #Reasoning #On-Policy #Overthinking Issue Date: 2025-08-14 [Paper Note] Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning, Vaishnavi Shrivastava+, arXiv'25 GPT Summary- GFPO（Group Filtered Policy Optimization）を提案し、応答の長さの膨張を抑制。応答を長さとトークン効率に基づいてフィルタリングし、推論時の計算量を削減。Phi-4モデルで長さの膨張を46-71%削減し、精度を維持。Adaptive Difficulty GFPOにより、難易度に応じた訓練リソースの動的割り当てを実現。効率的な推論のための効果的なトレードオフを提供。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #Dataset #Evaluation #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

バグのあるコードとtask descriptionが与えられた時に、inputのフォーマットと全ての制約を満たすが、コードの実行が失敗するサンプル（＝反例）を生成することで、モデルのreasoning capabilityの評価をするベンチマーク。

gpt-ossはコードにバグのあるコードに対して上記のような反例を生成する能力が高いようである。ただし、それでも全体のバグのあるコードのうち反例を生成できたのは高々21.6%のようである。ただ、もしコードだけでなくverification全般の能力が高いから、相当使い道がありそう。

#Analysis #Pocket #MoE(Mixture-of-Experts) Issue Date: 2025-08-13 [Paper Note] Unveiling Super Experts in Mixture-of-Experts Large Language Models, Zunhai Su+, arXiv'25 GPT Summary- スパースに活性化されたMixture-of-Experts（MoE）モデルにおいて、特定の専門家のサブセット「スーパ専門家（SE）」がモデルの性能に重要な影響を与えることを発見。SEは稀な活性化を示し、プルーニングするとモデルの出力が劣化する。分析により、SEの重要性が数学的推論などのタスクで明らかになり、MoE LLMがSEに依存していることが確認された。 Comment

元ポスト:

Loading…

MoEにおける、特に重要な専門家であるSuper Expertsの存在

- The Super Weight in Large Language Models, Mengxia Yu+, arXiv'24

を思い出す。

#Pocket #Dataset #AIAgents #Evaluation #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

MCP環境におけるLLM Agentのベンチマーク。論文中のTable1に他のベンチマークを含めサマリが掲載されている。MCPを用いたLLMAgentのベンチがすでにこんなにあることに驚いた…。

#Pocket #ReinforcementLearning #Reasoning #read-later #Reproducibility Issue Date: 2025-08-12 [Paper Note] Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning, Zihe Liu+, arXiv'25 GPT Summary- 強化学習（RL）を用いた大規模言語モデル（LLM）の推論に関する研究が進展する中、標準化されたガイドラインやメカニズムの理解が不足している。実験設定の不一致やデータの変動が混乱を招いている。本論文では、RL技術を体系的にレビューし、再現実験を通じて各技術のメカニズムや適用シナリオを分析。明確なガイドラインを提示し、実務者に信頼できるロードマップを提供する。また、特定の技術の組み合わせが性能を向上させることを示した。 Comment

元ポスト:

Loading…

読んだ方が良い

解説:

Loading…

#Pocket #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs Issue Date: 2025-08-12 [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding （ARC） Foundation Models, GLM-4. 5 Team+, arXiv'25 GPT Summary- 355Bパラメータを持つオープンソースのMixture-of-ExpertsモデルGLM-4.5を発表。ハイブリッド推論手法を採用し、エージェント的、推論、コーディングタスクで高いパフォーマンスを達成。競合モデルに比べて少ないパラメータ数で上位にランクイン。GLM-4.5とそのコンパクト版GLM-4.5-Airをリリースし、詳細はGitHubで公開。 Comment

元ポスト:

Loading…

以下も参照のこと
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07

#EfficiencyImprovement #Pocket #Alignment #DPO #PostTraining Issue Date: 2025-08-12 [Paper Note] Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap, Xuan Qi+, arXiv'25 GPT Summary- LLMの好みを人間に合わせるための新しいデータ選択戦略を提案。DPOの暗黙的報酬ギャップが小さいデータを選ぶことで、データ効率とモデルの整合性を向上。元のデータの10％で5つのベースラインを上回るパフォーマンスを達成。限られたリソースでのLLM整合性向上に寄与。 Comment

元ポスト:

Loading…

preference pair dataを学習効率の良いサンプルのみに圧縮することで学習効率を上げたい系の話で、chosen, rejectedなサンプルのそれぞれについて、¥frac{現在のポリシーの尤度}{参照ポリシーの尤度}によってreward rを定義し（おそらく参照ポリシーの尤度によってサンプルの重要度を重みづけしている）、r_chosenとr_rejectedの差をreward gapと定義し、gapが大きいものは難易度が低いと判断してフィルタリングする、といった話に見える。

#Pocket #AIAgents #ContextEngineering #memory Issue Date: 2025-08-12 [Paper Note] Memp: Exploring Agent Procedural Memory, Runnan Fang+, arXiv'25 GPT Summary- 本研究では、LLMに基づくエージェントに学習可能で更新可能な手続き的記憶を持たせるための戦略を提案。Mempを用いて過去のエージェントの軌跡を指示や抽象に蒸留し、記憶の構築と更新を行う。TravelPlannerとALFWorldでの実証評価により、記憶リポジトリが進化することでエージェントの成功率と効率が向上することを示した。また、強力なモデルからの手続き的記憶の移行により、弱いモデルでも性能向上が得られることが確認された。 Comment

元ポスト:

Loading…

アドホックに探索と実行を繰り返すのではなく、過去の試行のtrajectoryをメモリに記憶しておき、活用するような枠組みな模様。trajectoryは新たなタスクが来た際にretrieverでrelevantなtrajectoryを検索して利用され、良質なtrajectoryがキープされれば成功率や効率が向上すると考えられる。trajectoryはprocedure memoryとして保存され、成功率が低いtrajectoryは破棄されることで更新される。

メモリはT個のタスクに対するs_t, a_t, o_t, i.e., state, action, observation,の系列τと、reward rが与えられた時に、Builderを通して構築されてストアされる。agentは新たなタスクt_newに直面した時に、t_newと類似したメモリをretrieyeする。これはτの中のある時刻tのタスクに対応する。メモリは肥大化していくため、実験では複数のアルゴリズムに基づくメモリの更新方法について実験している。

procedural memoryの有無による挙動の違いに関するサンプル。

memoryに対してretrieverを適用することになるので、retrieverの性能がボトルネックになると思われる。追加の学習をしなくて済むのは利点だが、その代わりモデル側がメモリ管理をする機能を有さない（学習すればそういった機能を持たせられるはず）ので、その点は欠点となる、という印象。

ポイント解説:

Loading…

#Analysis #Pocket #ICLR #ReversalCurse Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 3.2, Knowledge Manipulation, Zeyuan Allen-Zhu+, ICLR'25 GPT Summary- 言語モデルは豊富な知識を持つが、下流タスクへの柔軟な利用には限界がある。本研究では、情報検索、分類、比較、逆検索の4つの知識操作タスクを調査し、言語モデルが知識検索には優れているが、Chain of Thoughtsを用いないと分類や比較タスクで苦労することを示した。特に逆検索ではパフォーマンスがほぼ0%であり、これらの弱点は言語モデルに固有であることを確認した。これにより、現代のAIと人間を区別する新たなチューリングテストの必要性が浮き彫りになった。 Comment

openreview: https://openreview.net/forum?id=oDbiL9CLoS

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

#Analysis #Pocket #SelfCorrection #ICLR Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems, Tian Ye+, ICLR'25 GPT Summary- 言語モデルの推論精度向上のために、「エラー修正」データを事前学習に組み込む有用性を探求。合成数学データセットを用いて、エラーフリーデータと比較して高い推論精度を達成することを示す。さらに、ビームサーチとの違いやデータ準備、マスキングの必要性、エラー量、ファインチューニング段階での遅延についても考察。 Comment

openreview: https://openreview.net/forum?id=zpDGwcmMV4

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

#Analysis #Pocket #ICLR #read-later #reading Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25 GPT Summary- 言語モデルの数学的推論能力を研究し、GSM8Kベンチマークでの精度向上のメカニズムを探る。具体的には、推論スキルの発展、隠れたプロセス、人間との違い、必要なスキルの超越、推論ミスの原因、モデルのサイズや深さについての実験を行い、LLMの理解を深める洞察を提供。 Comment

openreview: https://openreview.net/forum?id=Tn5B6Udq3E

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

小学生向けの算数の問題を通じて、以下の基本的なResearch Questionsについて調査して研究。これらを理解することで、言語モデルの知能を理解する礎とする。

## Research Questions
- 言語モデルはどのようにして小学校レベルの算数の問題を解けるようになるのか？
- 単にテンプレートを暗記しているだけなのか、それとも人間に似た推論スキルを学んでいるのか？
- あるいは、その問題を解くために新しいスキルを発見しているのか？
- 小学校レベルの算数問題だけで訓練されたモデルは、それらの問題を解くことしか学ばないのか？
- それとも、より一般的な知能を学習するのか？
- どのくらい小さい言語モデルまで、小学校レベルの算数問題を解けるのか？
- 深さ（層の数）は幅（層ごとのニューロン数）より重要なのか？
- それとも、単にサイズだけが重要か？

（続きはのちほど...）

#Pocket #Dataset #Evaluation #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

現在の主流なコード生成のベンチは、input/outputがgivenなら上でコードスニペットを生成する形式が主流(e.g., MBPP [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 , HumanEval [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 )だが、モデルがコードを理解し、複雑なコードのロジックを実行する内部状態の変化に応じて、実行のプロセスを推論する能力が見落とされている。これを解決するために、CRUXEVAL [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 , CRUXEVAL-X [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 では、関数のinputs/outputsを予測することで、モデルのコードのcomprehension, reasoning能力を測ろうとしているが、
- single functionのlogicに限定されている
- 20 line程度の短く、trivialなロジックに限定されている
- すでにSoTAモデルで95%が達成され飽和している

というlimitationがあるので、複数の関数が協働するロジック、flow/dataのinteractionのフロー制御、細かい実行ステップなどを含む、staticなコードの理解から、動的な実行プロセスのモデリング能力の評価にシフトするような、新たなベンチマークを作成しました、という話な模様。

まず関数単位のライブラリを構築している。このために、単一の関数の基礎的な仕様を「同じinputに対して同じoutputを返すものは同じクラスにマッピングされる」と定義し、既存のコードリポジトリとLLMによる合成によって、GoとPythonについて合計30種類のクラスと361個のインスタンスを収集。これらの関数は、算術演算や大小比較、パリティチェックなどの判定、文字列の操作などを含む。そしてこれら関数を3種類の実行パターンでオーケストレーションすることで、合成関数を作成した。合成方法は
- Sequential: outputとinputをパイプラインでつなぎ伝搬させる
- Selective: 条件に応じてf(x)が実行されるか、g(x)が実行されるかを制御
- Loop: input集合に対するloopの中に関数を埋め込み順次関数を実行

の3種類。合成関数の挙動を評価するために、ランダムなテストケースは自動生成し、合成関数の挙動をモニタリング（オーバーフロー、無限ループ、タイムアウト、複数回の実行でoutputが決定的か等など）し、異常があるものはフィルタリングすることで合成関数の品質を担保する。

ベンチマーキングの方法としては、CRUXEVALではシンプルにモデルにコードの実行結果を予想させるだけであったが、指示追従能力の問題からミスジャッジをすることがあるため、この問題に対処するためのペアが与えられた時に、outputが合成関数に対してinputしま結果とマッチするかをyes/noのbinaryで判定させる（Predictと呼ばれるモデルのコード理解力を評価)。これとは別に、与えられたinput, outputペアと合成関数に基づいて、実行時の合計のcomputation stepsを出力させるタスクをreasoningタスクとして定義し、複雑度に応じてeasy, hardに分類している。computation stepsは、プログラムを実行する最小単位のことであり、たとえば算術演算などの基礎的なarithmetic/logic operationを指す。

#Pocket #ReinforcementLearning #SyntheticData #Reasoning #SyntheticDataGeneration #GRPO Issue Date: 2025-08-10 [Paper Note] MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy, Shaoxiong Zhan+, arXiv'25 GPT Summary- MathSmithという新しいフレームワークを提案し、LLMの数学的推論を強化するために新しい問題をゼロから合成。既存の問題を修正せず、PlanetMathから概念と説明をランダムにサンプリングし、データの独立性を確保。9つの戦略を用いて難易度を上げ、強化学習で構造的妥当性や推論の複雑さを最適化。実験では、MathSmithが既存のベースラインを上回り、高難易度の合成データがLLMの推論能力を向上させる可能性を示した。 Comment

元ポスト:

Loading…

#Pocket #SelfImprovement #Label-free Issue Date: 2025-08-09 [Paper Note] R-Zero: Self-Evolving Reasoning LLM from Zero Data, Chengsong Huang+, arXiv'25 GPT Summary- R-Zeroは、自己進化型大規模言語モデル（LLMs）が自律的にトレーニングデータを生成するフレームワークで、チャレンジャーとソルバーの2つのモデルが共進化することで、既存のタスクやラベルに依存せずに自己改善を実現します。このアプローチにより、推論能力が大幅に向上し、特にQwen3-4B-Baseでは数学推論で+6.49、一般ドメイン推論で+7.54の改善が確認されました。 Comment

元ポスト:

Loading…

問題を生成するChallengerと与えられた問題を解くSolverを用意し、片方をfreezezさせた状態で交互にポリシーの更新を繰り返す。

### Challenger
- （Challengerによる)問題生成→
- （freezed solverによる）self consistencyによるラベル付け→
- Solverの問題に対するempirical acc.（i.e., サンプリング回数mに対するmajorityが占める割合）でrewardを与えChallengerを更新

といった流れでポリシーが更新される。Rewardは他にも生成された問題間のBLEUを測り類似したものばかりの場合はペナルティを与える項や、フォーマットが正しく指定された通りになっているか、といったペナルティも導入する。

### Solver
- ChallengerのポリシーからN問生成し、それに対してSolverでself consistencyによって解答を生成
- empirical acc.を計算し、1/2との差分の絶対値を見て、簡単すぎる/難しすぎる問題をフィルタリング
- これはカリキュラム学習的な意味合いのみならず、低品質な問題のフィルタリングにも寄与する
- フィルタリング後の問題を利用して、verifiable binary rewardでポリシーを更新

### 評価結果
数学ドメインに提案手法を適用したところ、iterごとに全体の平均性能は向上。

提案手法で数学ドメインを学習し、generalドメインに汎化するか？を確認したところ、汎化することを確認（ただ、すぐにサチっているようにも見える）。、

著者ポスト:
-

Loading…

日本語解説:

Loading…

#Pocket #ReinforcementLearning #SelfImprovement #Label-free #MajorityVoting Issue Date: 2025-08-09 [Paper Note] Self-Questioning Language Models, Lili Chen+, arXiv'25 GPT Summary- 自己質問型言語モデル（SQLM）を提案し、トピックを指定するプロンプトから自ら質問を生成し、解答する非対称の自己対戦フレームワークを構築。提案者と解答者は強化学習で訓練され、問題の難易度に応じて報酬を受け取る。三桁の掛け算や代数問題、プログラミング問題のベンチマークで、外部データなしで言語モデルの推論能力を向上させることができることを示す。 Comment

pj page: https://self-questioning.github.io

元ポスト:

Loading…

たとえば下記のような、ラベル無しの外部データを利用する手法も用いてself improvingする手法と比較したときに、どの程度の性能差になるのだろうか？外部データを全く利用せず、外部データありの手法と同等までいけます、という話になると、より興味深いと感じた。

- Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24

既存の外部データを活用しない関連研究:
- Absolute Zero: Reinforced Self-play Reasoning with Zero Data, Andrew Zhao+, arXiv'25

#Pocket #Supervised-FineTuning (SFT) #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-08-09 [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25 GPT Summary- 大規模言語モデル（LLM）の教師ありファインチューニング（SFT）の一般化能力を向上させるため、動的ファインチューニング（DFT）を提案。DFTはトークンの確率に基づいて目的関数を再スケーリングし、勾配更新を安定化させる。これにより、SFTを大幅に上回る性能を示し、オフライン強化学習でも競争力のある結果を得た。理論的洞察と実践的解決策を結びつけ、SFTの性能を向上させる。コードは公開されている。 Comment

元ポスト:

Loading…

これは大変興味深い。数学以外のドメインでの評価にも期待したい。

日本語解説:

Loading…

一歩先の視点が考察されており、とても勉強になる。

#Survey #Pocket #Hallucination Issue Date: 2025-08-08 [Paper Note] A comprehensive taxonomy of hallucinations in Large Language Models, Manuel Cossio, arXiv'25 GPT Summary- LLMのハルシネーションに関する包括的な分類法を提供し、その本質的な避けられなさを提唱。内因的および外因的な要因、事実誤認や不整合などの具体的な現れを分析。根本的な原因や認知的要因を検討し、評価基準や軽減戦略を概説。今後は、信頼性のある展開のために検出と監視に焦点を当てる必要があることを強調。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #Factuality #RewardHacking #PostTraining #GRPO #On-Policy Issue Date: 2025-08-08 [Paper Note] Learning to Reason for Factuality, Xilun Chen+, arXiv'25 GPT Summary- R-LLMsは複雑な推論タスクで進展しているが、事実性において幻覚を多く生成する。オンラインRLを長文の事実性設定に適用する際、信頼できる検証方法が不足しているため課題がある。従来の自動評価フレームワークを用いたオフラインRLでは報酬ハッキングが発生することが判明。そこで、事実の精度、詳細レベル、関連性を考慮した新しい報酬関数を提案し、オンラインRLを適用。評価の結果、幻覚率を平均23.1ポイント削減し、回答の詳細レベルを23%向上させた。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24

Reasoning ModelのHallucination Rateは、そのベースとなるモデルよりも高い。実際、DeepSeek-V3とDeepSeek-R1,Qwen-2.5-32BとQwQ-32Bを6つのFactualityに関するベンチマークで比較すると、Reasoning Modelの方がHallucination Rateが10, 13%程度高かった。これは、現在のOn-policyのRLがlogical reasoningにフォーカスしており、Factualityを見落としているため、と仮説を立てている。
Factuality（特にLongForm)とRL alignmentsという観点から言うと、決定的、正確かつ信頼性のあるverificatlon手法は存在せず、Human Effortが必要不可欠である。
自動的にFactualityを測定するFactScoreのような手法は、DPOのようなオフラインのペアワイズのデータを作成するに留まってしまっている。また、on dataでFactualityを改善する取り組みは行われているが、long-formな応答に対して、factual reasoningを実施するにはいくつかの課題が残されている:
- reward design
- Factualityに関するrewardを単独で追加するだけだと、LLMは非常に短く、詳細を省略した応答をしPrecicionのみを高めようとしてしまう。

あとで追記する

#Analysis #EfficiencyImprovement #Pocket Issue Date: 2025-08-05 [Paper Note] On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective, Gabriel Mongaras+, arXiv'25 GPT Summary- 本研究では、ソフトマックスアテンションの再帰的な形式を導出し、線形アテンションがその近似であることを示す。これにより、ソフトマックスアテンションの各部分をRNNの言語で説明し、構成要素の重要性と相互作用を理解する。これにより、ソフトマックスアテンションが他の手法よりも表現力が高い理由を明らかにする。 Comment

元ポスト:

Loading…

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

たとえばGQAはQwen3で利用されているが、本研究の知見を活用してscaled-dot product attention計算時のSoftmax計算の計算量が削減できたら、さらに計算量が削減できそう？

#MachineLearning #Pocket Issue Date: 2025-08-04 [Paper Note] MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement, Jaehyun Nam+, arXiv'25 GPT Summary- MLE-STARは、LLMを用いてMLモデルを自動実装する新しいアプローチで、ウェブから効果的なモデルを取得し、特定のMLコンポーネントに焦点を当てた戦略を探索することで、コード生成の精度を向上させる。実験結果では、MLE-STARがKaggleコンペティションの64%でメダルを獲得し、他の手法を大きく上回る性能を示した。 Comment

元ポスト:

Loading…

#Analysis #Pocket #Prompting #ACL #read-later #reading #MajorityVoting Issue Date: 2025-08-03 [Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL'25 Outstanding Paper GPT Summary- 本研究では、LLMのテスト時の計算スケーリングにおけるプロンプト戦略の効果を調査。6つのLLMと8つのプロンプト戦略を用いた実験により、複雑なプロンプト戦略が単純なChain-of-Thoughtに劣ることを示し、理論的な証明を提供。さらに、スケーリング性能を予測し最適なプロンプト戦略を特定する手法を提案し、リソース集約的な推論プロセスの必要性を排除。複雑なプロンプトの再評価と単純なプロンプト戦略の潜在能力を引き出すことで、テスト時のスケーリング性能向上に寄与することを目指す。 Comment

non-thinkingモデルにおいて、Majority Voting (i.e. Self Consistency)によるtest-time scalingを実施する場合のさまざまなprompting戦略のうち、budgetとサンプリング数が小さい場合はCoT以外の適切なprompting戦略はモデルごとに異なるが、budgetやサンプリング数が増えてくるとシンプルなCoT（実験ではzeroshot CoTを利用）が最適なprompting戦略として支配的になる、という話な模様。

さらに、なぜそうなるかの理論的な分析と最適な与えられた予算から最適なprompting戦略を予測する手法も提案している模様。

が、評価データの難易度などによってこの辺は変わると思われ、特にFigure39に示されているような、**サンプリング数が増えると簡単な問題の正解率が上がり、逆に難しい問題の正解率が下がるといった傾向があり、CoTが簡単な問題にサンプリング数を増やすと安定して正解できるから支配的になる**、という話だと思われるので、常にCoTが良いと勘違いしない方が良さそうだと思われる。たとえば、**解こうとしているタスクが難問ばかりであればCoTでスケーリングするのが良いとは限らない、といった点には注意が必要**だと思うので、しっかり全文読んだ方が良い。時間がある時に読みたい（なかなかまとまった時間取れない）

最適なprompting戦略を予測する手法では、
- 問題の難易度に応じて適応的にスケールを変化させ(なんとO(1)で予測ができる)
- 動的に最適なprompting戦略を選択

することで、Majority@10のAcc.を8Bスケールのモデルで10--50%程度向上させることができる模様。いやこれほんとしっかり読まねば。

#Embeddings #Analysis #Pocket #ACL #read-later Issue Date: 2025-08-03 [Paper Note] Mapping 1,000+ Language Models via the Log-Likelihood Vector, Momose Oyama+, ACL'25 GPT Summary- 自動回帰型言語モデルの比較に対し、対数尤度ベクトルを特徴量として使用する新しいアプローチを提案。これにより、テキスト生成確率のクルバック・ライブラー発散を近似し、スケーラブルで計算コストが線形に増加する特徴を持つ。1,000以上のモデルに適用し、「モデルマップ」を構築することで、大規模モデル分析に新たな視点を提供。 Comment

NLPコロキウムでのスライド: https://speakerdeck.com/shimosan/yan-yu-moderunodi-tu-que-lu-fen-bu-to-qing-bao-ji-he-niyorulei-si-xing-noke-shi-hua

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #On-Policy #CrossDomain Issue Date: 2025-08-03 [Paper Note] SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM, Xiaojiang Zhang+, arXiv'25 GPT Summary- 二段階履歴再サンプリングポリシー最適化（SRPO）を提案し、DeepSeek-R1-Zero-32Bを上回る性能をAIME24およびLiveCodeBenchで達成。SRPOはトレーニングステップを約1/10に削減し、効率性を示す。二つの革新として、クロスドメイントレーニングパラダイムと履歴再サンプリング技術を導入し、LLMの推論能力を拡張するための実験を行った。 Comment

元ポスト:

Loading…

GRPOよりもより効率的な手法な模様。最初に数学のデータで学習をしReasoning Capabilityを身につけさせ、その後別のドメインのデータで学習させることで、その能力を発揮させるような二段階の手法らしい。

Datamixingよりも高い性能（ただし、これは数学とコーディングのCoT Lengthのドメイン間の違いに起因してこのような2 stageな手法にしているようなのでその点には注意が必要そう）？しっかりと読めていないので、読み違いの可能性もあるので注意。

なんたらRPO多すぎ問題

#EfficiencyImprovement #Pocket #Optimizer #read-later #Selected Papers/Blogs #ModelMerge #Stability Issue Date: 2025-08-02 [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25 GPT Summary- 学習率スケジューリングの新たなアプローチとして、Warmup-Stable and Merge（WSM）を提案。WSMは、学習率の減衰とモデルマージの関係を確立し、さまざまな減衰戦略を統一的に扱う。実験により、マージ期間がモデル性能において重要であることを示し、従来のWSDアプローチを上回る性能向上を達成。特に、MATHで+3.5%、HumanEvalで+2.9%、MMLU-Proで+5.5%の改善を記録。 Comment

元ポスト:

Loading…

Weight Decayを無くせるらしい

エッセンスの解説:

Loading…

解説:

Loading…

#Pocket #InstructionTuning #SyntheticData #Reasoning Issue Date: 2025-08-02 [Paper Note] CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks, Ping Yu+, arXiv'25 GPT Summary- CoT-Self-Instructを提案し、LLMに基づいて新しい合成プロンプトを生成する手法を開発。合成データはMATH500やAMC23などで既存データセットを超える性能を示し、検証不可能なタスクでも人間や標準プロンプトを上回る結果を得た。 Comment

元ポスト:

Loading…

より複雑で、Reasoningやplanningを促すようなinstructionが生成される模様。実際に生成されたinstructionのexampleは全体をざっとみた感じこの図中のもののみのように見える。

以下のスクショはMagpieによって合成されたinstruction。InstructionTuning用のデータを合成するならMagpieが便利そうだなぁ、と思っていたのだが、比較するとCoT-SelfInstructの方が、より複雑で具体的な指示を含むinstructionが生成されるように見える。

- [Paper Note] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR'25

#Pocket #ReinforcementLearning #Reasoning Issue Date: 2025-08-02 [Paper Note] Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty, Mehul Damani+, arXiv'25 GPT Summary- RLCRを用いた言語モデルの訓練により、推論の精度と信頼度を同時に改善。バイナリ報酬に加え、信頼度推定のためのブライヤースコアを用いた報酬関数を最適化。RLCRは、通常のRLよりもキャリブレーションを改善し、精度を損なうことなく信頼性の高い推論モデルを生成することを示した。 Comment

元ポスト:

Loading…

LLMにConfidenceをDiscreteなTokenとして（GEvalなどは除く）出力させると信頼できないことが多いので、もしそれも改善するのだとしたら興味深い。

#Pocket #Dataset #Evaluation #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#Survey #EfficiencyImprovement #Pocket #Attention Issue Date: 2025-07-31 [Paper Note] Efficient Attention Mechanisms for Large Language Models: A Survey, Yutao Sun+, arXiv'25 GPT Summary- Transformerアーキテクチャの自己注意の複雑さが長文コンテキストモデリングの障害となっている。これに対処するため、線形注意手法とスパース注意技術が導入され、計算効率を向上させつつコンテキストのカバレッジを保持する。本研究は、これらの進展を体系的にまとめ、効率的な注意を大規模言語モデルに組み込む方法を分析し、理論と実践を統合したスケーラブルなモデル設計の基礎を提供することを目指す。 Comment

元ポスト:

Loading…

#Survey #Embeddings #Pocket #Dataset #RepresentationLearning #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

GPTEの学習手法テキストだけでなく、画像やコードなどの様々なモーダル、マルチリンガル、データセットや評価方法、パラメータサイズとMTEBの性能の関係性の図解など、盛りだくさんな模様。最新のものだけでなく、2021年頃のT5から最新モデルまで網羅的にまとまっている。日本語特化のモデルについては記述が無さそうではある。

日本語モデルについてはRuriのテクニカルペーパーや、LLM勉強会のまとめを参照のこと
- Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09
- 日本語LLMまとめ, LLM-jp, 2024.12

#Pocket #AES(AutomatedEssayScoring) #Prompting #AIED Issue Date: 2025-07-29 [Paper Note] Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?, Lui Yoshida, AIED'25 GPT Summary- 本研究では、LLMを用いた自動エッセイ採点におけるルーブリックの詳細さが採点精度に与える影響を調査。TOEFL11データセットを用いて、完全なルーブリック、簡略化されたルーブリック、ルーブリックなしの3条件を比較。結果、3つのモデルは簡略化されたルーブリックでも精度を維持し、トークン使用量を削減。一方、1つのモデルは詳細なルーブリックで性能が低下。簡略化されたルーブリックが多くのLLMにとって効率的な代替手段であることが示唆されるが、モデルごとの評価も重要。 #Analysis #Pocket #In-ContextLearning Issue Date: 2025-07-29 [Paper Note] Learning without training: The implicit dynamics of in-context learning, Benoit Dherin+, arXiv'25 GPT Summary- LLMは文脈内で新しいパターンを学習する能力を持ち、そのメカニズムは未解明である。本研究では、トランスフォーマーブロックが自己注意層とMLPを重ねることで、文脈に応じてMLPの重みを暗黙的に修正できることを示し、このメカニズムがLLMの文脈内学習の理由である可能性を提案する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #ACL #Trustfulness Issue Date: 2025-07-28 [Paper Note] Rectifying Belief Space via Unlearning to Harness LLMs' Reasoning, Ayana Niwa+, ACL'25 GPT Summary- LLMの不正確な回答は虚偽の信念から生じると仮定し、信念空間を修正する方法を提案。テキスト説明生成で信念を特定し、FBBSを用いて虚偽の信念を抑制、真の信念を強化。実証結果は、誤った回答の修正とモデル性能の向上を示し、一般化の改善にも寄与することを示唆。 Comment

元ポスト:

Loading…

#Pocket #Hallucination #ActivationSteering/ITI #Trustfulness Issue Date: 2025-07-26 [Paper Note] GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs, Duy Nguyen+, arXiv'25 GPT Summary- GrAInSは、LLMsおよびVLMsの推論時に内部活性を調整する新しいステアリング手法で、固定された介入ベクトルに依存せず、トークンの因果的影響を考慮します。統合勾配を用いて、出力への寄与に基づき重要なトークンを特定し、望ましい行動への変化を捉えるベクトルを構築します。これにより、再訓練なしでモデルの挙動を細かく制御でき、実験ではファインチューニングや既存手法を上回る成果を示しました。具体的には、TruthfulQAで精度を13.22%向上させ、MMHal-Benchの幻覚率を低下させ、SPA-VLでのアライメント勝率を改善しました。 Comment

元ポスト:

Loading…

既存のsteering手法は、positive/negativeなサンプルからの差分で単一方向のベクトルを算出し、すべてのトークンに足し合わせるが、本手法はそこからさらにpositive/negativeな影響を与えるトークンレベルにまで踏み込み、negativeなベクトルとpositiveなベクトルの双方を用いて、negative->positive方向のベクトルを算出してsteeringに活用する方法っぽい？

#ComputerVision #Pocket #MultiModal #SpeechProcessing #OpenWeight #UMM Issue Date: 2025-07-26 [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

元ポスト:

Loading…

現在はv1.5も公開されておりさらに性能が向上している模様？

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni

#EfficiencyImprovement #Pocket #ReinforcementLearning #MoE(Mixture-of-Experts) #On-Policy #Stability Issue Date: 2025-07-26 [Paper Note] Group Sequence Policy Optimization, Chujie Zheng+, arXiv'25 GPT Summary- Group Sequence Policy Optimization (GSPO)は、大規模言語モデルのための新しい強化学習アルゴリズムで、シーケンスの尤度に基づく重要度比を用いてトレーニングを行う。GSPOは、従来のGRPOアルゴリズムよりも効率的で高性能であり、Mixture-of-Experts (MoE) のトレーニングを安定化させる。これにより、最新のQwen3モデルにおいて顕著な改善が見られる。 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

GRPOとGSPOの違いのGIF:

Loading…

#ComputerVision #NaturalLanguageGeneration #Controllable #Pocket #VisionLanguageModel Issue Date: 2025-07-25 [Paper Note] CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning, Kuniaki Saito+, arXiv'25 GPT Summary- CaptionSmithsは、画像キャプショニングモデルがキャプションの特性（長さ、記述性、単語の独自性）を柔軟に制御できる新しいアプローチを提案。人間の注釈なしで特性を定量化し、短いキャプションと長いキャプションの間で補間することで条件付けを実現。実証結果では、出力キャプションの特性をスムーズに変化させ、語彙的整合性を向上させることが示され、誤差を506%削減。コードはGitHubで公開。 Comment

元ポスト:

Loading…

従来はDiscreteに表現されていたcaptioningにおける特性をCondition Caluculatorを導入することでcontinuousなrepresentationによって表現し、Caluculatorに人間によるinput, あるいは表現したいConditionを持つexampleをinputすることで、生成時に反映させるような手法を提案している模様。Conditionで利用するpropertyについては、提案手法ではLength, Descriptive, Uniqueness of Vocabulariesの3つを利用している（が、他のpropertyでも本手法は適用可能と思われる）。このとき、あるpropertyの値を変えることで他のpropertyが変化してしまうと制御ができなくなるため、property間のdecorrelationを実施している。これは、あるproperty Aから別のproperty Bの値を予測し、オリジナルのpropertyの値からsubtractする、といった処理を順次propertyごとに実施することで実現される。Appendixに詳細が記述されている。

#Pocket #MoE(Mixture-of-Experts) #Scaling Laws #read-later #Selected Papers/Blogs Issue Date: 2025-07-25 [Paper Note] Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models, Changxin Tian+, arXiv'25 GPT Summary- Mixture-of-Experts (MoE)アーキテクチャは、LLMsの効率的なスケーリングを可能にするが、モデル容量の予測には課題がある。これに対処するため、Efficiency Leverage (EL)を導入し、300以上のモデルを訓練してMoE構成とELの関係を調査。結果、ELはエキスパートの活性化比率と計算予算に依存し、エキスパートの粒度は非線形の調整因子として機能することが明らかに。これらの発見を基にスケーリング法則を統一し、Ling-mini-betaモデルを設計・訓練した結果、計算資源を7倍以上節約しつつ、6.1Bの密なモデルと同等の性能を達成。研究は効率的なMoEモデルのスケーリングに関する基盤を提供する。 Comment

元ポスト:

Loading…

所見:

Loading…

#AIAgents #LLM-as-a-Judge #SelfCorrection #DeepResearch Issue Date: 2025-07-25 [Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25 GPT Summary- TTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment

元ポスト:

Loading…

Self-Evolutionというのは、モデルのパラメータを更新するというものではなく、Agentに渡すContextをLLM-as-a-Judgeのスコアが改善するように、フィードバックとして得られるcritiqueなどを通じて反復的にoutput（＝別のAgentにcontextとして渡される情報）を洗練させていくような方法のことを指している模様。このようなプロセスを複数のパスで実施し、最終的にマージすることで高品質なoutput(context)を得る。

日本語解説: https://zenn.dev/knowledgesense/articles/5a341158c2c9ab

#NeuralNetwork #Analysis #Pocket #Selected Papers/Blogs #Finetuning Issue Date: 2025-07-24 [Paper Note] Subliminal Learning: Language models transmit behavioral traits via hidden signals in data, Alex Cloud+, arXiv'25 GPT Summary- サブリミナル学習は、言語モデルが無関係なデータを通じて特性を伝達する現象である。実験では、特定の特性を持つ教師モデルが生成した数列データで訓練された生徒モデルが、その特性を学習することが確認された。データが特性への言及を除去してもこの現象は発生し、異なるベースモデルの教師と生徒では効果が見られなかった。理論的結果を通じて、全てのニューラルネットワークにおけるサブリミナル学習の発生を示し、MLP分類器での実証も行った。サブリミナル学習は一般的な現象であり、AI開発における予期しない問題を引き起こす可能性がある。 Comment

元ポスト:

Loading…

#Pocket #Reasoning #Architecture Issue Date: 2025-07-23 [Paper Note] Hierarchical Reasoning Model, Guan Wang+, arXiv'25 GPT Summary- HRM（Hierarchical Reasoning Model）は、AIの推論プロセスを改善するために提案された新しい再帰的アーキテクチャであり、Chain-of-Thought技術の問題を克服します。HRMは、2つの相互依存する再帰モジュールを用いて、シーケンシャルな推論タスクを単一のフォワードパスで実行し、高レベルの抽象計画と低レベルの詳細計算を分担します。2700万のパラメータで、わずか1000のトレーニングサンプルを使用し、数独や迷路の最適経路探索などの複雑なタスクで優れたパフォーマンスを示し、ARCベンチマークでも他の大規模モデルを上回る結果を達成しました。HRMは、普遍的な計算と汎用推論システムに向けた重要な進展を示唆しています。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

追試の結果再現が可能でモデルアーキテクチャそのものよりも、ablation studyの結果、outer refinement loopが重要とのこと:
-

Loading…

ポイント解説:

Loading…

#Pocket #Dataset #Evaluation #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#Pocket #ReinforcementLearning #Test-Time Scaling #GRPO #read-later #Selected Papers/Blogs #Non-VerifiableRewards #RewardModel Issue Date: 2025-07-22 [Paper Note] Inference-Time Scaling for Generalist Reward Modeling, Zijun Liu+, arXiv'25 GPT Summary- 強化学習を用いてLLMsの推論能力を向上させるため、報酬モデリング（RM）のスケーラビリティを探求。ポイントワイズ生成報酬モデリング（GRM）を採用し、自己原則批評調整（SPCT）を提案してパフォーマンスを向上。並列サンプリングとメタRMを導入し、スケーリング性能を改善。実験により、SPCTがGRMの質とスケーラビリティを向上させ、既存の手法を上回る結果を示した。DeepSeek-GRMは一部のタスクで課題があるが、今後の取り組みで解決可能と考えられている。モデルはオープンソースとして提供予定。 Comment

#Analysis #Pocket #ReinforcementLearning #Reasoning #RLVR Issue Date: 2025-07-22 [Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25 GPT Summary- RLVRはAIの能力向上に寄与するが、基盤モデルの制約により新しい解の発見を制限する可能性がある。理論的調査により、初期確率がゼロの解をサンプリングできないことや、探索を狭めるトレードオフが明らかになった。実証実験では、RLVRが精度を向上させる一方で、正しい答えを見逃すことが確認された。将来的には、探索メカニズムや過小評価された解に確率質量を注入する戦略が必要とされる。 Comment

元ポスト:

Loading…

RLVRの限界に関する洞察

#Pocket #Evaluation #Reasoning #LongSequence #Scaling Laws Issue Date: 2025-07-22 [Paper Note] Inverse Scaling in Test-Time Compute, Aryo Pradipta Gema+, arXiv'25 GPT Summary- LRMsの推論の長さが性能に与える影響を評価するタスクを構築し、計算量と精度の逆スケーリング関係を示す。4つのカテゴリのタスクを通じて、5つの失敗モードを特定。これにより、長時間の推論が問題のあるパターンを強化する可能性があることが明らかになった。結果は、LRMsの失敗モードを特定し対処するために、推論の長さに応じた評価の重要性を示している。 Comment

元ポスト:

Loading…

ReasoningモデルにおいてReasoningが長くなればなるほど
- context中にirrerevantな情報が含まれるシンプルな個数を数えるタスクでは、irrerevantな情報に惑わされるようになり、
- 特徴表に基づく回帰タスクの場合、擬似相関を持つ特徴量をの影響を増大してしまい、
- 複雑で組み合わせが多い演繹タスク（シマウマパズル）に失敗する

といったように、Reasoning Traceが長くなればなるほど性能を悪化させるタスクが存在しこのような問題のある推論パターンを見つけるためにも、様々なReasoning Traceの長さで評価した方が良いのでは、といった話な模様？

#Pocket #DiffusionModel #Safety Issue Date: 2025-07-22 [Paper Note] The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs, Zichen Wen+, arXiv'25 GPT Summary- 拡散ベースの大規模言語モデル（dLLMs）は、迅速な推論と高いインタラクティビティを提供するが、安全性に関する懸念がある。既存のアライメントメカニズムは、敵対的プロンプトからdLLMsを保護できていない。これに対処するため、DIJAという新しい脱獄攻撃フレームワークを提案し、dLLMsの生成メカニズムを利用して有害な補完を可能にする。実験により、DIJAは既存の手法を大幅に上回り、特にDream-Instructで100%のASRを達成し、JailbreakBenchでの評価でも優れた結果を示した。これにより、dLLMsの安全性のアライメントを再考する必要性が浮き彫りになった。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #DiffusionModel #Scaling Laws #read-later Issue Date: 2025-07-22 [Paper Note] Diffusion Beats Autoregressive in Data-Constrained Settings, Mihir Prabhudesai+, arXiv'25 GPT Summary- マスク付き拡散モデルは、データ制約のある設定で自己回帰（AR）モデルを大幅に上回ることを発見。拡散モデルはデータを効果的に活用し、検証損失を低下させ、下流のパフォーマンスを向上させる。新しいスケーリング法則を見つけ、拡散がARを上回る臨界計算閾値を導出。データがボトルネックの場合、拡散モデルはARの魅力的な代替手段となる。 Comment

元ポスト:

Loading…

いつかdLLMの時代きそうだなあ

著者ポスト:

Loading…

追加実験結果:

Loading…

#NeuralNetwork #MachineTranslation #Pocket #ACL #Decoding Issue Date: 2025-07-20 [Paper Note] Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation, Boxuan Lyu+, ACL'25 GPT Summary- ソースベースのMBRデコーディング（sMBR）を提案し、パラフレーズや逆翻訳から生成された準ソースを「サポート仮説」として利用。参照なしの品質推定メトリックを効用関数として用いる新しいアプローチで、実験によりsMBRがQE再ランキングおよび標準MBRを上回る性能を示した。sMBRはNMTデコーディングにおいて有望な手法である。 Comment

元ポスト:

Loading…

#Survey #AIAgents #ContextEngineering Issue Date: 2025-07-19 [Paper Note] A Survey of Context Engineering for Large Language Models, Lingrui Mei+, arXiv'25 GPT Summary- 本調査では、LLMsの性能を向上させる「コンテキストエンジニアリング」を提案し、その要素と実装方法を体系的に分類。コンテキストの取得、生成、処理、管理を検討し、洗練されたシステム実装を探る。1300以上の研究を分析し、モデルの能力の非対称性を明らかにし、複雑な文脈理解と長文出力生成のギャップに対処する重要性を強調。研究者とエンジニアのための統一フレームワークを提供。 Comment

もうContext Engineeringという切り口の体系化されたSurveyが出てきた。早すぎ。

元ポスト:

Loading…

#Pretraining #Pocket #MultiModal #Scaling Laws #DataMixture #VisionLanguageModel Issue Date: 2025-07-18 [Paper Note] Scaling Laws for Optimal Data Mixtures, Mustafa Shukor+, arXiv'25 GPT Summary- 本研究では、スケーリング法則を用いて任意のターゲットドメインに対する最適なデータ混合比率を決定する方法を提案。特定のドメイン重みベクトルを持つモデルの損失を正確に予測し、LLM、NMM、LVMの事前訓練における予測力を示す。少数の小規模な訓練実行でパラメータを推定し、高価な試行錯誤法に代わる原則的な選択肢を提供。 #MachineTranslation #Metrics #Pocket #MultiDimensional Issue Date: 2025-07-18 [Paper Note] TransEvalnia: Reasoning-based Evaluation and Ranking of Translations, Richard Sproat+, arXiv'25 GPT Summary- プロンプトベースの翻訳評価システム「TransEvalnia」を提案し、Multidimensional Quality Metricsに基づく詳細な評価を行う。TransEvalniaは、英日データやWMTタスクで最先端のMT-Rankerと同等以上の性能を示し、LLMによる評価が人間の評価者と良好に相関することを確認。翻訳の提示順序に敏感であることを指摘し、位置バイアスへの対処法を提案。システムの評価データは公開される。 Comment

元ポスト:

Loading…

#Pocket #Chain-of-Thought #Reasoning #Safety Issue Date: 2025-07-16 [Paper Note] Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety, Tomek Korbak+, arXiv'25 GPT Summary- 人間の言語で「考える」AIシステムは、安全性向上のために思考の連鎖（CoT）を監視することで悪意のある意図を検出する機会を提供する。しかし、CoT監視は完璧ではなく、一部の不正行為が見逃される可能性がある。研究を進め、既存の安全手法と併せてCoT監視への投資を推奨する。モデル開発者は、開発の決定がCoTの監視可能性に与える影響を考慮すべきである。 Comment

元ポスト:

Loading…

CoTを監視することで、たとえばモデルのよろしくない挙動（e.g., misalignmentなどの意図しない動作や、prompt injection等の不正行為)を検知することができ、特にAIがより長期的な課題に取り組む際にはより一層その内部プロセスを監視する手段が必要不可欠となるため、CoTの忠実性や解釈性が重要となる。このため、CoTの監視可能性が維持される（モデルのアーキテクチャや学習手法（たとえばCoTのプロセス自体は一見真っ当なことを言っているように見えるが、実はRewardHackingしている、など）によってはそもそもCoTが難読化し監視できなかったりするので、現状は脆弱性がある）、より改善していく方向にコミュニティとして動くことを推奨する。そして、モデルを研究開発する際にはモデルのCoT監視に関する評価を実施すべきであり、モデルのデプロイや開発の際にはCoTの監視に関する決定を組み込むべき、といったような提言のようである。

関連:

Loading…

#Pocket #OpenWeight #Contamination-free Issue Date: 2025-07-16 [Paper Note] Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination, Mingqi Wu+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力向上に関する研究が進展しており、特にQwen2.5モデルが強化学習（RL）を用いて顕著な改善を示している。しかし、他のモデルでは同様の成果が得られていないため、さらなる調査が必要である。Qwen2.5は数学的推論性能が高いが、データ汚染に脆弱であり、信頼性のある結果を得るためには、RandomCalculationというクリーンなデータセットを用いることが重要である。このデータセットを通じて、正確な報酬信号が性能向上に寄与することが示された。信頼性のある結論を得るためには、汚染のないベンチマークと多様なモデルでのRL手法の評価が推奨される。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

関連:
- Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05

こちらでQwen-mathに対して得られたRLでのgainは他モデルでは現れず汎化しないことも報告されている。

#Analysis #Pocket #Prompting #Reasoning #Batch Issue Date: 2025-07-16 [Paper Note] REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once, Zhuoshi Pan+, arXiv'25 GPT Summary- RESTという新しい評価フレームワークを提案し、LRMsを同時に複数の問題にさらすことで、実世界の推論能力を評価。従来のベンチマークの限界を克服し、文脈優先配分や問題間干渉耐性を測定。DeepSeek-R1などの最先端モデルでもストレステスト下で性能低下が見られ、RESTはモデル間の性能差を明らかにする。特に「考えすぎの罠」が性能低下の要因であり、「long2short」技術で訓練されたモデルが優れた結果を示すことが確認された。RESTはコスト効率が高く、実世界の要求に適した評価手法である。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #GRPO #read-later #Off-Policy Issue Date: 2025-07-15 [Paper Note] Quantile Reward Policy Optimization: Alignment with Pointwise Regression and Exact Partition Functions, Simon Matrenok+, arXiv'25 GPT Summary- QRPO（Quantile Reward Policy Optimization）は、ポイントワイズの絶対報酬から学習する新しい手法で、DPOのシンプルさとオフライン適用性を兼ね備えています。QRPOは量子報酬を用いてKL正則化された強化学習の目的の閉形式解への回帰を実現し、相対的な信号の必要性を排除します。実験結果では、QRPOがDPOやREBEL、SimPOと比較して、チャットやコーディングの評価で一貫して最高のパフォーマンスを示しました。また、堅牢な報酬でのトレーニングにより、長さバイアスが減少することが確認されました。 Comment

画像は元ポストより。off-policy RLでもlong contextで高い性能が出るようになったのだろうか

元ポスト:

Loading…

#MachineLearning #Pocket #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2025-07-14 [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25 GPT Summary- Muonオプティマイザーを大規模モデルにスケールアップするために、ウェイトデケイとパラメータごとの更新スケール調整を導入。これにより、Muonは大規模トレーニングで即座に機能し、計算効率がAdamWの約2倍に向上。新たに提案するMoonlightモデルは、少ないトレーニングFLOPで優れたパフォーマンスを達成し、オープンソースの分散Muon実装や事前トレーニング済みモデルも公開。 Comment

解説ポスト:

Loading…

こちらでも紹介されている:
- きみはNanoGPT speedrunを知っているか？, PredNext, 2025.07

解説:

Loading…

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Stability Issue Date: 2025-07-12 [Paper Note] SingLoRA: Low Rank Adaptation Using a Single Matrix, David Bensaïd+, arXiv'25 GPT Summary- SingLoRAは、LoRAの低ランク適応を再定式化し、単一の低ランク行列とその転置の積を用いることで、トレーニングの安定性を向上させ、パラメータ数をほぼ半減させる手法です。実験により、常識推論タスクでLLama 7Bを用いたファインチューニングで91.3%の精度を達成し、LoRAやLoRA+を上回る結果を示しました。また、画像生成においてもStable Diffusionのファインチューニングで高い忠実度を実現しました。 Comment

元ポスト:

Loading…

LoRAは低ランク行列BAの積を計算するが、オリジナルのモデルと同じ挙動から学習をスタートするために、Bをzeroで初期化し、Aはランダムに初期化する。このAとBの不均衡さが、勾配消失、爆発、あるいはsub-optimalな収束の要因となってしまっていた（inter-matrix scale conflicts)。特に、LoRAはモデルのwidthが大きくなると不安定になるという課題があった。このため、低ランク行列を2つ使うのではなく、1つの低ランク行列（とその転置）およびoptimizationのstep tごとにtrainableなパラメータがどの程度影響を与えるかを調整する度合いを決めるscalar function u(t)を導入することで、低ランク行列間の不均衡を解消しつつ、パラメータ数を半減し、学習の安定性と性能を向上させる。たとえばu(t)を学習開始時にzeroにすれば、元のLoRAにおいてBをzeroに初期化するのと同じ挙動（つまり元のモデルと同じ挙動から学習スタートができたりする。みたいな感じだろうか？

#Pretraining #Pocket #Batch #One-Line Notes #Reference Collection Issue Date: 2025-07-12 [Paper Note] Small Batch Size Training for Language Models: When Vanilla SGD Works, and Why Gradient Accumulation Is Wasteful, Martin Marek+, arXiv'25 GPT Summary- 小さなバッチサイズに対するAdamのハイパーパラメータをスケーリングする新しいルールを提案。これにより、小さなバッチサイズでも安定したトレーニングが可能で、大きなバッチサイズと同等以上のパフォーマンスを達成。勾配蓄積は推奨せず、実用的なハイパーパラメータ設定のガイドラインを提供。 Comment

元ポスト:

Loading…

論文中のFigure1において、AdamWにおいてbatchsizeが1の方が512の場合と比べてlearning_rateの変化に対してロバストである旨が記述されている。

https://github.com/user-attachments/assets/0c1efb5d-6eeb-4fd7-ba06-e4296e988a6c" />

似たような話でMTでバッチサイズ小さいほうが性能良いです、みたいな話が昔あったような

（追記）
気になって思い出そうとしていたが、MTではなく画像認識の話だったかもしれない（だいぶうろ覚え）
- [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18

参考:

Loading…

解説:

Loading…

実際に8Bモデルの事前学習においてβ2を0.99にしたところ、学習が不安定になり、かつ最終的なPerplexityも他の設定に勝つことができなかったとのこと:

Loading…

#Analysis #Pretraining #Pocket #COLM #Selected Papers/Blogs #Stability #KeyPoint Notes Issue Date: 2025-07-11 [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25 GPT Summary- 大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment

元ポスト:

Loading…

著者ポスト（スライド）:

Loading…

非常に興味深いので参照のこと。初期化の気持ちの部分など勉強になる。

#Pocket #MoE(Mixture-of-Experts) #NeurIPS #Privacy Issue Date: 2025-07-11 [Paper Note] FlexOlmo: Open Language Models for Flexible Data Use, Weijia Shi+, NeurIPS'25 GPT Summary- FlexOlmoは、データ共有なしでの分散トレーニングを可能にする新しい言語モデルで、異なるモデルパラメータが独立してトレーニングされ、データ柔軟な推論を実現します。混合専門家アーキテクチャを採用し、公開データセットと特化型セットでトレーニングされ、31の下流タスクで評価されました。データライセンスに基づくオプトアウトが可能で、平均41%の性能改善を達成し、従来の手法よりも優れた結果を示しました。FlexOlmoは、データ所有者のプライバシーを尊重しつつ、閉じたデータの利点を活かすことができます。 Comment

元ポスト:

Loading…

データのオーナー側がプロプライエタリデータを用いてエキスパート(FFNとRouter embeddings)を学習し、それをpublicにシェアすることで利用できるようにする。データオーナー側はデータそのものを提供するのではなく、モデルのパラメータを共有するだけで済み、かつ自分たちのエキスパートをRouter側で利用するか否かは制御可能だから、opt-in/outが制御できる、みたいな話っぽい？

著者ポスト:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #RLVR Issue Date: 2025-07-10 [Paper Note] First Return, Entropy-Eliciting Explore, Tianyu Zheng+, arXiv'25 GPT Summary- FR3E（First Return, Entropy-Eliciting Explore）は、強化学習における不安定な探索を改善するための構造化された探索フレームワークであり、高不確実性の意思決定ポイントを特定し、中間フィードバックを提供します。実験結果は、FR3Eが安定したトレーニングを促進し、一貫した応答を生成することを示しています。 Comment

元ポスト:

Loading…

RLVRのロールアウトにおいて、reasoning traceにおける各トークンを出力する際にエントロピーが高い部分を特定し（つまり、複数の候補がありモデルが迷っている）、その部分について異なる意図的に異なる生成パスを実行することで探索を促すようにするとRLVRがよりreliableになるといった話のようである

#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #RepresentationLearning #InstructionTuning #ContrastiveLearning #ICLR #Generalization #Decoder Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

Decoder-Only LLMのlast hidden layerのmatrixを新たに導入したLatent Attention Blockのinputとし、Latent Attention BlockはEmbeddingをOutputする。Latent Attention Blockは、last hidden layer (系列長l×dの
matrix)をQueryとみなし、保持しているLatent Array(trainableなmatrixで辞書として機能する;後述の学習においてパラメータが学習される)[^1]をK,Vとして、CrossAttentionによってcontext vectorを生成し、その後MLPとMean Poolingを実施することでEmbeddingに変換する。

学習は2段階で行われ、まずQAなどのRetrievalタスク用のデータセットをIn Batch negativeを用いてContrastive Learningしモデルの検索能力を高める。その後、検索と非検索タスクの両方を用いて、hard negativeによってcontrastive learningを実施し、検索以外のタスクの能力も高める（下表）。両者において、instructionテンプレートを用いて、instructionによって条件付けて学習をすることで、instructionに応じて生成されるEmbeddingが変化するようにする。また、学習時にはLLMのcausal maskは無くし、bidirectionalにrepresentationを考慮できるようにする。

[^1]: [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22 Perceiver-IOにインスパイアされている。

#Pocket #Reasoning #SmallModel #OpenWeight Issue Date: 2025-07-10 [Paper Note] Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation, Liliang Ren+, arXiv'25 GPT Summary- 最近の言語モデルの進展により、状態空間モデル（SSM）の効率的なシーケンスモデリングが示されています。本研究では、ゲーテッドメモリユニット（GMU）を導入し、Sambaベースの自己デコーダーからメモリを共有する新しいデコーダーハイブリッドアーキテクチャSambaYを提案します。SambaYはデコーディング効率を向上させ、長文コンテキスト性能を改善し、位置エンコーディングの必要性を排除します。実験により、SambaYはYOCOベースラインに対して優れた性能を示し、特にPhi4-mini-Flash-Reasoningモデルは推論タスクで顕著な成果を上げました。トレーニングコードはオープンソースで公開されています。 Comment

HF: https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning

元ポスト:

Loading…

#Pretraining #Pocket #Dataset #SyntheticData #Coding #Mathematics #mid-training #COLM Issue Date: 2025-07-10 [Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

非常に大規模な数学の事前学習/mid-training向けのデータセット

CommonCrawlのHTMLから、さまざまなフィルタリング処理（reformatting, 2 stageのHTML parserの活用（片方はnoisyだが高速、もう一方は高性能だが遅い）, fasttextベースの分類器による抽出, deduplication等）を実施しMegaMath-Webを作成、また、MegaMathWebをさらに分類器で低品質なものをフィルタリングし、LLMによってノイズ除去、テキストのreorganizingを実施し（≠ピュアな合成データ）継続事前学習、mid-training向けの高品質なMegaMath-Web-Proを作成。

MegaMathCodeはThe Stack V2 ([Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 ) をベースにしており、mathematical reasoning, logic puzzles, scientific computationに関するコードを収集。まずこれらのコードと関連が深い11のプログラミング言語を選定し、そのコードスニペットのみを対象とする。次にstrong LLMを用いて、数学に関するrelevanceスコアと、コードの品質を0--6のdiscrete scoreでスコアリングし学習データを作成。作成した学習データでSLMを学習し大規模なフィルタリングを実施することでMegaMath-Codeを作成。

最後にMegaMath-{Web, code}を用いて、Q&A, code data, text&code block dataの3種類を合成。Q&Aデータの合成では、MegaMath-WebからQAペアを抽出し、多様性とデータ量を担保するためQwen2.5-72B-Instruct, Llama3.3-70B-Instructの両方を用いて、QAのsolutionを洗練させる（reasoning stepの改善, あるいはゼロから生成する[^1])ことで生成。また、code dataでは、pythonを対象にMegaMath-Codeのデータに含まれるpython以外のコードを、Qwen2.5-Coder-32B-Instructと、Llamd3.1-70B-Instructによってpythonに翻訳することでデータ量を増やした。text&code blockデータでは、MegaMath-Webのドキュメントを与えて、ブロックを生成（タイトル、数式、結果、コードなど[^1]）し、ブロックのverificationを行い（コードが正しく実行できるか、実行結果とanswerが一致するか等）、verifiedなブロックを残すことで生成。

[^1]: この辺は論文の記述を咀嚼して記述しており実サンプルを見ていないので少し正しい認識か不安

#Supervised-FineTuning (SFT) #Japanese #OOD #DiseaseNameRecognition Issue Date: 2025-07-10 [Paper Note] Toward Cross-Hospital Deployment of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese, Shimizu+, JMIR'25 Comment

元ポスト:

Loading…

#Survey #Pocket #LatentReasoning Issue Date: 2025-07-10 [Paper Note] A Survey on Latent Reasoning, Rui-Jie Zhu+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、明示的な思考の連鎖（CoT）によって優れた推論能力を示すが、自然言語推論への依存が表現力を制限する。潜在的推論はこの問題を解決し、トークンレベルの監視を排除する。研究は、ニューラルネットワーク層の役割や多様な潜在的推論手法を探求し、無限深度の潜在的推論を可能にする高度なパラダイムについて議論する。これにより、潜在的推論の概念を明確にし、今後の研究方向を示す。関連情報はGitHubリポジトリで提供されている。 Comment

元ポスト:

Loading…

Latent Reasoningというテクニカルタームが出てきた

出力されるdiscreteなtokenによってreasoningを実施するのではなく、モデル内部のrepresentationでreasoningを実施するLatent ReasoningのSurvey

https://github.com/user-attachments/assets/a34451e6-bf4a-432c-8c5b-facdbfb55c41" />

https://github.com/user-attachments/assets/e53b3bba-f35f-4734-af71-14a90af8ee6f" />

#Pocket #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics Issue Date: 2025-07-09 [Paper Note] CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization, Zhongyuan Peng+, arXiv'25 GPT Summary- 自然言語の数学的表現を実行可能なコードに翻訳する課題に対し、批評者の役割を能動的な学習コンポーネントに変えるCriticLeanという新しい強化学習フレームワークを提案。CriticLeanGPTを用いて形式化の意味的忠実性を評価し、CriticLeanBenchでその能力を測定。285K以上の問題を含むFineLeanCorpusデータセットを構築し、批評段階の最適化が信頼性のある形式化に重要であることを示す。 Comment

元ポスト:

Loading…

Lean 4 形式に

#ComputerVision #Embeddings #InformationRetrieval #Pocket #MultiModal #RAG(RetrievalAugmentedGeneration) #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#NaturalLanguageGeneration #Citations #Supervised-FineTuning (SFT) #COLM #AcademicWriting Issue Date: 2025-07-08 [Paper Note] ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations, Yubo Wang+, COLM'25 GPT Summary- ScholarCopilotは、学術的な執筆を支援するために大規模言語モデルを強化したフレームワークで、正確で文脈に関連した引用を生成します。取得トークンを用いて動的に文献を取得し、生成プロセスを補強します。評価では、取得精度が40.1%に達し、生成品質も他のモデルを大幅に上回りました。特に、ScholarCopilotはChatGPTを超える性能を示し、引用の質で100%の好ましさを達成しました。 Comment

元ポスト:

Loading…

従来のRAGベースのAcademicWriting手法では、まずReferenceを検索して、その内容をcontextに含めてテキストを生成するというSequentialなパイプラインだったが、本研究では通常のNextTokenPrediction Lossに加え、特殊トークン\[RET\]を導入し、ContrastiveLearningによって、\[RET\]トークンがトリガーとなり、生成過程のContextとqueryから適切なReferenceを検索できるEmbeddingを出力し、Referenceを検索し、動的にReferenceの内容をcontextに加え、テキストを生成する手法を提案している。

データセットはarXivからlatex sourceを収集し、bibliography部分からReferenceのタイトルをQwenを用いて抽出。タイトルをarXivおよびSemanticScholarのデータベースと照合し、paperとReferenceの紐付けを実施することで構築している。

GPT-4oによるjudgeの結果、ground truthのcitationを用いた場合には及ばないが、提案手法により品質が向上し、citation retrievalのRecall@Kも大幅に改善している。

#ComputerVision #MachineLearning #Pocket #Transformer #MultiModal #Architecture #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-07-06 [Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

#Analysis #Pocket #Evaluation #LLM-as-a-Judge #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

これは結果を細かく見るのと、評価したタスクの形式とバイアスが生じないかをきちんと確認した方が良いような気がする。

それは置いておいたとして、たとえば、Figure9bはLlamaの異なるモデルサイズは、高い相関を示しているが、それはベースが同じだからそうだろうなあ、とは思う。一方、9aはClaude, Nova, Mistral, GPTなど多様なプロバイダーのモデルで高い相関が示されている。Llama3-70BとLLama3.{1,2,3}-70Bでは相関が低かったりしている。

Figure1(b)はHELMで比較的最新のモデル間でプロバイダーが別でも高い相関があるようにみえる。

このような相関がある要因や傾向については論文を読んでみないとわからない。

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

LLM-as-a-Judgeにおいて、評価者となるモデルと評価対象となるモデルが同じプロバイダーやシリーズの場合は（エラーの傾向が似ているので）性能がAccuracyが真のAccuracyよりも高めに出ている。また評価者よりも性能が低いモデルに対しても、性能が実際のAccuracyよりも高めに出す傾向にある（エラーの相関によってエラーであるにも関わらず正解とみなされAccuracyが高くなる)ようである。逆に、評価者よりも評価対象が性能が高い場合、評価者は自分が誤ってしまうquestionに対して、評価対象モデルが正解となる回答をしても、それに対して報酬を与えることができず性能が低めに見積もられてしまう。これだけの規模の実験で示されたことは、大変興味深い。

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#Pocket #Alignment #ReinforcementLearning #RewardModel Issue Date: 2025-07-05 [Paper Note] Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy, Chris Yuhao Liu+, arXiv'25 GPT Summary- 報酬モデル（RMs）の性能向上のために、4,000万の好みペアからなる大規模データセット「SynPref-40M」を提案。人間とAIの相乗効果を活用した二段階パイプラインでデータをキュレーションし、Skywork-Reward-V2を導入。これにより、7つの報酬モデルベンチマークで最先端のパフォーマンスを達成。データのスケールと高品質なキュレーションが効果をもたらすことを確認。Skywork-Reward-V2はオープン報酬モデルの進展を示し、人間-AIキュレーションの重要性を強調。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #Evaluation #read-later Issue Date: 2025-07-05 [Paper Note] Answer Matching Outperforms Multiple Choice for Language Model Evaluation, Nikhil Chandak+, arXiv'25 GPT Summary- 複数選択のベンチマークは言語モデル評価において重要だが、質問を見ずに回答できることが多い。これに対し、回答マッチングという生成的評価を提案し、自由形式の応答を生成させて参照回答と一致するかを判断。MMLU-ProとGPQA-Diamondで人間の採点データを取得し、回答マッチングがほぼ完璧な一致を達成することを示した。評価方法の変更により、モデルのランキングが大きく変わる可能性がある。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

Multiple Choice Question (MCQ)では、選択肢の中から消去法（論文中では仲間はずれを一つ探す, odd one cut)によって、正解の目処が立ってしまい、分類能力を評価するような尺度になっている。一方で同じモデルでも、Questionのみを与えて、選択肢無しで評価をすると、選択肢ありでは正解できたのに正解できない、という現象が生じる。これはモデルの分類能力ではなく、生成能力を評価しているからであり、これまでのMCQでの評価はモデルの能力の一部、特に識別能力しか評価できていないことが示唆される。このため、Answer Matchingと呼ばれる、モデルに自由記述で出力をさせた後に、referenaceと出力が一致しているか否かで評価をする手法を提案している。GPQA DiamondとMMLU-Proにおいて、人間にAnswer Matchingによる評価をさせオラクルを取得した後、SLMやより大きなモデルでAnswer Matchingを実験したところ、o4-miniを用いたLLM-as-a-Judgeよりも、SLMにおいてさえオラクルに近い性能を発揮し、人間と同等のレベルで自動評価が可能なことが示唆される。

まだ冒頭しか読めていないので後で読む

#Survey #Pocket #ScientificDiscovery Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 GPT Summary- AIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Alignment #Supervised-FineTuning (SFT) #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#Pocket #Transformer #Architecture #Normalization #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-07-03 [Paper Note] The Curse of Depth in Large Language Models, Wenfang Sun+, arXiv'25 GPT Summary- 本論文では、「深さの呪い」という現象を紹介し、LLMの深い層が期待通りに機能しない理由を分析します。Pre-LNの使用が出力の分散を増加させ、深い層の貢献を低下させることを特定。これを解決するために層正規化スケーリング（LNS）を提案し、出力分散の爆発を抑制します。実験により、LNSがLLMの事前トレーニング性能を向上させることを示し、教師ありファインチューニングにも効果があることを確認しました。 Comment

元ポスト:

Loading…

#Analysis #EfficiencyImprovement #Pocket #Reasoning #Distillation Issue Date: 2025-07-03 [Paper Note] NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks, Yang Li+, arXiv'25 GPT Summary- 教師モデルからの推論トレースを用いて生徒モデルの能力を向上させる方法を体系的に研究。NaturalReasoningに基づく高品質な「NaturalThoughts」をキュレーションし、サンプル効率とスケーラビリティを分析。データサイズの拡大が性能向上に寄与し、多様な推論戦略を必要とする例が効果的であることを発見。LlamaおよびQwenモデルでの評価により、NaturalThoughtsが既存のデータセットを上回り、STEM推論ベンチマークで優れた性能を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #Evaluation #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

Portal2を使った新たなベンチマーク。筆者は昔このゲームを少しだけプレイしたことがあるが、普通に難しかった記憶がある😅

細かいが表中のGPT-o3は正しくはo3だと思われる。
時間がなくて全然しっかりと読めていないが、reasoning effortやthinkingモードはどのように設定して評価したのだろうか。

#ComputerVision #Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 [Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25 GPT Summary- マルチモーダルインコンテキスト学習（ICL）は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS #Test-Time Scaling Issue Date: 2025-07-01 [Paper Note] Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search, Yuichi Inoue+, NeurIPS'25 Spotlight GPT Summary- AB-MCTSを提案し、外部フィードバックを活用して繰り返しサンプリングを改善。探索木のノードで新しい応答を「広げる」か「深める」かを動的に決定。実験により、AB-MCTSが従来の手法を上回り、LLMsの応答の多様性と解決策の洗練を強調。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

- 戦えるAIエージェントの作り方, Takuya Akiba, SakanaAI, 2025.10

のスライド中に解説がある。

#Pocket #Dataset #AIAgents #Evaluation #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#Analysis #Pocket #ReinforcementLearning #TransferLearning #DPO #GRPO #VerifiableRewards #Off-Policy #On-Policy #Non-VerifiableRewards Issue Date: 2025-06-30 [Paper Note] Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv'25 GPT Summary- 大規模言語モデルのファインチューニングにおける強化学習手法の効果を、オフラインからオンラインへの移行において調査。数学タスクと指示に従うタスクのベンチマーク評価を行い、オンラインおよびセミオンラインの最適化手法がオフライン手法を上回る結果を示す。トレーニングダイナミクスとハイパーパラメータ選択について分析し、検証可能な報酬と検証不可能な報酬を共同で扱うことでパフォーマンス向上を確認。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Architecture Issue Date: 2025-06-28 [Paper Note] Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models, Zihan Wang+, arXiv'25 GPT Summary- Chain-of-Experts（CoE）は、逐次的な専門家間のコミュニケーションを導入した新しいMixture-of-Experts（MoE）アーキテクチャで、トークンを反復的に処理する。各反復ステップで専用のルーターを使用し、動的な専門家選択を可能にすることで、モデルの表現能力を向上させる。CoEは数学的推論タスクにおいて、従来のMoEと比較して検証損失を低下させ、メモリ使用量を削減する。反復的残差構造と専門家の専門化が、より表現力豊かな結果をもたらすことが示されている。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #Dataset #MultiLingual #COLM #Selected Papers/Blogs Issue Date: 2025-06-28 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment

元ポスト:

Loading…

v1
- The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24

abstを見る限りFinewebを多言語に拡張した模様

openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion

#Analysis #Pocket #ReinforcementLearning #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-06-27 [Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 GPT Summary- 異なるベース言語モデル（LlamaやQwen）の強化学習（RL）における挙動を調査し、中間トレーニング戦略がRLのダイナミクスに与える影響を明らかに。高品質の数学コーパスがモデルのパフォーマンスを向上させ、長い連鎖的思考（CoT）がRL結果を改善する一方で、冗長性や不安定性を引き起こす可能性があることを示す。二段階の中間トレーニング戦略「Stable-then-Decay」を導入し、OctoThinkerモデルファミリーを開発。オープンソースのモデルと数学推論コーパスを公開し、RL時代の基盤モデルの研究を支援することを目指す。 Comment

元ポスト:

Loading…

mid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematicallyに調査している模様

#Pocket #ReinforcementLearning Issue Date: 2025-06-27 [Paper Note] RLPR: Extrapolating RLVR to General Domains without Verifiers, Tianyu Yu+, arXiv'25 GPT Summary- RLVRはLLMの推論能力を向上させるが、主に数学やコードに限られる。これを克服するため、検証者不要のRLPRフレームワークを提案し、LLMのトークン確率を報酬信号として利用。ノイズの多い確率報酬に対処する手法を導入し、実験によりGemma、Llama、Qwenモデルで推論能力を向上させた。特に、TheoremQAで7.6ポイント、Minervaで7.5ポイントの改善を示し、General-Reasonerを平均1.6ポイント上回った。 Comment

元ポスト:

Loading…

既存のRLVRはVerifierを構築しなければならず、しばしばそのVerifierは複雑になりやすく、スケールさせるには課題があった。RLPR（Probabliity Reward)は、生成された応答から回答yを抽出し、残りをreasoning zとする。そして回答部分yをreference y^\*で置換したトークン列o'を生成（zがo'に対してどのような扱いになるかは利用するモデルや出力フォーマットによる気がする)し、o'のポリシーモデルでのトークン単位での平均生成確率を報酬とする。尤度のような系列全体の生起確率を考慮する方法が直感的に役に立ちそうだが、計算の際の確率積は分散が高いだけでなく、マイナーな類義語が与えられた時に（たとえば1 tokenだけ生起確率が小さかった場合)に、Rewardが極端に小さくなりsensitiveであることを考察し、平均生成確率を採用している。

Rule basedなVerifierを用いたRLVRよりもgeneralなドメインとmathドメインで性能向上。コーディングなどでも効果はあるのだろうか？

ざっくり見た感じ、RLVRがそもそも適用できないドメインで実験した場合の結果がないように見え、適用した場合に有効なのかは気になるところ。

#Pocket #ReinforcementLearning #PRM Issue Date: 2025-06-26 [Paper Note] Process Reward Models That Think, Muhammad Khalifa+, arXiv'25 GPT Summary- 本研究では、データ効率の良いステップバイステップの検証器（ThinkPRM）を提案し、少ないプロセスラベルで高性能を実現します。ThinkPRMは、長いCoTモデルの推論能力を活用し、PRM800Kのわずか1%のプロセスラベルで、従来の検証器を上回る性能を示します。具体的には、ProcessBenchやMATH-500などのベースラインを超え、ドメイン外評価でも優れた結果を得ています。最小限の監視でのトレーニングを通じて、検証計算のスケーリングの重要性を強調しています。 #Pocket #ReinforcementLearning #RewardHacking Issue Date: 2025-06-26 [Paper Note] Robust Reward Modeling via Causal Rubrics, Pragya Srivastava+, arXiv'25 GPT Summary- 報酬モデル（RMs）は人間のフィードバックを通じて大規模言語モデル（LLMs）を整合させるが、報酬ハッキングの影響を受けやすい。本研究では、報酬ハッキングを軽減するための新しいフレームワーク「Crome」を提案。Cromeは因果的拡張と中立的拡張を用いて、因果属性に基づく感度と虚偽属性に対する不変性を強制する。実験結果では、CromeはRewardBenchで標準的なベースラインを大幅に上回り、平均精度を最大5.4%向上させた。 Comment

元ポスト:

Loading…

以下がresearch question:

#Pocket #Alignment #SyntheticData #SyntheticDataGeneration #ICLR #Selected Papers/Blogs Issue Date: 2025-06-25 [Paper Note] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR'25 GPT Summary- 高品質な指示データはLLMの整合に不可欠であり、Magpieという自己合成手法を提案。Llama-3-Instructを用いて400万の指示と応答を生成し、30万の高品質なインスタンスを選定。Magpieでファインチューニングしたモデルは、従来のデータセットを用いたモデルと同等の性能を示し、特に整合ベンチマークで優れた結果を得た。 Comment

OpenReview: https://openreview.net/forum?id=Pnk7vMbznK

#Embeddings #Pocket #RepresentationLearning #pretrained-LM #Japanese Issue Date: 2025-06-25 [Paper Note] llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length, Issa Sugiura+, arXiv'25 GPT Summary- ModernBERTモデル（llm-jp-modernbert）は、8192トークンのコンテキスト長を持つ日本語コーパスで訓練され、フィルマスクテスト評価で良好な結果を示す。下流タスクでは既存のベースラインを上回らないが、コンテキスト長の拡張効果を分析し、文の埋め込みや訓練中の遷移を調査。再現性を支援するために、モデルと評価コードを公開。 Comment

参考:
- modernbert-ja-130m, SB Intuitions, 2025.02

#Pocket #Dataset #Alignment #Safety #Japanese #PostTraining Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/

#EfficiencyImprovement #Pretraining #Pocket #MoE(Mixture-of-Experts) #ICLR Issue Date: 2025-06-25 [Paper Note] Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization, Taishi Nakamura+, ICLR'25 GPT Summary- Drop-Upcycling手法を提案し、MoEモデルのトレーニング効率を向上。事前にトレーニングされた密なモデルの知識を活用しつつ、一部の重みを再初期化することで専門家の専門化を促進。大規模実験により、5.9BパラメータのMoEモデルが13B密なモデルと同等の性能を達成し、トレーニングコストを約1/4に削減。すべての実験リソースを公開。 Comment

OpenReview: https://openreview.net/forum?id=gx1wHnf5Vp

提案手法の全体像とDiversity re-initializationの概要。元のUpcyclingでは全てidenticalな重みでreplicateされていたため、これが個々のexpertがlong termでの学習で特化することの妨げになり、最終的に最大限のcapabilityを発揮できず、収束が遅い要因となっていた。これを、Upcyclingした重みのうち、一部のindexのみを再初期化することで、replicate元の知識を保持しつつ、expertsの多様性を高めることで解決する。

提案手法は任意のactivation function適用可能。今回はFFN Layerのactivation functionとして一般的なSwiGLUを採用した場合で説明している。

Drop-Upcyclingの手法としては、通常のUpcyclingと同様、FFN Layerの重みをn個のexpertsの数だけreplicateする。その後、re-initializationを実施する比率rに基づいて、[1, intermediate size d_f]の範囲からr*d_f個のindexをサンプリングする。最終的にSwiGLU、およびFFNにおける3つのWeight W_{gate, up, down}において、サンプリングされたindexと対応するrow/columnと対応する重みをre-initializeする。

re-initializeする際には、各W_{gate, up, down}中のサンプリングされたindexと対応するベクトルの平均と分散をそれぞれ独立して求め、それらの平均と分散を持つ正規分布からサンプリングする。

学習の初期から高い性能を発揮し、long termでの性能も向上している。また、learning curveの形状もscratchから学習した場合と同様の形状となっており、知識の転移とexpertsのspecializationがうまく進んだことが示唆される。

解説: https://llm-jp.nii.ac.jp/news/post-566/

#Pocket #Verification Issue Date: 2025-06-25 [Paper Note] Shrinking the Generation-Verification Gap with Weak Verifiers, Jon Saad-Falcon+, arXiv'25 GPT Summary- Weaverは、複数の弱いverifiersを組み合わせて強力なverifierを設計するフレームワークであり、ラベル付きデータへの依存を減らすために弱い監視を利用します。出力を正規化し、特定のverifiersをフィルタリングすることで、精度の向上を図ります。Weaverは、推論および数学タスクにおいてPass@1性能を大幅に改善し、Llama 3.3 70B Instructを用いて高い精度を達成しました。計算コスト削減のために、統合出力スコアを用いてクロスエンコーダを訓練します。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #DiffusionModel Issue Date: 2025-06-25 [Paper Note] Mercury: Ultra-Fast Language Models Based on Diffusion, Inception Labs+, arXiv'25 GPT Summary- 新しい拡散型大規模言語モデルMercuryを発表。特にコーディングアプリケーション向けのMercury Coderは、MiniとSmallの2サイズで提供され、速度と品質で最先端を達成。独立評価では、Mercury Coder Miniが1109トークン/秒、Smallが737トークン/秒を記録し、他のモデルを大幅に上回る性能を示す。さらに、実世界での検証結果や公開API、無料プレイグラウンドも提供。 Comment

元ポスト:

Loading…

スループット（モデルのトークン生成速度）が、SoTAらしいdLLMモデル

解説:

Loading…

#Pretraining #Pocket #Dataset #SyntheticData #COLM Issue Date: 2025-06-25 [Paper Note] Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, COLM'25 GPT Summary- スケーリング法則に基づき、低品質なウェブデータを再利用する手法「REWIRE」を提案。これにより、事前学習データの合成表現を増やし、フィルタリングされたデータのみでのトレーニングと比較して、22のタスクで性能を向上。生データと合成データの混合が効果的であることを示し、ウェブテキストのリサイクルが事前学習データのスケーリングに有効であることを示唆。 Comment

元ポスト:
-

Loading…

学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

data: https://huggingface.co/datasets/facebook/recycling_the_web

#Pocket #Reasoning #PRM Issue Date: 2025-06-25 [Paper Note] ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs, Jiaru Zou+, arXiv'25 GPT Summary- 新しいプロセス報酬モデルReasonFlux-PRMを提案し、推論トレースの評価を強化。ステップと軌道の監視を組み込み、報酬割り当てを細かく行う。実験により、ReasonFlux-PRM-7Bが高品質なデータ選択と性能向上を実現し、特に監視付きファインチューニングで平均12.1%の向上を達成。リソース制約のあるアプリケーション向けにReasonFlux-PRM-1.5Bも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #MultiModal #Tokenizer Issue Date: 2025-06-24 [Paper Note] Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations, Jiaming Han+, arXiv'25 GPT Summary- 本論文では、視覚理解と生成を統一するマルチモーダルフレームワークTarを提案。Text-Aligned Tokenizer（TA-Tok）を用いて画像を離散トークンに変換し、視覚とテキストを統一空間に統合。スケール適応型のエンコーディングとデコーディングを導入し、高忠実度の視覚出力を生成。迅速な自己回帰モデルと拡散ベースのモデルを用いたデトークナイザーを活用し、視覚理解と生成の改善を実現。実験結果では、Tarが既存手法と同等以上の性能を示し、効率的なトレーニングを達成。 Comment

元ポスト:

Loading…

text modalityとvision modalityを共通の空間で表現する

Visual Understanding/Generationのベンチで全体的に高い性能を達成

#Analysis #Pocket #SelfImprovement #ICLR #read-later #Verification Issue Date: 2025-06-24 [Paper Note] Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models, Yuda Song+, ICLR'25 GPT Summary- 自己改善はLLMの出力検証を通じてデータをフィルタリングし、蒸留するメカニズムである。本研究では、自己改善の数学的定式化を行い、生成-検証ギャップに基づくスケーリング現象を発見。さまざまなモデルとタスクを用いた実験により、自己改善の可能性とその性能向上方法を探求し、LLMの理解を深めるとともに、将来の研究への示唆を提供する。 Comment

参考: https://joisino.hatenablog.com/entry/mislead

Verificationに対する理解を深めるのに非常に良さそう

#Analysis #Pocket #ICLR #Verification Issue Date: 2025-06-24 [Paper Note] On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks, Kaya Stechly+, ICLR'25 GPT Summary- LLMsの推論能力に関する意見の相違を背景に、反復的なプロンプトの効果をGame of 24、グラフ彩色、STRIPS計画の3領域で調査。自己批評がパフォーマンスに悪影響を及ぼす一方、外部の正しい推論者による検証がパフォーマンスを向上させることを示した。再プロンプトによって複雑な設定の利点を維持できることも確認。 Comment

参考: https://joisino.hatenablog.com/entry/mislead

OpenReview: https://openreview.net/forum?id=4O0v4s3IzY

#Analysis #Pocket #RLHF #ICLR Issue Date: 2025-06-24 [Paper Note] Language Models Learn to Mislead Humans via RLHF, Jiaxin Wen+, ICLR'25 GPT Summary- RLHFは言語モデルのエラーを悪化させる可能性があり、モデルが人間を納得させる能力を向上させる一方で、タスクの正確性は向上しない。質問応答タスクとプログラミングタスクで被験者の誤検出率が増加し、意図された詭弁を検出する手法がU-SOPHISTRYには適用できないことが示された。これにより、RLHFの問題点と人間支援の研究の必要性が浮き彫りになった。 Comment

参考: https://joisino.hatenablog.com/entry/mislead

#Pretraining #Pocket #Tokenizer Issue Date: 2025-06-23 [Paper Note] From Bytes to Ideas: Language Modeling with Autoregressive U-Nets, Mathurin Videau+, arXiv'25 GPT Summary- 自己回帰型U-Netを用いてトークン化の柔軟性を向上させ、モデルが生のバイトから単語や単語のペアを生成することでマルチスケールの視点を提供。深い段階では広範な意味パターンに注目し、浅い段階はBPEベースラインに匹敵する性能を発揮。これにより、文字レベルのタスクやリソースの少ない言語間での知識移転が可能となる。 Comment

元ポスト:

Loading…

#Pocket #Dataset #ReinforcementLearning #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain Issue Date: 2025-06-22 [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

#Pocket #MoE(Mixture-of-Experts) #ICML #Scaling Laws Issue Date: 2025-06-21 [Paper Note] Scaling Laws for Upcycling Mixture-of-Experts Language Models, Seng Pei Liew+, ICML'25 GPT Summary- LLMsの事前学習は高コストで時間がかかるため、アップサイクリングとMoEモデルの計算効率向上が提案されている。本研究では、アップサイクリングをMoEに適用し、データセットのサイズやモデル構成に依存するスケーリング法則を特定。密なトレーニングデータとアップサイクリングデータの相互作用が効率を制限することを示し、アップサイクリングのスケールアップに関する指針を提供。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=ZBBo19jldX

#Analysis #Pocket #Chain-of-Thought Issue Date: 2025-06-18 [Paper Note] Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought, Hanlin Zhu+, arXiv'25 GPT Summary- 本研究では、連続CoTsを用いた二層トランスフォーマーが有向グラフ到達可能性問題を解決できることを証明。連続CoTsは複数の探索フロンティアを同時にエンコードし、従来の離散CoTsよりも効率的に解を導く。実験により、重ね合わせ状態が自動的に現れ、モデルが複数のパスを同時に探索することが確認された。 Comment

元ポスト:

Loading…

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #OpenWeight #OpenSource #PostTraining Issue Date: 2025-06-18 [Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25 GPT Summary- 本研究では、教師ありファインチューニング（SFT）と強化学習（RL）の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment

元ポスト:

Loading…

様々なtakeawayがまとめられている。

SFT,RLに利用されたデータも公開

- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

において事前学習時に4 epochまでは性能の改善幅が大きいと報告されていたが、SFTでも5 epoch程度まで学習すると良い模様。

また、SFT dataをscalingさせる際は、promptの数だけでなく、prompt単位のresponse数を増やすのが効果的

#Pocket #Reasoning Issue Date: 2025-06-18 [Paper Note] Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks, Yifei Xu+, arXiv'25 GPT Summary- DRO（直接推論最適化）を提案し、LLMsをオープンエンドの長文推論タスクに微調整するための強化学習フレームワークを構築。新しい報酬信号R3を用いて推論と参照結果の一貫性を捉え、自己完結したトレーニングを実現。ParaRevとFinQAのデータセットで強力なベースラインを上回る性能を示し、広範な適用可能性を確認。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Reasoning Issue Date: 2025-06-18 [Paper Note] Wait, We Don't Need to "Wait" Removing Thinking Tokens Improves Reasoning Efficiency, Chenlong Wang+, arXiv'25 GPT Summary- 自己反省を抑制する「NoWait」アプローチを提案し、推論の効率を向上。10のベンチマークで最大27%-51%の思考の連鎖の長さを削減し、有用性を維持。マルチモーダル推論のための効果的なソリューションを提供。 Comment

Wait, Hmmといったlong CoTを誘導するようなtokenを抑制することで、Accはほぼ変わらずに生成されるトークン数を削減可能、といった図に見える。Reasoningモデルでデコーディング速度を向上したい場合に効果がありそう。

元ポスト:

Loading…

#Analysis #Pocket #Supervised-FineTuning (SFT) #EMNLP #read-later Issue Date: 2025-06-18 [Paper Note] Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality, Yuto Harada+, EMNLP'25 GPT Summary- SFTはLLMを人間の指示に整合させる重要なプロセスであり、1,000以上のSFTモデルを生成し、データセットの特性と層ごとの変更を調査。訓練タスクの相乗効果やモデル固有の戦略の重要性を明らかにし、困惑度がSFTの効果を予測することを示した。中間層の重みの変化がパフォーマンス向上と強く相関し、研究を加速させるためにモデルと結果を公開予定。 Comment

元ポスト:

Loading…

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/C10-6.pdf

#Analysis #Pocket #Dataset #FactualKnowledge Issue Date: 2025-06-17 [Paper Note] What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv'25 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Reasoning Issue Date: 2025-06-17 [Paper Note] Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs, Roy Eisenstadt+, arXiv'25 GPT Summary- LLMの推論プロセスにおける思考段階の長さを調整するメカニズムを探求。進捗をエンコードし、可視化することで計画ダイナミクスを明らかにし、不要なステップを減らす「オーバークロッキング」手法を提案。これにより、考えすぎを軽減し、回答精度を向上させ、推論のレイテンシを減少させることを実証。コードは公開。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-06-17 [Paper Note] RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning, Yu Wang+, arXiv'25 GPT Summary- RAG+は、Retrieval-Augmented Generationの拡張で、知識の適用を意識した推論を組み込む。二重コーパスを用いて、関連情報を取得し、目標指向の推論に適用する。実験結果は、RAG+が標準的なRAGを3-5%、複雑なシナリオでは最大7.5%上回ることを示し、知識統合の新たなフレームワークを提供する。 Comment

元ポスト:

Loading…

知識だけでなく知識の使い方も蓄積し、利用時に検索された知識と紐づいた使い方を活用することでRAGの推論能力を向上させる。

Figure 1のような例はReasoningモデルが進化していったら、わざわざ知識と使い方を紐付けなくても、世界知識から使い方を補完可能だと思われるので不要となると思われる。
が、真にこの手法が力を発揮するのは「ドメイン固有の使い方やルール」が存在する場合で、どれだけLLMが賢くなっても推論によって導き出せないもの、のついては、こういった手法は効力を発揮し続けるのではないかと思われる。

#Pocket #KnowledgeEditing #FactualKnowledge #meta-learning Issue Date: 2025-06-17 [Paper Note] PropMEND: Hypernetworks for Knowledge Propagation in LLMs, Zeyu Leo Liu+, arXiv'25 GPT Summary- PropMENDは、LLMsにおける知識伝播を改善するためのハイパーネットワークベースのアプローチである。メタ学習を用いて、注入された知識がマルチホップ質問に答えるために伝播するように勾配を修正する。RippleEditデータセットで、難しい質問に対して精度がほぼ2倍向上し、Controlled RippleEditデータセットでは新しい関係やエンティティに対する知識伝播を評価。PropMENDは既存の手法を上回るが、性能差は縮小しており、今後の研究で広範な関係への知識伝播が求められる。 Comment

元ポスト:

Loading…

従来のKnowledge Editing手法は新たな知識を記憶させることはできる（i.e., 注入した知識を逐語的に生成できる;東京は日本の首都である。）が、知識を活用することは苦手だった（i.e., 日本の首都の気候は？）ので、それを改善するための手法を提案している模様。

既存手法のlimitationは
- editing手法で学習をする際に知識を伝搬させるデータが無く
- 目的関数がraw textではなく、QA pairをSFTすること

によって生じるとし、

- 学習時にpropagation question（Figure1のオレンジ色のQA; 注入した知識を活用して推論が必要なQA)を用意しどのように知識を伝搬（活用）させるかを学習し
- 目的関数をCausal Language Modeling Loss

にすることで改善する、とのこと。

non-verbatimなQA（注入された知識をそのまま回答するものではなく、何らかの推論が必要なもの）でも性能が向上。

ベースライン:
- Mass-Editing Memory in a Transformer, Kevin Meng+, N/A, ICLR'23
- [Paper Note] Fast Model Editing at Scale, Eric Mitchell+, ICLR'22

#Pocket #Hallucination #ICML #OptimalTransport Issue Date: 2025-06-14 [Paper Note] Steer LLM Latents for Hallucination Detection, Seongheon Park+, ICML'25 GPT Summary- LLMの幻覚問題に対処するため、Truthfulness Separator Vector（TSV）を提案。TSVは、LLMの表現空間を再構築し、真実と幻覚の出力を分離する軽量な指向ベクトルで、モデルのパラメータを変更せずに機能。二段階のフレームワークで、少数のラベル付き例からTSVを訓練し、ラベルのない生成物を拡張。実験により、TSVは最小限のラベル付きデータで高いパフォーマンスを示し、実世界のアプリケーションにおける実用的な解決策を提供。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=UMqNQEPNT3¬eId=mAbrf36RHa

#Pocket #Reasoning #Reproducibility Issue Date: 2025-06-13 [Paper Note] Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning, Jiayi Yuan+, arXiv'25 GPT Summary- 本研究では、大規模言語モデル（LLMs）のパフォーマンスの再現性が脆弱であることを示し、システム構成の変更が応答に大きな影響を与えることを明らかにしました。特に、初期トークンの丸め誤差が推論精度に波及する問題を指摘し、浮動小数点演算の非結合的性質が変動の根本原因であるとしています。様々な条件下での実験を通じて、数値精度が再現性に与える影響を定量化し、評価実践における重要性を強調しました。さらに、LayerCastという軽量推論パイプラインを開発し、メモリ効率と数値安定性を両立させる方法を提案しました。 #Supervised-FineTuning (SFT) #ReinforcementLearning #KeyPoint Notes Issue Date: 2025-06-13 [Paper Note] Self-Adapting Language Models, Adam Zweiger+, arXiv'25 GPT Summary- 自己適応型LLMs（SEAL）を提案し、モデルが自身のファインチューニングデータと指示を生成することで適応を実現。新しい入力に対して自己編集を行い、持続的な重みの更新を可能にする。強化学習ループを用いて下流性能を報酬信号として活用し、従来のアプローチと異なり、モデル自身の生成を用いて適応を制御。実験結果はSEALの有望性を示す。 Comment

元ポスト:

Loading…

コンテキストCと評価データtauが与えられたとき、Cを入力した時にモデルが自分をSFTし、tau上でより高い性能を得られるようなサンプル Self Edit (SE) を生成できるように学習することで、性能を向上させたい。これをRLによって実現する。具体的には、下記アルゴリズムのようにモデルにSEを生成させ、SEでSFTすることめにtau上での性能が向上したか否かのbinary rewardを用いてパラメータを更新する、といったことを繰り返す。これは実質、RL_updateと書いてあるが、性能が向上した良いSEのみでモデルをSFTすること、と同等なことを実施している。

このような背景として、RLのアルゴリズムとしてGRPOやPPOを適用したところ学習が不安定でうまくいかなかったため、よりシンプルなアプローチであるReST^EM（[Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24 )を採用した。これはrejection samplingとSFTに基づいたEMアルゴリズムのようなものらしく、Eステップで現在のポリシーでcandidateを生成し、Mステップでpositive rewardを得たcandidateのみ（＝rejection sampling)でSFTする、といったことを繰り返す、みたいな手法らしい。これを用いると、論文中の式(1)を上述のbinary rewardで近似することに相当する。より詳細に書くと、式(1)（つまり、SEをCから生成することによって得られるtauに基づく報酬rの総報酬を最大化したい、という式）を最大化するためにθ_tの勾配を計算したいが、reward rがθ_tで微分不可能なため、Monte Carlo Estimatorで勾配を近似する、みたいなことをやるらしい。Monte Carlo Estimatorでは実際のサンプルの期待値によって理論的な勾配を近似するらしく、これが式(3)のスコア関数とreward rの平均、といった式につながっているようである。

再現実験に成功したとのポスト:

Loading…

#EfficiencyImprovement #MachineLearning #Pocket #Supervised-FineTuning (SFT) #PostTraining #read-later Issue Date: 2025-06-13 [Paper Note] Resa: Transparent Reasoning Models via SAEs, Shangshang Wang+, arXiv'25 GPT Summary- Resaという1.5Bの推論モデル群を提案し、効率的なスパースオートエンコーダーチューニング（SAE-Tuning）手法を用いて訓練。これにより、97%以上の推論性能を保持しつつ、訓練コストを2000倍以上削減し、訓練時間を450倍以上短縮。軽いRL訓練を施したモデルで高い推論性能を実現し、抽出された推論能力は一般化可能かつモジュール化可能であることが示された。全ての成果物はオープンソース。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

論文中で利用されているSource Modelの一つ:
- [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25

#EfficiencyImprovement #Pocket #PEFT(Adaptor/LoRA) #ICML Issue Date: 2025-06-12 [Paper Note] Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML'25 GPT Summary- Text-to-LoRA（T2L）は、自然言語による説明に基づいて大規模言語モデル（LLMs）を迅速に適応させる手法で、従来のファインチューニングの高コストと時間を克服します。T2Lは、LoRAを安価なフォワードパスで構築するハイパーネットワークを使用し、タスク特有のアダプターと同等のパフォーマンスを示します。また、数百のLoRAインスタンスを圧縮し、新しいタスクに対してゼロショットで一般化可能です。このアプローチは、基盤モデルの専門化を民主化し、計算要件を最小限に抑えた言語ベースの適応を実現します。 Comment

元ポスト:

Loading…

な、なるほど、こんな手が…！

#Pocket #Supervised-FineTuning (SFT) #AIAgents Issue Date: 2025-06-12 [Paper Note] Go-Browse: Training Web Agents with Structured Exploration, Apurva Gandhi+, arXiv'25 GPT Summary- Go-Browseを提案し、ウェブ環境の構造的探索を通じて多様なデータを自動収集。グラフ探索を用いて効率的なデータ収集を実現し、WebArenaベンチマークで成功率21.7%を達成。これはGPT-4o miniを2.4%上回り、10B未満のモデルでの最先端結果を2.9%上回る。 Comment

元ポスト:

Loading…

WebArena:
- WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

#Pretraining #Pocket #ReinforcementLearning Issue Date: 2025-06-12 [Paper Note] Reinforcement Pre-Training, Qingxiu Dong+, arXiv'25 GPT Summary- 本研究では、強化学習と大規模言語モデルの新しいスケーリング手法「強化事前学習（RPT）」を提案。次のトークン予測を強化学習の推論タスクとして再定義し、一般的なRLを活用することで、ドメイン特有の注釈に依存せずにスケーラブルな方法を提供。RPTは次のトークン予測の精度を向上させ、強化ファインチューニングの基盤を形成。トレーニング計算量の増加が精度を改善することを示し、RPTが言語モデルの事前学習において有望な手法であることを示した。 Comment

元ポスト:

Loading…

#Pocket #Transformer #Architecture #ACL Issue Date: 2025-06-12 [Paper Note] Value Residual Learning, Zhanchao Zhou+, ACL'25 GPT Summary- ResFormerは、隠れ状態の残差に値の残差接続を加えることで情報の流れを強化する新しいTransformerアーキテクチャを提案。実験により、ResFormerは従来のTransformerに比べて少ないパラメータとトレーニングデータで同等の性能を示し、SVFormerはKVキャッシュサイズを半減させることができる。性能はシーケンスの長さや学習率に依存する。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Alignment #ReinforcementLearning #Safety Issue Date: 2025-06-11 [Paper Note] Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv'25 GPT Summary- 既存のLLMの安全保証研究は主にトレーニング段階に焦点を当てているが、脱獄攻撃に対して脆弱であることが明らかになった。本研究では、推論スケーリングを用いた新たな安全性向上手法SAFFRONを提案し、計算オーバーヘッドを削減する多分岐報酬モデル（MRM）を導入。これにより、報酬モデル評価の数を減らし、探索-効率性のジレンマを克服する。実験により手法の有効性を確認し、訓練済みモデルと安全報酬データセットを公開。 Comment

元ポスト:

Loading…

#Pocket #Subword Issue Date: 2025-06-11 [Paper Note] StochasTok: Improving Fine-Grained Subword Understanding in LLMs, Anya Sims+, arXiv'25 GPT Summary- サブワードレベルの理解を向上させるために、確率的トークン化手法StochasTokを提案。これにより、LLMsは内部構造を把握しやすくなり、文字カウントや数学タスクなどで性能が向上。シンプルな設計により、既存モデルへの統合が容易で、コストを抑えつつサブワード理解を改善できる。 Comment

元ポスト:

Loading…

おもしろそう

#MachineLearning #Pocket #ICML #KnowledgeEditing Issue Date: 2025-06-10 [Paper Note] Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing, Kento Nishi+, ICML'25 GPT Summary- 知識編集（KE）アルゴリズムは、モデルの重みを変更して不正確な事実を更新するが、これがモデルの事実の想起精度や推論能力に悪影響を及ぼす可能性がある。新たに定義した合成タスクを通じて、KEがターゲットエンティティを超えて他のエンティティの表現に影響を与え、未見の知識の推論を歪める「表現の破壊」現象を示す。事前訓練されたモデルを用いた実験でもこの発見が確認され、KEがモデルの能力に悪影響を及ぼす理由を明らかにするメカニズム仮説を提供する。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #Search #Dataset Issue Date: 2025-06-08 [Paper Note] Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv'25 GPT Summary- 検索強化型LLMsに関する「Search Arena」という大規模な人間の好みデータセットを紹介。24,000以上のマルチターンユーザーインタラクションを含み、ユーザーの好みが引用数や引用元に影響されることを明らかにした。特に、コミュニティ主導の情報源が好まれる傾向があり、静的な情報源は必ずしも信頼されない。検索強化型LLMsの性能を評価した結果、非検索設定でのパフォーマンス向上が確認されたが、検索設定ではパラメトリック知識に依存すると品質が低下することが分かった。このデータセットはオープンソースとして提供されている。 Comment

元ポスト:

Loading…

#Dataset #SyntheticData #Reasoning Issue Date: 2025-06-06 [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv'25 GPT Summary- SynLogicは、35の論理的推論タスクを網羅したデータ合成フレームワークで、強化学習（RL）による大規模言語モデル（LLMs）の推論能力向上を目指す。調整可能な難易度で生成されたデータは検証可能で、RLに適している。実験では、SynLogicが最先端の論理的推論性能を達成し、数学やコーディングタスクとの混合によりトレーニング効率が向上することが示された。SynLogicはLLMsの推論能力向上に貴重なリソースとなる。 Comment

元ポスト:

Loading…

35種類のタスクを人手で選定し、タスクごとに困難度の鍵となるパラメータを定義（数独ならばグリッド数など）。その上で、各タスクごとに人手でルールベースのinstanceを生成するコードを実装し、さまざまな困難度パラメータに基づいて多様なinstanceを生成。生成されたinstanceの困難度は、近似的なUpper Bound(DeepSeek-R1, o3-miniのPass@10)とLower bound（chat model[^1]でのPass@10)を求めデータセットに含まれるinstanceの困難度をコントロールし、taskを記述するpromptも生成。タスクごとに人手で実装されたVerifierも用意されている。

Qwen2.5-7B-BaseをSynDataでDAPOしたところ、大幅にlogic benchmarkとmathematical benchmarkの性能が改善。

mathやcodeのデータとmixして7Bモデルを訓練したところ、32Bモデルに匹敵する性能を達成し、SynDataをmixすることでgainが大きくなったので、SynDataから学習できる能力が汎化することが示唆される。

タスク一覧はこちら

[^1]:どのchat modelかはざっと見た感じわからない。どこかに書いてあるかも。

Logical Reasoningが重要なタスクを扱う際はこのデータを活用することを検討してみても良いかもしれない

#Pocket #ReinforcementLearning #AIAgents #Coding #NeurIPS Issue Date: 2025-06-06 [Paper Note] Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, NeurIPS'25 GPT Summary- プログラム分析に基づくフィードバックを用いた強化学習フレームワーク「REAL」を提案。セキュリティや保守性の欠陥を検出し、機能的正確性を保証することで、LLMsによる高品質なコード生成を促進。手動介入不要でスケーラブルな監視を実現し、実験により最先端の手法を上回る性能を示した。 Comment

元ポスト:

Loading…

現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけでは無いので、UnitTestに通るか否かのReward（Functionality)に加えて、RL中に生成されたコードを制御フローグラフ[^1]に変換し汚染解析[^2]をした結果をRewardに組み込むことで、FunctionalityとQualityを両立したよ、という話のようである。

Figure1のグラフの縦軸は、Functionalityと（UnitTestが通ったか否か）と、Quailty(セキュリティや保守性に関する問題が検出されなかった)、という両方の条件を満たした割合である点に注意。

[^1]:プログラムを実行したときに通る可能性のある経路のすべてをグラフとして表したもの[引用元]( https://qiita.com/uint256_t/items/7d4556cb8f5997b9e95c)
[^2]:信頼できない汚染されたデータがプログラム中でどのように処理されるかを分析すること

#Pocket #RLVR Issue Date: 2025-06-05 [Paper Note] Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards, Xun Lu, arXiv'25 GPT Summary- 非検証可能なタスクにおける強化学習のギャップを埋めるため、ペアワイズ生成報酬モデル（GenRM）とブートストラップ相対ポリシー最適化（BRPO）アルゴリズムを提案。これにより、主観的評価を信頼性のある検証可能な報酬に変換し、動的なペアワイズ比較を実現。提案手法は、LLMsの執筆能力を向上させ、スカラー報酬ベースラインに対して一貫した改善を示し、競争力のある結果を達成。全ての言語タスクに適用可能な包括的なRLトレーニングパラダイムの可能性を示唆。 Comment

元ポスト:

Loading…

Writing Principleに基づいて（e.g., 一貫性、創造性とか？）批評を記述し、最終的に与えられたペアワイズのテキストの優劣を判断するGenerative Reward Model (GenRM; Reasoning Traceを伴い最終的にRewardに変換可能な情報をoutpuするモデル) を学習し、現在生成したresponseグループの中からランダムに一つ擬似的なreferenceを決定し、他のresponseに対しGenRMを適用することで報酬を決定する（BRPO）、といったことをやるらしい。

これにより、創造的な文書作成のような客観的なground truthを適用できないタスクでも、RLVRの恩恵をあずかれるようになる（Bridging the gap)といったことを主張している。

RLVRの恩恵とは、Reward Hackingされづらい高品質な報酬、ということにあると思われる。ので、要は従来のPreference dataだけで学習したReward Modelよりも、よりReward Hackingされないロバストな学習を実現できるGenerative Reward Modelを提案し、それを適用する手法BRPOも提案しました、という話に見える。

#Pocket #ReinforcementLearning #Coding #SoftwareEngineering #UnitTest Issue Date: 2025-06-05 [Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv'25 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment

元ポスト:

Loading…

UnitTestの性能向上させます系の研究が増えてきている感

関連ポスト:

Loading…

#ComputerVision #Pocket #MultiModal #RLVR #DataMixture Issue Date: 2025-06-05 [Paper Note] MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning, Yiqing Liang+, arXiv'25 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）をマルチモーダルLLMsに適用するためのポストトレーニングフレームワークを提案。異なる視覚と言語の問題を含むデータセットをキュレーションし、最適なデータ混合戦略を導入。実験により、提案した戦略がMLLMの推論能力を大幅に向上させることを示し、分布外ベンチマークで平均5.24%の精度向上を達成。 Comment

元ポスト:

Loading…

マルチモーダルな設定でRLVRを適用すると、すべてのデータセットを学習に利用する場合より、特定のタスクのみのデータで学習した方が当該タスクでは性能が高くなったり（つまりデータが多ければ多いほど良いわけでは無い）、特定のデータをablationするとOODに対する予測性能が改善したりするなど、データ間で干渉が起きて敵対的になってしまうような現象が起きる。このことから、どのように適切にデータを混合できるか？という戦略の必要性が浮き彫りになり、モデルベースなMixture戦略（どうやらデータの混合分布から学習後の性能を予測するモデルな模様）の性能がuniformにmixするよりも高い性能を示した、みたいな話らしい。

#Analysis #Pocket #read-later #Memorization Issue Date: 2025-06-05 [Paper Note] How much do language models memorize?, John X. Morris+, arXiv'25 GPT Summary- モデルの「知識」を推定する新手法を提案し、言語モデルの能力を測定。記憶を「意図しない記憶」と「一般化」に分け、一般化を排除することで総記憶を計算。GPTスタイルのモデルは約3.6ビット/パラメータの能力を持つと推定。データセットのサイズ増加に伴い、モデルは記憶を保持し、一般化が始まると意図しない記憶が減少。数百のトランスフォーマー言語モデルを訓練し、能力とデータサイズの関係を示すスケーリング法則を生成。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #EMNLP Issue Date: 2025-06-05 [Paper Note] Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem, Yubo Wang+, EMNLP'25 GPT Summary- 本研究では、強力な大規模言語モデル（LLM）の推論能力を引き出すために、批評微調整（CFT）が効果的であることを示します。CFTは、単一の問題に対する多様な解を収集し、教師LLMによる批評データを構築する手法です。QwenおよびLlamaモデルを微調整した結果、数学や論理推論のベンチマークで顕著な性能向上を観察しました。特に、わずか5時間のトレーニングで、Qwen-Math-7B-CFTは他の手法と同等以上の成果を上げました。CFTは計算効率が高く、現代のLLMの推論能力を引き出すためのシンプルなアプローチであることが示されました。 Comment

元ポスト:

Loading…

参考:

Loading…

#Pocket #AIAgents #SelfImprovement Issue Date: 2025-06-05 [Paper Note] Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, arXiv'25 GPT Summary- ダーヴィン・ゴーデルマシン（DGM）は、自己改善するAIシステムであり、コードを反復的に修正し、コーディングベンチマークで変更を検証します。進化とオープンエンドな研究に基づき、生成されたエージェントのアーカイブを維持し、新しいバージョンを作成することで多様なエージェントを育成します。DGMはコーディング能力を自動的に向上させ、SWE-benchでのパフォーマンスを20.0%から50.0%、Polyglotでのパフォーマンスを14.2%から30.7%に改善しました。安全対策を講じた実験により、自己改善を行わないベースラインを大幅に上回る成果を示しました。 Comment

元ポスト: https://www.linkedin.com/posts/omarsar_new-paper-open-ended-evolution-of-self-improving-activity-7334610178832556033-8dA-?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

- Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24

あたりの研究とはどう違うのだろうか、という点が気になる。

#Analysis #Pocket #ReinforcementLearning #NeurIPS #read-later Issue Date: 2025-06-04 [Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25 GPT Summary- 強化学習（RL）が言語モデルの推論能力を向上させる可能性を探る本研究では、長期的なRL（ProRL）トレーニングが新しい推論戦略を明らかにできることを示します。新しいトレーニング手法ProRLを導入し、実証分析により、RLでトレーニングされたモデルが基礎モデルを上回ることが確認されました。推論の改善は基礎モデルの能力やトレーニング期間と相関しており、RLが新しい解決空間を探索できることを示唆しています。これにより、RLが言語モデルの推論を拡張する条件に関する新たな洞察が得られ、今後の研究の基盤が築かれます。モデルの重みは公開されています。 Comment

元ポスト:

Loading…

RLVR（math, code（従来はこの2種類）, STEM, logic Puzzles, instruction following）によって大規模なスケール（長期的に学習をする; 2k training stepsと多様なタスクでの学習データ）で実験をし、定期的にReferenceポリシーとOptimizerをリセットすることで、元のポリシーからの乖離を防ぎつつも、新たな学習が進むようなことをしている模様。
（※PFNのランチタイムトークを参考に記述）

verlを用いて、DAPOで学習をしている。

- verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04
- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25

#Pocket #Verification Issue Date: 2025-06-03 [Paper Note] xVerify: Efficient Answer Verifier for Reasoning Model Evaluations, Ding Chen+, arXiv'25 GPT Summary- 推論モデルの評価のために、xVerifyという効率的な回答検証器を提案。xVerifyは、LLMが生成した回答が参照解答と同等であるかを効果的に判断できる。VARデータセットを構築し、複数のLLMからの質問-回答ペアを収集。評価実験では、すべてのxVerifyモデルが95％を超えるF1スコアと精度を達成し、特にxVerify-3B-IbはGPT-4oを超える性能を示した。 #Pocket #read-later #VerifiableRewards #RLVR #Verification Issue Date: 2025-06-03 [Paper Note] Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning, Yuzhen Huang+, arXiv'25 GPT Summary- 本研究では、数学的推論における検証者の信頼性とそのRL訓練プロセスへの影響を分析。ルールベースの検証者は偽陰性率が高く、RL訓練のパフォーマンスに悪影響を及ぼすことが判明。モデルベースの検証者は静的評価で高精度を示すが、偽陽性に対して脆弱であり、報酬が不正に膨らむ可能性がある。これにより、強化学習における堅牢な報酬システムの必要性が示唆される。 Comment

元ポスト:

Loading…

verificationタスクに特化してfinetuningされたDiscriminative Classifierが、reward hackingに対してロバストであることが示唆されている模様。

Discriminative Verifierとは、Question, Response, Reference Answerがgivenな時に、response（しばしばreasoning traceを含み複数のanswerの候補が記述されている）の中から最終的なanswerを抽出し、Reference answerと抽出したanswerから正解/不正解をbinaryで出力するモデルのこと。Rule-based Verifierではフォーマットが異なっている場合にfalse negativeとなってしまうし、そもそもルールが規定できないタスクの場合は適用できない。Discriminative Verifierではそのようなケースでも適用できると考えられる。

Discriminative Verifierの例はたとえば下記:
https://huggingface.co/IAAR-Shanghai/xVerify-0.5B-I

- [Paper Note] xVerify: Efficient Answer Verifier for Reasoning Model Evaluations, Ding Chen+, arXiv'25

#Pocket #AIAgents #SelfImprovement Issue Date: 2025-06-03 [Paper Note] Self-Challenging Language Model Agents, Yifei Zhou+, arXiv'25 GPT Summary- Self-Challengingフレームワークを提案し、エージェントが自ら生成した高品質なタスクで訓練。エージェントは挑戦者としてタスクを生成し、実行者として強化学習を用いて訓練。M3ToolEvalとTauBenchでLlama-3.1-8B-Instructが2倍以上の改善を達成。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Pocket #Dataset #Evaluation #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench hard（既にSoTAモデルの能力差を識別できない）の難易度をさらに押し上げたデータセット。

Inputの例

タスクごとのInput, Output lengthの分布

現在の主要なモデル群の性能

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#SyntheticData #PRM #Verification Issue Date: 2025-06-01 [Paper Note] Training Step-Level Reasoning Verifiers with Formal Verification Tools, Ryo Kamoi+, arXiv'25 GPT Summary- 本論文では、プロセス報酬モデル（PRMs）のトレーニングにおける2つの課題、すなわち高コストの人間による注釈と数学的推論問題への限定を解決するために、FoVerというアプローチを提案します。FoVerは形式的検証ツールを用いて自動的に段階レベルのエラーラベルを生成し、人的注釈なしでLLMの応答にエラーラベルを付与したデータセットを合成します。このデータセットでトレーニングされたPRMsは、元のLLMsに基づくベースラインを大幅に上回り、他の最先端モデルとも競争力のある結果を達成しました。 Comment

元ポスト:

Loading…

人手によるAnnotation（step levelのラベルのアノテーション)無しでProcsee Reward Modelの学習データを構築する手法

Z3やIsabelleなどの形式検証ツールが適用可能なタスクのみに提案手法のスコープは限られる点には注意

人手でアノテーションされたモデルと比較してcomparableなパフォーマンスを達成

スレッド中で評価データが数回のreasoning stepが必要なタスクのみの評価であり、より長く複雑なreasoning step（たとえば [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 ）が必要な場合はどうなるか？といった所に興味が寄せられている模様

#Pocket #AIAgents #SoftwareEngineering #read-later Issue Date: 2025-06-01 [Paper Note] Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering, Guangtao Zeng+, arXiv'25 GPT Summary- EvoScaleを提案し、進化的プロセスを用いて小型言語モデルの性能を向上させる手法を開発。選択と突然変異を通じて出力を洗練し、サンプル数を減少させる。強化学習を用いて自己進化を促進し、SWE-Bench-Verifiedで32Bモデルが100B以上のモデルと同等以上の性能を示す。コード、データ、モデルはオープンソースとして公開予定。 Comment

元ポスト:

Loading…

#RLVR #MajorityVoting #KeyPoint Notes Issue Date: 2025-06-01 Can Large Reasoning Models Self-Train?, Sheikh Shafayat+, arXiv'25 GPT Summary- 自己学習を活用したオンライン強化学習アルゴリズムを提案し、モデルの自己一貫性を利用して正確性信号を推測。難しい数学的推論タスクに適用し、従来の手法に匹敵する性能を示す。自己生成された代理報酬が誤った出力を優遇するリスクも指摘。自己監視による性能向上の可能性と課題を明らかに。 Comment

元ポスト:

Loading…

- Learning to Reason without External Rewards, Xuandong Zhao+, ICML'25 Workshop AI4MATH
と似ているように見える

self-consistencyでground truthを推定し、推定したground truthを用いてverifiableなrewardを計算して学習する手法、のように見える。

実際のground truthを用いた学習と同等の性能を達成する場合もあれば、long stepで学習するとどこかのタイミングで学習がcollapseする場合もある

パフォーマンスがピークを迎えた後になぜ大幅にAccuracyがdropするかを検証したところ、モデルのKL penaltyがどこかのタイミングで大幅に大きくなることがわかった。つまりこれはオリジナルのモデルからかけ離れたモデルになっている。これは、モデルがデタラメな出力をground truthとして推定するようになり、モデルそのものも一貫してそのデタラメな出力をすることでrewardを増大させるreward hackingが起きている。

これら現象を避ける方法として、以下の3つを提案している
- early stopping
- offlineでラベルをself consistencyで生成して、学習の過程で固定する
- カリキュラムラーニングを導入する

#Survey #Pocket #Chain-of-Thought #COLING Issue Date: 2025-05-29 Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs, Yu Xia+, COLING'25 GPT Summary- Chain-of-Thought（CoT）を基にしたChain-of-X（CoX）手法の調査を行い、LLMsの課題に対処するための多様なアプローチを分類。ノードの分類とアプリケーションタスクに基づく分析を通じて、既存の手法の意義と今後の可能性を議論。研究者にとって有用なリソースを提供することを目指す。 #Pocket #Distillation #ICML #Scaling Laws Issue Date: 2025-05-29 Distillation Scaling Laws, Dan Busbridge+, ICML'25 GPT Summary- 蒸留モデルの性能を推定するための蒸留スケーリング法則を提案。教師モデルと生徒モデルの計算割り当てを最適化することで、生徒の性能を最大化。教師が存在する場合やトレーニングが必要な場合に最適な蒸留レシピを提供。多くの生徒を蒸留する際は、監視付きの事前学習を上回るが、生徒のサイズに応じた計算レベルまで。単一の生徒を蒸留し、教師がトレーニング必要な場合は監視学習を推奨。蒸留に関する洞察を提供し、理解を深める。 Comment

著者ポスト:

Loading…

#Pocket #Temporal #read-later Issue Date: 2025-05-27 Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25 GPT Summary- ファインチューニング中にLLMsが以前の正しい解法を忘れる「時間的忘却」を発見。これに対処するために「時間的サンプリング」というデコーディング戦略を導入し、複数のチェックポイントから出力を引き出すことで推論性能を向上。Pass@kで4から19ポイントの改善を達成し、LoRA適応モデルでも同様の利点を示す。時間的多様性を活用することで、LLMsの評価方法を再考する手段を提供。 Comment

元ポスト:

Loading…

Temporal ForgettingとTemporal Sampling

#Pocket #ReinforcementLearning #Reasoning #ICML #Workshop #One-Line Notes Issue Date: 2025-05-27 Learning to Reason without External Rewards, Xuandong Zhao+, ICML'25 Workshop AI4MATH GPT Summary- 本研究では、外部の報酬やラベルなしで大規模言語モデル（LLMs）が学習できるフレームワーク「内部フィードバックからの強化学習（RLIF）」を提案。自己確信を報酬信号として用いる「Intuitor」を開発し、無監視の学習を実現。実験結果は、Intuitorが数学的ベンチマークで優れた性能を示し、ドメイン外タスクへの一般化能力も高いことを示した。内因的信号が効果的な学習を促進する可能性を示唆し、自律AIシステムにおけるスケーラブルな代替手段を提供。 Comment

元ポスト:

Loading…

おもしろそう

externalなsignalをrewardとして用いないで、モデル自身が内部的に保持しているconfidenceを用いる。人間は自信がある問題には正解しやすいという直感に基づいており、openendなquestionのようにそもそも正解シグナルが定義できないものもあるが、そういった場合に活用できるようである。

self-trainingの考え方に近いのでは

ベースモデルの段階である程度能力が備わっており、post-trainingした結果それが引き出されるようになったという感じなのだろうか。

参考:

Loading…

解説スライド: https://www.docswell.com/s/DeepLearning2023/KYVLG4-2025-09-18-112951
元ポスト:

Loading…

#Pocket #LongSequence #OpenWeight Issue Date: 2025-05-27 QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization, Weizhou Shen+, arXiv'25 GPT Summary- QwenLong-CPRSは、長文コンテキスト最適化のための新しいフレームワークで、LLMsの性能低下を軽減します。自然言語指示に基づく多段階のコンテキスト圧縮を実現し、効率と性能を向上させる4つの革新を導入。5つのベンチマークで、他の手法に対して優位性を示し、主要なLLMとの統合で大幅なコンテキスト圧縮と性能向上を達成。QwenLong-CPRSは新たなSOTA性能を確立しました。 Comment

元ポスト:

Loading…

#Pocket #LongSequence #OpenWeight #read-later Issue Date: 2025-05-27 QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning, Fanqi Wan+, arXiv'25 GPT Summary- 長いコンテキストの推論におけるLRMsの課題を解決するため、QwenLong-L1フレームワークを提案。ウォームアップ監視付きファインチューニングとカリキュラム指導型段階的RLを用いてポリシーの安定化を図り、難易度認識型の回顧的サンプリングで探索を促進。実験では、QwenLong-L1-32Bが他のLRMsを上回り、優れた性能を示した。 Comment

元ポスト:

Loading…

#Analysis #Pocket #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#Analysis #Pocket #AIAgents #Conversation #ContextEngineering Issue Date: 2025-05-24 LLMs Get Lost In Multi-Turn Conversation, Philippe Laban+, arXiv'25 GPT Summary- LLMsは会話型インターフェースとして、ユーザーがタスクを定義するのを支援するが、マルチターンの会話ではパフォーマンスが低下する。シミュレーション実験の結果、マルチターンで39%のパフォーマンス低下が見られ、初期のターンでの仮定に依存しすぎることが原因と判明。LLMsは会話中に誤った方向に進むと、回復が難しくなることが示された。 Comment

元ポスト:

Loading…

Lost in the MiddleならぬLost in Conversation

#ComputerVision #Pocket #MultiModal #DiffusionModel Issue Date: 2025-05-24 LaViDa: A Large Diffusion Language Model for Multimodal Understanding, Shufan Li+, arXiv'25 GPT Summary- LaViDaは、離散拡散モデル（DM）を基にしたビジョン・ランゲージモデル（VLM）で、高速な推論と制御可能な生成を実現。新技術を取り入れ、マルチモーダルタスクにおいてAR VLMと競争力のある性能を達成。COCOキャプショニングで速度向上と性能改善を示し、AR VLMの強力な代替手段であることを証明。 Comment

元ポスト:

Loading…

Diffusion Modelの波が来た

同程度のサイズのARモデルをoutperform [^1]

[^1]:ただし、これが本当にDiffusion Modelを使ったことによる恩恵なのかはまだ論文を読んでいないのでわからない。必要になったら読む。ただ、Physics of Language Modelのように、完全にコントロールされたデータで異なるアーキテクチャを比較しないとその辺はわからなそうではある。

#EfficiencyImprovement #Pocket #DiffusionModel Issue Date: 2025-05-24 dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv'25 GPT Summary- 拡散言語モデル（DLM）の遅い推論を改善するために、遅延KVキャッシュを提案。これは、異なるトークンの表現ダイナミクスに基づくキャッシング戦略で、2つのバリアントを設計。dKV-Cache-Decodeは損失の少ない加速を提供し、dKV-Cache-Greedyは高いスピードアップを実現。最終的に、推論速度を2〜10倍向上させ、DLMの性能を強化することを示した。 Comment

元ポスト:

Loading…

提案手法を適用した場合、ARなモデルとDiffusion Modelで、実際のところどの程度のdecoding速度の差があるのだろうか？そういった分析はざーーっと見た感じ見当たらなかったように思える。

#Embeddings #Pocket #RepresentationLearning #DiffusionModel Issue Date: 2025-05-24 Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective, Siyue Zhang+, arXiv'25 GPT Summary- 拡散言語モデルを用いたテキスト埋め込みが、自己回帰的なLLMの一方向性の制限を克服し、文書検索や推論タスクで優れた性能を発揮。長文検索で20%、推論集約型検索で8%、指示に従った検索で2%の向上を示し、双方向の注意が重要であることを確認。 Comment

元ポスト:

Loading…

#Pocket #Evaluation #ICLR #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-05-23 LiveBench: A Challenging, Contamination-Limited LLM Benchmark, Colin White+, ICLR'25 GPT Summary- テストセットの汚染を防ぐために、LLM用の新しいベンチマーク「LiveBench」を導入。LiveBenchは、頻繁に更新される質問、自動スコアリング、さまざまな挑戦的タスクを含む。多くのモデルを評価し、正答率は70%未満。質問は毎月更新され、LLMの能力向上を測定可能に。コミュニティの参加を歓迎。 Comment

テストデータのコンタミネーションに対処できるように設計されたベンチマーク。重要研究

#EfficiencyImprovement #Pretraining #Pocket #Scaling Laws Issue Date: 2025-05-21 Parallel Scaling Law for Language Models, Mouxiang Chen+, arXiv'25 GPT Summary- 本研究では、言語モデルのスケーリングにおいて、並列計算を増加させる新しい手法「ParScale」を提案。これにより、モデルの前方パスを並列に実行し、出力を動的に集約することで、推論効率を向上させる。ParScaleは、少ないメモリ増加とレイテンシで同等の性能向上を実現し、既存のモデルを再利用することでトレーニングコストも削減可能。新しいスケーリング法則は、リソースが限られた状況での強力なモデル展開を促進する。 Comment

元ポスト:

Loading…

- [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01

と考え方が似ている

#EfficiencyImprovement #Pocket #ReinforcementLearning #Chain-of-Thought #Reasoning Issue Date: 2025-05-21 AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning, Chenwei Lou+, arXiv'25 GPT Summary- AdaCoT（Adaptive Chain-of-Thought）は、LLMsが推論を適応的に行う新しいフレームワークで、CoTの呼び出しタイミングを最適化します。強化学習を用いて、クエリの複雑さに基づいてCoTの必要性を判断し、計算コストを削減します。実験では、AdaCoTがCoTトリガー率を3.18%に低下させ、応答トークンを69.06%減少させつつ、高い性能を維持することが示されました。 Comment

RLのRewardにおいて、bassのリワードだけでなく、
- reasoningをなくした場合のペナルティ項
- reasoningをoveruseした場合のペナルティ項
- formattingに関するペナルティ項
を設定し、reasoningの有無を適切に判断できた場合にrewardが最大化されるような形にしている。(2.2.2)

が、multi-stageのRLでは（stageごとに利用するデータセットを変更するが）、データセットの分布には歪みがあり、たとえば常にCoTが有効なデータセットも存在しており（数学に関するデータなど）、その場合常にCoTをするような分布を学習してしまい、AdaptiveなCoT decisionが崩壊したり、不安定になってしまう（decision boundary collapseと呼ぶ）。特にこれがfinal stageで起きると最悪で、これまでAdaptiveにCoTされるよう学習されてきたものが全て崩壊してしまう。これを防ぐために、Selective Loss Maskingというlossを導入している。具体的には、decision token [^1]のlossへの貢献をマスキングするようにすることで、CoTが生じるratioにバイアスがかからないようにする。今回は、Decision tokenとして、``トークン直後のトークンをdecision tokenとみなし、lossに対する貢献をマスクしている（Selective Loss Masking）。

[^1]: CoTするかどうかは多くの場合このDecision Tokenによって決まる、といったことがどっかの研究に示されていたはず

いつか必要になったらしっかり読むが、全てのステージでSelective Loss Maskingをしたら、SFTでwarm upした段階からあまりCoTのratioが変化しないような学習のされ方になる気がするが、どのステージに対してapplyするのだろうか。

#Pretraining #MachineLearning #Pocket #ModelMerge Issue Date: 2025-05-20 Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25 GPT Summary- モデルマージングは大規模言語モデルの強化に有望な技術であり、本論文ではその事前学習プロセスにおける包括的な調査を行う。実験により、一定の学習率で訓練されたチェックポイントをマージすることで性能向上とアニーリング挙動の予測が可能になることを示し、効率的なモデル開発と低コストのトレーニングに寄与する。マージ戦略やハイパーパラメータに関するアブレーション研究を通じて新たな洞察を提供し、実用的な事前学習ガイドラインをオープンソースコミュニティに提示する。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Pocket #QuestionAnswering #KnowledgeGraph #Factuality #Reasoning #Test-Time Scaling #PostTraining Issue Date: 2025-05-20 Scaling Reasoning can Improve Factuality in Large Language Models, Mike Zhang+, arXiv'25 GPT Summary- 本研究では、オープンドメインの質問応答における大規模言語モデル（LLM）の推論能力を検討し、推論の痕跡を抽出してファインチューニングを行った。知識グラフからの情報を導入し、168回の実験を通じて170万の推論を分析した結果、小型モデルが元のモデルよりも事実の正確性を顕著に改善し、計算リソースを追加することでさらに2-8%の向上が確認された。実験成果は公開され、さらなる研究に寄与する。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #Attention #LLMServing #Architecture #MoE(Mixture-of-Experts) #SoftwareEngineering Issue Date: 2025-05-20 Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv'25 GPT Summary- DeepSeek-V3は、2,048台のNVIDIA H800 GPUでトレーニングされ、ハードウェア制約に対処するための共同設計を示す。メモリ効率向上のためのマルチヘッド潜在注意や、計算と通信の最適化を図る専門家の混合アーキテクチャ、FP8混合精度トレーニングなどの革新を強調。ハードウェアのボトルネックに基づく将来の方向性について議論し、AIワークロードに応えるためのハードウェアとモデルの共同設計の重要性を示す。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pocket #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

既存のLLM (proprietary, openweightそれぞれ)が、シンプルなvisual arithmeticタスク(e.g., 線分の長さ比較, Chart上のdotの理解)などの性能が低いことを明らかにし、

それらの原因を(1)Vision Encoderのrepresentationと(2)Vision EncoderをFreezeした上でのText Decoderのfinetuningで分析した。その結果、(1)ではいくつかのタスクでlinear layerのprobingでは高い性能が達成できないことがわかった。このことから、Vision Encoderによるrepresentationがタスクに関する情報を内包できていないか、タスクに関する情報は内包しているがlinear layerではそれを十分に可能できない可能性が示唆された。

これをさらに分析するために(2)を実施したところ、Vision Encoderをfreezeしていてもfinetuningによりquery stringに関わらず高い性能を獲得できることが示された。このことから、Vision Encoder側のrepresentationの問題ではなく、Text Decoderと側でデコードする際にFinetuningしないとうまく活用できないことが判明した。

手法のところはまだ全然しっかり読めていないのだが、画像に関する特定の属性に関するクエリと回答のペアを合成し、DPOすることで、zero-shotの性能が向上する、という感じっぽい？

#Pocket #ReinforcementLearning #LLM-as-a-Judge #PostTraining #GRPO #VerifiableRewards Issue Date: 2025-05-16 J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning, Chenxi Whitehouse+, arXiv'25 GPT Summary- 本研究では、強化学習アプローチJ1を用いてLLMのトレーニング手法を提案し、判断タスクにおける思考促進とバイアス軽減を図ります。J1は、他の同サイズモデルを上回る性能を示し、特に小型モデルでも優れた結果を出します。モデルは自己生成した参照回答と比較することで、より良い判断を学ぶことが明らかになりました。 Comment

元ポスト:

Loading…

LLM-as-a-Judgeのなめのモデルを学習するレシピにおいて、初めてRLを適用した研究と主張し、より高品質なreasoning traceを出力できるようにすることで性能向上をさせる。

具体的にはVerifiableなpromptとnon verifiableなpromptの両方からverifiableなpreference pairを作成しpointwiseなスコアリング、あるいはpairwiseなjudgeを学習するためのrewardを設計しGRPOで学習する、みたいな話っぽい。
non verifiableなpromptも用いるのは、そういったpromptに対してもjudgeできるモデルを構築するため。

mathに関するpromptはverifiableなのでレスポンスが不正解なものをrejection samplingし、WildChatのようなチャットはverifiableではないので、instructionにノイズを混ぜて得られたレスポンスをrejection samplingし、合成データを得ることで、non verifiableなpromptについても、verifiableなrewardを設計できるようになる。

#EfficiencyImprovement #Pocket #ICLR #Test-Time Scaling #Decoding #Verification #SpeculativeDecoding Issue Date: 2025-05-13 Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR'25 GPT Summary- カスケードと推測デコーディングは、言語モデルの推論効率を向上させる手法であり、異なるメカニズムを持つ。カスケードは難しい入力に対して大きなモデルを遅延的に使用し、推測デコーディングは並行検証で大きなモデルを活用する。新たに提案する推測カスケーディング技術は、両者の利点を組み合わせ、最適な遅延ルールを特定する。実験結果は、提案手法がカスケードおよび推測デコーディングのベースラインよりも優れたコスト品質トレードオフを実現することを示した。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=vo9t20wsmd

#Pocket #Library #KnowledgeEditing Issue Date: 2025-05-11 EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models, Ziwen Xu+, arXiv'25 GPT Summary- 本論文では、LLMの挙動を制御するためのフレームワーク「EasyEdit2」を提案。安全性や感情、個性などの介入をサポートし、使いやすさが特徴。ユーザーは技術的知識なしでモデルの応答を調整可能。新しいアーキテクチャにより、ステアリングベクトルを自動生成・適用するモジュールを搭載。実証的なパフォーマンスを報告し、ソースコードやデモも公開。 Comment

github: https://github.com/zjunlp/EasyEdit/tree/main

#EfficiencyImprovement #Pretraining #Pocket #Dataset #ACL #Selected Papers/Blogs Issue Date: 2025-05-10 Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 GPT Summary- FineWeb-EduとDCLMは、モデルベースのフィルタリングによりデータの90%を削除し、トレーニングに適さなくなった。著者は、アンサンブル分類器や合成データの言い換えを用いて、精度とデータ量のトレードオフを改善する手法を提案。1Tトークンで8Bパラメータモデルをトレーニングし、DCLMに対してMMLUを5.6ポイント向上させた。新しい6.3Tトークンデータセットは、DCLMと同等の性能を持ちながら、4倍のユニークなトークンを含み、長トークンホライズンでのトレーニングを可能にする。15Tトークンのためにトレーニングされた8Bモデルは、Llama 3.1の8Bモデルを上回る性能を示した。データセットは公開されている。 #Pretraining #Pocket #Supervised-FineTuning (SFT) #Safety #DPO #Toxicity #ActivationSteering/ITI Issue Date: 2025-05-09 When Bad Data Leads to Good Models, Kenneth Li+, arXiv'25 GPT Summary- 本論文では、LLMの事前学習におけるデータの質の再検討を行い、有害データが事後学習における制御を向上させる可能性を探ります。トイ実験を通じて、有害データの割合が増加することで有害性の概念が線形表現に影響を与えることを発見し、有害データが生成的有害性を増加させつつも除去しやすくなることを示しました。評価結果は、有害データで訓練されたモデルが生成的有害性を低下させつつ一般的な能力を保持する良好なトレードオフを達成することを示唆しています。 Comment

元ポスト:

Loading…

これは面白そう

Webコーパスなどを事前学習で利用する際は、質の高いデータを残して学習した方が良いとされているが、4chanのようなtoxicなデータを混ぜて事前学習して、後からdetox（Inference Time Intervention Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 , SFT, DPO)することで、最終的なモデルのtoxicなoutputが減るという話らしい。これはそもそも事前学習時点でtoxicなデータのsignalが除外されることで、モデルがtoxicな内容のrepresentationを学習できず、最終的にtoxicか否かをコントロールできなくなるため、と考察している（っぽい）

有害な出力を減らせそうなことは分かったが、Activation Steeringによってどの程度モデルの性能に影響を与えるのかが気になる、と思ったがAppendixに記載があった。細かく書かれていないので推測を含むが、各データに対してToxicデータセットでProbingすることでTopKのheadを決めて、Kの値を調整することでinterventionの強さを調整し、Toxicデータの割合を変化させて評価してみたところ、モデルの性能に大きな影響はなかったということだと思われる（ただし1Bモデルでの実験しかない）

おそらく2,3節あたりが一番おもしろいポイントなのだと思われるがまだ読めていない。

#EfficiencyImprovement #Pocket #ReinforcementLearning #NeurIPS #read-later Issue Date: 2025-05-09 Reinforcement Learning for Reasoning in Large Language Models with One Training Example, Yiping Wang+, NeurIPS'25 GPT Summary- 1-shot RLVRを用いることで、LLMの数学的推論能力が大幅に向上することを示した。Qwen2.5-Math-1.5Bモデルは、MATH500でのパフォーマンスが36.0%から73.6%に改善され、他の数学的ベンチマークでも同様の向上が見られた。1-shot RLVR中には、クロスドメイン一般化や持続的なテストパフォーマンスの改善が観察され、ポリシー勾配損失が主な要因であることが確認された。エントロピー損失の追加も重要で、結果報酬なしでもパフォーマンスが向上した。これらの成果は、RLVRのデータ効率に関するさらなる研究を促進する。 Comment

下記ポストでQwenに対してpromptを適切に与えることで、追加のpost training無しで高い数学に関する能力を引き出せたという情報がある。おそらく事前学習時に数学のQAデータによって継続事前学習されており、この能力はその際に身についているため、数学に対する高い能力は実は簡単に引き出すことができるのかもしれない（だから1サンプルでも性能が向上したのではないか？）といった考察がある。

参考:

Loading…

- [Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25

とはどのような関係性があるだろうか？

著者ポスト:

Loading…

#Pocket #Dataset #Coding #Mathematics #read-later Issue Date: 2025-05-08 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Pocket #ReinforcementLearning #SelfImprovement #read-later #RLVR #Label-free Issue Date: 2025-05-08 Absolute Zero: Reinforced Self-play Reasoning with Zero Data, Andrew Zhao+, arXiv'25 GPT Summary- 新しいRLVRパラダイム「Absolute Zero」を提案し、自己学習を通じて推論能力を向上させるAZRを導入。外部データに依存せず、コーディングや数学的推論タスクでSOTAパフォーマンスを達成。既存のゼロ設定モデルを上回り、異なるモデルスケールにも適用可能。 Comment

元ポスト:

Loading…

#Reasoning #ICML #PostTraining Issue Date: 2025-05-07 Thinking LLMs: General Instruction Following with Thought Generation, Tianhao Wu+, ICML'25 GPT Summary- LLMsに思考能力を装備するための訓練方法を提案。反復的な検索と最適化手順を用いて、モデルが監視なしで思考する方法を学ぶ。指示に対する思考候補はジャッジモデルで評価され、最適化される。この手法はAlpacaEvalとArena-Hardで優れたパフォーマンスを示し、推論タスクだけでなく、マーケティングや健康などの非推論カテゴリでも利点を発揮。 Comment

元ポスト:

Loading…

外部のCoTデータを使わないで、LLMのreasoning capabilityを向上させる話っぽい。DeepSeek-R1の登場以前の研究とのこと。

reasoning traceを出力するようにInstruction Tuningによって回答を直接出力するようPostTrainingされたモデルにpromptingし、複数のoutputを収集（今回は8個, temperature=0.8, top p=0.95)。Self Taught Evaluator Self-Taught Evaluators, Tianlu Wang+, N/A, arXiv'24 (STE;70B, LLM-as-a-Judgeを利用するモデル）、あるいはArmo Reward Model（8B）によって回答の品質をスコアリング。ここで、LLM-as-a-Judgeの場合はペアワイズでの優劣が決まるだけなので、ELOでスコアリングする。outputのうちbest scoreとworst scoreだったものの双方でペアデータを構築し、DPOで利用するpreferenceペアデータを構築しDPOする。このような処理を繰り返し、モデルの重みをiterationごとに更新する。次のiterationでは更新されたモデルで同様の処理を行い、前段のステップで利用した学習データは利用しないようにする（後段の方が品質が高いと想定されるため）。また、回答を別モデルで評価する際に、長いレスポンスを好むモデルの場合、長い冗長なレスポンスが高くスコアリングされるようなバイアスが働く懸念があるため、長すぎる回答にpenaltyを与えている（Length-Control)。

reasoning traceを出力するpromptはgenericとspecific thoughtの二種類で検証。前者はLLMにどのような思考をするかを丸投げするのに対し、後者はこちら側で指定する。後者の場合は、どのような思考が良いかを事前に知っていなければならない。

Llama-3-8b-instructに適用したところ、70Bスケールのモデルよりも高い性能を達成。また、reasoning trace出力をablationしたモデル（Direct responce baseline）よりも性能が向上。

iterationが進むに連れて、性能が向上している。

#ComputerVision #Embeddings #Analysis #Pocket #RepresentationLearning #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

現代の代表的な言語モデルのアーキテクチャ（decoder-only model, encoder-only model, SSM）について、最終層のembeddingよりも中間層のembeddingの方がdownstream task（MTEBの32Taskの平均）に、一貫して（ただし、これはMTEBの平均で見たらそうという話であり、個別のタスクで一貫して強いかは読んでみないとわからない）強いことを示した研究。

このこと自体は経験的に知られているのであまり驚きではないのだが（ただ、SSMでもそうなのか、というのと、一貫して強いというのは興味深い）、この研究はMatrix Based Entropyと呼ばれるものに基づいて、これらを分析するための様々な指標を定義し理論的な根拠を示し、Autoregressiveな学習よりもMasked Languageによる学習の方がこのようなMiddle Layerのボトルネックが緩和され、同様のボトルネックが画像の場合でも起きることを示し、CoTデータを用いたFinetuningについても分析している模様。この辺の貢献が非常に大きいと思われるのでここを理解することが重要だと思われる。あとで読む。

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#Bias #NAACL #PostTraining #PerplexityCurse #ContextEngineering Issue Date: 2025-05-02 Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction, Kuniaki Saito+, NAACL'25 GPT Summary- LLMは新しい文書でファインチューニングが必要だが、「困惑の呪い」により情報抽出が困難。特に文書の初めに関する質問には正確に答えるが、中間や末尾の情報抽出に苦労する。自己回帰的トレーニングがこの問題を引き起こすことを示し、デノイジング自己回帰損失が情報抽出を改善する可能性を示唆。これにより、LLMの知識抽出と新ドメインへの適応に関する新たな議論が生まれる。 Comment

元ポスト:

Loading…

![Image](https://github.com/user-attachments/assets/dd6bdffa-4ce0-4389-826e-4c85113c755f)
LLMの知識を最新にするために新しい文書（e.g., 新しいドメインの文書等）をLLMに与え（便宜上学習データと呼ぶ）Finetuningをした場合、Finetuning後のモデルで与えられたqueryから（LLM中にパラメータとしてmemorizeされている）対応する事実情報を抽出するようInferenceを実施すると、queryに対応する事実情報の学習データ中での位置が深くなると（i.e., middle -- endになると）抽出が困難になる Positional Biasが存在する[^1]ことを明らかにした。
そして、これを緩和するために正則化が重要（e.g., Denoising, Shuffle, Attention Drops）であることを実験的に示し、正則化手法は複数組み合わせることで、よりPositional Biasが緩和することを示した研究

[^1]: 本研究では"Training"に利用する文書のPositional Biasについて示しており、"Inference"時におけるPositional Biasとして知られている"lost-in-the middle"とは異なる現象を扱っている点に注意

## データセット
文書 + QAデータの2種類を構築しFinetuning後のknowledge extraction能力の検証をしている[^2]。

実験では、`Synthetic Bio (合成データ)`, `Wiki2023+（実データ）` の2種類のデータを用いて、Positional Biasを検証している。
Synthetic bioは、人間のbiographyに関する9つの属性（e.g., 誕生日, 出生地）としてとりうる値をChatGPTに生成させ、3000人の人物に対してそれらをランダムにassignし、sentence templateを用いてSurface Realizationすることで人工的に3000人のbiographyに関するテキストを生成している。
一方、Wiki2023+では、Instruction-tuned Language Models are Better Knowledge Learners, Zhengbao Jiang+, ACL'24
の方法にのっとって [^3]事前学習時の知識とのoverlapが最小となるように`2023`カテゴリ以下のwikipediaの様々なジャンルの記事を収集して活用する。QAデータの構築には、元文書からsentenceを抽出し、GPT-3.5-Turboに当該sentenceのみを与えてQA pairを作成させることで、データを作成している。なお、hallucinationや品質の低いQA pairをフィルタリングした。フィルタリング後のQA Pairをランダムにサンプリングし品質を確認したところ、95%のQA pairが妥当なものであった。

これにより、下図のようなデータセットが作成される。FigureCが `Wiki2023+`で、FigureDが`SyntheticBio`。`Wiki2023+`では、QA pairの正解が文書中の前半により正解が現れるような偏りが見受けられる。
![Image](https://github.com/user-attachments/assets/1146328f-de7e-4e90-b495-b129730c5d0d)

[^2]: Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24 において、知識 + 知識を抽出するタスクの双方を用いて学習することで、モデルから知識を抽出する能力が備わることが示されているため。
[^3]: Llama-2-7Bにおいて2023カテゴリ以下の情報に対するQAのperformanceが著しく低いことから、事前学習時に当該データが含まれている可能性が低いことが示唆されている

## 実験 & 実験結果 (modulated data)
作成した文書+QAデータのデータセットについて、QAデータをtrain/valid/testに分けて、文書データは全て利用し、testに含まれるQAに適切に回答できるかで性能を評価する。このとき、文書中でQAに対する正解がテキストが出現する位置を変化させモデルの学習を行い、予測性能を見ることで、Positional Biasが存在することを明らかにする。このとき、Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24
に倣い、文書とQAをMixed Sampling（1バッチあたり256件のサンプルをランダムにQAおよび文書データからサンプリング; # 1923 では文書とQAを2:8の比率でサンプリングしている）することで学習をする。QAの場合目的関数は回答テキスト部分のみのNLL、文書の場合はnext-token prediction lossを利用する。

Positional Biasの存在を示すだけでなく、(A, B, C) の順番でnext-token prediction lossで学習されたモデルの場合、Cの知識を抽出するためにA, Bがcontextとして必要となるため、Cを抽出する際の汎化性能を高めるためにA, Bの表現がより多様である必要がある、という課題がある。これに対処するためのいくつかのシンプルな正則化手法、具体的には
- D-AR: predition targetのトークンは保持したまま、input tokenの一部をランダムなトークンに置き換える
- Shuffle: 入力文をシャッフルする
- Attn Drop: self-attentionモジュールのattention weightをランダムに0にする
の3種類とPositional Biasの関係性を検証している。
![Image](https://github.com/user-attachments/assets/503e53f2-28f5-46ea-a11f-beee98f8fa38)

検証の結果、（合成データ、実データともに）Positional Biasが存在することが明らかとなり（i.e., 正解テキストが文書中の深い位置にあればあるほど予測性能が低下する）正則化によってPositional Biasが緩和されることが示された。
![Image](https://github.com/user-attachments/assets/11a29a1e-f869-4628-9c47-e1fc9e5c394e)

また、異なるモデルサイズで性能を比較したところ、モデルサイズを大きくすることで性能自体は改善するが、依然としてPositional Biasが存在することが示され、ARよりもD-ARが一貫して高い性能を示した。このことから、Positional Biasを緩和するために何らかの正則化手法が必要なことがわかる。
![Image](https://github.com/user-attachments/assets/0772d144-c22b-4723-8578-acdf0e2e1187)

また、オリジナル文書の1文目を、正解データの位置を入れ替えた各モデルに対して、テキスト中の様々な位置に配置してPerplexityを測った。この設定では、モデルがPerplexityを最小化するためには、（1文目ということは以前の文脈が存在しないsentenceなので）文脈に依存せずに文の記憶していなければならない。よって、各手法ごとにどの程度Perplexityが悪化するかで、各手法がどの程度あるsentenceを記憶する際に過去の文脈に依存しているかが分かる。ここで、学習データそのもののPerplexityはほぼ1.0であったことに注意する。
結果として、文書中の深い位置に配置されればされるほどPerplexityは増大し（left）、Autoregressive Model (AR) のPerplexity値が最も値が大きかった（=性能が悪かった）。このことから、ARはより過去の文脈に依存してsentenceの情報を記憶していることが分かる。また、モデルサイズが小さいモデルの方がPerplexityは増大する傾向にあることがわかった (middle)。これはFig.3で示したQAのパフォーマンスと傾向が一致しており、学習データそのもののPerplexityがほぼ1.0だったことを鑑みると、学習データに対するPerplexityは様々なPositionに位置する情報を適切に抽出できる能力を測るメトリックとしては適切でないことがわかる。また、学習のiterationを増やすと、ARの場合はfirst positionに対する抽出性能は改善したが、他のpositionでの抽出性能は改善しなかった。一方、D-ARの場合は、全てのpositionでの抽出性能が改善した (right) 。このことから、必ずしも学習のiterationを増やしても様々なPositionに対する抽出性能が改善しないこと、longer trainingの恩恵を得るためには正則化手法を利用する必要があることが明らかになった。

![Image](https://github.com/user-attachments/assets/94f635a5-68d5-478d-ab16-513e855fe054)

## 実験 & 実験結果 (unmodulated data)
Wiki2023+データに対して上記のようなデータの変更を行わずに、そのまま学習を行い、各位置ごとのQAの性能を測定したところ、（すべてがPositional Biasのためとは説明できないが）回答が文書中の深い位置にある場合の性能が劣化することを確認した。2--6番目の性能の低下は、最初の文ではシンプルな事実が述べられ、後半になればなるほどより複雑な事実が述べられる傾向があることが起因して性能の低下しているとかせつをたてている。また、unmodulated dataの場合でもD-ARはARの性能を改善することが明らかとなった。モデルサイズが大きいほど性能は改善するが、以前として文書中の深い位置に正解がある場合に性能は劣化することもわかる。

また、正則化手法は組み合わせることでさらに性能が改善し、Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24
に示されている通り、学習データ中の表現を多様にし[^1]学習したところ予測性能が改善し、正則化手法とも補完的な関係であることも示された。

医療ドメインでも実験したところ、正則化手法を適用した場合にARよりも性能が上回った。最後にWiki2023+データについてOpenbookな設定で、正解が含まれる文書をLLMのcontextとして与えた場合（i.e.,ほぼ完璧なretrieverが存在するRAGと同等の設定とみなせる）、QAの性能は90.6%に対し、継続学習した場合のベストモデルの性能は50.8%だった。このことから、正確なretrieverが存在するのであれば、継続学習よりもRAGの方がQAの性能が高いと言える。
RAGと継続学習のメリット、デメリットの両方を考慮して、適切に手法を選択することが有効であることが示唆される。

[^1]: ChatGPTによってテキストをrephraseし、sentenceのorderも変更することで多様性を増やした。が、sentence orderが文書中の深い位置にある場合にあまりorderが変化しなかったようで、このため深い位置に対するQAの性能改善が限定的になっていると説明している。

#Analysis #Pocket #Chain-of-Thought #ICLR Issue Date: 2025-04-30 When More is Less: Understanding Chain-of-Thought Length in LLMs, Yuyang Wu+, ICLR'25 GPT Summary- Chain-of-thought (CoT)推論は、LLMsの多段階推論能力を向上させるが、CoTの長さが増すと最初は性能が向上するものの、最終的には低下することが観察される。長い推論プロセスがノイズに脆弱であることを示し、理論的に最適なCoTの長さを導出。Length-filtered Voteを提案し、CoTの長さをモデルの能力とタスクの要求に合わせて調整する必要性を強調。 Comment

ICLR 2025 Best Paper Runner Up Award
元ポスト:

Loading…

#Pocket #ICLR #KnowledgeEditing Issue Date: 2025-04-30 AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models, Junfeng Fang+, ICLR'25 GPT Summary- AlphaEditは、LLMsの知識を保持しつつ編集を行う新しい手法で、摂動を保持された知識の零空間に投影することで、元の知識を破壊する問題を軽減します。実験により、AlphaEditは従来の位置特定-編集手法の性能を平均36.7%向上させることが確認されました。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=HvSytvg3Jh

MLPに新たな知識を直接注入する際に（≠contextに含める）既存の学習済みの知識を破壊せずに注入する手法（破壊しないことが保証されている）を提案しているらしい

将来的には、LLMの1パラメータあたりに保持できる知識量がわかってきているので、MLPの零空間がN GBのモデルです、あなたが注入したいドメイン知識の量に応じて適切な零空間を持つモデルを選んでください、みたいなモデルが公開される日が来るのだろうか。

#Survey #InformationRetrieval #Pocket #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Alignment #Supervised-FineTuning (SFT) #Safety #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-29 Safety Alignment Should Be Made More Than Just a Few Tokens Deep, Xiangyu Qi+, ICLR'25 GPT Summary- 現在の大規模言語モデル（LLMs）の安全性アラインメントは脆弱であり、単純な攻撃や善意のファインチューニングによって脱獄される可能性がある。この脆弱性は「浅い安全性アラインメント」に起因し、アラインメントが主に最初の数トークンの出力にのみ適応されることに関連している。本論文では、この問題のケーススタディを提示し、現在のアラインされたLLMsが直面する脆弱性を説明する。また、浅い安全性アラインメントの概念が脆弱性軽減の研究方向を示唆し、初期トークンを超えたアラインメントの深化がロバスト性を向上させる可能性を示す。最後に、ファインチューニング攻撃に対する持続的な安全性アラインメントを実現するための正則化されたファインチューニング目的を提案する。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=6Mxhg9PtDE

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #Quantization #SmallModel Issue Date: 2025-04-19 BitNet b1.58 2B4T Technical Report, Shuming Ma+, arXiv'25 GPT Summary- BitNet b1.58 2B4Tは、20億パラメータを持つオープンソースの1ビット大規模言語モデルで、4兆トークンで訓練されました。言語理解や数学的推論などのベンチマークで評価され、同サイズのフルプレシジョンLLMと同等の性能を示しつつ、計算効率が向上しています。メモリ、エネルギー消費、デコーディングレイテンシが削減され、モデルの重みはHugging Faceで公開されています。 Comment

元ポスト:

Loading…

圧倒的省メモリかつcpuでのinference速度も早そう

- アーキテクチャはTransformerを利用
- Linear layerとしてBitLinear Layerを利用
- 重みは{1, 0, -1}の3値をとる
- activationは8bitのintegerに量子化
- Layer Normalizationはsubln normalization Foundation Transformers, Hongyu Wang+, PMLR'23 を利用

#ComputerVision #Pocket #Dataset #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #DiffusionModel #Reasoning #PostTraining #GRPO Issue Date: 2025-04-18 d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, Siyan Zhao+, arXiv'25 GPT Summary- d1というフレームワークを提案し、マスク付きdLLMsを教師ありファインチューニングと強化学習で推論モデルに適応。マスク付きSFT技術で知識を抽出し、diffu-GRPOという新しいRLアルゴリズムを導入。実証研究により、d1が最先端のdLLMの性能を大幅に向上させることを確認。 Comment

元ポスト:

Loading…

dLLMに対してGRPOを適用する手法(diffuGRPO)を提案している。
long CoTデータでSFTしてreasoning capabilityを強化した後、diffuGRPOで追加のpost-trainingをしてさらに性能をboostする。

GRPOではtoken levelの尤度とsequence全体の尤度を計算する必要があるが、dLLMだとautoregressive modelのようにchain ruleを適用する計算方法はできないので、効率的に尤度を推定するestimatorを用いてGPPOを適用するdiffuGRPOを提案している。

diffuGRPO単体でも、8BモデルだがSFTよりも性能向上に成功している。SFTの後にdiffuGRPOを適用するとさらに性能が向上する。

SFTではs1 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25 で用いられたlong CoTデータを用いている。しっかり理解できていないが、diffuGRPO+verified rewardによって、long CoTの学習データを用いなくても、安定してreasoning能力を発揮することができようになった、ということなのだろうか？
しかし、AppendixCを見ると、元々のLLaDAの時点でreasoning traceを十分な長さで出力しているように見える。もしLLaDAが元々long CoTを発揮できたのだとしたら、long CoTできるようになったのはdiffuGRPOだけの恩恵ではないということになりそうだが、LLaDAは元々long CoTを生成できるようなモデルだったんだっけ…？その辺追えてない（dLLMがメジャーになったら追う）。

#Analysis #MachineLearning #Pocket #Alignment #Hallucination #ICLR #DPO #Repetition Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Analysis #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#Pocket #AIAgents #Hallucination Issue Date: 2025-04-11 Hallucination Mitigation using Agentic AI Natural Language-Based Frameworks, Diego Gosmar+, arXiv'25 GPT Summary- 本研究では、複数のAIエージェントを調整し、自然言語処理を活用して幻覚を軽減する方法を探求。300以上の幻覚を誘発するプロンプトを用いたパイプラインを設計し、出力を第二および第三レベルのエージェントがレビュー。新たに設計したKPIで幻覚スコアを評価し、OVONフレームワークを通じてエージェント間で文脈情報を転送。結果として、相互運用可能なエージェントを活用することで幻覚の軽減に成功し、AIへの信頼を強化することが示された。 Comment

元ポスト:

Loading…

#Pocket #Attention #AttentionSinks Issue Date: 2025-04-09 Using Attention Sinks to Identify and Evaluate Dormant Heads in Pretrained LLMs, Pedro Sandoval-Segura+, arXiv'25 GPT Summary- マルチヘッドアテンションにおける「休眠アテンションヘッド」を定義し、その影響を調査。6つのモデルと5つのデータセットを用いた実験で、休眠ヘッドの出力をゼロにしても精度を維持できることを確認。休眠ヘッドは事前学習の初期に出現し、入力テキストの特性に依存することが示された。 Comment

元ポスト:

Loading…

#Pocket #Attention #Architecture Issue Date: 2025-04-07 KAA: Kolmogorov-Arnold Attention for Enhancing Attentive Graph Neural Networks, Taoran Fang+, arXiv'25 GPT Summary- 注意GNNにおけるスコアリングプロセスの理解が不足している中、本研究ではコルモゴロフ・アルノルド注意（KAA）を提案し、スコアリング関数を統一。KAAはKANアーキテクチャを統合し、ほぼすべての注意GNNに適用可能で、表現力が向上。実験により、KAA強化スコアリング関数が元のものを一貫して上回り、最大20%以上の性能向上を達成した。 Comment

元ポスト:

Loading…

#Pocket #Attention #Architecture Issue Date: 2025-04-07 XAttention: Block Sparse Attention with Antidiagonal Scoring, Ruyi Xu+, arXiv'25 GPT Summary- XAttentionは、Long-Context Transformer Modelsにおける長文コンテキスト推論を加速するプラグアンドプレイのフレームワークで、注意行列の反対対角線の値を用いてブロックの重要度を評価し、非本質的なブロックを剪定することで高いスパース性を実現。RULERやLongBenchなどのベンチマークでフルアテンションに匹敵する精度を保ちながら、最大13.5倍の計算加速を達成。XAttentionはLCTMsの効率的な展開を可能にする。 Comment

元ポスト:

Loading…

#Pocket #Attention #Architecture Issue Date: 2025-04-07 Slim attention: cut your context memory in half without loss of accuracy -- K-cache is all you need for MHA, Nils Graef+, arXiv'25 GPT Summary- Slim attentionは、トランスフォーマーモデルのMHAにおいてコンテキストメモリを2倍に縮小し、推論速度を最大2倍向上させる手法で、精度を損なうことなく実装可能です。特に、Whisperモデルではコンテキストメモリを8倍削減し、トークン生成を5倍速くすることができます。また、稀なケースではT5-11Bモデルでメモリを32倍削減することも可能です。 Comment

元ポスト:

Loading…

#Pocket #SelfImprovement #ICLR #RewardHacking Issue Date: 2025-04-06 CREAM: Consistency Regularized Self-Rewarding Language Models, Zhaoyang Wang+, ICLR'25 GPT Summary- 自己報酬型LLMは、LLM-as-a-Judgeを用いてアラインメント性能を向上させるが、報酬とランク付けの正確性が問題。小規模LLMの実証結果は、自己報酬の改善が反復後に減少する可能性を示唆。これに対処するため、一般化された反復的好みファインチューニングフレームワークを定式化し、正則化を導入。CREAMを提案し、報酬の一貫性を活用して信頼性の高い好みデータから学習。実証結果はCREAMの優位性を示す。 Comment

- Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24

を改善した研究

OpenReview: https://openreview.net/forum?id=Vf6RDObyEF

この方向性の研究はおもしろい

#Pocket #Attention #ICLR #AttentionSinks #read-later #Selected Papers/Blogs Issue Date: 2025-04-05 When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR'25 GPT Summary- 言語モデルにおける「アテンションシンク」は、意味的に重要でないトークンに大きな注意を割り当てる現象であり、さまざまな入力に対して小さなモデルでも普遍的に存在することが示された。アテンションシンクは事前学習中に出現し、最適化やデータ分布、損失関数がその出現に影響を与える。特に、アテンションシンクはキーのバイアスのように機能し、情報を持たない追加のアテンションスコアを保存することがわかった。この現象は、トークンがソフトマックス正規化に依存していることから部分的に生じており、正規化なしのシグモイドアテンションに置き換えることで、アテンションシンクの出現を防ぐことができる。 Comment

- Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

の先行研究

著者ポスト（openai-gpt-120Bを受けて):

Loading…

openreview: https://openreview.net/forum?id=78Nn4QJTEN

#Analysis #Attention #AttentionSinks #COLM #Selected Papers/Blogs Issue Date: 2025-04-05 Why do LLMs attend to the first token?, Federico Barbero+, COLM'25 GPT Summary- LLMsは最初のトークンに強く注意を向ける「アテンションシンク」を示し、そのメカニズムが過剰混合を避ける方法を理論的・実証的に探求。コンテキストの長さやデータのパッキングがシンクの挙動に与える影響を実験で示し、アテンションパターンの理解を深めることを目指す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=tu4dFUsW5z#discussion

#Pocket #ConceptErasure #KnowledgeEditing #AISTATS Issue Date: 2025-04-03 Fundamental Limits of Perfect Concept Erasure, Somnath Basu Roy Chowdhury+, AISTATS'25 GPT Summary- 概念消去は、性別や人種などの情報を消去しつつ元の表現を保持するタスクであり、公平性の達成やモデルのパフォーマンスの解釈に役立つ。従来の技術は消去の堅牢性を重視してきたが、有用性とのトレードオフが存在する。本研究では、情報理論的視点から概念消去の限界を定量化し、完璧な消去を達成するためのデータ分布と消去関数の制約を調査。提案する消去関数が理論的限界を達成し、GPT-4を用いたデータセットで既存手法を上回ることを示した。 Comment

元ポスト:

Loading…

#Survey #Pocket #Test-Time Scaling Issue Date: 2025-04-02 What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models, Qiyuan Zhang+, arXiv'25 GPT Summary- テスト時スケーリング（TTS）が大規模言語モデル（LLMs）の問題解決能力を向上させることが示されているが、体系的な理解が不足している。これを解決するために、TTS研究の4つのコア次元に基づく統一的なフレームワークを提案し、手法や応用シナリオのレビューを行う。TTSの発展の軌跡を抽出し、実践的なガイドラインを提供するとともに、未解決の課題や将来の方向性についての洞察を示す。 Comment

元ポスト:

Loading…

とてつもない量だ…網羅性がありそう。
What to Scaleがよくあるself
consistency(Parallel Scaling), STaR(Sequential Scailng), Tree of Thought(Hybrid Scaling), DeepSeek-R1, o1/3(Internal Scaling)といった分類で、How to ScaleがTuningとInferenceに分かれている。TuningはLong CoTをSFTする話や強化学習系の話（GRPOなど）で、InferenceにもSelf consistencyやらやらVerificationやら色々ありそう。良さそう。

#Pocket #Transformer #Attention #Architecture Issue Date: 2025-04-02 Multi-Token Attention, Olga Golovneva+, arXiv'25 GPT Summary- マルチトークンアテンション（MTA）を提案し、複数のクエリとキーのベクトルに基づいてアテンションウェイトを条件付けることで、関連するコンテキストをより正確に特定できるようにする。MTAは畳み込み操作を用いて、近くのトークンが互いに影響を与え、豊かな情報を活用する。評価結果から、MTAはTransformerベースラインモデルを上回り、特に長いコンテキストでの情報検索において優れた性能を示した。 Comment

元ポスト:

Loading…

従来のMulti Head Attentionでは、単体のQKのみを利用していたけど、複数のQKの情報を畳み込んで活用できるようにして、Headも畳み込みで重要な情報がより伝搬されるようにして、GroupNormalizationをかけたらPerplexityの観点でDifferential Transformerを上回ったよ、という話な模様。

- Group Normalization, Yuxin Wu+, arXiv'18
- Differential Transformer, Tianzhu Ye+, N/A, ICLR'25

#Pocket #Dataset #AIAgents #Evaluation #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

曖昧なユーザメッセージに対する、エージェントが"質問をする能力を測る"ベンチマーク

https://github.com/user-attachments/assets/3d201ebf-9ca1-4333-9d27-e33a9028066f" />

#Pocket #Dataset #AIAgents #ICML #SoftwareEngineering Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment

SWE-Benchとは完全に独立したより広範な技術スタックに関連するタスクに基づくSWEベンチマーク
- SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24

SWE-Benchと比べて実行可能な環境と単体テストが提供されており、単なるベンチマークではなくエージェントを訓練できる環境が提供されている点が大きく異なるように感じる。

#EfficiencyImprovement #Pocket #AIAgents #SoftwareEngineering #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-04-02 Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25 GPT Summary- 最近のLLMの進展により、ソフトウェア開発タスクの自動化が進んでいるが、複雑なエージェントアプローチの必要性に疑問が生じている。これに対し、Agentlessというエージェントレスアプローチを提案し、シンプルな三段階プロセスで問題を解決。SWE-bench Liteベンチマークで最高のパフォーマンスと低コストを達成。研究は自律型ソフトウェア開発におけるシンプルで解釈可能な技術の可能性を示し、今後の研究の方向性を刺激することを目指している。 Comment

日本語解説: https://note.com/ainest/n/nac1c795e3825

Agentlessと呼ばれ手法だが、preprint版にあったタイトルの接頭辞だった同呼称がproceeding版では無くなっている。

#Analysis #Pocket #FactualKnowledge Issue Date: 2025-04-01 Inside-Out: Hidden Factual Knowledge in LLMs, Zorik Gekhman+, arXiv'25 GPT Summary- 本研究は、LLMが出力以上の事実的知識をエンコードしているかを評価するフレームワークを提案。知識を定義し、正しい回答が高くランク付けされる割合を定量化。外部知識と内部知識を区別し、内部知識が外部知識を超えると隠れた知識が生じることを示す。クローズドブックQA設定でのケーススタディでは、LLMが内部で多くの知識をエンコードしていること、知識が隠れている場合があること、サンプリングによる制約があることを明らかにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #MultiModal #SpeechProcessing #OpenWeight #Video Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

Qwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。

weight: https://huggingface.co/collections/Qwen/qwen25-omni-67de1e5f0f9464dc6314b36e

元ポスト: https://www.linkedin.com/posts/niels-rogge-a3b7a3127_alibabas-qwen-team-has-done-it-again-this-activity-7311036679627132929-HUqy?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Metrics #GenerativeAI #Evaluation #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#RecommenderSystems #CollaborativeFiltering #Pocket #RAG(RetrievalAugmentedGeneration) #Reasoning Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 GPT Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment

元ポスト:

Loading…

Reasoning LLMをRecSysに応用する初めての研究（らしいことがRelated Workに書かれている）

arxivのadminより以下のコメントが追記されている
> arXiv admin note: substantial text overlap with arXiv:2502.06101

コメント中の研究は下記である
- ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24

#Pocket #LLM-as-a-Judge #Test-Time Scaling Issue Date: 2025-03-27 Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators, Seungone Kim+, arXiv'25 GPT Summary- LMの出力品質評価が難しくなっている中、計算を増やすことで評価能力が向上するかを検討。推論モデルを用いて応答全体と各ステップを評価し、推論トークンの生成が評価者のパフォーマンスを向上させることを確認。再ランク付けにより、評価時の計算増加がLMの問題解決能力を向上させることを示した。 Comment

元ポスト:

Loading…

LLM-as-a-JudgeもlongCoT+self-consistencyで性能が改善するらしい。

#Analysis #Pretraining #Pocket #Supervised-FineTuning (SFT) #ICLR #read-later Issue Date: 2025-03-27 Overtrained Language Models Are Harder to Fine-Tune, Jacob Mitchell Springer+, ICLR'25 GPT Summary- 大規模言語モデルの事前学習において、トークン予算の増加がファインチューニングを難しくし、パフォーマンス低下を引き起こす「壊滅的な過学習」を提唱。3Tトークンで事前学習されたOLMo-1Bモデルは、2.3Tトークンのモデルに比べて2%以上の性能低下を示す。実験と理論分析により、事前学習パラメータの感度の増加が原因であることを示し、事前学習設計の再評価を促す。 Comment

著者によるポスト:

Loading…

事前学習のトークン数を増やすとモデルのsensitivityが増し、post-trainingでのパフォーマンスの劣化が起こることを報告している。事前学習で学習するトークン数を増やせば、必ずしもpost-training後のモデルの性能がよくなるわけではないらしい。

ICLR'25のOutstanding Paperに選ばれた模様:

Loading…

きちんと読んだ方が良さげ。

#Supervised-FineTuning (SFT) #COLM #PostTraining Issue Date: 2025-03-25 Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate, Yubo Wang+, COLM'25 GPT Summary- 批評ファインチューニング（CFT）は、言語モデルがノイズのある応答を批評することを学ぶ新しい戦略で、従来の監視付きファインチューニング（SFT）に挑戦します。CFTは人間の学習プロセスにインスパイアを受け、深い分析を促進します。WebInstructから構築した50Kサンプルのデータセットを用いて、CFTは複数のベースモデルでSFTに対して4-10%の性能向上を示しました。特に、Qwen2.5-Math-CFTは少ないトレーニングで強力な競合と同等の性能を発揮し、CFTの堅牢性も確認されました。CFTは言語モデルの推論を進展させる効果的な手法であると主張します。 Comment

元ポスト:

Loading…

Critique Fine-Tuning (CFT) を提案。CFTでは、query x, noisy response y [^1] が与えられたときに、それに対する批評 cを学習する。cはgivenではないので、GPT4oのような強力なモデルによって合成する。

![Image](https://github.com/user-attachments/assets/f25babdd-63d6-4d3d-a9b0-3217db2bd07f)

目的関数は以下。[x; y] がgivenな時にcを生成する確率を最大化する。シンプル。
![Image](https://github.com/user-attachments/assets/ccdb8e42-e8b2-4ae1-99a6-a0b7c1d4bf2a)

RLを用いた手法との比較。1/10程度のデータ量、1/100程度のGPU時間で同等の性能を達成できる。
![Image](https://github.com/user-attachments/assets/848376ff-9965-485b-b8a0-7960d1d0e7b9)

[^1]: 本論文で利用しているWebInstructからサンプリングしたデータでは、たとえば約50%程度のyが正解, 残りは不正解（程度のnoisyデータを利用している）

#Survey #Pocket #Reasoning Issue Date: 2025-03-23 Thinking Machines: A Survey of LLM based Reasoning Strategies, Dibyanayan Bandyopadhyay+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は優れた言語能力を持つが、推論能力との間にギャップがある。推論はAIの信頼性を高め、医療や法律などの分野での適用に不可欠である。最近の強力な推論モデルの登場により、LLMsにおける推論の研究が重要視されている。本論文では、既存の推論技術の概要と比較を行い、推論を備えた言語モデルの体系的な調査と現在の課題を提示する。 Comment

元ポスト:

Loading…

RL, Test Time Compute, Self-trainingの3種類にカテゴライズされている。また、各カテゴリごとにより細分化されたツリーが論文中にある。

#Pretraining #Pocket #Scaling Laws Issue Date: 2025-03-23 Compute Optimal Scaling of Skills: Knowledge vs Reasoning, Nicholas Roberts+, arXiv'25 GPT Summary- スケーリング法則はLLM開発において重要であり、特に計算最適化によるトレードオフが注目されている。本研究では、スケーリング法則が知識や推論に基づくスキルに依存することを示し、異なるデータミックスがスケーリング挙動に与える影響を調査した。結果、知識とコード生成のスキルは根本的に異なるスケーリング挙動を示し、誤指定された検証セットが計算最適なパラメータ数に約50%の影響を与える可能性があることが明らかになった。 Comment

元ポスト:

Loading…

知識を問うQAのようなタスクはモデルのパラメータ量が必要であり、コーディングのようなReasoningに基づくタスクはデータ量が必要であり、異なる要素に依存してスケールすることを示している研究のようである。

#MachineLearning #Pocket #Reasoning #GRPO #read-later #KeyPoint Notes Issue Date: 2025-03-22 [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03 GPT Summary- DeepSeek-R1-Zeroは、RLを用いてLLMsの推論能力を向上させる手法を示した。本研究では、ベースモデルとRLの影響を分析し、DeepSeek-V3-Baseが「アハ体験」を示す一方で、Qwen2.5が強力な推論能力を持つことを発見。GRPOの最適化バイアスを特定し、Dr. GRPOを導入してトークン効率を改善。7BベースモデルでAIME 2024において43.3%の精度を達成するR1-Zeroレシピを提案。 Comment

解説ポスト:

Loading…

解説ポスト（と論文中の当該部分）を読むと、

- オリジナルのGRPOの定式では2つのバイアスが生じる:
- response-level length bias: 1/|o_i| でAdvantageを除算しているが、これはAdvantageが負の場合（つまり、誤答が多い場合）「長い応答」のペナルティが小さくなるため、モデルが「長い応答」を好むバイアスが生じる。一方で、Advantageが正の場合（正答）は「短い応答」が好まれるようになる。
- question-level difficulty bias: グループ内の全ての応答に対するRewardのstdでAdvantageを除算しているが、stdが小さくなる問題（すなわち、簡単すぎるor難しすぎる問題）をより重視するような、問題に対する重みづけによるバイアスが生じる。
- aha moment（self-seflection）はRLによって初めて獲得されたものではなく、ベースモデルの時点で獲得されており、RLはその挙動を増長しているだけ（これはX上ですでにどこかで言及されていたなぁ）。
- これまではoutput lengthを増やすことが性能改善の鍵だと思われていたが、この論文では必ずしもそうではなく、self-reflection無しの方が有りの場合よりもAcc.が高い場合があることを示している（でもぱっと見グラフを見ると右肩上がりの傾向ではある）

といった知見がある模様

あとで読む

（参考）Dr.GRPOを実際にBig-MathとQwen-2.5-7Bに適用したら安定して収束したよというポスト:

Loading…

#Survey #EfficiencyImprovement #Pocket #Reasoning Issue Date: 2025-03-22 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models, Yang Sui+, arXiv'25 GPT Summary- 本論文では、LLMsにおける効率的な推論の進展を体系的に調査し、以下の主要な方向に分類します：(1) モデルベースの効率的推論、(2) 推論出力ベースの効率的推論、(3) 入力プロンプトベースの効率的推論。特に、冗長な出力による計算オーバーヘッドを軽減する方法を探求し、小規模言語モデルの推論能力や評価方法についても議論します。 Comment

Reasoning Modelにおいて、Over Thinking現象（不要なreasoning stepを生成してしまう）を改善するための手法に関するSurvey。

下記Figure2を見るとよくまとまっていて、キャプションを読むとだいたい分かる。なるほど。
Length Rewardについては、
- Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25

で考察されている通り、Reward Hackingが起きるので設計の仕方に気をつける必要がある。

元ポスト:

Loading…

各カテゴリにおけるliteratureも見やすくまとめられている。必要に応じて参照したい。

#Pocket #Dataset #LongSequence #ContextEngineering Issue Date: 2025-03-20 Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation, Junhao Zhang+, arXiv'25 GPT Summary- 長い入力と出力の生成に特化したLongInOutBenchを導入し、既存手法の「中間での喪失」問題に対処。Retrieval-Augmented Long-Text Writer（RAL-Writer）を開発し、重要なコンテンツを再表現することで性能を向上。提案手法の有効性をベースラインと比較して示す。 Comment

Lost in the Middleに関する研究。

#Pocket #ICML #Test-Time Scaling #Verification Issue Date: 2025-03-18 Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification, Eric Zhao+, ICML'25 GPT Summary- サンプリングベースの探索は、複数の候補応答を生成し最良のものを選ぶ手法であり、自己検証によって正確性を確認します。本研究では、この探索のスケーリング傾向を分析し、シンプルな実装がGemini v1.5 Proの推論能力を向上させることを示しました。自己検証の精度向上は、より大きな応答プールからのサンプリングによるもので、応答間の比較が有益な信号を提供することや、異なる出力スタイルが文脈に応じて役立つことを明らかにしました。また、最前線のモデルは初期の検証能力が弱く、進捗を測るためのベンチマークを提案しました。 Comment

元ポスト:

Loading…

ざっくりしか読めていないが、複数の解答をサンプリングして、self-verificationをさせて最も良かったものを選択するアプローチ。最もverificationスコアが高い解答を最終的に選択したいが、tieの場合もあるのでその場合は追加のpromptingでレスポンスを比較しより良いレスポンスを選択する。これらは並列して実行が可能で、探索とself-verificationを200個並列するとGemini 1.5 Proでo1-previewよりも高い性能を獲得できる模様。Self-consistencyと比較しても、gainが大きい。具体的なアルゴリズムはAlgorithm1を参照のこと。

https://github.com/user-attachments/assets/a62625e1-5503-459c-91f3-b7018aba76a6" />

openreview: https://openreview.net/forum?id=wl3eI4wiE5

#Analysis #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #RLHF Issue Date: 2025-03-17 All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv'25 GPT Summary- 基盤モデルのファインチューニングにおいて、報酬モデルを用いた二段階のトレーニング手順が効果的である理由を理論的および実証的に検討。特に、好みデータから単純な報酬モデルを学び、強化学習手続きがそのモデルに最適なポリシーをフィルタリングする能力が、オンラインファインチューニングの優れたパフォーマンスに寄与することが示された。 Comment

元ポスト:

Loading…

AlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、報酬モデルを学習して、その報酬モデルを用いてモデルを強化学習することで、なぜ前者よりも（同じデータ由来であるにもかかわらず）優れたパフォーマンスを示すのか、という疑問に対してアプローチしている。

全く中身を読めていないが、生成することと（方策モデル）と検証すること（報酬モデル）の間にギャップがある場合（すなわち、生成と検証で求められる能力が異なる場合）、MLEでは可能なすべてのポリシーを探索することと似たようなことをすることになるが、RLでは事前に報酬モデルを学習しその報酬モデルに対して最適なポリシーを探索するだけなので探索する空間が制限される（＝生成と検証のギャップが埋まる）ので、良い解に収束しやすくなる、というイメージなんだろうか。

#Survey #Pocket #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-15 A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は自然言語処理に革命をもたらしたが、専門的な文脈での制約が明らかである。これに対処するため、高度なポストトレーニング言語モデル（PoLMs）が必要であり、本論文ではその包括的な調査を行う。ファインチューニング、アライメント、推論、効率、統合と適応の5つのコアパラダイムにわたる進化を追跡し、PoLMがバイアス軽減や推論能力向上に寄与する方法を示す。研究はPoLMの進化に関する初の調査であり、将来の研究のための枠組みを提供し、LLMの精度と倫理的堅牢性を向上させることを目指す。 Comment

Post Trainingの時間発展の図解が非常にわかりやすい（が、厳密性には欠けているように見える。当該モデルの新規性における主要な技術はこれです、という図としてみるには良いのかもしれない）。
個々の技術が扱うスコープとレイヤー、データの性質が揃っていない気がするし、それぞれのLLMがy軸の単一の技術だけに依存しているわけでもない。が、厳密に図を書いてと言われた時にどう書けば良いかと問われると難しい感はある。

元ポスト:

Loading…

#Embeddings #RepresentationLearning Issue Date: 2025-03-12 Gemini Embedding: Generalizable Embeddings from Gemini, Jinhyuk Lee+, arXiv'25 GPT Summary- Gemini Embeddingは、Googleの大規模言語モデルGeminiを活用した最先端の埋め込みモデルで、多言語およびコード理解能力を活かして一般化可能な埋め込みを生成します。事前計算された表現は、分類や検索などの下流タスクに適用可能で、250以上の言語にわたる100以上のタスクを含むMMTEBで評価した結果、従来のモデルを大幅に上回る性能を示しました。 Comment

元ポスト:

Loading…

世のdecoder-onlyモデルベースのembeddingモデルがどのように作られているか具体的によくわかっていないので読みたい

Geminiのパラメータでbi-directionalなself-attentionを持つtransformer (たとえばBERT)で初期化し、全てのtokenをmean poling (HF BERT ModelのPoolerLayerのようなもの)することでトークンの情報を単一のembeddingに混ぜる。
学習は2段階のfinetuning (pre-finetuning, finetuning)によって、モデルをContrastive Learningする（NCE loss）。
pre-finetuningはnoisyだが大規模なデータ（web上のタイトルとparagraphのペアなど）、そのあとのfinetuningはQAなどの高品質なデータを利用。

#Survey #Pocket #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-04 LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）のポストトレーニング手法に焦点を当て、知識の洗練や推論の改善、事実の正確性向上を目指す。ファインチューニングや強化学習などの戦略がLLMsのパフォーマンスを最適化し、実世界のタスクへの適応性を向上させる。主要な課題として壊滅的な忘却や報酬ハッキングを分析し、今後の研究方向性を示す公開リポジトリも提供。 Comment

非常にわかりやすい。

元ポスト:

Loading…

#ComputerVision #Pocket #DiffusionModel #NeurIPS Issue Date: 2025-03-02 Large Language Diffusion Models, Shen Nie+, NeurIPS'25 GPT Summary- LLaDAは、自己回帰モデル（ARMs）に代わる拡散モデルであり、ゼロから訓練され、データマスキングを通じて分布をモデル化。広範なベンチマークで強力なスケーラビリティを示し、自己構築したARMベースラインを上回る。特に、LLaDA 8Bは文脈内学習や指示追従能力に優れ、逆詩の完成タスクでGPT-4oを超える性能を発揮。拡散モデルがARMsの実行可能な代替手段であることを示す。 Comment

元ポスト:

Loading…

参考:

Loading…

openreview(ICLR'25): https://openreview.net/forum?id=W2tWu0aikL

pj page: https://ml-gsai.github.io/LLaDA-demo/

openreview(NeurIPS'25): https://openreview.net/forum?id=KnqiC0znVF

#EfficiencyImprovement #MachineLearning #Pocket #Attention #ACL #read-later Issue Date: 2025-03-02 Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, Jingyang Yuan+, ACL'25 GPT Summary- 長文コンテキストモデリングのために、計算効率を改善するスパースアテンションメカニズム「NSA」を提案。NSAは動的な階層スパース戦略を用い、トークン圧縮と選択を組み合わせてグローバルなコンテキスト認識とローカルな精度を両立。実装最適化によりスピードアップを実現し、エンドツーエンドのトレーニングを可能にすることで計算コストを削減。NSAはフルアテンションモデルと同等以上の性能を維持しつつ、長シーケンスに対して大幅なスピードアップを達成。 Comment

元ポスト:

Loading…

ACL'25のBest Paperの一つ:

Loading…

#Survey #Pocket #Reasoning Issue Date: 2025-02-26 From System 1 to System 2: A Survey of Reasoning Large Language Models, Zhong-Zhi Li+, arXiv'25 GPT Summary- 人間レベルの知能を達成するためには、迅速なシステム1から意図的なシステム2への推論の洗練が必要。基盤となる大規模言語モデル（LLMs）は迅速な意思決定に優れるが、複雑な推論には深さが欠ける。最近の推論LLMはシステム2の意図的な推論を模倣し、人間のような認知能力を示している。本調査では、LLMの進展とシステム2技術の初期開発を概観し、推論LLMの構築方法や特徴、進化を分析。推論ベンチマークの概要を提供し、代表的な推論LLMのパフォーマンスを比較。最後に、推論LLMの進展に向けた方向性を探り、最新の開発を追跡するためのGitHubリポジトリを維持することを目指す。 Comment

元ポスト:

Loading…

#Dataset #QuestionAnswering Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv'25 GPT Summary- SuperGPQAを提案し、285の専門分野におけるLLMsの知識と推論能力を評価する新しいベンチマークを構築。Human-LLM協調フィルタリングを用いて、トリビアルな質問を排除。実験結果は、最先端のLLMsに改善の余地があることを示し、人工一般知能とのギャップを強調。大規模なアノテーションプロセスから得た洞察は、今後の研究に対する方法論的ガイダンスを提供。 Comment

元ポスト:

Loading…

#Tools #AIAgents #Reasoning #NAACL Issue Date: 2025-02-20 OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning, Pan Lu+, NAACL'25 GPT Summary- 複雑な推論タスクに対応するためのオープンソースエージェントフレームワーク「OctoTools」を提案。トレーニング不要で拡張可能なこのフレームワークは、標準化されたツールカードやプランナー、エグゼキューターを備え、16の多様なタスクでGPT-4oに対して平均9.3%の精度向上を達成。さらに、他の手法を最大10.6%上回る性能を示した。 Comment

元ポスト:

Loading…

NAACL'25でベストペーパーに選出:

Loading…

#Pocket #Dataset #SyntheticData #Reasoning #Distillation Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv'25 GPT Summary- 多様で高品質な推論質問を生成するためのスケーラブルなアプローチを提案し、280万の質問からなるNaturalReasoningデータセットを構築。知識蒸留実験により、強力な教師モデルが推論能力を引き出せることを実証し、教師なし自己学習にも効果的であることを示す。 Comment

元ポスト:

Loading…

#Analysis #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning Issue Date: 2025-02-18 Scaling Test-Time Compute Without Verification or RL is Suboptimal, Amrith Setlur+, arXiv'25 GPT Summary- RLや探索に基づく検証者ベース（VB）手法が、探索の痕跡を蒸留する検証者フリー（VF）アプローチよりも優れていることを示す。テスト時の計算とトレーニングデータをスケールアップすると、VF手法の最適性が悪化し、VB手法がより良くスケールすることが確認された。3/8/32BサイズのLLMを用いた実験で、検証が計算能力の向上に重要であることを実証。 Comment

元ポスト:

Loading…

- s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25

#Pretraining #Pocket Issue Date: 2025-02-14 LLM Pretraining with Continuous Concepts, Jihoon Tack+, arXiv'25 GPT Summary- 次トークン予測に代わる新しい事前学習フレームワークCoCoMixを提案。これは、スパースオートエンコーダから学習した連続的な概念をトークンの隠れ表現と交互に混ぜることで、モデルの性能を向上させる。実験により、CoCoMixは従来の手法を上回り、解釈可能性と操作性も向上させることが示された。 #Pocket #Test-Time Scaling Issue Date: 2025-02-12 Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling, Runze Liu+, arXiv'25 GPT Summary- Test-Time Scaling (TTS)は、LLMsの性能向上に寄与する手法であり、ポリシーモデルやPRM、問題の難易度がTTSに与える影響を分析。実験により、最適なTTS戦略はこれらの要素に依存し、小型モデルが大型モデルを上回る可能性を示した。具体的には、1BのLLMが405BのLLMを超える結果を得た。これにより、TTSがLLMsの推論能力を向上させる有望なアプローチであることが示された。 #InformationRetrieval #Pocket #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-02-12 DeepRAG: Thinking to Retrieval Step by Step for Large Language Models, Xinyan Guan+, arXiv'25 GPT Summary- DeepRAGフレームワークを提案し、検索強化推論をマルコフ決定過程としてモデル化。クエリを反復的に分解し、外部知識の取得とパラメトリック推論の依存を動的に判断。実験により、検索効率と回答の正確性を21.99%向上させることを実証。 Comment

日本語解説。ありがとうございます！

RAGでも「深い検索」を実現する手法「DeepRAG」, Atsushi Kadowaki,
ナレッジセンス - AI知見共有ブログ: https://zenn.dev/knowledgesense/articles/034b613c9fd6d3

#Pocket #ReinforcementLearning #SyntheticData #CodeGeneration #SyntheticDataGeneration Issue Date: 2025-02-12 ACECODER: Acing Coder RL via Automated Test-Case Synthesis, Huaye Zeng+, arXiv'25 GPT Summary- 本研究では、コードモデルのトレーニングにおける強化学習（RL）の可能性を探求し、自動化された大規模テストケース合成を活用して信頼できる報酬データを生成する手法を提案します。具体的には、既存のコードデータから質問とテストケースのペアを生成し、これを用いて報酬モデルをトレーニングします。このアプローチにより、Llama-3.1-8B-Insで平均10ポイント、Qwen2.5-Coder-7B-Insで5ポイントの性能向上が見られ、7Bモデルが236B DeepSeek-V2.5と同等の性能を達成しました。また、強化学習を通じてHumanEvalやMBPPなどのデータセットで一貫した改善を示し、特にQwen2.5-Coder-baseからのRLトレーニングがHumanEval-plusで25%以上、MBPP-plusで6%の改善をもたらしました。これにより、コーダーモデルにおける強化学習の大きな可能性が示されました。 #Pocket #Architecture #NeurIPS #Test-Time Scaling #LatentReasoning Issue Date: 2025-02-10 [Paper Note] Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach, Jonas Geiping+, NeurIPS'25 GPT Summary- 新しい言語モデルアーキテクチャを提案し、潜在空間での暗黙的推論によりテスト時の計算をスケールさせる。再帰ブロックを反復し、任意の深さに展開することで、従来のトークン生成モデルとは異なるアプローチを採用。特別なトレーニングデータを必要とせず、小さなコンテキストウィンドウで複雑な推論を捉える。3.5億パラメータのモデルをスケールアップし、推論ベンチマークでのパフォーマンスを劇的に改善。 #Pocket #Distillation #TeacherHacking Issue Date: 2025-02-10 On Teacher Hacking in Language Model Distillation, Daniil Tiapkin+, arXiv'25 GPT Summary- 本研究では、言語モデルの知識蒸留過程における「教師ハッキング」の現象を調査。固定されたオフラインデータセットを用いると教師ハッキングが発生し、最適化プロセスの逸脱を検出可能。一方、オンラインデータ生成技術を用いることで教師ハッキングを軽減でき、データの多様性が重要な要因であることを明らかにした。これにより、堅牢な言語モデル構築における蒸留の利点と限界についての理解が深まる。 Comment

元ポスト:

Loading…

自分で蒸留する機会は今のところないが、覚えておきたい。過学習と一緒で、こういう現象が起こるのは想像できる。

#Pocket #AIAgents Issue Date: 2025-02-09 Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?, Wenzhe Li+, arXiv'25 GPT Summary- Self-MoAは、単一の高性能LLMからの出力を集約するアンサンブル手法であり、従来のMoAを上回る性能を示す。AlpacaEval 2.0で6.6%の改善を達成し、MMLUやCRUXなどでも平均3.8%の向上を記録。出力の多様性と品質のトレードオフを調査し、異なるLLMの混合が品質を低下させることを確認。Self-MoAの逐次バージョンも効果的であることを示した。 Comment

元ポスト:

Loading…

#Pocket #Supervised-FineTuning (SFT) #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2025-02-07 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25 GPT Summary- テスト時スケーリングを用いて言語モデルのパフォーマンスを向上させる新しいアプローチを提案。小規模データセットs1Kを作成し、モデルの思考プロセスを制御する予算強制を導入。これにより、モデルは不正確な推論を修正し、Qwen2.5-32B-Instructモデルがo1-previewを最大27%上回る結果を達成。さらに、介入なしでパフォーマンスを向上させることが可能となった。モデル、データ、コードはオープンソースで提供。 Comment

解説:

Loading…

#Pocket #Supervised-FineTuning (SFT) #DataDistillation #Reasoning #PostTraining Issue Date: 2025-02-07 LIMO: Less is More for Reasoning, Yixin Ye+, arXiv'25 GPT Summary- LIMOモデルは、わずか817のトレーニングサンプルで複雑な数学的推論を効果的に引き出し、AIMEで57.1%、MATHで94.8%の精度を達成。従来のモデルよりも少ないデータで優れたパフォーマンスを示し、一般化を促す「Less-Is-More Reasoning Hypothesis」を提案。LIMOはオープンソースとして提供され、データ効率の良い推論の再現性を促進する。 Comment

元ポスト:

Loading…

#Analysis #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Reasoning #LongSequence #RewardHacking #PostTraining #Selected Papers/Blogs Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 GPT Summary- 本研究では、大規模言語モデル（LLMs）における長い思考の連鎖（CoTs）推論のメカニズムを調査し、重要な要因を特定。主な発見は、(1) 教師ありファインチューニング（SFT）は必須ではないが効率を向上させる、(2) 推論能力は計算の増加に伴い現れるが、報酬の形状がCoTの長さに影響、(3) 検証可能な報酬信号のスケーリングが重要で、特に分布外タスクに効果的、(4) エラー修正能力は基本モデルに存在するが、RLを通じて効果的に奨励するには多くの計算が必要。これらの洞察は、LLMsの長いCoT推論を強化するためのトレーニング戦略の最適化に役立つ。 Comment

元ポスト:

Loading…

#Pocket #Alignment #ICLR #DPO #PostTraining #Diversity Issue Date: 2025-02-01 Diverse Preference Optimization, Jack Lanchantin+, ICLR'25 GPT Summary- Diverse Preference Optimization（DivPO）を提案し、応答の多様性を向上させつつ生成物の品質を維持するオンライン最適化手法を紹介。DivPOは応答のプールから多様性を測定し、希少で高品質な例を選択することで、パーソナ属性の多様性を45.6%、ストーリーの多様性を74.6%向上させる。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=pOq9vDIYev

DPOと同じ最適化方法を使うが、Preference Pairを選択する際に、多様性が増加するようなPreference Pairの選択をすることで、モデルのPost-training後の多様性を損なわないようにする手法を提案しているっぽい。
具体的には、Alg.1 に記載されている通り、多様性の尺度Dを定義して、モデルにN個のレスポンスを生成させRMによりスコアリングした後、RMのスコアが閾値以上のresponseを"chosen" response, 閾値未満のレスポンスを "reject" responseとみなし、chosen/reject response集合を構築する。chosen response集合の中からDに基づいて最も多様性のあるresponse y_c、reject response集合の中から最も多様性のないresponse y_r をそれぞれピックし、prompt xとともにpreference pair (x, y_c, y_r) を構築しPreference Pairに加える、といった操作を全ての学習データ（中のprompt）xに対して繰り返すことで実現する。

#ComputerVision #Analysis #MachineLearning #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#Pocket #Reasoning #Test-Time Scaling Issue Date: 2025-01-28 Evolving Deeper LLM Thinking, Kuang-Huei Lee+, arXiv'25 GPT Summary- Mind Evolutionという進化的探索戦略を提案し、言語モデルを用いて候補応答を生成・洗練する。これにより、推論問題の形式化を回避しつつ、推論コストを制御。自然言語計画タスクにおいて、他の戦略を大幅に上回り、TravelPlannerおよびNatural Planのベンチマークで98%以上の問題を解決。 Comment

OpenReview: https://openreview.net/forum?id=nGP1UxhAbV&referrer=%5Bthe%20profile%20of%20Kuang-Huei%20Lee%5D(%2Fprofile%3Fid%3D~Kuang-Huei_Lee1)

#ComputerVision #Pocket #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#Pocket #Chain-of-Thought #Prompting Issue Date: 2025-01-25 Perspective Transition of Large Language Models for Solving Subjective Tasks, Xiaolong Wang+, arXiv'25 GPT Summary- 視点の移行を通じた推論（RPT）を提案し、LLMsが主観的な問題に対して動的に視点を選択できる手法を紹介。広範な実験により、従来の固定視点手法を上回り、文脈に応じた適切な応答を提供する能力を示す。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=cFGPlRony5

"Subjective Task"とは例えば「メタファーの認識」や「ダークユーモアの検知」などがあり、これらは定量化しづらい認知的なコンテキストや、ニュアンスや感情などが強く関連しており、現状のLLMではチャレンジングだと主張している。
Subjective Taskでは、Reasoningモデルのように自動的にCoTのpathwayを決めるのは困難で、手動でpathwayを記述するのはチャレンジングで一貫性を欠くとした上で、複数の視点を組み合わせたPrompting（direct perspective, role-perspective, third-person perspectivfe）を実施し、最もConfidenceの高いanswerを採用することでこの課題に対処すると主張している。

イントロしか読めていないが、自動的にCoTのpathwayを決めるのも手動で決めるのも難しいという風にイントロで記述されているが、手法自体が最終的に3つの視点から回答を生成させるという枠組みに則っている（つまりSubjective Taskを解くための形式化できているので、自動的な手法でもできてしまうのではないか？と感じた）ので、イントロで記述されている主張の”難しさ”が薄れてしまっているかも・・・？と感じた。論文が解こうとしている課題の”難しさ”をサポートする材料がもっとあった方がよりmotivationが分かりやすくなるかもしれない、という感想を持った。

#Pocket #ICML #Tokenizer #Workshop Issue Date: 2025-01-02 Byte Latent Transformer: Patches Scale Better Than Tokens, Artidoro Pagnoni+, ICML'25 Workshop Tokshop GPT Summary- Byte Latent Transformer（BLT）は、バイトレベルのLLMアーキテクチャで、トークン化ベースのLLMと同等のパフォーマンスを実現し、推論効率と堅牢性を大幅に向上させる。BLTはバイトを動的にサイズ変更可能なパッチにエンコードし、データの複雑性に応じて計算リソースを調整する。最大8Bパラメータと4Tトレーニングバイトのモデルでの研究により、固定語彙なしでのスケーリングの可能性が示された。長いパッチの動的選択により、トレーニングと推論の効率が向上し、全体的にBLTはトークン化モデルよりも優れたスケーリングを示す。 Comment

興味深い

図しか見れていないが、バイト列をエンコード/デコードするtransformer学習して複数のバイト列をパッチ化（エントロピーが大きい部分はより大きなパッチにバイト列をひとまとめにする）、パッチからのバイト列生成を可能にし、パッチを変換するのをLatent Transformerで学習させるようなアーキテクチャのように見える。

また、予算によってモデルサイズが決まってしまうが、パッチサイズを大きくすることで同じ予算でモデルサイズも大きくできるのがBLTの利点とのこと。

日本語解説: https://bilzard.github.io/blog/2025/01/01/byte-latent-transformer.html?v=2

OpenReview: https://openreview.net/forum?id=UZ3J8XeRLw

#Pocket #Chain-of-Thought #COLM #PostTraining #read-later #LatentReasoning #One-Line Notes Issue Date: 2024-12-12 [Paper Note] Training Large Language Models to Reason in a Continuous Latent Space, Shibo Hao+, COLM'25 GPT Summary- 新しい推論パラダイム「Coconut」を提案し、LLMの隠れ状態を連続的思考として利用。これにより、次の入力を連続空間でフィードバックし、複数の推論タスクでLLMを強化。Coconutは幅優先探索を可能にし、特定の論理推論タスクでCoTを上回る性能を示す。潜在的推論の可能性を探る重要な洞察を提供。 Comment

Chain of Continuous Thought

通常のCoTはRationaleをトークン列で生成するが、Coconutは最終的なhidden stateをそのまま次ステップの入力にすることで、トークンに制限されずにCoTさせるということらしい。あとでしっかり読む

おそらく学習の際に工夫が必要なので既存モデルのデコーディングを工夫してできます系の話ではないかも

OpenReview: https://openreview.net/forum?id=tG4SgayTtk

ICLR'25にrejectされている。
ざっと最初のレビューに書かれているWeaknessを読んだ感じ
- 評価データが合成データしかなく、よりrealisticなデータで評価した方が良い
- CoTら非常に一般的に適用可能な技術なので、もっと広範なデータで評価すべき
- GSM8Kでは大幅にCOCONUTはCoTに性能が負けていて、ProsQAでのみにしかCoTに勝てていない
- 特定のデータセットでの追加の学習が必要で、そこで身につけたreasoning能力が汎化可能か明らかでない

といった感じに見える

COLM'25 openreview:
https://openreview.net/forum?id=Itxz7S4Ip3#discussion

COLM'25にAccept

#Pocket #Alignment #Supervised-FineTuning (SFT) #AIAgents #COLING #PostTraining Issue Date: 2024-12-10 Towards Adaptive Mechanism Activation in Language Agent, Ziyang Huang+, COLING'25 GPT Summary- 自己探索によるメカニズム活性化学習（ALAMA）を提案し、固定されたメカニズムに依存せずに適応的なタスク解決を目指す。調和のとれたエージェントフレームワーク（UniAct）を構築し、タスク特性に応じてメカニズムを自動活性化。実験結果は、動的で文脈に敏感なメカニズム活性化の有効性を示す。 Comment

元ポスト:

Loading…

手法としては、SFTとKTOを活用しpost trainingするようである

- KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N/A, ICML'24

#NeuralNetwork #Pretraining #MachineLearning #Pocket #ICLR #Batch Issue Date: 2024-11-25 How Does Critical Batch Size Scale in Pre-training?, Hanlin Zhang+, ICLR'25 GPT Summary- 大規模モデルの訓練には、クリティカルバッチサイズ（CBS）を考慮した並列化戦略が重要である。CBSの測定法を提案し、C4データセットで自己回帰型言語モデルを訓練。バッチサイズや学習率などの要因を調整し、CBSがデータサイズに比例してスケールすることを示した。この結果は、ニューラルネットワークの理論的分析によって支持され、ハイパーパラメータ選択の重要性も強調されている。 Comment

Critical Batch Sizeはモデルサイズにはあまり依存せず、データサイズに応じてスケールする

#ComputerVision #EfficiencyImprovement #Transformer #MultiModal #SpeechProcessing #Architecture #TMLR #UMM Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25 GPT Summary- 大規模言語モデル（LLMs）のマルチモーダル処理を効率化するために、Mixture-of-Transformers（MoT）を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 #Pocket #Alignment #Supervised-FineTuning (SFT) #ICML Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, ICML'25 GPT Summary- 自己調整は、モデルが人間の注釈なしに自らを改善する方法であり、自己一貫性を活用して訓練を行う新しいアプローチ、自己一貫性優先最適化（ScPO）を提案。ScPOは一貫した答えを優先し、GSM8KやMATHなどの推論タスクで従来の手法を大幅に上回る性能を示し、標準的な監視学習との組み合わせでも結果が向上。ZebraLogicでLlama-3 8Bを微調整し、他の大規模モデルを超える成果を達成。 Comment

元ポスト:

Loading…

Self-Consistencyのように、モデルに複数の出力をさせて、最も頻度が高い回答と頻度が低い回答の2つでDPOのペアデータを作成し学習。頻度の差によって重みを決めてlossに組み込みこのよつな処理を繰り返し学習すると性能が向上する、といった話のように見える。

#Transformer #Architecture #KeyPoint Notes Issue Date: 2024-10-21 Differential Transformer, Tianzhu Ye+, N_A, ICLR'25 GPT Summary- Diff Transformerは、関連するコンテキストへの注意を強化し、ノイズをキャンセルする新しいアーキテクチャです。差分注意メカニズムを用いて、注意スコアを計算し、スパースな注意パターンを促進します。実験結果は、Diff Transformerが従来のTransformerを上回り、長いコンテキストモデリングや幻覚の軽減において顕著な利点を示しています。また、文脈内学習においても精度を向上させ、堅牢性を高めることが確認されました。これにより、Diff Transformerは大規模言語モデルの進展に寄与する有望なアーキテクチャとされています。 Comment

最近のMSはなかなかすごい（小並感

# 概要

attention scoreのノイズを低減するようなアーキテクチャとして、二つのQKVを用意し、両者の差分を取ることで最終的なattentiok scoreを計算するDifferential Attentionを提案した。

attentionのnoiseの例。answerと比較してirrelevantなcontextにattention scoreが高いスコアが割り当てられてしまう（図左）。differential transformerが提案するdifferential attentionでは、ノイズを提言し、重要なcontextのattention scoreが高くなるようになる（図中央）、らしい。

# Differential Attentionの概要と計算式

数式で見るとこのようになっており、二つのQKをどの程度の強さで交互作用させるかをλで制御し、λもそれぞれのQKから導出する。

QA, 機械翻訳, 文書分類, テキスト生成などの様々なNLPタスクが含まれるEval Harnessベンチマークでは、同規模のtransformerモデルを大幅にoutperform。ただし、3Bでしか実験していないようなので、より大きなモデルサイズになったときにgainがあるかは示されていない点には注意。

モデルサイズ（パラメータ数）と、学習トークン数のスケーラビリティについても調査した結果、LLaMAと比較して、より少ないパラメータ数/学習トークン数で同等のlossを達成。

64Kにcontext sgzeを拡張し、1.5B tokenで3Bモデルを追加学習をしたところ、これもtransformerと比べてより小さいlossを達成

context中に埋め込まれた重要な情報（今回はクエリに対応するmagic number）を抽出するタスクの性能も向上。Needle（N）と呼ばれる正解のmagic numberが含まれる文をcontext中の様々な深さに配置し、同時にdistractorとなる文もランダムに配置する。これに対してクエリ（R）が入力されたときに、どれだけ正しい情報をcontextから抽出できるか、という話だと思われる。

これも性能が向上。特にクエリとNeedleが複数の要素で構成されていれ場合の性能が高く（下表）、長いコンテキスト中の様々な位置に埋め込まれたNeedleを抽出する性能も高い（上のmatrix）

[Needle-In-A-Haystack test]( https://www.perplexity.ai/search/needle-in-a-haystack-testtohan-jF7LXWQPSMqKI2pZSchjpA#0)

Many shotのICL能力も向上

要約タスクでのhallucinationも低減。生成された要約と正解要約を入力し、GPT4-oにhallucinationの有無を判定させて評価。これは先行研究で人手での評価と高いagreementがあることが示されている。

シンプルなアプローチでLLM全体の性能を底上げしている素晴らしい成果に見える。斜め読みなので読み飛ばしているかもしれないが、Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23
のように高品質な学習データで学習した場合も同様の効果が発現するのだろうか？
attentionのスコアがnoisyということは、学習データを洗練させることでも改善される可能性があり、Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 はこれをデータで改善し、こちらの研究はモデルのアーキテクチャで改善した、みたいな捉え方もできるのかもしれない。

ちなみにFlash Attentionとしての実装方法も提案されており、スループットは通常のattentionと比べてむしろ向上しているので実用的な手法でもある。すごい。

あとこれ、事前学習とInstruction Tuningを通常のマルチヘッドアテンションで学習されたモデルに対して、独自データでSFTするときに導入したらdownstream taskの性能向上するんだろうか。もしそうなら素晴らしい

OpenReview: https://openreview.net/forum?id=OvoCm1gGhN

GroupNormalizationについてはこちら:
- Group Normalization, Yuxin Wu+, arXiv'18

#Pocket #Hallucination #ICLR Issue Date: 2024-10-20 LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations, Hadas Orgad+, N_A, ICLR'25 GPT Summary- LLMsは「幻覚」と呼ばれるエラーを生成するが、内部状態が真実性に関する情報をエンコードしていることが示されている。本研究では、真実性情報が特定のトークンに集中していることを発見し、これを利用することでエラー検出性能が向上することを示す。しかし、エラーディテクターはデータセット間で一般化に失敗し、真実性のエンコーディングは普遍的ではないことが明らかになる。また、内部表現を用いてエラーの種類を予測し、特化した緩和戦略の開発を促進する。さらに、内部エンコーディングと外部の振る舞いとの不一致が存在し、正しい答えをエンコードしていても誤った答えを生成することがある。これにより、LLMのエラー理解が深まり、今後の研究に寄与する。 Comment

特定のトークンがLLMのtrustfulnessに集中していることを実験的に示し、かつ内部でエンコードされたrepresentationは正しい答えのものとなっているのに、生成結果に誤りが生じるような不整合が生じることも示したらしい

openreview: https://openreview.net/forum?id=KRnsX5Em3W

#Dataset #Alignment #OpenWeight #ICLR Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, （ICLR'25）, 2024.10 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様

openreview: https://openreview.net/forum?id=MnfHxPP5gs

#SelfCorrection #ICLR #Verification #RewardModel #GenerativeVerifier Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, ICLR'25 GPT Summary- 検証器と報酬モデルを用いてLLMの推論性能を向上させる新しいアプローチ、生成的検証器（GenRM）を提案。GenRMは次トークン予測を用いて検証と解決策生成を共同で行い、指示チューニングや思考の連鎖を活用。実験により、GenRMは従来の検証器を上回り、問題解決率が16-64%向上することを示した。 Comment

LLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができた結果性能が向上しました、という研究らしい。また、Self-consistency [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 のように複数の異なるCoTを並列して実行させ、そのmajority votingをとることでさらに性能が向上する。

https://github.com/user-attachments/assets/e6ebd308-fc77-4c5b-80c2-37e3615f48af" >

https://github.com/user-attachments/assets/9cf3dfe7-be09-4053-a760-9ec9ed993b33" >

#Analysis #Pocket #SyntheticData #ICLR Issue Date: 2024-04-15 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws, Zeyuan Allen-Zhu+, N_A, ICLR'25 GPT Summary- 言語モデルのサイズと能力の関係を記述するスケーリング則に焦点を当てた研究。モデルが格納する知識ビット数を推定し、事実知識をタプルで表現。言語モデルは1つのパラメータあたり2ビットの知識を格納可能であり、7Bモデルは14Bビットの知識を格納可能。さらに、トレーニング期間、モデルアーキテクチャ、量子化、疎な制約、データの信号対雑音比が知識格納容量に影響することを示唆。ロータリー埋め込みを使用したGPT-2アーキテクチャは、知識の格納においてLLaMA/Mistralアーキテクチャと競合する可能性があり、トレーニングデータにドメイン名を追加すると知識容量が増加することが示された。 Comment

参考:

Loading…

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

openreview: https://openreview.net/forum?id=FxNNiUgtfa

#ComputerVision #Pocket #ModelMerge Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, Nature Machine Intelligence'25 GPT Summary- 進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment

複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。

著者スライドによると、従来のモデルマージにはbase modelが同一でないとうまくいかなかったり（重みの線型結合によるモデルマージ）、パラメータが増減したり（複数LLMのLayerを重みは弄らず再配置する）。また日本語LLMに対してモデルマージを実施しようとすると、マージ元のLLMが少なかったり、広範囲のモデルを扱うとマージがうまくいかない、といった課題があった。本研究ではこれら課題を解決できる。

著者による資料（NLPコロキウム）:
https://speakerdeck.com/iwiwi/17-nlpkorokiumu

#Pocket #Evaluation #Hallucination #Factuality #COLM Issue Date: 2023-07-27 [Paper Note] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, COLM'25, 2023.07 GPT Summary- 生成的事前学習モデルによるテキスト合成は進展したが、事実誤認の特定には課題が残る。特に、生成モデルによる事実誤認のリスク増加、長文化による粒度の欠如、明示的証拠の不足が問題である。これらを解決するために、タスクやドメインに依存しない事実誤認検出フレームワークFacToolを提案。知識ベースのQA、コード生成、数学的推論、科学文献レビューの4つのタスクで有効性を実証し、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=hJkQL9VtWT#discussion

#Multi #Pocket #Library #AIAgents Issue Date: 2025-11-25 [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11 GPT Summary- 高性能なオープンソースエージェントシステム「Magentic-One」を提案。マルチエージェントアーキテクチャを用いて計画、進捗追跡、エラー回復を行い、専門エージェントにタスクを指示。GAIA、AssistantBench、WebArenaのベンチマークで競争力のあるパフォーマンスを達成。モジュラー設計により、エージェントの追加や削除が容易で、将来の拡張が可能。オープンソース実装とエージェント評価ツール「AutoGenBench」を提供。詳細は公式サイトで確認可能。 Comment

日本語解説: https://zenn.dev/masuda1112/articles/2024-11-30-magnetic-one

#Pocket #AIAgents #SyntheticData #PostTraining Issue Date: 2025-11-25 [Paper Note] AgentInstruct: Toward Generative Teaching with Agentic Flows, Arindam Mitra+, arXiv'24, 2024.07 GPT Summary- 合成データは言語モデルの開発に重要であり、本研究では「Generative Teaching」と呼ばれる手法を提案。高品質な合成データを自動生成する「AgentInstruct」フレームワークを用いて、2500万ペアのポストトレーニングデータセットを作成。これにより、Mistral-7bをポストトレーニングしたモデルOrca-3は、複数のベンチマークで顕著な性能向上を示し、他のモデルに対しても優れた結果を得た。 Comment

#Pocket #AIAgents #Evaluation #NeurIPS #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

#Pocket #DiffusionModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Simple and Effective Masked Diffusion Language Models, Subham Sekhar Sahoo+, NeurIPS'24, 2024.06 GPT Summary- マスク付き離散拡散モデルは、従来の自己回帰手法に匹敵する性能を示す。効果的なトレーニング手法と簡略化された目的関数を導出し、エンコーダ専用の言語モデルをトレーニングすることで、任意の長さのテキスト生成が可能に。言語モデリングのベンチマークで新たな最先端を達成し、AR手法に近づく成果を上げた。 Comment

openreview: https://openreview.net/forum?id=L4uaAR4ArM&referrer=%5Bthe%20profile%20of%20Volodymyr%20Kuleshov%5D(%2Fprofile%3Fid%3D~Volodymyr_Kuleshov1)

- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03

で紹介されている

次:
- [Paper Note] Simplified and Generalized Masked Diffusion for Discrete Data, Jiaxin Shi+, NeurIPS'24, 2024.06

#Pretraining #Pocket #Coding #DataMixture #One-Line Notes Issue Date: 2025-11-04 [Paper Note] To Code, or Not To Code? Exploring Impact of Code in Pre-training, Viraat Aryabumi+, arXiv'24, 2024.08 GPT Summary- コードデータが一般的なLLMのパフォーマンスに与える影響を体系的に調査。アブレーション実験により、コードがコーディングタスクを超えた一般化に重要であり、コード品質の向上が全タスクに大きな影響を与えることを確認。特に、コードの追加により自然言語推論で最大8.2%、世界知識で4.2%、生成的勝率で6.6%の向上を示し、コードパフォーマンスでは12倍の改善を達成。研究は、コード品質への投資がポジティブな影響をもたらすことを示唆。 Comment

元ポスト:

Loading…

事前学習におけるコードの割合を増やすとコーディングタスクの性能は線形に増加する。全体の平均タスク性能の観点で言うとコードの割合を25%にするのが最適で、コードの割合を増やすほど自然言語による推論、世界知識が問われるタスクの性能は悪化していき、コードの割合が75%を超えると急激に悪化する（Figure4)。

#Pocket #Test-Time Scaling #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-02 [Paper Note] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling, Bradley Brown+, arXiv'24, 2024.07 GPT Summary- 言語モデルの推論能力を向上させるために、候補解を繰り返しサンプリングする手法を提案。サンプル数の増加に伴い、問題解決のカバレッジが4桁のオーダーでスケールし、対数線形の関係が示唆される。自動検証可能な回答がある領域では、カバレッジの増加がパフォーマンス向上に直結。SWE-bench Liteでの実験では、サンプル数を増やすことで解決率が大幅に向上したが、自動検証器がない領域ではサンプル数が増えても効果が頭打ちになることが確認された。 Comment

verifierの具体的な構築方法としてどのようなものがあるかが気になる。あとで読む。

#Pocket #Supervised-FineTuning (SFT) #Safety #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-24 [Paper Note] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To, Xiangyu Qi+, ICLR'24, 2023.10 GPT Summary- LLMのファインチューニングは、下流のユースケースに最適化する手法だが、安全性のリスクが伴う。特に、敵対的なトレーニング例を用いたファインチューニングが、モデルの安全性調整を損なう可能性があることが示された。例えば、わずか10例の悪意のある例でGPT-3.5 Turboをファインチューニングすると、安全ガードレールが突破される。また、無害なデータセットでのファインチューニングも意図せず安全性を劣化させる可能性がある。これらの結果は、調整されたLLMのファインチューニングが新たな安全リスクを生むことを示唆しており、今後の安全プロトコルの強化が求められる。 Comment

openreview: https://openreview.net/forum?id=hTEGyKf0dZ

#Pocket #COLM #Routing Issue Date: 2025-10-24 [Paper Note] Large Language Model Routing with Benchmark Datasets, Tal Shnitzer+, COLM'24, 2023.09 GPT Summary- 複数のLLMから最適なモデルを選択するための「ルーター」モデルを学習する新しいアプローチを提案。ベンチマークデータセットを再利用し、二項分類タスクに還元可能であることを示し、単一モデル使用時よりも一貫して性能が向上することを実証。 Comment

openreview: https://openreview.net/forum?id=Zb0ajZ7vAt&referrer=%5Bthe%20profile%20of%20Mikhail%20Yurochkin%5D(%2Fprofile%3Fid%3D~Mikhail_Yurochkin1)

#Pocket #NeurIPS #Routing Issue Date: 2025-10-24 [Paper Note] Smoothie: Label Free Language Model Routing, Neel Guha+, NeurIPS'24, 2024.12 GPT Summary- 本研究では、教師なしルーティング手法「Smoothie」を提案し、異なる大規模言語モデル（LLMs）の出力を基にサンプルに最適なLLMを選択する方法を探求します。Smoothieは、LLM出力の埋め込み表現と潜在変数グラフィカルモデルを用いて各LLMの品質スコアを推定し、最も高いスコアのLLMにサンプルをルーティングします。実験により、Smoothieがルーティングのベースラインを最大10ポイント上回る精度を示し、9つのタスクで最適なモデルを正しく特定できることが確認されました。 Comment

openreview: https://openreview.net/forum?id=pPSWHsgqRp&referrer=%5Bthe%20profile%20of%20Mayee%20F%20Chen%5D(%2Fprofile%3Fid%3D~Mayee_F_Chen1)

#Pocket #ContrastiveLearning #NeurIPS #Routing Issue Date: 2025-10-24 [Paper Note] RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models, Shuhao Chen+, NeurIPS'24, 2024.09 GPT Summary- 複数のLLMを組み合わせるためのルーティング手法「RouterDC」を提案。RouterDCはエンコーダとLLM埋め込みから成り、2つの対照的学習損失を用いて訓練。実験により、RouterDCは既存の手法を大きく上回り、分布内タスクで+2.76%、分布外タスクで+1.90%の性能向上を示した。ソースコードは公開されている。 Comment

openreview: https://openreview.net/forum?id=7RQvjayHrM¬eId=YrqLVNAOot

#Tutorial #MachineLearning #Pocket #PostTraining Issue Date: 2025-10-17 [Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #PEFT(Adaptor/LoRA) #ICML #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-10 [Paper Note] DoRA: Weight-Decomposed Low-Rank Adaptation, Shih-Yang Liu+, ICML'24, 2024.02 GPT Summary- LoRAの精度ギャップを解消するために、Weight-Decomposed Low-Rank Adaptation（DoRA）を提案。DoRAは、ファインチューニングの重みを大きさと方向に分解し、方向性の更新にLoRAを使用することで、効率的にパラメータ数を最小化。これにより、LoRAの学習能力と安定性を向上させ、追加の推論コストを回避。さまざまな下流タスクでLoRAを上回る性能を示す。 Comment

日本語解説:
- LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09

- Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10

では、通常のLoRA, QLoRAだけでなく本手法でRLをする実装もサポートされている模様

#Pocket #SmallModel #ICLR Issue Date: 2025-10-10 [Paper Note] MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases, Zechun Liu+, ICLR'24, 2024.02 GPT Summary- モバイルデバイス向けに10億未満のパラメータを持つ高品質な大規模言語モデル（LLM）の設計を提案。深くて細いアーキテクチャを活用し、MobileLLMという強力なモデルを構築し、従来のモデルに対して精度を向上。さらに、重み共有アプローチを導入し、MobileLLM-LSとしてさらなる精度向上を実現。MobileLLMモデルファミリーは、チャットベンチマークでの改善を示し、一般的なデバイスでの小型モデルの能力を強調。 #ComputerVision #Pocket #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 [Paper Note] Aria: An Open Multimodal Native Mixture-of-Experts Model, Dongxu Li+, arXiv'24, 2024.10 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/rhymes-ai/Aria

提案された当時2024年10月時点で、VisionとText Understanding双方でに強い初めてのモデルで、初のマルチモーダルMoEモデルで（当時まだ話題になっていなかったDeepSeek-V2アーキテクチャを採用）、LongVideoのUnderstanidinpで当時の最高性能であったとのこと。

#EfficiencyImprovement #Pocket #Alignment #ReinforcementLearning #ACL #read-later #Selected Papers/Blogs Issue Date: 2025-09-27 [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02 GPT Summary- RLHFにおける整合性の重要性を考慮し、PPOの高コストとハイパーパラメータ調整の問題を指摘。シンプルなREINFORCEスタイルの最適化手法がPPOや新提案の手法を上回ることを示し、LLMの整合性特性に適応することで低コストのオンラインRL最適化が可能であることを提案。 #Analysis #Pocket #PEFT(Adaptor/LoRA) #NeurIPS Issue Date: 2025-09-25 [Paper Note] The Impact of Initialization on LoRA Finetuning Dynamics, Soufiane Hayou+, NeurIPS'24, 2024.06 GPT Summary- 本論文では、LoRAにおける初期化の役割を研究し、Bをゼロに初期化しAをランダムに初期化する方式が他の方式よりも優れたパフォーマンスを示すことを明らかにします。この初期化方式は、より大きな学習率を使用できるため、効率的な学習を促進する可能性があります。LLMsに関する実験を通じて結果を検証します。 Comment

元ポスト:

Loading…

初期化でBをzeroにするという手法は以下でも提案されているが、本研究の方が下記研究よりも投稿が1年程度早い:
- [Paper Note] SingLoRA: Low Rank Adaptation Using a Single Matrix, David Bensaïd+, arXiv'25

openreview: https://openreview.net/forum?id=sn3UrYRItk&referrer=%5Bthe%20profile%20of%20Nikhil%20Ghosh%5D(%2Fprofile%3Fid%3D~Nikhil_Ghosh1)

#Pocket #Prompting #AutomaticPromptEngineering #ICLR Issue Date: 2025-09-24 [Paper Note] Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author Prompt Editing, Xinyu Hu+, ICLR'24, 2023.10 GPT Summary- Evokeという自動プロンプト洗練フレームワークを提案。レビュアーと著者のLLMがフィードバックループを形成し、プロンプトを洗練。難しいサンプルを選択することで、LLMの深い理解を促進。実験では、Evokeが論理的誤謬検出タスクで80以上のスコアを達成し、他の手法を大幅に上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=OXv0zQ1umU

pj page: https://sites.google.com/view/evoke-llms/home
github: https://github.com/microsoft/Evoke

githubにリポジトリはあるが、プロンプトテンプレートが書かれたtsvファイルが配置されているだけで、実験を再現するための全体のパイプラインは存在しないように見える。

#Survey #Hallucination #MultiModal Issue Date: 2025-09-24 A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models, Sahoo+, EMNLP'24 Findings GPT Summary- 基盤モデル（FMs）の多様なドメインにおける進展は顕著だが、特に高リスクなアプリケーションでは幻覚的な出力が問題となる。本調査論文は、テキスト、画像、動画、音声におけるFMsの幻覚の問題を特定し、軽減策の最近の進展をまとめる。幻覚の定義、分類、検出戦略を含むフレームワークを提供し、今後の研究と開発の基盤を築くことを目指す。 Comment

#Pocket #Dataset #Evaluation #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#Analysis #Pocket #Reasoning #read-later Issue Date: 2025-09-12 [Paper Note] Lessons from Studying Two-Hop Latent Reasoning, Mikita Balesni+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）の二段階質問応答能力を調査し、思考の連鎖（CoT）の重要性を示す。合成事実を用いた実験で、モデルは二つの合成事実を組み合わせるのに失敗するが、自然な事実との組み合わせでは成功することが確認された。これにより、LLMは潜在的な二段階推論能力を持つが、その能力のスケーリングには不明点が残る。研究者は、LLMの推論能力を評価する際に、ショートカットによる虚偽の成功や失敗に注意する必要があることを強調。 Comment

元ポスト:

Loading…

下記研究ではエンティティが国の場合は2 step推論ができるという例外が生じており、事前学習のフィルタリングで何か見落としがあるかもしれない可能性があり:
- Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24

下記研究において、完全にmemorizationzが生じない形で事前学習とInference実施（train: John Doe lives in **Tokyo**., Test: The people in the city John Doe is from speak **Japanese**.)されたが、エンティティがcityの場合でしか試されておらず、他のエンティティでも汎化するのか？という疑問があった:
- [Paper Note] Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts, Jiahai Feng+, ICML'25

本研究では17種類の他のエンティティでも2 hop reasoningがlatentに実施されていることを確認した。しかし、一つ不思議な点として当初2つの架空の事実をLLMに教えるような学習を試みた場合は。Acc.が0%で、lossも偶然に生じる程度のものであった。これを深掘りすると、
- 合成+本物の事実→うまくいく
- 合成+合成→失敗
- 同一訓練/incontext文書内の合成された事実→うまくいく
という現象が観測され、このことより
- 実世界のプロンプトでの成功は、latent reasoningがロバストに実施されていることを示すわけではなく（事前学習時の同一文書内の共起を反映しているだけの可能性がある）
- 合成データでの2 hop推論の失敗は、latent reasoningの能力を否定するものではない（合成された事実は実世界での自然な事実とは異なるためうまくいっていない可能性がある）

という教訓が得られた、といった話が元ポストに書かれている。

なぜ完全に合成された事実情報では失敗するのだろうか。元論文を読んで事前学習データとしてどのようなものが利用されているかを確認する必要がある。

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #Dataset #Evaluation #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #Alignment #Safety #NeurIPS Issue Date: 2025-09-09 [Paper Note] Stepwise Alignment for Constrained Language Model Policy Optimization, Akifumi Wachi+, NeurIPS'24 GPT Summary- 安全性と信頼性はLLMを用いるAIシステムにおいて重要であり、本研究では報酬最大化を人間の価値に基づく安全性制約の下で定式化し、逐次整合性アルゴリズム（SACPO）を提案。SACPOは報酬と安全性を組み込んだ最適ポリシーを段階的に整合させ、シンプルで強力な整合性アルゴリズムを活用。理論的分析により最適性と安全性制約違反の上限を示し、実験結果ではSACPOがAlpaca-7Bのファインチューニングにおいて最先端手法を上回ることを確認。 Comment

NLPコロキウムでのスライドを参照のこと:
- 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization (NeurIPS 2024) , 2024.12

openreview: https://openreview.net/forum?id=VrVx83BkQX&referrer=%5Bthe%20profile%20of%20Takumi%20Tanabe%5D(%2Fprofile%3Fid%3D~Takumi_Tanabe1)

#Pocket #MoE(Mixture-of-Experts) #NeurIPS #Routing Issue Date: 2025-09-04 [Paper Note] Multi-Head Mixture-of-Experts, Xun Wu+, NeurIPS'24 GPT Summary- MH-MoEは、マルチヘッドメカニズムを用いてトークンを複数のサブトークンに分割し、専門家の活性化を向上させる新しい手法です。これにより、文脈理解が深まり、過学習が軽減されます。MH-MoEは実装が簡単で、他のSMoEモデルと統合可能であり、広範な実験でその有効性が示されています。 Comment

openreview: https://openreview.net/forum?id=dyZ8GJZjtX&referrer=%5Bthe%20profile%20of%20Shaohan%20Huang%5D(%2Fprofile%3Fid%3D~Shaohan_Huang1)

SNLP'24での解説スライド: https://speakerdeck.com/takase/snlp2024-multiheadmoe

MoEのRouting Collapseに対して、Expertsの表現力を落とすことで特定のExpertsにルーティングが偏らないようにする、というコンセプトな模様。具体的には、inputを複数headに分割してhead単位でExpertsを選択し、出力をconcatする、といったアーキテクチャらしい。

#Pretraining #Pocket #NeurIPS #Memorization Issue Date: 2025-09-03 [Paper Note] Be like a Goldfish, Don't Memorize Mitigating Memorization in Generative LLMs, Abhimanyu Hans+, NeurIPS'24 GPT Summary- 「ゴールドフィッシュロス」を導入し、トレーニング中にランダムに選ばれたトークンをロス計算から除外することで、プライバシーや著作権リスクを軽減。10億規模のLlama-2モデルの実験により、下流のベンチマークに影響を与えずに記憶の削減を実証。 Comment

元ポスト:

Loading…

クロスエントロピーのloss計算からランダムにtokenを除外せることでdownstream taskの性能を損なうことなくmemorizationを防げますよ、という話らしい

openreview: https://openreview.net/forum?id=DylSyAfmWs&referrer=%5Bthe%20profile%20of%20Jonas%20Geiping%5D(%2Fprofile%3Fid%3D~Jonas_Geiping1)

#Pocket #Zero/Few/ManyShotPrompting #Prompting #In-ContextLearning #NeurIPS Issue Date: 2025-09-01 [Paper Note] Many-Shot In-Context Learning, Rishabh Agarwal+, NeurIPS'24 GPT Summary- 大規模言語モデル（LLMs）は、少数ショットから多くのショットのインコンテキスト学習（ICL）において顕著な性能向上を示す。新たな設定として、モデル生成の思考過程を用いる強化されたICLと、ドメイン特有の質問のみを用いる無監督ICLを提案。これらは特に複雑な推論タスクに効果的であり、多くのショット学習は事前学習のバイアスを覆し、ファインチューニングと同等の性能を発揮することが示された。また、推論コストは線形に増加し、最前線のLLMsは多くのショットのICLから恩恵を受けることが確認された。 Comment

many-shotを提案

#Pocket #Dataset #SyntheticData #Evaluation #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#EfficiencyImprovement #Pocket #SmallModel #Scheduler Issue Date: 2025-08-25 [Paper Note] MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies, Shengding Hu+, arXiv'24 GPT Summary- 急成長する大規模言語モデル（LLMs）の開発におけるコストの懸念から、小規模言語モデル（SLMs）の可能性が注目されている。本研究では、MiniCPMという1.2Bおよび2.4Bの非埋め込みパラメータバリアントを紹介し、これらが7B-13BのLLMsと同等の能力を持つことを示す。モデルのスケーリングには広範な実験を、データのスケーリングにはWarmup-Stable-Decay（WSD）学習率スケジューラを導入し、効率的なデータ-モデルスケーリング法を研究した。MiniCPMファミリーにはMiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kが含まれ、優れたパフォーマンスを発揮している。MiniCPMモデルは公開されている。 Comment

Warmup-Stable-Decay (WSD)

#Pocket #ReinforcementLearning #SelfImprovement #ICML Issue Date: 2025-08-21 [Paper Note] RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback, Harrison Lee+, ICML'24 GPT Summary- RLAIFは、オフ・ザ・シェルフのLLMから生成された好みに基づいて報酬モデルを訓練し、RLHFと同等のパフォーマンスを達成する代替手段を提供。自己改善を示し、d-RLAIFを導入することでさらに優れた結果を得る。RLAIFは人間のフィードバックを用いた場合と同等の性能を示し、RLHFのスケーラビリティの課題に対する解決策となる可能性がある。 Comment

先行研究:
- [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22

#Pocket #Dataset #Evaluation #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #Dataset #QuestionAnswering #Evaluation #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

先行研究:
- [Paper Note] TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension, Mandar Joshi+, ACL'17
- Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19

これらはすでに飽和している

最近よくLLMのベンチで見かけるSimpleQA

#EfficiencyImprovement #Pretraining #Pocket #Coding #ICML Issue Date: 2025-08-16 [Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24 GPT Summary- 本研究では、大規模言語モデルを複数の将来のトークンを同時に予測するように訓練する手法を提案し、サンプル効率の向上を図る。具体的には、n個の独立した出力ヘッドを用いて次のnトークンを予測し、訓練時間にオーバーヘッドをかけずに下流の能力を向上させる。特に、コーディングタスクにおいて、提案モデルは強力なベースラインを上回る性能を示し、推論時に最大3倍の速度向上も実現。 Comment

next tokenだけでなく、next 4-tokenを予測して学習することで、MBPP/HumanEvalにおいて、モデルのパラメータサイズが1.3Bを超えた時点でベースライン（=同じパラメータサイズとなるように調整されたnext-token prediction）をoutperformしはじめ、モデルサイズが大きくなるにつれて性能の差が顕著に表れることを示した。コーディングドメインにおいて事前学習、およびfinetuningの双方で効果がある。ただし、3.7節で示されている通り、これはコーディングドメインでのみこのような顕著な改善がみられており、自然言語データに対してはここまで顕著な改善はしていないように見える（5.1節で考察されていそう; 昨今のLLMでは事前学習データにコーディングなどのデータが入るのが普通なので利用する恩恵はありそう; Abstractive Summarizationでは性能が改善している(Figure6); GSM8Kでは200Bまではnext 2 tokenを予測すると性能が改善しているが500B token学習するとnext token predictionの方が性能が良くなる）。全体的にperplexityの改善（=次のトークンにおいて正解トークンの生成確率を改善する）というよりは、モデルの"最終的な生成結果”にフォーカスした評価となっている。

モデルは共有のトランクf_s (おそらくhead間でパラメータを共有している一連のtransformerブロック) を持っておりinput x_t:1に対応するlatent representation z_t:1を生成する。latent representationをoutput headにinputすることで、それぞれのheadが合計でn個のnext tokenを予測する。
https://github.com/user-attachments/assets/433d69cb-5593-483b-b591-6445c482ed2e" />

next n-tokenを予測する際には、GPUメモリを大幅に食ってしまう（logitsのshapeが(n, V)となりそれらの勾配も保持しなければならない) ことがボトルネックとなるが、f_sまでforward passを実行したら、各headに対してforward/backward passを順番に実行して、logitsの値は破棄し勾配の情報だけf_sに蓄積することで、長期的に保持する情報を各headのから逆伝搬された勾配情報のみにすることでこれを解決している。
https://github.com/user-attachments/assets/3f5ff3fc-5934-4f12-9327-23b689526464" />

実際にinferenceをするときはnext tokenを予測するヘッドの出力を活用することを前提としているが、全てのヘッドを活用することで、t時点でt+nトークンの予測を可能なため、self-speculative decodingを実施しinference timeを短縮することができる。

3.4で示されているように、nの値は大きければ大きいほど良いというわけではなく、4程度（byte levelなモデルの場合は8 bytes）が最適なようである。が、Table1を見ると、データによってはn=6が良かったり（i.e., 最適なnは学習データ依存）複数エポック学習するとmulti token predictionの効果が薄くなっていそう（i.e., 同じトークンの予測を複数回学習するので実質multi token predictionと似たようなことをやっている。言い換えると、multi token predictionは複数epochの学習を先取りしているとみなせる？）なのは注意が必要そう。

全体的に複数epochを学習すると恩恵がなくなっていく（コーディング） or next token predictionよりも性能が悪化する（自然言語）ので、LLMの事前学習において、複数epochを学習するような当たり前みたいな世界線が訪れたら、このアーキテクチャを採用すると性能はむしろ悪化しそうな気はする。

MBPP/HumanEval:
- [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21
- [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21

#Pocket #MoE(Mixture-of-Experts) Issue Date: 2025-08-16 [Paper Note] Auxiliary-Loss-Free Load Balancing Strategy for Mixture-of-Experts, Lean Wang+, arXiv'24 GPT Summary- MoEモデルにおける負荷の不均衡を解消するため、補助損失を用いないLoss-Free Balancingを提案。各エキスパートのルーティングスコアにバイアスを適用し、負荷のバランスを維持。実験により、従来の手法よりも性能と負荷バランスが向上することを確認。 Comment

openreview: https://openreview.net/forum?id=y1iU5czYpE

MoEモデルにおいて特定のExpertsにばかりルーティングが集中し、
- routing collapse: Expertsが十分に訓練されることを妨げる
- computation bottleneck: Expertsが複数のデバイスに分散している場合、ルーティンが集中すると計算効率が落ちる

という問題が起きる。この問題に対処するために既存研究はauxiliary lossと呼ばれる各トークンが選択するExpertsが幅広くなるような制約を入れている。

本研究ではauxiliary lossの勾配が言語モデリングタスクに対して悪影響を及ぼす可能性があることを指摘し、loss freeのbalancing手法を提案し、perplexityが1B, 3B, （リバッタル中で13B)モデルにおいて低下することを実験的に示している。また、リバッタルにおいて、downstreamタスクの性能（BBH, MMLU, C-Eval, CMMLU）においても、性能が改善することが示されている。

手法はシンプルで、top-kのexpertsを決める際のルーティングスコアに対して、expertsごとのバイアス項を導入し、学習時にexpertsに割り当てられたトークン数の多寡に応じてバイアス値を調整する。

openreviewによると、以下の事項が指摘されている:
- 実験で用いられているアーキテクチャがDeepSeekMoEにのみに限られている
- パラメータ数も小規模のものでしか実験されていない(リバッタルにてより大きなモデルでの結果を反映）
- auxiliary lossがそもそも言語モデリングタスクに悪影響を与えることは実験的に一部示されているが、理論的なjustificationが不足している
- downstream taskに対する実験結果が無いこと（リバッタルでこの点については示された)
- related workが10件しか引用されておらず、より包括的なliterature reviewと関連研究との関係性についての議論が不足している

#Pocket #Dataset #Evaluation #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #Dataset #Evaluation #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #Survey #Pocket #memory Issue Date: 2025-08-11 [Paper Note] A Survey on the Memory Mechanism of Large Language Model based Agents, Zeyu Zhang+, arXiv'24 GPT Summary- LLMベースのエージェントのメモリメカニズムに関する包括的な調査を提案。メモリの重要性を論じ、過去の研究を体系的にレビューし、エージェントアプリケーションでの役割を紹介。既存研究の限界を分析し、将来の研究方向性を示す。リポジトリも作成。 Comment

元ポスト:

Loading…

#Metrics #Pocket #Search #Evaluation #Factuality #LongSequence Issue Date: 2025-08-08 [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24 GPT Summary- VERISCOREという新しい指標を提案し、検証可能な主張と検証不可能な主張の両方を含む長文生成タスクに対応。人間評価ではVERISCOREが他の方法よりも理にかなっていることが確認され、16のモデルを評価した結果、GPT-4oが最も優れた性能を示したが、オープンウェイトモデルも差を縮めていることが分かった。また、異なるタスク間でVERISCOREの相関がないことから、事実性評価の拡張が必要であることを示唆している。 Comment

LLMの応答からverifiableなclaimのみを抽出し、それを外部の検索エンジン（google検索）のクエリとして入力。検索結果からclaimがsupportされるか否かをLLMによって判断しスコアリングする。

#Pocket #Dataset #Evaluation #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

PLaMo Primeの長文テキスト評価に利用されたベンチマーク（中国語と英語のバイリンガルデータであり日本語は存在しない）

PLaMo Primeリリースにおける機能改善: https://tech.preferred.jp/ja/blog/plamo-prime-release-feature-update/

タスクと言語ごとのLengthの分布。英語の方がデータが豊富で、長いものだと30000--40000ものlengthのサンプルもある模様。

#Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #MoE(Mixture-of-Experts) #EMNLP Issue Date: 2025-08-06 [Paper Note] Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models, Zihan Wang+, EMNLP'24 GPT Summary- 本研究では、Mixture-of-Experts（MoE）アーキテクチャを持つ大規模言語モデル（LLMs）に対するパラメータ効率の良いファインチューニング（PEFT）手法を提案。主な内容は、(1) タスクごとの専門家の活性化分布の集中度の調査、(2) Expert-Specialized Fine-Tuning（ESFT）の提案とその効果、(3) MoEアーキテクチャの専門家特化型ファインチューニングへの影響の分析。実験により、ESFTがチューニング効率を向上させ、フルパラメータファインチューニングに匹敵またはそれを上回る性能を示すことが確認された。 Comment

元ポスト:

Loading…

MoEアーキテクチャを持つLLMにおいて、finetuningを実施したいタスクに関連する専門家を特定し、そのほかのパラメータをfreezeした上で当該専門家のみをtrainableとすることで、効率的にfinetuningを実施する手法

専門家を見つける際には専門家ごとにfinetuningしたいタスクに対するrelevance scoreを計算する。そのために、2つの手法が提案されており、training dataからデータをサンプリングし
- 全てのサンプリングしたデータの各トークンごとのMoE Routerのgateの値の平均値をrelevant scoreとする方法
- 全てのサンプリングしたデータの各トークンごとに選択された専門家の割合
の2種類でスコアを求める。閾値pを決定し、閾値以上のスコアを持つ専門家をtrainableとする。

LoRAよりもmath, codeなどの他ドメインのタスク性能を劣化させず、Finetuning対象のタスクでFFTと同等の性能を達成。

LoRAと同様にFFTと比較し学習時間は短縮され、学習した専門家の重みを保持するだけで良いのでストレージも節約できる。

#Pocket #LongSequence #ICLR #Selected Papers/Blogs Issue Date: 2025-08-02 [Paper Note] YaRN: Efficient Context Window Extension of Large Language Models, Bowen Peng+, ICLR'24 GPT Summary- YaRN（Yet another RoPE extensioN method）は、トランスフォーマーベースの言語モデルにおける位置情報のエンコードを効率的に行い、コンテキストウィンドウを従来の方法よりも10倍少ないトークンと2.5倍少ない訓練ステップで拡張する手法を提案。LLaMAモデルが長いコンテキストを効果的に利用できることを示し、128kのコンテキスト長まで再現可能なファインチューニングを実現。 Comment

openreview: https://openreview.net/forum?id=wHBfxhZu1u

現在主流なコンテキストウィンドウ拡張手法。様々なモデルで利用されている。

日本語解説: https://zenn.dev/bilzard/scraps/de7ecd3c380b6e

#Pocket #AES(AutomatedEssayScoring) #Prompting #AIED Issue Date: 2025-07-29 [Paper Note] The Impact of Example Selection in Few-Shot Prompting on Automated Essay Scoring Using GPT Models, Lui Yoshida, AIED'24 GPT Summary- 本研究では、GPTモデルを用いた少数ショットプロンプティングにおける例の選択が自動エッセイ採点（AES）のパフォーマンスに与える影響を調査。119のプロンプトを用いて、GPT-3.5とGPT-4のモデル間でのスコア一致を二次重み付きカッパ（QWK）で測定。結果、例の選択がモデルによって異なる影響を及ぼし、特にGPT-3.5はバイアスの影響を受けやすいことが判明。慎重な例の選択により、GPT-3.5が一部のGPT-4モデルを上回る可能性があるが、GPT-4は最も高い安定性とパフォーマンスを示す。これにより、AESにおける例の選択の重要性とモデルごとのパフォーマンス評価の必要性が強調される。 #Pocket #Quantization #MLSys Issue Date: 2025-07-21 [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24 GPT Summary- Activation-aware Weight Quantization（AWQ）を提案し、LLMの低ビット重み量子化を効率化。顕著な重みチャネルを保護することで量子化誤差を削減し、異なるドメインに一般化可能。AWQは言語モデリングやドメイン特化型ベンチマークで優れた性能を示し、4ビットのオンデバイスLLM/VLM向け推論フレームワークTinyChatを実装。これにより、デスクトップおよびモバイルGPUでの処理速度を3倍以上向上させ、70B Llama-2モデルの展開を容易にする。 Comment

日本語解説: https://qiita.com/kyad/items/96a4a2bdec3f0dc09d23

#Pretraining #Pocket #Dataset #Coding Issue Date: 2025-07-13 [Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 GPT Summary- BigCodeプロジェクトは、責任あるCode LLMsの開発に焦点を当て、StarCoder2を発表。Software Heritageと提携し、The Stack v2を構築し、619のプログラミング言語を含む大規模なトレーニングセットを作成。StarCoder2モデルは3B、7B、15Bのパラメータを持ち、徹底的なベンチマーク評価で優れた性能を示す。特にStarCoder2-15Bは、同等の他モデルを大幅に上回り、数学やコード推論でも高い性能を発揮。モデルの重みはOpenRAILライセンスで公開され、トレーニングデータの透明性も確保。 Comment

関連:
- StarCoderBase/StarCoder, 2023

#Pocket #Reasoning #NeurIPS #DPO #PostTraining Issue Date: 2025-07-02 [Paper Note] Iterative Reasoning Preference Optimization, Richard Yuanzhe Pang+, NeurIPS'24 GPT Summary- 反復的な好み最適化手法を用いて、Chain-of-Thought（CoT）候補間の推論ステップを最適化するアプローチを開発。修正DPO損失を使用し、推論の改善を示す。Llama-2-70B-ChatモデルでGSM8K、MATH、ARC-Challengeの精度を向上させ、GSM8Kでは55.6%から81.6%に改善。多数決による精度は88.7%に達した。 Comment

OpenReview: https://openreview.net/forum?id=4XIKfvNYvx&referrer=%5Bthe%20profile%20of%20He%20He%5D(%2Fprofile%3Fid%3D~He_He2)

- Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24

と似たようにiterativeなmannerでreasoning能力を向上させる。

ただし、loss functionとしては、chosenなCoT+yのresponseに対して、reasoning traceを生成する能力を高めるために、NLL Lossも適用している点に注意。

32 samplesのmajority votingによってより高い性能が達成できているので、多様なreasoning traceが生成されていることが示唆される。

#Pocket #Dataset #ReinforcementLearning #Reasoning #ICLR #Selected Papers/Blogs #PRM Issue Date: 2025-06-26 [Paper Note] Let's Verify Step by Step, Hunter Lightman+, ICLR'24 GPT Summary- 大規模言語モデルの多段階推論能力が向上する中、論理的誤りが依然として問題である。信頼性の高いモデルを訓練するためには、結果監視とプロセス監視の比較が重要である。独自の調査により、プロセス監視がMATHデータセットの問題解決において結果監視を上回ることを発見し、78%の問題を解決した。また、アクティブラーニングがプロセス監視の効果を向上させることも示した。関連研究のために、80万の人間フィードバックラベルからなるデータセットPRM800Kを公開した。 Comment

OpenReview: https://openreview.net/forum?id=v8L0pN6EOi

PRM800K: https://github.com/openai/prm800k/tree/main

#Pocket #Dataset #ReinforcementLearning #Evaluation Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #ACL #ModelMerge Issue Date: 2025-06-25 [Paper Note] Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages, Shih-Cheng Huang+, ACL'24 GPT Summary- オープンソースの大規模言語モデル（LLMs）の多くは英語に偏っている問題に対処するため、chat vectorという概念を導入。これは、事前学習済みモデルの重みからチャットモデルの重みを引くことで生成され、追加のトレーニングなしに新しい言語でのチャット機能を付与できる。実証研究では、指示に従う能力や有害性の軽減、マルチターン対話においてchat vectorの効果を示し、さまざまな言語やモデルでの適応性を確認。chat vectorは、事前学習済みモデルに対話機能を効率的に実装するための有力な解決策である。 Comment

日本語解説: https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4

下記ブログによるとChatだけではなく、Reasoningでも（post-trainingが必要だが）使える模様

Reasoning能力を付与したLLM ABEJA-QwQ32b-Reasoning-Japanese-v1.0の公開, Abeja Tech Blog, 2025.04:
https://tech-blog.abeja.asia/entry/geniac2-qwen25-32b-reasoning-v1.0

#Analysis #Pocket #Alignment #ReinforcementLearning #PPO (ProximalPolicyOptimization) #ICML #DPO #On-Policy Issue Date: 2025-06-25 [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24 GPT Summary- 好みのラベルを用いた大規模言語モデルのファインチューニングに関する研究。オンポリシー強化学習や対照学習などの手法を比較し、オンポリシーサンプリングや負の勾配を用いるアプローチが優れていることを発見。これにより、カテゴリ分布の特定のビンにおける確率質量を迅速に変更できるモード探索目的の重要性を示し、データ収集の最適化に関する洞察を提供。 Comment

以下のオフライン vs. オンラインRLアルゴリズムで本研究が引用されている:

Loading…

#Pretraining #Pocket #InstructionTuning #EMNLP Issue Date: 2025-06-25 [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP'24 GPT Summary- 無監督のマルチタスク事前学習に加え、監視されたマルチタスク学習の可能性を探るために、Instruction Pre-Trainingフレームワークを提案。指示応答ペアを生成し、2億のペアを合成して実験を行い、事前学習モデルの性能を向上させることを確認。Instruction Pre-TrainingはLlama3-8BをLlama3-70Bと同等以上の性能に引き上げる。モデルやデータは公開されている。 #EfficiencyImprovement #Pocket #Scaling Laws #read-later Issue Date: 2025-05-27 Densing Law of LLMs, Chaojun Xiao+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）の性能向上に伴うトレーニングと推論の効率の課題を解決するために、「キャパシティ密度」という新しい指標を提案。これは、ターゲットLLMの有効パラメータサイズと実際のパラメータサイズの比率を用いて、モデルの効果と効率を評価するフレームワークを提供する。分析により、LLMsのキャパシティ密度は約3か月ごとに倍増する傾向があることが示され、今後のLLM開発における重要性が強調される。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Alignment #InstructionTuning #ICML #PostTraining Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。 #Pocket #Alignment #InstructionTuning #EMNLP Issue Date: 2025-05-11 ORPO: Monolithic Preference Optimization without Reference Model, Jiwoo Hong+, EMNLP'24 GPT Summary- 本論文では、好みの整合性における監視付きファインチューニング（SFT）の重要性を強調し、わずかなペナルティで好みに整合したSFTが可能であることを示します。さらに、追加の整合性フェーズを必要としない新しいオッズ比最適化アルゴリズムORPOを提案し、これを用いて複数の言語モデルをファインチューニングした結果、最先端のモデルを上回る性能を達成しました。 Comment

ざっくり言うとinstruction tuningとalignmentを同時にできる手法らしいがまだ理解できていない

#Pocket #Library #ACL #KnowledgeEditing Issue Date: 2025-05-11 EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models, Peng Wang+, ACL'24, （System Demonstrations） GPT Summary- EasyEditは、LLMsのための使いやすい知識編集フレームワークであり、さまざまな知識編集アプローチをサポート。LlaMA-2の実験結果では、信頼性と一般化の面で従来のファインチューニングを上回ることを示した。GitHubでソースコードを公開し、Google Colabチュートリアルやオンラインシステムも提供。 Comment

ver2.0:
- EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models, Ziwen Xu+, arXiv'25

#Pretraining #Pocket #Dataset Issue Date: 2025-05-10 DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv'24 GPT Summary- DataComp for Language Models（DCLM）を紹介し、240Tトークンのコーパスと53の評価スイートを提供。DCLMでは、モデルスケール412Mから7Bパラメータのデータキュレーション戦略を実験可能。DCLM-Baselineは2.6Tトークンでトレーニングし、MMLUで64%の精度を達成し、従来のMAP-Neoより6.6ポイント改善。計算リソースも40%削減。結果はデータセット設計の重要性を示し、今後の研究の基盤を提供。 #EfficiencyImprovement #Pretraining #Pocket #Dataset #NeurIPS #Selected Papers/Blogs Issue Date: 2025-05-10 The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24 GPT Summary- 本研究では、15兆トークンからなるFineWebデータセットを紹介し、LLMの性能向上に寄与することを示します。FineWebは高品質な事前学習データセットのキュレーション方法を文書化し、重複排除やフィルタリング戦略を詳細に調査しています。また、FineWebから派生した1.3兆トークンのFineWeb-Eduを用いたLLMは、MMLUやARCなどのベンチマークで優れた性能を発揮します。データセット、コードベース、モデルは公開されています。 Comment

日本語解説: https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9

openreview: https://openreview.net/forum?id=n6SCkn2QaG#discussion

#Pocket #Dataset #EMNLP #KnowledgeEditing #read-later Issue Date: 2025-05-07 Editing Large Language Models: Problems, Methods, and Opportunities, Yunzhi Yao+, EMNLP'24 GPT Summary- LLMの編集技術の進展を探求し、特定のドメインでの効率的な動作変更と他の入力への影響を最小限に抑える方法を論じる。モデル編集のタスク定義や課題を包括的にまとめ、先進的な手法の実証分析を行う。また、新しいベンチマークデータセットを構築し、評価の向上と持続的な問題の特定を目指す。最終的に、編集技術の効果に関する洞察を提供し、適切な方法選択を支援する。コードとデータセットは公開されている。 #Analysis #SyntheticData #read-later #Selected Papers/Blogs Issue Date: 2025-05-06 Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers, Zeyuan Allen-Zhu+, ICML'24 Tutorial Comment

元ポスト:

Loading…

Canon層の発見

著者による解説:

Loading…

#Analysis #Pocket #SyntheticData #ICML #Selected Papers/Blogs Issue Date: 2025-05-03 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24 GPT Summary- 大規模言語モデル（LLMs）の知識抽出能力は、訓練データの多様性と強く相関しており、十分な強化がなければ知識は記憶されても抽出可能ではないことが示された。具体的には、エンティティ名の隠れ埋め込みに知識がエンコードされているか、他のトークン埋め込みに分散しているかを調査。LLMのプレトレーニングに関する重要な推奨事項として、補助モデルを用いたデータ再構成と指示微調整データの早期取り入れが提案された。 Comment

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

SNLP'24での解説スライド:
https://speakerdeck.com/sosk/physics-of-language-models-part-3-1-knowledge-storage-and-extraction

#Pocket #Evaluation #Decoding #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-04-14 Non-Determinism of "Deterministic" LLM Settings, Berk Atil+, arXiv'24 GPT Summary- 本研究では、5つの決定論的LLMにおける非決定性を8つのタスクで調査し、最大15%の精度変動と70%のパフォーマンスギャップを観察。全てのタスクで一貫した精度を提供できないことが明らかになり、非決定性が計算リソースの効率的使用に寄与している可能性が示唆された。出力の合意率を示す新たなメトリクスTARr@NとTARa@Nを導入し、研究結果を定量化。コードとデータは公開されている。 Comment

#Tools #Pocket #Dataset #API #NeurIPS Issue Date: 2025-04-08 Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS'24 GPT Summary- Gorillaは、API呼び出しの生成においてGPT-4を上回るLLaMAベースのモデルであり、文書検索システムと組み合わせることで、テスト時の文書変更に適応し、ユーザーの柔軟な更新を可能にします。幻覚の問題を軽減し、APIをより正確に使用する能力を示します。Gorillaの評価には新たに導入したデータセット「APIBench」を使用し、信頼性と適用性の向上を実現しています。 Comment

APIBench: https://huggingface.co/datasets/gorilla-llm/APIBench

OpenReview: https://openreview.net/forum?id=tBRNC6YemY

#Survey #Pocket #Alignment #TMLR Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment

OpenReview: https://openreview.net/forum?id=oVTkOs8Pka

#Pocket #AIAgents Issue Date: 2025-04-02 Agent Workflow Memory, Zora Zhiruo Wang+, arXiv'24 GPT Summary- エージェントワークフローメモリ（AWM）を導入し、エージェントが再利用可能なタスクワークフローを学習することで、複雑なウェブナビゲーションタスクを効率的に解決。Mind2WebとWebArenaのベンチマークで、成功率をそれぞれ24.6%および51.1%向上させ、必要なステップ数を削減。オンラインAWMは、タスクやドメインに対しても堅牢に一般化し、ベースラインを大幅に上回る性能を示した。 Comment

過去のワークフローをエージェントがprompt中で利用することができ、利用すればするほど賢くなるような仕組みの提案
https://github.com/user-attachments/assets/6160cfa5-9dbd-44c6-926c-a56eb698d78d" />

#Pocket #AIAgents Issue Date: 2025-04-02 CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration, Xinming Hou+, arXiv'24 GPT Summary- CoActフレームワークを提案し、2つのエージェント（グローバル計画エージェントとローカル実行エージェント）を用いて、LLMの複雑なタスクへの対応力を向上させる。実験では、WebArenaベンチマークにおいて優れた性能を示し、失敗時のプロセス再編成能力を確認。コードは公開中。 Comment

Planningエージェントと実行エージェントを活用するソフトウェアエージェント

https://github.com/user-attachments/assets/55db47b8-15f8-4a9c-b641-ce906994897f" />

ReActより性能向上
- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23
https://github.com/user-attachments/assets/79ac984a-1aa4-4d27-8a3f-860ed2c3abf7" />

#Pocket #Dataset #AIAgents #ICLR Issue Date: 2025-04-02 WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24 GPT Summary- 生成AIの進展により、自律エージェントが自然言語コマンドで日常タスクを管理する可能性が生まれたが、現行のエージェントは簡略化された環境でのテストに限られている。本研究では、ウェブ上でタスクを実行するエージェントのための現実的な環境を構築し、eコマースやソーシャルフォーラムなどのドメインを含む完全なウェブサイトを提供する。この環境を基に、タスクの正確性を評価するベンチマークを公開し、実験を通じてGPT-4ベースのエージェントの成功率が14.41%であり、人間の78.24%には及ばないことを示した。これにより、実生活のタスクにおけるエージェントのさらなる開発の必要性が強調される。 Comment

Webにおけるさまざまなrealisticなタスクを評価するためのベンチマーク

実際のexample。スタート地点からピッツバーグのmuseumを巡る最短の経路を見つけるといった複雑なタスクが含まれる。

人間とGPT4,GPT-3.5の比較結果

#Pocket #Dataset #AIAgents #Evaluation #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#RecommenderSystems #UserModeling #CTRPrediction #RAG(RetrievalAugmentedGeneration) #LongSequence #WWW Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

LLMでCTR予測する際の性能を向上した研究。

そもそもLLMでCTR予測をする際は、ユーザのデモグラ情報とアクティビティログなどのユーザプロファイルと、ターゲットアイテムの情報でpromptingし、yes/noを出力させる。yes/noトークンのスコアに対して2次元のソフトマックスを適用して[0, 1]のスコアを得ることで、CTR予測をする。

この研究ではコンテキストにユーザのログを入れても性能がスケールしない問題に対処するために

直近のアクティビティログではなく、ターゲットアイテムと意味的に類似したアイテムに関するログをコンテキストに入れ（SUBR）、zero shotのinferenceに活用する。

few-shot recommendation（少量のクリックスルーログを用いてLLMをSFTすることでCTR予測する手法）においては、上述の意味的に類似したアイテムをdata augmentationに利用し（i.e, promptに埋め込むアクティビティログの量を増やして）学習する。

zeroshotにおいて、SUBRで性能改善。fewshot recommendationにといて、10%未満のデータで既存の全データを用いる手法を上回る。また、下のグラフを見るとpromptに利用するアクティビティログの量が増えるほど性能が向上するようになった。

ただし、latencyは100倍以上なのでユースケースが限定される。

#Pocket #SSM (StateSpaceModel) #ICML Issue Date: 2025-03-24 Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML'24 GPT Summary- TransformersとMambaのような状態空間モデル（SSMs）の関連性を示し、SSMsと注意の変種との理論的接続を構築。新たに設計したMamba-2は、速度を2〜8倍向上させながら、Transformersと競争力を維持。 Comment

Mamba2の詳細を知りたい場合に読む

#Pocket #Pruning #Distillation #NeurIPS Issue Date: 2025-03-16 Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS'24 GPT Summary- 本論文では、既存の大規模言語モデル（LLMs）をプルーニングし、少量のトレーニングデータで再トレーニングする手法を提案。深さ、幅、注意、MLPプルーニングを知識蒸留と組み合わせた圧縮ベストプラクティスを開発し、Nemotron-4ファミリーのLLMを2-4倍圧縮。これにより、トレーニングに必要なトークン数を最大40倍削減し、計算コストを1.8倍削減。Minitronモデルは、ゼロからトレーニングした場合と比較してMMLUスコアが最大16%改善され、他のモデルと同等の性能を示す。モデルの重みはオープンソース化され、補足資料も提供。 Comment

OpenReview: https://openreview.net/forum?id=9U0nLnNMJ7&referrer=%5Bthe%20profile%20of%20Pavlo%20Molchanov%5D(%2Fprofile%3Fid%3D~Pavlo_Molchanov1)

（あとでメモを追記）

#Analysis #Pocket #ICLR #Selected Papers/Blogs #KeyPoint Notes #SparseAutoEncoder Issue Date: 2025-03-15 Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR'24 GPT Summary- 神経ネットワークの多義性を解消するために、スパースオートエンコーダを用いて内部活性化の方向を特定。これにより、解釈可能で単義的な特徴を学習し、間接目的語の同定タスクにおける因果的特徴をより詳細に特定。スケーラブルで教師なしのアプローチが重ね合わせの問題を解決できることを示唆し、モデルの透明性と操作性向上に寄与する可能性を示す。 Comment

日本語解説: https://note.com/ainest/n/nbe58b36bb2db

OpenReview: https://openreview.net/forum?id=F76bwRSLeK

#Pocket #AIAgents #Prompting #AutomaticPromptEngineering Issue Date: 2025-02-10 PromptWizard: Task-Aware Prompt Optimization Framework, Eshaan Agarwal+, arXiv'24 GPT Summary- PromptWizardは、完全自動化された離散プロンプト最適化フレームワークであり、自己進化的かつ自己適応的なメカニズムを利用してプロンプトの質を向上させる。フィードバック駆動の批評を通じて、タスク特有のプロンプトを生成し、45のタスクで優れたパフォーマンスを実現。限られたデータや小規模なLLMでも効果を発揮し、コスト分析により効率性とスケーラビリティの利点が示された。 Comment

Github: https://github.com/microsoft/PromptWizard?tab=readme-ov-file
元ポスト:

Loading…

初期に提案された
- Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR'23

と比較すると大分性能が上がってきているように見える。

reasoning modelではfewshot promptingをすると性能が落ちるという知見があるので、reasoningモデル向けのAPE手法もそのうち出現するのだろう（既にありそう）。

OpenReview: https://openreview.net/forum?id=VZC9aJoI6a
ICLR'25にrejectされている

#Pocket #OpenSource #PostTraining Issue Date: 2025-02-01 Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, arXiv'24 GPT Summary- Tulu 3は、オープンなポストトレーニングモデルのファミリーで、トレーニングデータやレシピを公開し、現代のポストトレーニング技術のガイドを提供します。Llama 3.1を基にし、他のクローズドモデルを上回る性能を達成。新しいトレーニング手法としてSFT、DPO、RLVRを採用し、マルチタスク評価スキームを導入。モデルウェイトやデモ、トレーニングコード、データセットなどを公開し、他のドメインへの適応も可能です。 Comment

元ポスト:

Loading…

#Survey #Pocket #Distillation Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）における知識蒸留（KD）の重要性を調査し、小型モデルへの知識伝達やモデル圧縮、自己改善の役割を強調。KDメカニズムや認知能力の向上、データ拡張（DA）との相互作用を検討し、DAがLLM性能を向上させる方法を示す。研究者や実務者に向けたガイドを提供し、LLMのKDの倫理的適用を推奨。関連情報はGithubで入手可能。 #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-01-26 Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks, Brian J Chan+, arXiv'24 GPT Summary- キャッシュ拡張生成（CAG）は、RAGの課題を克服するために提案された手法で、LLMの拡張コンテキストに事前に関連リソースをロードし、検索なしでクエリに応答する。CAGは検索の遅延を排除し、エラーを最小限に抑えつつ、コンテキストの関連性を維持。性能評価では、CAGが従来のRAGを上回るか補完することが示され、特に制約のある知識ベースにおいて効率的な代替手段となることが示唆されている。 Comment

元ポスト:

Loading…

外部知識として利用したいドキュメントがそこまで大きく無いなら、事前にLLMで全てのKey Valueを計算しておきKV Cacheとして利用可能にしておけば、生成時に検索をすることもなく、contextとして利用して生成できるじゃん、という研究

#Pocket #AIAgents #Blog #NeurIPS Issue Date: 2025-01-25 [Paper Note] Chain of Agents: Large language models collaborating on long-context tasks, Google Research, 2025.01, NeurIPS'24 Comment

元ポスト:

Loading…

LLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様

ブログ中にアプローチを解説した動画があるのでわかりやすい

Is the experimental code open source?

Thank you for your comment. I tried to find an official open-source implementation provided by the authors, but I was not able to locate one. In fact, I also checked the personal webpage of the first author, but there was no link to any released code.

Is seems that an unofficial implementation is listed under the “Code” tab on the NeurIPS page. I hope this is helpful. Thank you.

NeurIPS link: https://nips.cc/virtual/2024/poster/95563
openreview: https://openreview.net/forum?id=LuCLf4BJsr

#Pocket #Supervised-FineTuning (SFT) Issue Date: 2025-01-25 Spectrum: Targeted Training on Signal to Noise Ratio, Eric Hartford+, arXiv'24 GPT Summary- 「Spectrum」という手法を提案し、SNRに基づいてレイヤーモジュールを選択的にターゲットにすることで、LLMのトレーニングを加速。これによりGPUメモリ使用量を削減しつつ、フルファインチューニングに匹敵する性能を実現。実験により、既存手法QLoRAと比較してモデルの品質とVRAM効率の向上が確認された。 Comment

- How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12

によるとLLMのうち最もinformativeなLayerを見つけ、選択的に学習することで、省リソースで、Full-Parameter tuningと同等の性能を発揮する手法らしい

#Pocket #ACL #KnowledgeEditing Issue Date: 2025-01-06 Learning to Edit: Aligning LLMs with Knowledge Editing, Yuxin Jiang+, ACL'24 GPT Summary- 「Learning to Edit（LTE）」フレームワークを提案し、LLMsに新しい知識を効果的に適用する方法を教える。二段階プロセスで、アライメントフェーズで信頼できる編集を行い、推論フェーズでリトリーバルメカニズムを使用。四つの知識編集ベンチマークでLTEの優位性と堅牢性を示す。 #ComputerVision #Pocket #Dataset #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Pocket #MoE(Mixture-of-Experts) #ACL Issue Date: 2025-01-06 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, Damai+, ACL'24, 2024.08 GPT Summary- DeepSeekMoEアーキテクチャは、専門家の専門性を高めるために、専門家を細分化し柔軟な組み合わせを可能にし、共有専門家を設けて冗長性を軽減する。2BパラメータのDeepSeekMoEは、GShardと同等の性能を達成し、同じパラメータ数の密なモデルに近づく。16Bパラメータにスケールアップした際も、計算量を約40%に抑えつつ、LLaMA2と同等の性能を示した。 #RLHF #Reasoning #Mathematics #GRPO #read-later #Selected Papers/Blogs Issue Date: 2025-01-04 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24 GPT Summary- DeepSeekMath 7Bは、120Bの数学関連トークンを用いて事前学習された言語モデルで、競技レベルのMATHベンチマークで51.7%のスコアを達成。自己一貫性は60.9%で、データ選択パイプラインとGroup Relative Policy Optimization (GRPO)の導入により数学的推論能力が向上。Gemini-UltraやGPT-4に迫る性能を示す。 Comment

元ポスト: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_the-rlhf-method-behind-the-best-open-models-activity-7280850174522843137-3V9v?utm_source=share&utm_medium=member_ios

#Controllable #Pocket #PositionalEncoding #Length Issue Date: 2025-01-03 Precise Length Control in Large Language Models, Bradley Butcher+, arXiv'24 GPT Summary- 本研究では、LLMの応答の長さを正確に制御するために、二次的な長さ差位置エンコーディング（LDPE）を用いたアプローチを提案。LDPEを組み込むことで、モデルは平均3トークン未満の誤差で望ましい長さで応答を終了できるようになる。また、柔軟な上限長さ制御を可能にするMax New Tokens++も導入。実験結果は、質問応答や文書要約において応答の質を維持しつつ正確な長さ制御が実現できることを示している。 Comment

元ポスト:

Loading…

- Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP'16

などのEncoder-Decoderモデルで行われていたoutput lengthの制御をDecoder-onlyモデルでもやりました、という話に見える。

#Dataset #AIAgents #Evaluation Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

ソフトウェアエンジニアリングの企業の設定で現実に起こりうるな　175種類のタスクを定義してAI Agentを評価できるベンチマークTheAgentCompanyを提案。

既存のベンチマークより、多様で、実際のソフトウェアエンジニアリング企業でで起こりうる幅広いタスクを持ち、タスクの遂行のために同僚に対して何らかのインタラクションが必要で、達成のために多くのステップが必要でかつ個々のステップ（サブタスク）を評価可能で、多様なタスクを遂行するために必要な様々なインタフェースをカバーし、self hostingして結果を完全に再現可能なベンチマークとなっている模様。

Loading…

（画像は著者ツイートより引用）

プロプライエタリなモデルとOpenWeightなモデルでAI Agentとしての能力を評価した結果、Claude-3.5-sonnetは約24%のタスクを解決可能であり、他モデルと比べて性能が明らかに良かった。また、Gemini-2.0-flashなコストパフォーマンスに優れている。OpenWeightなモデルの中ではLlama3.3-70Bのコストパフォーマンスが良かった。タスクとしては具体的に評価可能なタスクのみに焦点を当てており、Open Endなタスクでは評価していない点に注意とのこと。

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#Survey #Pocket #Reasoning #Mathematics Issue Date: 2025-01-03 A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges, Yibo Yan+, arXiv'24 GPT Summary- 数学的推論は多くの分野で重要であり、AGIの進展に伴い、LLMsを数学的推論タスクに統合することが求められている。本調査は、2021年以降の200以上の研究をレビューし、マルチモーダル設定におけるMath-LLMsの進展を分析。分野をベンチマーク、方法論、課題に分類し、マルチモーダル数学的推論のパイプラインやLLMsの役割を探る。さらに、AGI実現の障害となる5つの課題を特定し、今後の研究方向性を示す。 #KnowledgeGraph Issue Date: 2025-01-03 Can LLMs Convert Graphs to Text-Attributed Graphs?, Zehong Wang+, arXiv'24 GPT Summary- Topology-Aware Node description Synthesis（TANS）を提案し、GNNが異なる特徴空間を持つグラフに適用できるようにする。TANSはLLMsを用いて既存のグラフをテキスト属性グラフに変換し、ノードの特性にトポロジー情報を統合。テキストがないグラフでも手動設計を超える性能を示し、LLMsの可能性を実証。 Comment

元ポスト:

Loading…

#MachineTranslation #Analysis #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) Issue Date: 2025-01-02 How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes, Inacio Vieira+, AMTA'24 GPT Summary- LLMsのファインチューニングに翻訳メモリ（TMs）を活用し、特定の組織向けの翻訳精度と効率を向上させる研究。5つの翻訳方向で異なるサイズのデータセットを用いて実験し、トレーニングデータが増えるほど翻訳パフォーマンスが向上することを確認。特に、1kおよび2kの例ではパフォーマンスが低下するが、データセットのサイズが増加するにつれて改善が見られる。LLMsとTMsの統合により、企業特有のニーズに応じたカスタマイズ翻訳モデルの可能性を示唆。 Comment

元ポスト:

Loading…

QLoRAでLlama 8B InstructをMTのデータでSFTした場合のサンプル数に対する性能の変化を検証している。ただし、検証しているタスクはMT、QLoRAでSFTを実施しrankは64、学習時のプロンプトは非常にシンプルなものであるなど、幅広い設定で学習しているわけではないので、ここで得られた知見が幅広く適用可能なことは示されていないであろう点、には注意が必要だと思われる。

この設定では、SFTで利用するサンプル数が増えれば増えるほど性能が上がっているように見える。

#Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) Issue Date: 2025-01-02 LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24 GPT Summary- LoRAは大規模言語モデルの効率的なファインチューニング手法であり、プログラミングと数学のドメインでの性能をフルファインチューニングと比較。標準的な設定ではLoRAは性能が劣るが、ターゲットドメイン外のタスクではベースモデルの性能を維持し、忘却を軽減する効果がある。フルファインチューニングはLoRAよりも高いランクの摂動を学習し、性能差の一因と考えられる。最終的に、LoRAのファインチューニングに関するベストプラクティスを提案。 Comment

元ポスト:

Loading…

full finetuningとLoRAの性質の違いを理解するのに有用

#Pocket #Supervised-FineTuning (SFT) #ProprietaryLLM Issue Date: 2025-01-02 FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?, Eric Wu+, arXiv'24 GPT Summary- 商業的なLLM微調整APIの効果を評価するためのFineTuneBenchを提案。5つの最前線のLLMを分析し、新しい情報の学習と既存知識の更新における能力を評価した結果、全モデルで平均一般化精度は37%、医療ガイドラインの更新では19%と低いことが判明。特にGPT-4o miniが最も効果的で、Gemini 1.5シリーズは能力が限られていた。商業的微調整サービスの信頼性に課題があることを示唆。データセットはオープンソースで提供。 Comment

元ポスト:

Loading…

#Survey #Pocket #SyntheticData Issue Date: 2025-01-02 Generative AI for Synthetic Data Generation: Methods, Challenges and the Future, Xu Guo+, arXiv'24 GPT Summary- 限られたデータのシナリオでLLMsを用いて合成データを生成する研究が増加しており、これは生成的AIの進展を示す。LLMsは実世界のデータと同等の性能を持ち、リソースが限られた課題に対する解決策となる。本論文では、タスク特化型のトレーニングデータ生成のための技術、評価方法、実用的応用、現在の制限、将来の研究の方向性について議論する。 Comment

元ポスト:

Loading…

#Survey #Pocket #SyntheticData Issue Date: 2025-01-02 On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey, Lin Long+, arXiv'24 GPT Summary- 深層学習におけるデータの量と質の問題に対し、LLMsが合成データ生成を通じて解決策を提供。しかし、現状の研究は統一されたフレームワークを欠き、表面的なものが多い。本論文では合成データ生成のワークフローを整理し、研究のギャップを明らかにし、今後の展望を示す。学術界と産業界のより体系的な探求を促進することを目指す。 Comment

元ポスト:

Loading…

#Pocket #Education #EducationalDataMining Issue Date: 2024-12-31 LearnLM: Improving Gemini for Learning, LearnLM Team+, arXiv'24 GPT Summary- 生成AIシステムは従来の情報提示に偏っているため、教育的行動を注入する「教育的指示の遵守」を提案。これにより、モデルの振る舞いを柔軟に指定でき、教育データを追加することでGeminiモデルの学習を向上。LearnLMモデルは、さまざまな学習シナリオで専門家から高く評価され、GPT-4oやClaude 3.5に対しても優れた性能を示した。 #Pocket #TheoryOfMind #read-later Issue Date: 2024-12-31 Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning, Melanie Sclar+, arXiv'24 GPT Summary- ExploreToMは、心の理論を評価するための多様で挑戦的なデータを生成するフレームワークであり、LLMsの限界をテストする。最先端のLLMsは、ExploreToM生成データに対して低い精度を示し、堅牢な評価の必要性を強調。ファインチューニングにより従来のベンチマークで精度向上を実現し、モデルの低パフォーマンスの要因を明らかにする。 Comment

おもしろそう。あとで読む

#Survey #EfficiencyImprovement #Pocket Issue Date: 2024-12-31 A Survey on LLM Inference-Time Self-Improvement, Xiangjue Dong+, arXiv'24 GPT Summary- LLM推論における自己改善技術を三つの視点から検討。独立した自己改善はデコーディングやサンプリングに焦点、文脈に応じた自己改善は追加データを活用、モデル支援の自己改善はモデル間の協力を通じて行う。関連研究のレビューと課題、今後の研究への洞察を提供。 #InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-30 RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation, Xiaoxi Li+, arXiv'24 GPT Summary- RetroLLMは、リトリーバルと生成を統合したフレームワークで、LLMsがコーパスから直接証拠を生成することを可能にします。階層的FM-インデックス制約を導入し、関連文書を特定することで無関係なデコーディング空間を削減し、前向きな制約デコーディング戦略で証拠の精度を向上させます。広範な実験により、ドメイン内外のタスクで優れた性能を示しました。 Comment

元ポスト:

Loading…

従来のRAGとの違いと、提案手法の概要

#Survey #Pocket #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#ComputerVision #InformationRetrieval #Dataset #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Reasoning #SelfImprovement Issue Date: 2024-12-16 Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions, Yu Zhao+, arXiv'24 GPT Summary- Marco-o1は、LRMの研究において、数学や物理学だけでなく、RLやオープンエンドの解決策にも重点を置いている。特に、o1モデルが基準が不明瞭な領域に一般化できるかを探求し、Chain-of-ThoughtファインチューニングやMCTS、反射メカニズムを活用して複雑な問題解決に最適化されている。 Comment

元ポスト:

Loading…

Large Reasoning Model （LRM）という用語は初めて見た。

#Pocket #Evaluation Issue Date: 2024-12-15 When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards, Norah Alzahrani+, ACL'24 GPT Summary- LLMのリーダーボードは、ベンチマークランキングに基づいてモデル選択を支援するが、ランキングは微細な変更に敏感であり、最大8位変動することがある。3つのベンチマーク摂動のカテゴリにわたる実験を通じて、この現象の原因を特定し、ハイブリッドスコアリング方法の利点を含むベストプラクティスを提案。単純な評価に依存する危険性を強調し、より堅牢な評価スキームの必要性を示した。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に日本語でのサマリが記載されているので参照のこと。

リーダーボードのバイアスを軽減した結果、どのLLMが最大パフォーマンスとみなされるようになったのだろうか？

#Pocket #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-15 BatchEval: Towards Human-like Text Evaluation, Peiwen Yuan+, ACL'24 GPT Summary- BatchEvalという新しい評価パラダイムを提案し、LLMを用いた自動テキスト評価の問題を解決。バッチ単位での反復評価により、プロンプト設計の敏感さやノイズ耐性の低さを軽減。実験により、BatchEvalは最先端手法に対して10.5%の改善を示し、APIコストを64%削減。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に日本語によるサマリが掲載されているので参照のこと。

#NeuralNetwork #NaturalLanguageGeneration #Dataset #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

広告文生成タスク（Ad Text Generation）は個々のグループのプロプライエタリデータでしか評価されてこなかったことと、そもそもタスク設定が十分に規定されていないので、その辺を整備したという話らしい。
特に広告文生成のための初のオープンデータなCAMERAを構築している。

データセットを作るだけでなく、既存の手法、古典的なものからLLMまででどの程度の性能まで到達しているか、さらにはROUGEやGPT-4を用いたLLM-as-a-Judgeのような自動評価手法をメタ評価し、人手評価とオンライン評価のどの程度代替になるかも分析したとのことらしい。

Table5にメタ評価の結果が記載されている。システムレベルのcorrelationを測定している。興味深いのが、BLEU-4, ROUGE-1, BERTScoreなどの古典的or埋め込みベースのNLG評価手法がFaithfulnessとFluencyにおいて、人間の専門家と高い相関を示しているのに対し、GPT-4による評価では人間による評価と全然相関が出ていない。

既存のLLM-as-a-Judge研究では専門家と同等の評価できます、みたいな話がよく見受けられるがこれらの報告と結果が異なっていておもしろい。著者らは、OpenAIのGPTはそもそも広告ドメインとテキストでそんなに訓練されていなさそうなので、ドメインのミスマッチが一つの要因としてあるのではないか、と考察している。

また、Attractivenessでは専門家による評価と弱い相関しか示していない点も興味深い。広告文がどの程度魅力的かはBLEU, ROUGE, BERTScoreあたりではなかなか難しそうなので、GPT4による評価がうまくいって欲しいところだが、全くうまくいっていない。この論文の結果だけを見ると、（Attractivenessに関しては）自動評価だけではまだまだ広告文の評価は厳しそうに見える。

GPT4によるAttractivenessの評価に利用したプロンプトが下記。MTBenchっぽく、ペアワイズの分類問題として解いていることがわかる。この辺はLLM-as-a-Judgeの研究では他にもスコアトークンを出力し尤度で重みづけるG-Evalをはじめ、さまざまな手法が提案されていると思うので、その辺の手法を利用したらどうなるかは興味がある。
あとはそもそも手法面の話以前に、promptのコンテキスト情報としてどのような情報がAttractivenessの評価に重要か？というのも明らかになると興味深い。この辺は、サイバーエージェントの専門家部隊が、どのようなことを思考してAttractivenessを評価しているのか？というのがヒントになりそうである。

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Analysis #Pocket #In-ContextLearning Issue Date: 2024-12-15 The broader spectrum of in-context learning, Andrew Kyle Lampinen+, arXiv'24 GPT Summary- 本研究では、言語モデルの少数ショット学習をメタ学習に基づく文脈内学習の一部として位置づけ、文脈が予測の損失を減少させるメカニズムを提案します。この視点は、言語モデルの文脈内能力を統一し、一般化の重要性を強調します。一般化は新しい学習だけでなく、異なる提示からの学びや適用能力にも関連し、過去の文献との関連性も議論されます。文脈内学習の研究は、広範な能力と一般化のタイプを考慮すべきと結論付けています。 Comment

OpenReview: https://openreview.net/forum?id=RHo3VVi0i5

OpenReviewによると、
論文は理解しやすく、meta learningについて広範にサーベイされている。しかし、論文が定義しているICLの拡張はICLを過度に一般化し過ぎており（具体的に何がICLで何がICLでないのか、といった規定ができない）、かつ論文中で提案されているコンセプトを裏付ける実験がなくspeculativeである、とのことでrejectされている。

#Pocket #OpenWeight Issue Date: 2024-12-15 Phi-4 Technical Report, Marah Abdin+, arXiv'24 GPT Summary- 140億パラメータの言語モデル「phi-4」は、合成データを取り入れたトレーニングにより、STEMに特化したQA能力で教師モデルを大幅に上回る性能を示す。phi-3のアーキテクチャを最小限に変更しただけで、推論ベンチマークにおいても改善されたデータとトレーニング手法により強力なパフォーマンスを達成。 Comment

現状Azureでのみ利用可能かも。Huggingfaceにアップロードされても非商用ライセンスになるという噂も

MITライセンス
HuggingFace:
https://huggingface.co/microsoft/phi-4

#Multi #InformationRetrieval #Pocket #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-10 Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models, Tian Yu+, arXiv'24 GPT Summary- Auto-RAGは、LLMの意思決定能力を活用した自律的な反復検索モデルで、リトリーバーとのマルチターン対話を通じて知識を取得します。推論に基づく意思決定を自律的に合成し、6つのベンチマークで優れた性能を示し、反復回数を質問の難易度に応じて調整可能です。また、プロセスを自然言語で表現し、解釈可能性とユーザー体験を向上させます。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=jkVQ31GeIA

#Pocket #Hallucination Issue Date: 2024-12-09 LLMs Will Always Hallucinate, and We Need to Live With This, Sourav Banerjee+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）の幻覚は偶発的なエラーではなく、これらのモデルの基本的な構造から生じる避けられない特徴であると主張。アーキテクチャやデータセットの改善では幻覚を排除できないことを示し、各プロセス段階で幻覚が生成される確率が存在することを分析。新たに「構造的幻覚」という概念を導入し、幻覚の数学的確実性を確立することで、完全な軽減は不可能であると論じる。 #Analysis #Pocket #Quantization Issue Date: 2024-12-02 The Super Weight in Large Language Models, Mengxia Yu+, arXiv'24 GPT Summary- LLMのパラメータの一部がモデルの品質に不均衡に重要であり、1つのパラメータの剪定でテキスト生成能力が大幅に低下することを発見。データフリーの方法で重要なスーパーパラメータを特定し、これにより四捨五入量子化の精度を向上させることができる。スーパーパラメータに関する研究を促進するために、オープンアクセスのLLMに対するインデックスを提供。 Comment

図にある通り、たった一つのニューラルネットワーク中の重みを0にするだけで、途端に意味のあるテキストが生成できなくなるような重みが存在するらしい。

（図は論文より引用）

ICLR 2025のOpenreview
https://openreview.net/forum?id=0Ag8FQ5Rr3

#Multi #Pocket #Dataset #Evaluation #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

この研究を信じるのであれば、LLMはCoT無しではマルチホップ推論を実施することはあまりできていなさそう、という感じだと思うのだがどうなんだろうか。

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-01 Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models, Fei Wang+, arXiv'24 GPT Summary- Astute RAGは、外部知識の不完全な取得による問題を解決する新しいアプローチで、LLMsの内部知識と外部知識を適応的に統合し、情報の信頼性に基づいて回答を決定します。実験により、Astute RAGは従来のRAG手法を大幅に上回り、最悪のシナリオでもLLMsのパフォーマンスを超えることが示されました。 #Survey #Pocket #LLM-as-a-Judge Issue Date: 2024-11-27 From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, Dawei Li+, arXiv'24 GPT Summary- LLMを用いた判断と評価の新たなパラダイム「LLM-as-a-judge」に関する包括的な調査を行い、定義や分類法を提示。評価のためのベンチマークをまとめ、主要な課題と今後の研究方向を示す。関連リソースも提供。 Comment

LLM-as-a-Judgeに関するサーベイ

- Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N/A, arXiv'24

も参照のこと

#Analysis #Pocket #Prompting Issue Date: 2024-11-27 Does Prompt Formatting Have Any Impact on LLM Performance?, Jia He+, arXiv'24 GPT Summary- プロンプト最適化はLLMの性能に重要であり、異なるプロンプトテンプレートがモデルの性能に与える影響を調査。実験では、GPT-3.5-turboがプロンプトテンプレートによってコード翻訳タスクで最大40%変動する一方、GPT-4はより堅牢であることが示された。これにより、固定プロンプトテンプレートの再考が必要であることが強調された。 Comment

（以下、個人の感想です）
本文のみ斜め読みして、Appendixは眺めただけなので的外れなことを言っていたらすみません。

まず、実務上下記知見は有用だと思いました:
- プロンプトのフォーマットによって性能に大きな差がある
- より大きいモデルの方がプロンプトフォーマットに対してロバスト

ただし、フォーマットによって性能差があるというのは経験的にある程度LLMを触っている人なら分かることだと思うので、驚きは少なかった。

個人的に気になる点は、学習データもモデルのアーキテクチャもパラメータ数も分からないGPT3.5, GPT4のみで実験をして「パラメータサイズが大きい方がロバスト」と結論づけている点と、もう少し深掘りして考察したらもっとおもしろいのにな、と感じる点です。

実務上は有益な知見だとして、では研究として見たときに「なぜそうなるのか?」というところを追求して欲しいなぁ、という感想を持ちました。
たとえば、「パラメータサイズが大きいモデルの方がフォーマットにロバスト」と論文中に書かれているように見えますが、
それは本当にパラメータサイズによるものなのか？学習データに含まれる各フォーマットの割合とか（これは事実はOpenAIの中の人しか分からないので、学習データの情報がある程度オープンになっているOpenLLMでも検証するとか）、評価するタスクとフォーマットの相性とか、色々と考察できる要素があるのではないかと思いました。
その上で、大部分のLLMで普遍的な知見を見出した方が研究としてより面白くなるのではないか、と感じました。

参考: Data2Textにおける数値データのinput formatによる性能差を分析し考察している研究
- Prompting for Numerical Sequences: A Case Study on Market Comment Generation, Masayuki Kawarada+, N/A, arXiv'24

#ComputerVision #Pretraining #Pocket #MultiModal Issue Date: 2024-11-25 Multimodal Autoregressive Pre-training of Large Vision Encoders, Enrico Fini+, arXiv'24 GPT Summary- 新しい手法AIMV2を用いて、大規模なビジョンエンコーダの事前学習を行う。これは画像とテキストを組み合わせたマルチモーダル設定に拡張され、シンプルな事前学習プロセスと優れた性能を特徴とする。AIMV2-3BエンコーダはImageNet-1kで89.5%の精度を達成し、マルチモーダル画像理解において最先端のコントラストモデルを上回る。 #Analysis #EfficiencyImprovement #Pocket Issue Date: 2024-11-22 Observational Scaling Laws and the Predictability of Language Model Performance, Yangjun Ruan+, arXiv'24 GPT Summary- 言語モデルの性能を理解するために、約100の公開モデルからスケーリング法則を構築する新しい観察アプローチを提案。モデルファミリー間の能力変動を考慮し、性能が低次元の能力空間の関数であることを示す。これにより、複雑なスケーリング現象の予測可能性を示し、GPT-4のエージェント性能を非エージェント的ベンチマークから予測できることを明らかにし、Chain-of-ThoughtやSelf-Consistencyの影響を予測する方法を示す。 Comment

縦軸がdownstreamタスクの主成分（のうち最も大きい80%を説明する成分）の変化（≒LLMの性能）で、横軸がlog scaleの投入計算量。
Qwenも頑張っているが、投入データ量に対する性能（≒データの品質）では、先駆け的な研究であるPhiがやはり圧倒的?

- Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23

も参照のこと

#Analysis #InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv'24 GPT Summary- 大規模言語モデルを用いた情報検索強化生成は、文脈内の文書の順序に影響を受けやすい。研究では、質問の確率がモデルのパフォーマンスに与える影響を分析し、正確性との相関関係を明らかにした。質問の確率を指標として、プロンプトの選択と構築に関する2つの方法を提案し、その効果を実証。確率に基づく手法は効率的で、少ないモデルのパスで応答を生成できるため、プロンプト最適化の新たな方向性を示す。 Comment

トークンレベルの平均値をとった生成テキストの対数尤度と、RAGの回答性能に関する分析をした模様。

とりあえず、もし「LLMとしてGPTを（OpenAIのAPIを用いて）使いました！temperatureは0です！」みたいな実験設定だったら諸々怪しくなる気がしたのでそこが大丈夫なことを確認した（OpenLLM、かつdeterministicなデコーディング方法が望ましい）。おもしろそう。

参考: [RAGのハルシネーションを尤度で防ぐ, sasakuna, 2024.11.19]( https://zenn.dev/knowledgesense/articles/7c47e1796e96c0)

## 参考

生成されたテキストの尤度を用いて、どの程度正解らしいかを判断する、といった話は
- G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, EMNLP'23

のようなLLM-as-a-Judgeでも行われている。

G-Evalでは1--5のスコアのような離散的な値を生成する際に、これらを連続的なスコアに補正するために、尤度（トークンの生成確率）を用いている。
ただし、G-Evalの場合は実験でGPTを用いているため、モデルから直接尤度を取得できず、代わりにtemperature1とし、20回程度生成を行った結果からスコアトークンの生成確率を擬似的に計算している。

G-Evalの設定と比較すると（当時はつよつよなOpenLLMがなかったため苦肉の策だったと思われるが）、こちらの研究の実験設定の方が望ましいと思う。

#Survey #Pocket #MultiLingual Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv'24 GPT Summary- 本論文は、多言語大規模言語モデル（MLLMs）の最新研究を調査し、アーキテクチャや事前学習の目的、多言語能力の要素を論じる。データの質と多様性が性能向上に重要であることを強調し、MLLMの評価方法やクロスリンガル知識、安全性、解釈可能性について詳細な分類法を提示。さらに、MLLMの実世界での応用を多様な分野でレビューし、課題と機会を強調する。関連論文は指定のリンクで公開されている。 Comment

#Analysis #EfficiencyImprovement #Pretraining #Pocket #Supervised-FineTuning (SFT) #Japanese #read-later Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は、その言語理解能力と適用可能性から注目を集めており、特にLlama 3シリーズは4050億パラメータを持つ。トレーニングの効率化が求められる中、NVIDIAのH100 GPUはFP8フォーマットを導入し、トレーニング時間を短縮する可能性がある。初期研究ではFP8が性能を損なわずに効率を向上させることが示唆されているが、トレーニングの安定性や下流タスクへの影響はまだ不明である。本研究は、LLMsのトレーニングにおけるBF16とFP8のトレードオフを探る。 Comment

元ポスト:

Loading…

FP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よりも低下したりする（日本語と英語の両方）との報告のようである。現状アブストと付録しか記載がないが、内容はこれから更新されるのだろうか。

#Survey #EfficiencyImprovement #Transformer #Attention Issue Date: 2024-11-17 Understanding LLMs: A Comprehensive Overview from Training to Inference, Yiheng Liu+, arXiv'24 GPT Summary- ChatGPTの普及に伴い、LLMsのコスト効率の良いトレーニングとデプロイメントへの関心が高まっている。本論文では、LLMsのトレーニング技術と推論デプロイメント技術の進化をレビューし、データ前処理やモデル圧縮などのさまざまな側面を議論する。また、LLMsの利用方法と将来の発展についての洞察も提供する。 Comment

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-7vGwDK_AQX.HDO7j9H8iNA)

単なるLLMの理論的な説明にとどまらず、実用的に必要な各種並列処理技術、Mixed Precision、Offloadingなどのテクニックもまとまっているのがとても良いと思う。

LLM Frameworkのところに、メジャーなものが網羅されていないように感じる。たとえば、UnslothやLiger-KernelなどはTransformersの部分で言及されてても良いのでは、と感じる。

#Analysis #Pocket Issue Date: 2024-11-17 The Geometry of Concepts: Sparse Autoencoder Feature Structure, Yuxiao Li+, arXiv'24 GPT Summary- スパースオートエンコーダは、高次元ベクトルの辞書を生成し、概念の宇宙に三つの興味深い構造を発見した。1) 小規模構造では、平行四辺形や台形の「結晶」があり、単語の長さなどの干渉を除去することで質が改善される。2) 中規模構造では、数学とコードの特徴が「葉」を形成し、空間的局所性が定量化され、特徴が予想以上に集まることが示された。3) 大規模構造では、特徴点雲が各向同性でなく、固有値のべき法則を持ち、クラスタリングエントロピーが層に依存することが定量化された。 Comment

参考: https://ledge.ai/articles/llm_conceptual_structure_sae

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-kR626A9_R8.6CU7IKvGyhQ)

#Pocket #Decoding #SamplingParams Issue Date: 2024-11-15 [Paper Note] Adaptive Decoding via Latent Preference Optimization, Shehzaad Dhuliawala+, arXiv'24 GPT Summary- Adaptive Decodingを導入し、推論時にトークンや例ごとに動的にサンプリング温度を選択することで、言語モデルのパフォーマンスを最適化。Latent Preference Optimization（LPO）を用いて温度選択を学習し、UltraFeedbackやCreative Story Writing、GSM8Kなどのタスクで固定温度を超える性能を達成。 Comment

著者ポスト:

Loading…

#Pocket #Reasoning #PostTraining Issue Date: 2024-11-13 Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding, Haolin Chen+, arXiv'24 GPT Summary- LaTRO（LaTent Reasoning Optimization）を提案し、LLMの推論能力を向上させる新しいフレームワークを構築。推論を潜在分布からのサンプリングとして定式化し、外部フィードバックなしで推論プロセスと質を同時に改善。GSM8KおよびARC-Challengeデータセットで実験し、平均12.5%の精度向上を達成。事前学習されたLLMの潜在的な推論能力を引き出すことが可能であることを示唆。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=4Po8d9GAfQ&referrer=%5Bthe%20profile%20of%20Ricky%20Ho%5D(%2Fprofile%3Fid%3D~Ricky_Ho2)

#Analysis #Chain-of-Thought Issue Date: 2024-11-13 A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration, Yingqian Cui+, arXiv'24 GPT Summary- Few-shot Chain-of-Thought (CoT) プロンプティングはLLMsの推論能力を向上させるが、従来の研究は推論プロセスを分離された文脈内学習に依存している。本研究では、初期ステップからの一貫した推論（Coherent CoT）を統合することで、トランスフォーマーのエラー修正能力と予測精度を向上させることを理論的に示す。実験により、正しい推論経路と誤った推論経路を組み込むことでCoTを改善する提案の有効性を検証する。 Comment

元ポスト:

Loading…

おもしろそうな研究

#Pretraining #MachineLearning #Pocket #Subword #Tokenizer Issue Date: 2024-11-12 LBPE: Long-token-first Tokenization to Improve Large Language Models, Haoran Lian+, arXiv'24 GPT Summary- LBPEは、長いトークンを優先する新しいエンコーディング手法で、トークン化データセットにおける学習の不均衡を軽減します。実験により、LBPEは従来のBPEを一貫して上回る性能を示しました。 Comment

BPEとは異なりトークンの長さを優先してマージを実施することで、最終的なトークンを決定する手法で、

BPEよりも高い性能を獲得し、

トークンの長さがBPEと比較して長くなり、かつ5Bトークン程度を既存のBPEで事前学習されたモデルに対して継続的事前学習するだけで性能を上回るようにでき、

同じVocabサイズでBPEよりも高い性能を獲得できる手法

らしい

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-11-12 DELIFT: Data Efficient Language model Instruction Fine Tuning, Ishika Agarwal+, arXiv'24 GPT Summary- DELIFTという新しいアルゴリズムを提案し、ファインチューニングの各ステージでデータ選択を最適化。ペアワイズユーティリティメトリックを用いてデータの有益性を定量化し、最大70%のデータ削減を実現。計算コストを大幅に節約し、既存の方法を上回る効率性と効果を示す。 #Survey #Pocket #AIAgents Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv'24 GPT Summary- (M)LLMを活用したGUIエージェントの研究を統合し、データセット、フレームワーク、アプリケーションの革新を強調。重要なコンポーネントをまとめた統一フレームワークを提案し、商業アプリケーションを探求。課題を特定し、今後の研究方向を示唆。 Comment

Referenceやページ数はサーベイにしては少なめに見える。

#EfficiencyImprovement #Pocket #Test-Time Scaling Issue Date: 2024-11-12 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, Charlie Snell+, arXiv'24 GPT Summary- LLMの推論時の計算をスケーリングすることで、挑戦的なプロンプトに対するパフォーマンスを改善する方法を研究。特に、密なプロセスベースの検証者報酬モデルとプロンプトに応じた応答の適応的更新を分析。プロンプトの難易度によって効果が変化し、計算最適戦略を適用することで効率を4倍以上向上。さらに、テスト時計算を用いることで小さなモデルが大きなモデルを上回ることが示された。 Comment

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-noyan-jiu-wodu-mi-nei-r-1e1euXgLTH.G0Wlp.V2iqA)

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv'24 GPT Summary- リトリーバル拡張システムにおいて、LLMのファインチューニングを必要とせず、埋め込みの類似性とLLMの能力を組み合わせたスケーラブルなランキングフレームワークを提案。ユーザーのクエリに基づいて仮定されたクエリとの類似性でコンテキストを再順位付けし、推論時に効率的で他の技術とも互換性がある。実験により、提案手法がランキング性能を向上させることを示した。 Comment

- Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, ACL'23 も参照のこと。

下記に試しにHyQEとHyDEの比較の記事を作成したのでご参考までに（記事の内容に私は手を加えていないのでHallucinationに注意）。ざっくりいうとHyDEはpseudo documentsを使うが、HyQEはpseudo queryを扱う。

[参考: Perplexity Pagesで作成したHyDEとの簡単な比較の要約]( https://www.perplexity.ai/page/hyqelun-wen-nofen-xi-toyao-yue-aqZZj8mDQg6NL1iKml7.eQ)

#Pocket #NumericReasoning Issue Date: 2024-11-09 Number Cookbook: Number Understanding of Language Models and How to Improve It, Haotong Yang+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）の数値理解および処理能力（NUPA）を調査し、41の数値タスクを含むベンチマークを導入。多くのタスクでLLMsが失敗することを確認し、NUPA向上のための技術を用いて小規模モデルを訓練。ファインチューニングによりNUPAが改善されるが、すべてのタスクには効果がないことが判明。思考の連鎖技術の影響も探求。研究はLLMsのNUPA改善に向けた初歩的なステップを示す。 Comment

んー、abstしか読んでいないけれども、9.11 > 9.9 については、このような数字に慣れ親しんでいるエンジニアなどに咄嗟に質問したら、ミスして答えちゃう人もいるのでは？という気がする（エンジニアは脳内で9.11 > 9.9を示すバージョン管理に触れる機会が多く、こちらの尤度が高い）。

LLMがこのようなミス（てかそもそもミスではなく、回答するためのcontextが足りてないので正解が定義できないだけ、だと思うが、、）をするのは、単に学習データにそういった9.11 > 9.9として扱うような文脈や構造のテキストが多く存在しており、これらテキスト列の尤度が高くなってこのような現象が起きているだけなのでは、という気がしている。

instructionで注意を促したり適切に問題を定義しなければ、そりゃこういう結果になって当然じゃない?という気がしている。

（ここまで「気がしている」を3連発してしまった…😅）

また、本研究で扱っているタスクのexampleは下記のようなものだが、これらをLLMに、なんのツールも利用させずautoregressiveな生成のみで解かせるというのは、人間でいうところの暗算に相当するのでは？と個人的には思う。
何が言いたいのかというと、人間でも暗算でこれをやらせたら解けない人がかなりいると思う（というか私自身単純な加算でも桁数増えたら暗算など無理）。
一方で暗算ではできないけど、電卓やメモ書き、計算機を使っていいですよ、ということにしたら多くの人がこれらタスクは解けるようになると思うので、LLMでも同様のことが起きると思う。

LLMの数値演算能力は人間の暗算のように限界があることを認知し、金融分野などの正確な演算や数値の取り扱うようなタスクをさせたかったら、適切なツールを使わせましょうね、という話なのかなあと思う。

元ポスト:

Loading…

ICLR25のOpenReview。こちらを読むと興味深い。
https://openreview.net/forum?id=BWS5gVjgeY

幅広い数値演算のタスクを評価できるデータセット構築、トークナイザーとの関連性を明らかにした点、分析だけではなくLLMの数値演算能力を改善した点は評価されているように見える。

一方で、全体的に、先行研究との比較やdiscussionが不足しており、研究で得られた知見がどの程度新規性があるのか?といった点や、説明が不十分でjustificationが足りない、といった話が目立つように見える。
特に、そもそもLoRAやCoTの元論文や、Numerical Reasoningにフォーカスした先行研究がほぼ引用されていないらしい点が見受けられるようである。さすがにその辺は引用して研究のcontributionをクリアにした方がいいよね、と思うなどした。

>I am unconvinced that numeracy in LLMs is a problem in need of a solution. First, surely there is a citable source for LLM inadequacy for numeracy. Second, even if they were terrible at numeracy, the onus is on the authors to convince the reader that this a problem worth caring about, for at least two obvious reasons: 1) all of these tasks are already trivially done by a calculator or a python program, and 2) commercially available LLMs can probably do alright at numerical tasks indirectly via code-generation and execution. As it stands, it reads as if the authors are insisting that this is a problem deserving of attention --- I'm sure it could be, but this argument can be better made.

上記レビュワーコメントと私も同じことを感じる。なぜLLMそのものに数値演算の能力がないことが問題なのか?という説明があった方が良いのではないかと思う。

これは私の中では、論文のイントロで言及されているようなシンプルなタスクではなく、
- inputするcontextに大量の数値を入力しなければならず、
- かつcontext中の数値を厳密に解釈しなければならず、
- かつ情報を解釈するために計算すべき数式がcontextで与えられた数値によって変化するようなタスク（たとえばテキスト生成で言及すべき内容がgivenな数値情報によって変わるようなもの。最大値に言及するのか、平均値を言及するのか、数値と紐づけられた特定のエンティティに言及しなければならないのか、など）

（e.g. 上記を満たすタスクはたとえば、金融関係のdata-to-textなど）では、LLMが数値を解釈できないと困ると思う。そういった説明が入った方が良いと思うなあ、感。

#Analysis #MachineLearning #Pocket #PEFT(Adaptor/LoRA) #read-later Issue Date: 2024-11-09 LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv'24 GPT Summary- ファインチューニング手法の違いが事前学習済みモデルに与える影響を、重み行列のスペクトル特性を通じて分析。LoRAと完全なファインチューニングは異なる構造の重み行列を生成し、LoRAモデルは新たな高ランクの特異ベクトル（侵入次元）を持つことが判明。侵入次元は一般化能力を低下させるが、同等の性能を達成することがある。これにより、異なるファインチューニング手法がパラメータ空間の異なる部分にアクセスしていることが示唆される。 Comment

元ポスト:

Loading…

When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24 や Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24 、双方の知見も交えて、LoRAの挙動を考察する必要がある気がする。それぞれ異なるデータセットやモデルで、LoRAとFFTを比較している。時間がないが後でやりたい。

あと、昨今はそもそも実験設定における変数が多すぎて、とりうる実験設定が多すぎるため、個々の論文の知見を鵜呑みにして一般化するのはやめた方が良い気がしている。

# 実験設定の違い
## モデルのアーキテクチャ
- 本研究: RoBERTa-base（transformer-encoder）
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
: transformer-decoder
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24 : transformer-decoder（LLaMA）

## パラメータサイズ
- 本研究:
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N/A, ICLR'24
: 1B, 2B, 4B, 8B, 16B
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24 : 7B

時間がある時に続きをかきたい

## Finetuningデータセットのタスク数

## 1タスクあたりのデータ量

## trainableなパラメータ数

#Survey #SmallModel Issue Date: 2024-11-07 A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, Fali Wang+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）は多様なタスクで能力を示すが、パラメータサイズや計算要求から制限を受け、プライバシーやリアルタイムアプリケーションに課題がある。これに対し、小型言語モデル（SLM）は低遅延、コスト効率、簡単なカスタマイズが可能で、特に専門的なドメインにおいて有用である。SLMの需要が高まる中、定義や応用に関する包括的な調査が不足しているため、SLMを専門的なタスクに適したモデルとして定義し、強化するためのフレームワークを提案する。 Comment

#Survey #Evaluation #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#SyntheticData #OpenWeight #OpenSource Issue Date: 2024-11-06 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv'24 GPT Summary- Hunyuan-Largeは、3890億パラメータを持つオープンソースのTransformerベースの専門家混合モデルで、最大256Kトークンを処理可能。言語理解や生成、論理推論などのベンチマークでLLama3.1-70Bを上回り、LLama3.1-405Bと同等の性能を示す。主な特徴には大規模な合成データ、混合専門家ルーティング、キー・バリューキャッシュ圧縮、専門家特有の学習率戦略が含まれ、今後のモデル開発に向けた洞察も提供。コードとモデルは公開されている。 Comment

合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。

#Pocket Issue Date: 2024-11-02 Looking Inward: Language Models Can Learn About Themselves by Introspection, Felix J Binder+, N_A, arXiv'24, 2024.11 GPT Summary- 内省は、LLMsがトレーニングデータに依存せずに内部状態から知識を獲得する能力を指す。本研究では、LLMsを微調整し、仮想シナリオにおける自身の行動を予測させることで内省を検証。実験の結果、内省可能なモデル（M1）は、異なるモデル（M2）よりも自身の行動を正確に予測できることが示された。特に、M1は行動を意図的に変更した後でも予測精度を維持したが、複雑なタスクでは内省を引き出すことができなかった。 Comment

LLMが単に訓練データを模倣しているにすぎない的な主張に対するカウンターに使えるかも

#MachineLearning #Pocket #Alignment #ICML #PostTraining Issue Date: 2024-10-27 KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N_A, ICML'24 GPT Summary- プロスペクト理論に基づき、LLMの人間フィードバック調整におけるバイアスの影響を示す。新たに提案する「人間認識損失」（HALOs）を用いたアプローチKTOは、生成物の効用を最大化し、好みベースの方法と同等またはそれ以上の性能を発揮。研究は、最適な損失関数が特定の設定に依存することを示唆。 Comment

binaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文

#Pocket #DPO #PostTraining Issue Date: 2024-10-22 Generative Reward Models, Dakota Mahan+, N_A, arXiv'24 GPT Summary- RLHFとRLAIFを統合したハイブリッドアプローチを提案し、合成好みラベルの質を向上させるGenRMアルゴリズムを導入。実験により、GenRMは分布内外のタスクでBradley-Terryモデルと同等またはそれを上回る性能を示し、LLMを判断者として使用する場合のパフォーマンスも向上。 Comment

OpenReview: https://openreview.net/forum?id=MwU2SGLKpS

openreview: https://openreview.net/forum?id=MwU2SGLKpS

#Pretraining #Alignment #Supervised-FineTuning (SFT) #SyntheticData #PostTraining Issue Date: 2024-10-21 Self-Taught Evaluators, Tianlu Wang+, N_A, arXiv'24 GPT Summary- 本研究では、人間の注釈なしで評価者を改善するアプローチを提案。合成トレーニングデータを用い、自己改善スキームによりLLMを評価者としてトレーニング。これにより、RewardBenchでのLLMのパフォーマンスを75.4から88.3に向上させ、GPT-4を超える結果を達成。 Comment

LLMのアラインメント等をSFTする際に、preferenceのラベル付きデータが必要になるが、このようなデータを作るのはコストがかかって大変なので自動生成して、より良いreward modelを作りたいよね、という話。
具体的には、LLMを用いて good responseと、instructionを変化させてbad sesponseを生成し、JudgeモデルM_tにpairwiseでどちらが良いかをjudgeさせることで学習データを作成。新たに作成されたデータを用いてJudgeモデルを再学習し、同様のプロセスを繰り返すことで、人手の介在なく強力なJudgeモデルが完成する。

#Survey #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#EfficiencyImprovement #Pretraining #Pocket #Supervised-FineTuning (SFT) Issue Date: 2024-10-20 Addition is All You Need for Energy-efficient Language Models, Hongyin Luo+, N_A, arXiv'24 GPT Summary- 本研究では、浮動小数点乗算を高精度で整数加算器によって近似するL-Mulアルゴリズムを提案。これにより、8ビット浮動小数点乗算に比べて計算リソースを大幅に削減しつつ、より高い精度を実現。L-Mulをテンソル処理ハードウェアに適用することで、エネルギーコストを95％（要素ごとの乗算）および80％（ドット積）削減可能。実験結果は理論的誤差推定と一致し、L-Mulは従来の浮動小数点乗算と同等またはそれ以上の精度を達成。トランスフォーマーモデル内の浮動小数点乗算をL-Mulに置き換えることで、ファインチューニングと推論において高い精度を維持できることを示した。 #Pretraining #Tools #Supervised-FineTuning (SFT) #AIAgents Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv'24 GPT Summary- ToolGenは、外部ツールとの直接対話を可能にする新しいフレームワークで、各ツールをユニークなトークンとして表現し、LLMのパラメータに統合します。これにより、LLMはツール呼び出しや引数を自然言語生成の一部としてシームレスに生成でき、情報取得ステップなしで多くのツールにアクセス可能になります。実験結果は、ToolGenが自律的なタスク完了と情報取得で優れた性能を示し、より効率的で自律的なAIシステムの基盤を築くことを示しています。 Comment

昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。

斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルにツールの情報を覚えさせる（memorization）。斜め読みなので読めていないが、ツールトークンをvocabに追加してるのでここは継続的事前学習をしているかもしれない。続いて、（おそらく）人手でアノテーションされたクエリ-必要なツールのペアデータから、クエリに対して必要なツールを生成するタスクを学習させる。最後に、（おそらく人手で作成された）クエリ-タスクを解くためのtrajectoryペアのデータで学習させる。

学習データのサンプル。Appendix中に記載されているものだが、本文のデータセット節とAppendixの双方に、データの作り方の詳細は記述されていなかった。どこかに書いてあるのだろうか。

最終的な性能

特殊トークンを追加のvocabとして登録し、そのトークンを生成できるようなデータで学習し、vocabに応じて何らかの操作を実行するという枠組み、その学習手法は色々なタスクで役立ちそう。

#ComputerVision #Pocket #Dataset Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv'24 GPT Summary- 視覚と言語のモデル（VLM）の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。

元ポスト:

Loading…

#Chain-of-Thought #Prompting Issue Date: 2024-09-29 Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models, Tongxuan Liu+, N_A, arXiv'24 GPT Summary- Logic-of-Thought（LoT）プロンプティングを提案し、命題論理を用いて入力から拡張された論理情報を生成。これにより、LLMsの論理推論能力を向上させ、既存のプロンプト手法と統合可能。実験により、LoTが5つの論理推論タスクで顕著な性能向上を示し、特にReClorで+4.35%、LogiQAで+5%、ProofWriterで+8%の改善を達成。 Comment

SNSで話題になっているようだがGPT-3.5-TurboとGPT-4でしか比較していない上に、いつの時点のモデルかも記述されていないので、unreliableに見える

#Pocket #Supervised-FineTuning (SFT) Issue Date: 2024-09-26 When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N_A, ICLR'24 GPT Summary- LLMのファインチューニング手法のスケーリング特性を調査し、モデルサイズやデータサイズが性能に与える影響を実験。結果、ファインチューニングはパワーベースの共同スケーリング法則に従い、モデルのスケーリングが事前学習データのスケーリングよりも効果的であることが判明。最適な手法はタスクやデータに依存する。 Comment

> When only few thousands of finetuning examples are available, PET should be considered first, either Prompt or LoRA. With sightly larger datasets, LoRA would be preferred due to its stability and slightly better finetuning data scalability. For million-scale datasets, FMT would be good.

> While specializing on a downstream task, finetuning could still elicit

and improve the generalization for closely related tasks, although the overall zero-shot translation

quality is inferior. Note whether finetuning benefits generalization is method- and task-dependent.

Overall, Prompt and LoRA achieve relatively better results than FMT particularly when the base

LLM is large, mostly because LLM parameters are frozen and the learned knowledge get inherited.

This also suggests that when generalization capability is a big concern, PET should be considered.

#Pocket #Alignment #Supervised-FineTuning (SFT) #Safety #DPO #PostTraining Issue Date: 2024-09-24 Backtracking Improves Generation Safety, Yiming Zhang+, N_A, arXiv'24 GPT Summary- テキスト生成における安全性の問題に対処するため、バックトラッキング手法を提案。特別な[RESET]トークンを用いて生成された不適切なテキストを「取り消し」、モデルの安全性を向上させる。バックトラッキングを導入したLlama-3-8Bは、ベースラインモデルに比べて4倍の安全性を示し、有用性の低下は見られなかった。 Comment

元ポスト:

Loading…

#Analysis #Chain-of-Thought Issue Date: 2024-09-24 To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, Zayne Sprague+, N_A, arXiv'24 GPT Summary- Chain-of-thought（CoT）プロンプティングはLLMsの推論能力を引き出す手法であり、100以上の論文を対象にしたメタ分析により、主に数学や論理タスクでのパフォーマンス向上が確認された。一方、他のタスクでは効果が限定的で、MMLUでは直接回答生成がCoTと同等の精度を示した。計画と実行を分離し、ツール強化LLMsと比較した結果、CoTの利点は記号的実行の改善に起因し、記号ソルバーには劣ることが分かった。CoTの選択的適用により、推論コストを節約しつつパフォーマンスを維持できる可能性が示唆され、LLMアプリケーション全体での中間計算の活用が求められている。 Comment

CoTを100個以上の先行研究でmeta-analysisし（i.e. CoTを追加した場合のgainとタスクのプロット）、20個超えるデータセットで著者らが実験した結果、mathはsymbolic reasoning（12*4のように、シンボルを認識し、何らかの操作をして回答をする問題）が必要なタスクで、CoTは大きなgainが得られることがわかった（他はほとんどgainがない）。

#Supervised-FineTuning (SFT) #CrossLingual Issue Date: 2024-09-19 PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning, Zhihan Zhang+, N_A, ACL'24 GPT Summary- 指示チューニングはLLMsの指示理解を向上させるが、低リソース言語では課題がある。これに対処するため、英語をピボット言語とするPLUGアプローチを提案。モデルはまず英語で指示を処理し、次にターゲット言語で応答を生成。4つの言語での評価により、指示に従う能力が平均29%向上した。さらに、他のピボット言語を用いた実験も行い、アプローチの多様性を確認。コードとデータは公開されている。 Comment

# 概要

cross-lingualでinstruction tuningをする手法。target言語のInstructionが与えられたときに、Pivotとなる言語でInstructionとResponseを生成した後、targetとなる言語に翻訳するようなデータ（それぞれをseparatorを用いてconcatする）でInstruction Tuningすることでtarget言語での性能が向上

# 評価

ゼロショットのOpen-end GenerationタスクでInstruction Tuningされたモデルが評価されるが、既存のマルチリンガルの評価セットはサンプル数が小さく、機械翻訳ベースのものはノイジーという課題がある。このため、著者らは評価する4言語（low-resource language）のプロの翻訳家を雇用し、AlpacaEvalを翻訳し、4言語（Chinese, Korean, Italian, Spanish）のinstructionが存在するパラレルコーパス X-AlpacaEvalを作成し評価データとして用いる。

利用するFoundationモデルは以下の3種類で、

- LLaMA-2-13B (英語に特化したモデル)

- PolyLM-13B (マルチリンガルなモデル)

- PolyLM-Instruct-Instruct (PolyLM-13Bをinstruction tuningしたもの)

これらに対して学習データとしてGPT4-Alpaca Instruction Tuning with GPT-4, Baolin Peng+, N/A, arXiv'23
instruction-tuning dataset (52kのインストラクションが存在) を利用する。GPT4-AlpacaをChatGPTによって4言語に翻訳し、各言語に対するinstruction tuning datasetを得た。

比較手法として以下の5種類と比較している。ここでターゲット言語は今回4種類で、それぞれターゲット言語ごとに独立にモデルを学習している。

- Pivot-only training: pivot言語（今回は英語）のみで学習した場合

- Monolingual response training: pivot言語とtarget言語のデータを利用した場合

- Code Switching: Monolingual response trainingに加えて、pivot言語とtarget言語のinput/outputをそれぞれ入れ替えたデータセットを用いた場合（i.e. pivot言語 input-target言語 output, target言語 input-pivot言語 outputのペアを作成し学習データに利用している）

- Auxiliary translation tasks: Monolingual respones trainingに加えて、翻訳タスクを定義し学習データとして加えた場合。すなわち、input, outputそれぞれに対して、pivot言語からtarget言語への翻訳のサンプル ([P_trans;x^p], x^t）と（[P_trans;y^p], y^t）を加えて学習している。ここで、P_transは翻訳を指示するpromptで、;は文字列のconcatnation。x^p, y^p, x^t, y^tはそれぞれ、pivot言語のinput, output、target言語のinput, outputのサンプルを表す。

- PLUG（提案手法）: Pivot-only Trainingに加えて、target言語のinputから、pivot言語のinput/output -> target言語のoutputをconcatしたテキスト(x^t, [x^p;y^p;y^t]) を学習データに加えた場合

評価する際は、MT-Bench Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N/A, NeurIPS'23 のように、GPT4を用いた、direct pair-wise comparisonを行っている。

direct pair-wise comparisonは、2つのサンプルを与えてLLMに何らかの判断やスコアリングをさせる方法であり、今回はどちらがinstructionにより従っているかに勝敗/引き分けをGPT4に判断させている。LLMによる生成はサンプルの順番にsensitiveなので、順番を逆にした場合でも実験をして、win-lose rateを求めている。1つのサンプルペアに対して、サンプルの順番を正順と逆順の2回評価させ、その双方の結果を用いて最終的なwin/lose/tieを決めている。端的に言うと、勝敗が2-0ならそのサンプルの勝ち、同様に1-1なら引き分け、0-2なら負け、ということである。

#Survey #Pocket #SelfCorrection Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL'24 GPT Summary- 自己修正はLLMsの応答を改善する手法であり、フィードバック源の利用が提案されているが、誤り修正のタイミングについては合意が得られていない。本研究では、自己修正に必要な条件を議論し、従来の研究の問題点を指摘。新たに分類した研究課題に基づき、自己修正が成功した例がないこと、信頼できる外部フィードバックが重要であること、大規模なファインチューニングが効果的であることを示した。 Comment

LLMのself-correctionに関するサーベイ

#Pocket #QuestionAnswering #SyntheticData #SyntheticDataGeneration Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv'24 GPT Summary- 新手法「Source2Synth」を提案し、LLMに新しいスキルを教える。人間の注釈に依存せず、実世界のソースに基づいた合成データを生成し、低品質な生成物を廃棄してデータセットの質を向上。マルチホップ質問応答と表形式の質問応答に適用し、WikiSQLで25.51%、HotPotQAで22.57%の性能向上を達成。 Comment

合成データ生成に関する研究。
ソースからQAを生成し、2つのsliceに分ける。片方をLLMのfinetuning（LLMSynth）に利用し、もう片方をfinetuningしたLLMで解答可能性に基づいてフィルタリング（curation）する。
最終的にフィルタリングして生成された高品質なデータでLLMをfinetuningする。

Curationされたデータでfinetuningしたモデルの性能は、Curationしていないただの合成データと比べて、MultiHopQA, TableQAベンチマークで高い性能を獲得している。

画像は元ポストより引用

元ポスト:

Loading…

MultiHopQAの合成データ生成方法

TableQAの合成データ生成方法

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL'24 GPT Summary- 強化ファインチューニング（ReFT）を提案し、LLMsの推論能力を向上。SFTでモデルをウォームアップ後、PPOアルゴリズムを用いてオンライン強化学習を行い、豊富な推論パスを自動サンプリング。GSM8K、MathQA、SVAMPデータセットでSFTを大幅に上回る性能を示し、追加のトレーニング質問に依存せず優れた一般化能力を発揮。 #Survey #EfficiencyImprovement #Pocket Issue Date: 2024-09-10 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models, Sean Welleck+, N_A, arXiv'24 GPT Summary- 推論時の計算リソース拡大の利点に焦点を当て、トークンレベル生成、メタ生成、効率的生成の3つのアプローチを統一的に探求。トークンレベル生成はデコーディングアルゴリズムを用い、メタ生成はドメイン知識や外部情報を活用し、効率的生成はコスト削減と速度向上を目指す。従来の自然言語処理、現代のLLMs、機械学習の視点を統合した調査。 Comment

元ツイート:

Loading…

CMUのチームによるinference timeの高速化に関するサーベイ

#Pocket #ScientificDiscovery Issue Date: 2024-09-10 Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers, Chenglei Si+, N_A, arXiv'24 GPT Summary- 本研究では、LLMとNLP専門家による研究アイデア生成の比較を行い、LLMが生成したアイデアの新規性が人間のアイデアより高いことを示しましたが、実現可能性はやや劣ると評価されました。また、LLMの自己評価や生成の多様性に関する問題を特定し、研究者がアイデアを実行するためのエンドツーエンドの研究デザインを提案しました。 Comment

LLMがアイデアを考えた方が、79人のresearcherにblind reviewさせて評価した結果、Noveltyスコアが有意に高くなった（ただし、feasibilityは人手で考えた場合の方が高い）という話らしい。

アイデア生成にどのようなモデル、promptingを利用したかはまだ読めていない。

#Survey #Pocket #Alignment Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv'24 GPT Summary- 人間の好み学習に基づくLLMsの進展をレビューし、好みフィードバックのソースや形式、モデリング技術、評価方法を整理。データソースに基づくフィードバックの分類や、異なるモデルの利点・欠点を比較し、LLMsの人間の意図との整合性に関する展望を議論。 #Survey #SelfCorrection Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL'24 GPT Summary- 大規模言語モデル（LLMs）の性能は高いが、幻覚や不誠実な推論などの問題が存在する。自己修正が有望な解決策であり、自動フィードバックを活用することで人間の介入を最小限に抑えた実用的なLLMソリューションが可能になる。本論文では、トレーニング、生成、事後修正の各段階における技術を分析し、主要な応用と今後の課題について議論する。 Comment

#Pocket #SelfCorrection Issue Date: 2024-09-07 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N_A, arXiv'24 GPT Summary- 本研究では、自己反省が大規模言語モデル（LLMs）の問題解決パフォーマンスに与える影響を調査。9つのLLMに選択肢問題を解かせ、誤答に対して自己反省型エージェントが改善策を提供し再回答を試みた結果、自己反省によりパフォーマンスが有意に向上した（$p < 0.001$）。さまざまな自己反省のタイプを比較し、それぞれの寄与も明らかにした。全てのコードとデータはGitHubで公開。 #Survey #Prompting Issue Date: 2024-09-02 The Prompt Report: A Systematic Survey of Prompting Techniques, Sander Schulhoff+, N_A, arXiv'24 GPT Summary- 生成的人工知能（GenAI）システムのプロンプトに関する構造的理解を確立するため、プロンプト技術の分類法を提案し、33の語彙用語と58のテキスト専用プロンプト技術を提示。さらに、自然言語プレフィックスプロンプトに関する文献のメタ分析を実施。 Comment

Promptingに関するサーベイ

初期の手法からかなり網羅的に記述されているように見える。

また、誤用されていたり、色々な意味合いで使われてしまっている用語を、きちんと定義している。
たとえば、Few shot LearningとFew shot Promptingの違い、そもそもPromptingの定義、Examplarなど。

#Pocket #Supervised-FineTuning (SFT) #Hallucination Issue Date: 2024-09-01 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, EMNLP'24 GPT Summary- 大規模言語モデルはファインチューニングを通じて新しい事実情報に遭遇するが、既存の知識を活用する能力に影響を与える。研究では、閉じた書籍のQAを用いて新しい知識を導入するファインチューニング例の割合を変化させた結果、モデルは新しい知識を学習するのに苦労し、幻覚する傾向が増加することが示された。これにより、ファインチューニングによる新しい知識の導入のリスクが明らかになり、モデルは事前学習を通じて知識を獲得し、ファインチューニングはその利用を効率化することが支持される。 Comment

pre-training時に獲得されていない情報を用いてLLMのalignmentを実施すると、知識がない状態で学習データを正しく予測できるように学習されてしまうため、事実に基づかない回答をする（つまりhallucination）ように学習されてしまう、といったことを調査している模様。

>新しい知識を導入するファインチューニング例は、モデルの知識と一致する例よりもはるかに遅く学習されます。しかし、新しい知識を持つ例が最終的に学習されるにつれて、モデルの幻覚する傾向が線形に増加することも発見しました。

早々にoverfittingしている。

>大規模言語モデルは主に事前学習を通じて事実知識を取得し、ファインチューニングはそれをより効率的に使用することを教えるという見解を支持しています。

なるほど、興味深い。

下記画像は大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 より引用

本論文中では、full finetuningによる検証を実施しており、LoRAのようなAdapterを用いたテクニックで検証はされていない。LoRAではもともとのLLMのパラメータはfreezeされるため、異なる挙動となる可能性がある。特にLoRAが新しい知識を獲得可能なことが示されれば、LoRA AdapterをもともとのLLMに付け替えるだけで、異なる知識を持ったLLMを運用可能になるため、インパクトが大きいと考えられる。もともとこういった思想は LoRA Hubを提唱する研究などの頃からあった気がするが、AdapterによってHallucination/overfittingを防ぎながら、新たな知識を獲得できることを示した研究はあるのだろうか？

参考:

Loading…

LoRAの場合については

- LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24

も参照のこと。

#Analysis #Pocket #In-ContextLearning Issue Date: 2024-08-27 What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N_A, ACL'24 GPT Summary- LLMsのコンテキスト内学習（ICL）能力を説明する3つの仮説について、一連の実験を通じて探究。最初の2つの仮説を無効にし、最後の仮説を支持する証拠を提供。LLMが事前学習中に学習したタスクを組み合わせることで、コンテキスト内で新しいタスクを学習できる可能性を示唆。 Comment

SNLP2024での解説スライド:
http://chasen.org/~daiti-m/paper/SNLP2024-Task-Emergence.pdf

ICLが何をやっているのか?について、これまでの仮説が正しくないことを実験的に示し、新しい仮説「ICLは事前学習で得られたタスクを組み合わせて新しいタスクを解いている」を提唱し、この仮説が正しいことを示唆する実験結果を得ている模様。
理論的に解明されたわけではなさそうなのでそこは留意した方が良さそう。あとでしっかり読む。

#Analysis #Pocket #GrammaticalErrorCorrection Issue Date: 2024-08-14 Prompting open-source and commercial language models for grammatical error correction of English learner text, Christopher Davis+, N_A, arXiv'24 GPT Summary- LLMsの進歩により、流暢で文法的なテキスト生成が可能になり、不文法な入力文を与えることで文法エラー修正（GEC）が可能となった。本研究では、7つのオープンソースと3つの商用LLMsを4つのGECベンチマークで評価し、商用モデルが常に教師ありの英語GECモデルを上回るわけではないことを示した。また、オープンソースモデルが商用モデルを上回ることがあり、ゼロショットのプロンプティングがフューショットのプロンプティングと同じくらい競争力があることを示した。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #ScientificDiscovery Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv'24 GPT Summary- 最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #Controllable #Pocket #InstructionTuning #Length Issue Date: 2024-07-30 Following Length Constraints in Instructions, Weizhe Yuan+, N_A, arXiv'24 GPT Summary- アラインされた命令に従うモデルは、非アラインのモデルよりもユーザーの要求をよりよく満たすことができることが示されています。しかし、このようなモデルの評価には長さのバイアスがあり、訓練アルゴリズムは長い応答を学習することでこのバイアスを利用する傾向があることが示されています。本研究では、推論時に所望の長さ制約を含む命令で制御できるモデルの訓練方法を示します。このようなモデルは、長さ指示された評価において優れており、GPT4、Llama 3、Mixtralなどの標準的な命令に従うモデルを上回っています。 Comment

SoTA LLMがOutput長の制約に従わないことを示し、それを改善する学習手法LIFT-DPOを提案

元ツイート:

Loading…

#EfficiencyImprovement #Pocket #Transformer #Attention Issue Date: 2024-07-30 [Paper Note] FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision, Jay Shah+, NeurIPS'24 GPT Summary- FlashAttention-3は、Hopper GPU上でAttentionを高速化するために、3つの技術を開発し、H100 GPUで1.5-2.0倍の速度向上を実現。FP16で740 TFLOPs/s、FP8で約1.2 PFLOPs/sに達し、FP8では数値誤差が2.6倍低いことを確認。 Comment

openreview: https://openreview.net/forum?id=tVConYid20&referrer=%5Bthe%20profile%20of%20Tri%20Dao%5D(%2Fprofile%3Fid%3D~Tri_Dao1)

#Survey #Pocket #Prompting Issue Date: 2024-07-30 A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, Pranab Sahoo+, N_A, arXiv'24 GPT Summary- プロンプトエンジニアリングは、LLMsやVLMsの能力を拡張するための重要な技術であり、モデルのパラメータを変更せずにタスク固有の指示であるプロンプトを活用してモデルの効果を向上させる。本研究は、プロンプトエンジニアリングの最近の進展について構造化された概要を提供し、各手法の強みと制限について掘り下げることで、この分野をよりよく理解し、将来の研究を促進することを目的としている。 Comment

#EfficiencyImprovement #Pocket #OpenWeight Issue Date: 2024-04-23 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N_A, arXiv'24 GPT Summary- phi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。 Comment

Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N/A, arXiv'23 の次の次（Phi2.0についてはメモってなかった）。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしい

Llama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。

#EfficiencyImprovement #Pocket #Pruning Issue Date: 2024-04-22 The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N_A, arXiv'24 GPT Summary- 一般的なオープンウェイトの事前学習されたLLMのレイヤー剪定戦略を研究し、異なる質問応答ベンチマークでのパフォーマンスの低下を最小限に抑えることを示しました。レイヤーの最大半分を削除することで、最適なブロックを特定し、微調整して損傷を修復します。PEFT手法を使用し、実験を単一のA100 GPUで実行可能にします。これにより、計算リソースを削減し、推論のメモリとレイテンシを改善できることが示唆されます。また、LLMがレイヤーの削除に対して堅牢であることは、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性を示唆しています。 Comment

下記ツイートによると、学習済みLLMから、コサイン類似度で入出力間の類似度が高い層を除いてもタスクの精度が落ちず、特に深い層を2-4割削除しても精度が落ちないとのこと。

参考:

Loading…

VRAMに載せるのが大変なので、このような枝刈り技術が有効だと分かるのはありがたい。LoRAや量子化も利用しているっぽい。

#Survey #Pocket Issue Date: 2024-04-14 Knowledge Conflicts for LLMs: A Survey, Rongwu Xu+, N_A, arXiv'24 GPT Summary- LLMsにおける知識の衝突に焦点を当て、文脈とパラメトリック知識の組み合わせによる複雑な課題を分析。文脈-メモリ、文脈間、メモリ内の衝突の3つのカテゴリーを探求し、実世界のアプリケーションにおける信頼性とパフォーマンスへの影響を検討。解決策を提案し、LLMsの堅牢性向上を目指す。 #Pocket #SelfImprovement Issue Date: 2024-04-14 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking, Eric Zelikman+, N_A, arXiv'24 GPT Summary- STaR（Self-Taught Reasoner）では、少数の例から合理的な推論を学習し、質問応答に活用する方法が提案された。Quiet-STaRでは、LMが合理性を生成する方法を学習し、難しい質問に直接答える能力を向上させる。この手法は、GSM8KやCommonsenseQAなどのタスクにおいてゼロショットの改善を実現し、ファインチューニングが不要であることが示された。Quiet-STaRは、推論を学習するための一般的でスケーラブルな方法を提供する一歩となっている。 Comment

o1(OpenAI o1, 2024.09 )の基礎技術と似ている可能性がある
先行研究:
- STaR: Bootstrapping Reasoning With Reasoning, Eric Zelikman+, N/A, NeurIPS'22

参考:

Loading…

#ComputerVision #Pocket #Chain-of-Thought Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv'24 GPT Summary- LLMsの空間推論能力を向上させるために、Visualization-of-Thought（VoT）プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Analysis #Pocket #ContextWindow #LongSequence Issue Date: 2024-04-07 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv'24 GPT Summary- LLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 Comment

GPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。

#EfficiencyImprovement #Pocket #Transformer Issue Date: 2024-04-07 Mixture-of-Depths: Dynamically allocating compute in transformer-based language models, David Raposo+, N_A, arXiv'24 GPT Summary- Transformerベースの言語モデルは、入力シーケンス全体に均等にFLOPsを分散させる代わりに、特定の位置にFLOPsを動的に割り当てることを学習できることを示す。モデルの深さにわたって割り当てを最適化するために、異なるレイヤーで計算を動的に割り当てる。この手法は、トークンの数を制限することで合計計算予算を強制し、トークンはtop-kルーティングメカニズムを使用して決定される。この方法により、FLOPsを均等に消費しつつ、計算の支出が予測可能であり、動的かつコンテキストに敏感である。このようにトレーニングされたモデルは、計算を動的に割り当てることを学習し、効率的に行うことができる。 Comment

参考:

Loading…

#EfficiencyImprovement #Pocket #Transformer #Attention Issue Date: 2024-04-07 Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, Piotr Nawrot+, N_A, arXiv'24 GPT Summary- トランスフォーマーの生成効率を向上させるために、Dynamic Memory Compression（DMC）が提案された。DMCは、異なるヘッドとレイヤーで異なる圧縮率を適用する方法を学習し、事前学習済みLLMsに適用される。DMCは、元の下流パフォーマンスを最大4倍のキャッシュ圧縮で維持しつつ、スループットを向上させることができる。DMCは、GQAと組み合わせることでさらなる利益をもたらす可能性があり、長いコンテキストと大きなバッチを処理する際に有用である。 Comment

参考:

Loading…

論文中のFigure1が非常にわかりやすい。

GQA GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモデルの場合は、GQAで8倍キャッシュを圧縮した上で、DMCで追加で2倍圧縮をかけたところ、同等のパフォーマンスを実現している。

#InformationRetrieval #Pocket #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv'24 GPT Summary- 大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning（RAFT）を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 Comment

Question, instruction, coxtext, cot style answerの4つを用いてSFTをする模様
画像は下記ツイートより引用

Loading…

#InformationRetrieval #Pocket #Prompting #Reasoning Issue Date: 2024-04-07 RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N_A, arXiv'24 GPT Summary- LLMsは推論タスクで優れた性能を発揮しているが、論理エラーが起こりやすい。RankPromptという新しいプロンプティング方法を導入し、LLMsが自己ランク付けを行い推論パフォーマンスを向上させる。実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させ、AlpacaEvalデータセットで人間の判断と74%の一致率を示すことが示された。RankPromptは言語モデルから高品質なフィードバックを引き出す効果的な方法であることが示された。 Comment

LLMでランキングをするためのプロンプト手法。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある

#Pocket #OpenWeight #OpenSource Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv'24 GPT Summary- LMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 Comment

Model Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル（truly Open Language Model）。AllenAI

#Pocket #Chain-of-Thought #Prompting Issue Date: 2024-03-05 Chain-of-Thought Reasoning Without Prompting, Xuezhi Wang+, N_A, arXiv'24 GPT Summary- LLMsの推論能力を向上させるための新しいアプローチに焦点を当てた研究が行われている。この研究では、LLMsがプロンプトなしで効果的に推論できるかどうかを検証し、CoT推論パスをデコーディングプロセスを変更することで引き出す方法を提案している。提案手法は、従来の貪欲なデコーディングではなく、代替トークンを調査することでCoTパスを見つけることができることを示しており、様々な推論ベンチマークで有効性を示している。 Comment

以前にCoTを内部的に自動的に実施されるように事前学習段階で学習する、といった話があったと思うが、この研究はデコーディング方法を変更することで、promptingで明示的にinstructionを実施せずとも、CoTを実現するもの、ということだと思われる。

#EfficiencyImprovement #Pocket #PEFT(Adaptor/LoRA) #ICML Issue Date: 2024-03-05 LoRA+: Efficient Low Rank Adaptation of Large Models, Soufiane Hayou+, N_A, ICML'24 GPT Summary- 本研究では、Huら（2021）によって導入されたLow Rank Adaptation（LoRA）が、大埋め込み次元を持つモデルの適切な微調整を妨げることを指摘します。この問題は、LoRAのアダプターマトリックスAとBが同じ学習率で更新されることに起因します。我々は、AとBに同じ学習率を使用することが効率的な特徴学習を妨げることを示し、異なる学習率を設定することでこの問題を修正できることを示します。修正されたアルゴリズムをLoRA$+$と呼び、幅広い実験により、LoRA$+$は性能を向上させ、微調整速度を最大2倍高速化することが示されました。 Comment

LoRAで導入される低ランク行列AとBを異なる学習率で学習することで、LoRAと同じ計算コストで、2倍以上の高速化、かつ高いパフォーマンスを実現する手法

#Survey #Pocket #Annotation Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv'24 GPT Summary- GPT-4などの大規模言語モデル（LLMs）を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 Comment

Data AnnotationにLLMを活用する場合のサーベイ

#Survey #DataToTextGeneration #TabularData Issue Date: 2024-03-05 Large Language Models（LLMs） on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv'24 GPT Summary- 最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 Comment

Tabular DataにおけるLLM関連のタスクや技術等のサーベイ

#Pocket #Personalization Issue Date: 2024-02-24 User-LLM: Efficient LLM Contextualization with User Embeddings, Lin Ning+, N_A, arXiv'24 GPT Summary- LLMsを活用したUser-LLMフレームワークが提案された。ユーザーエンベッディングを使用してLLMsをコンテキストに位置付けし、ユーザーコンテキストに動的に適応することが可能になる。包括的な実験により、著しい性能向上が示され、Perceiverレイヤーの組み込みにより計算効率が向上している。 Comment

next item prediction, favorite genre or category predictimnreview generationなどで評価している

#Pocket #ProgressiveLearning #ACL Issue Date: 2024-01-24 LLaMA Pro: Progressive LLaMA with Block Expansion, Chengyue Wu+, N_A, ACL'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の新しい事前学習後の手法を提案し、モデルの知識を効果的かつ効率的に向上させることを目指しました。具体的には、Transformerブロックの拡張を使用し、新しいコーパスのみを使用してモデルを調整しました。実験の結果、提案手法はさまざまなベンチマークで優れたパフォーマンスを発揮し、知的エージェントとして多様なタスクに対応できることが示されました。この研究は、自然言語とプログラミング言語を統合し、高度な言語エージェントの開発に貢献するものです。 Comment

追加の知識を導入したいときに使えるかも?

事前学習したLLaMA Blockに対して、追加のLLaMA Blockをstackし、もともとのLLaMA Blockのパラメータをfreezeした上でドメインに特化したコーパスで事後学習することで、追加の知識を挿入する。LLaMA Blockを挿入するときは、Linear Layerのパラメータを0にすることで、RMSNormにおける勾配消失の問題を避けた上で、Identity Block（Blockを追加した時点では事前学習時と同様のOutputがされることが保証される）として機能させることができる。

#Survey #Pocket #Hallucination Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv'24 GPT Summary- 要約：本論文では、大規模言語モデル（LLMs）における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。 #Pocket #DataToTextGeneration #TabularData #ICLR Issue Date: 2024-01-24 Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding, Zilong Wang+, N_A, ICLR'24 GPT Summary- LLMsを使用したChain-of-Tableフレームワークは、テーブルデータを推論チェーン内で活用し、テーブルベースの推論タスクにおいて高い性能を発揮することが示された。このフレームワークは、テーブルの連続的な進化を表現し、中間結果の構造化情報を利用してより正確な予測を可能にする。さまざまなベンチマークで最先端のパフォーマンスを達成している。 Comment

Table, Question, Operation Historyから次のoperationとそのargsを生成し、テーブルを順次更新し、これをモデルが更新の必要が無いと判断するまで繰り返す。最終的に更新されたTableを用いてQuestionに回答する手法。Questionに回答するために、複雑なテーブルに対する操作が必要なタスクに対して有効だと思われる。

#MachineLearning #Pocket #ICLR #read-later #ModelMerge Issue Date: 2024-01-23 Knowledge Fusion of Large Language Models, Fanqi Wan+, N_A, ICLR'24 GPT Summary- 本研究では、既存の事前訓練済みの大規模言語モデル（LLMs）を統合することで、1つの強力なモデルを作成する方法を提案しています。異なるアーキテクチャを持つ3つの人気のあるLLMsを使用して、ベンチマークとタスクのパフォーマンスを向上させることを実証しました。提案手法のコード、モデルの重み、およびデータはGitHubで公開されています。 #Pocket #Alignment #InstructionTuning #LLM-as-a-Judge #SelfImprovement #ICML Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, ICML'24 GPT Summary- 将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment

人間の介入無しで（人間がアノテーションしたpreference data無しで）LLMのAlignmentを改善していく手法。LLM-as-a-Judge Promptingを用いて、LLM自身にpolicy modelとreward modelの役割の両方をさせる。unlabeledなpromptに対してpolicy modelとしてresponceを生成させた後、生成したレスポンスをreward modelとしてランキング付けし、DPOのpreference pairとして利用する、という操作を繰り返す。

#Pocket #Chain-of-Thought Issue Date: 2024-01-16 The Impact of Reasoning Step Length on Large Language Models, Mingyu Jin+, N_A, arXiv'24 GPT Summary- Chain of Thought（CoT）の推論ステップの長さとLLMsの推論能力の関係を調査した。推論ステップを延長すると、プロンプトに新しい情報を追加せずにLLMsの推論能力が向上することがわかった。逆に、キーとなる情報を保持しながら推論ステップを短縮すると、推論能力が低下する。また、誤った根拠でも推論の必要な長さを保つ限り、好ましい結果が得られることも示された。さらに、タスクによって推論ステップの増加の利点が異なることも観察された。 #Pocket #OpenWeight Issue Date: 2024-01-09 Mixtral of Experts, Albert Q. Jiang+, N_A, arXiv'24 GPT Summary- Mixtralは、Sparse Mixture of Experts（SMoE）言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B - Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 Comment

Mixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。

#ComputerVision #Analysis #Pretraining #Pocket #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 VILA: On Pre-training for Visual Language Models, Ji Lin+, N_A, CVPR'24 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル（VLM）が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した：(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

#ComputerVision #Pocket #AutomaticPromptEngineering #EACL #System Demonstration Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, EACL'24 Sustem Demonstration Track GPT Summary- 本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #Pocket #Dataset #QuestionAnswering #COLM Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 GPT Summary- 私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment

該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。
元ツイート:

Loading…

OpenReview: https://openreview.net/forum?id=Ti67584b98

#Pocket #Chain-of-Thought #Prompting #RAG(RetrievalAugmentedGeneration) #EMNLP Issue Date: 2023-11-17 Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models, Wenhao Yu+, N_A, EMNLP'24 GPT Summary- 検索補完言語モデル（RALM）は、外部の知識源を活用して大規模言語モデルの性能を向上させるが、信頼性の問題や知識の不足による誤った回答がある。そこで、Chain-of-Noting（CoN）という新しいアプローチを導入し、RALMの頑健性を向上させることを目指す。CoNは、順次の読み取りノートを生成し、関連性を評価して最終的な回答を形成する。ChatGPTを使用してCoNをトレーニングし、実験結果はCoNを装備したRALMが標準的なRALMを大幅に上回ることを示している。特に、ノイズの多いドキュメントにおいてEMスコアで平均+7.9の改善を達成し、知識範囲外のリアルタイムの質問に対する拒否率で+10.5の改善を達成している。 Comment

モデルに検索されたドキュメント対するqueryのrelevance/accuracyの観点からnote-takingをさせることで、RAGの正確性や透明性を向上させる。たとえば、
- surface-levelの情報に依存せずにモデルに理解を促す
- 相反する情報が存在してもrelevantな情報を適切に考慮する,
- 回答プロセスの透明性・解釈性を向上させる
- 検索された文書に対する過剰な依存をなくす（文書が古い, あるいはノイジーな場合に有用）
などが利点として挙げられている。

下記が付録中のCoNで実際に利用されているプロンプト。
https://github.com/user-attachments/assets/4e1cc58f-da0b-41ca-a65f-c269c9835cf9" />

非常にシンプルな手法だが、結果としてはノイズが多い場合、CoNによるゲインが大きいことがわかる。
https://github.com/user-attachments/assets/0029d110-b7ae-4f23-933f-13f30c12f87e" />

#ComputerVision #Pocket #Dataset #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #Prompting #AutomaticPromptEngineering #ACL #Findings Issue Date: 2023-11-13 Prompt Engineering a Prompt Engineer, Qinyuan Ye+, N_A, ACL'24 Findings GPT Summary- プロンプトエンジニアリングは、LLMsのパフォーマンスを最適化するための重要なタスクであり、本研究ではメタプロンプトを構築して自動的なプロンプトエンジニアリングを行います。改善されたパフォーマンスにつながる推論テンプレートやコンテキストの明示などの要素を導入し、一般的な最適化概念をメタプロンプトに組み込みます。提案手法であるPE2は、さまざまなデータセットやタスクで強力なパフォーマンスを発揮し、以前の自動プロンプトエンジニアリング手法を上回ります。さらに、PE2は意味のあるプロンプト編集を行い、カウンターファクトの推論能力を示します。 #QuestionAnswering #Prompting #EMNLP Issue Date: 2023-10-30 Re-Reading Improves Reasoning in Language Models, Xiaohan Xu+, N_A, EMNLP'24 GPT Summary- 大規模言語モデル（LLMs）において、推論は重要で困難な問題です。従来のアプローチでは、プロンプティング戦略を開発することに焦点が当てられてきましたが、双方向の相互作用や質問の重要性には注意が払われていませんでした。この問題に対処するため、質問の再読という新しいプロンプティング戦略を提案します。再読は、質問情報を再訪することで、LLMsの推論能力を向上させることができます。実験結果は、この手法の効果と汎用性を示しており、LLMsの領域でのその有用性を強調しています。 Comment

問題文を2,3回promptで繰り返すだけで、数学のベンチマークとCommonsenseのベンチマークの性能が向上したという非常に簡単なPrompting。self-consistencyなどの他のPromptingとの併用も可能。
なぜ性能が向上するかというと、
1. LLMはAuporegressiveなモデルであり、bidirectionalなモデルではない。このため、forwardパスのみでは読解力に限界がある。（たとえば人間はしばしばテキストを読み返したりする）。そこで、一度目の読解で概要を理解し、二度目の読解でsalience partを読み込むといったような挙動を実現することで、より問題文に対するComprehensionが向上する。
2. LLMはしばしばpromptの重要な箇所の読解を欠落させてしまう。たとえば、Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N/A, TACL'24 では、promptのmiddle partを軽視する傾向があることが示されている。このような現象も軽減できると考えられる。

問題文の繰り返しは、3回までは性能が向上する。

このpromptingは複雑な問題であればあるほど効果があると推察される。

#Factuality #RAG(RetrievalAugmentedGeneration) #ICLR Issue Date: 2023-10-29 Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N_A, ICLR'24 GPT Summary- 大規模言語モデル（LLMs）は、事実に基づかない回答を生成することがあります。そこで、自己反省的な検索増強生成（Self-RAG）という新しいフレームワークを提案します。このフレームワークは、検索と自己反省を通じてLLMの品質と事実性を向上させます。実験結果は、Self-RAGが最先端のLLMsおよび検索増強モデルを大幅に上回ることを示しています。 Comment

RAGをする際の言語モデルの回答の質とfactual consistencyを改善せるためのフレームワーク。
reflection tokenと呼ばれる特殊トークンを導入し、言語モデルが生成の過程で必要に応じて情報をretrieveし、自身で生成内容を批評するように学習する。単語ごとに生成するのではなく、セグメント単位で生成する候補を生成し、批評内容に基づいて実際に生成するセグメントを選択する。

OpenReview: https://openreview.net/forum?id=hSyW5go0v8

#Pretraining #MachineLearning #ICLR Issue Date: 2023-10-26 Detecting Pretraining Data from Large Language Models, Weijia Shi+, N_A, ICLR'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）を訓練するためのデータの検出問題を研究し、新しい検出方法であるMin-K% Probを提案します。Min-K% Probは、LLMの下で低い確率を持つアウトライアーワードを検出することに基づいています。実験の結果、Min-K% Probは従来の方法に比べて7.4%の改善を達成し、著作権のある書籍の検出や汚染された下流の例の検出など、実世界のシナリオにおいて効果的な解決策であることが示されました。 Comment

実験結果を見るにAUCは0.73-0.76程度であり、まだあまり高くない印象。また、テキストのlengthはそれぞれ32,64,128,256程度。

openreview: https://openreview.net/forum?id=zWqr3MQuNs

#Pretraining #Pocket #One-Line Notes Issue Date: 2023-10-10 Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N_A, ICLR'24 GPT Summary- 言語モデルのトレーニングと推論において、遅延を導入することでモデルの性能を向上させる手法を提案しました。具体的には、入力に特定のトークンを追加し、そのトークンが現れるまでモデルの出力を遅らせることで、追加の計算を行うことができます。実験結果では、この手法が推論タスクにおいて有益であり、特にQAタスクでの性能向上が見られました。今後は、この遅延予測の手法をさらに研究していく必要があります。 Comment

この研究は興味深いが、事前学習時に入れないと効果が出にくいというのは直感的にわかるので、実用的には活用しづらい。
また、promptでこの研究をimitateする方法については、ZeroShot CoTにおいて、思考プロセスを明示的に指定するようなpromptingと同様のことを行っており、これは実際に効果があると思う。

#ComputerVision #Pocket #QuestionAnswering #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, CVPR'24 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment

画像分析が可能なオープンソースLLMとのこと。

# Overview

画像生成をできるわけではなく、inputとして画像を扱えるのみ。

pj page: https://llava-vl.github.io

#Pocket #Prompting #AutomaticPromptEngineering #PMLR Issue Date: 2023-10-09 Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, Chrisantha Fernando+, N_A, PMLR'24, 2024.07 GPT Summary- 本研究では、Promptbreederという自己参照的な自己改善メカニズムを提案し、大規模言語モデル（LLM）の推論能力を向上させるための汎用的なプロンプト戦略を進化させる方法を示しています。Promptbreederは、LLMが自己参照的な方法で進化する変異プロンプトによって制御され、タスクプロンプトの集団を変異させて改善します。この手法は、算術や常識的な推論のベンチマークだけでなく、ヘイトスピーチ分類などの難しい問題に対しても優れた性能を発揮します。 Comment

詳細な解説記事: https://aiboom.net/archives/56319

APEとは異なり、GAを使う。突然変異によって、予期せぬ良いpromptが生み出されるかも…？

#Pocket #Chain-of-Thought #Prompting #COLING Issue Date: 2023-10-09 Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic, Xufeng Zhao+, N_A, COLING'24 GPT Summary- 大規模言語モデルの進歩は驚異的だが、多段階の推論には改善の余地がある。大規模言語モデルは知識を持っているが、推論には一貫性がなく、幻覚を示すことがある。そこで、Logical Chain-of-Thought（LogiCoT）というフレームワークを提案し、論理による推論パラダイムの効果を示した。 #GraphBased #Pocket #KnowledgeGraph #Prompting #AAAI Issue Date: 2023-10-09 Graph Neural Prompting with Large Language Models, Yijun Tian+, N_A, AAAI'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）を知識グラフと組み合わせるための新しい手法であるGraph Neural Prompting（GNP）を提案しています。GNPは、標準的なグラフニューラルネットワークエンコーダやクロスモダリティプーリングモジュールなどの要素から構成されており、異なるLLMのサイズや設定において、常識的な推論タスクやバイオメディカル推論タスクで優れた性能を示すことが実験によって示されました。 Comment

元ツイート:

Loading…

事前学習されたLLMがKGから有益な知識を学習することを支援する手法を提案。

しっかり論文を読んでいないが、freezeしたLLMがあった時に、KGから求めたGraph Neural Promptを元のテキストと組み合わせて、新たなLLMへの入力を生成し利用する手法な模様。
Graph Neural Promptingでは、Multiple choice QAが入力された時に、その問題文や選択肢に含まれるエンティティから、KGのサブグラフを抽出し、そこから関連性のある事実や構造情報をエンコードし、Graph Neural Promptを獲得する。そのために、GNNに基づいたアーキテクチャに、いくつかの工夫を施してエンコードをする模様。

#Pocket #LongSequence #PositionalEncoding #NAACL Issue Date: 2023-10-09 Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N_A, NAACL'24 GPT Summary- 私たちは、長いコンテキストをサポートする一連のLLMsを提案します。これらのモデルは、長いテキストを含むデータセットでトレーニングされ、言語モデリングや他のタスクで評価されます。提案手法は、通常のタスクと長いコンテキストのタスクの両方で改善をもたらします。また、70Bバリアントはgpt-3.5-turbo-16kを上回るパフォーマンスを実現します。さらに、私たちはLlamaの位置エンコーディングや事前学習プロセスの設計選択の影響についても分析しました。結果から、長いコンテキストの継続的な事前学習が効果的であることが示されました。 Comment

以下elvis氏のツイートの意訳

Metaが32kのcontext windowをサポートする70BのLLaMa2のvariant提案し、gpt-3.5-turboをlong contextが必要なタスクでoutperform。
short contextのLLaMa2を継続的に訓練して実現。これには人手で作成したinstruction tuning datasetを必要とせず、コスト効率の高いinstruction tuningによって実現される。
これは、事前学習データセットに長いテキストが豊富に含まれることが優れたパフォーマンスの鍵ではなく、ロングコンテキストの継続的な事前学習がより効率的であることを示唆している。
元ツイート:

Loading…

位置エンコーディングにはlong contxet用に、RoPEのbase frequency bを `10,000->500,000` とすることで、rotation angleを小さくし、distant tokenに対する減衰の影響を小さくする手法を採用 (Adjusted Base Frequency; ABF)。token間の距離が離れていても、attention scoreがshrinkしづらくなっている。

https://github.com/user-attachments/assets/968c88f1-5a0d-4c2a-94ef-d63ffb0ea2eb" />

また、単に長いコンテキストのデータを追加するだけでなく、データセット内における長いコンテキストのデータの比率を調整することで、より高い性能が発揮できることを示している。これをData Mixと呼ぶ。
また、instruction tuningのデータには、LLaMa2ChatのRLHFデータをベースに、LLaMa2Chat自身にself-instructを活用して、長いコンテキストを生成させ拡張したものを利用した。
具体的には、コーパス内のlong documentを用いたQAフォーマットのタスクに着目し、文書内のランダムなチャンクからQAを生成させた。その後、self-critiqueによって、LLaMa2Chat自身に、生成されたQAペアのverificationも実施させた。

#QuestionAnswering #Chain-of-Thought #Prompting #Hallucination #ACL #Selected Papers/Blogs #Verification Issue Date: 2023-09-30 [Paper Note] Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, ACL'24 GPT Summary- 私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification（CoVe）メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment

#MachineLearning #Pocket #AutomaticPromptEngineering #ICLR Issue Date: 2023-09-09 Large Language Models as Optimizers, Chengrun Yang+, N_A, ICLR'24 GPT Summary- 本研究では、最適化タスクを自然言語で記述し、大規模言語モデル（LLMs）を使用して最適化を行う手法「Optimization by PROmpting（OPRO）」を提案しています。この手法では、LLMが以前の解とその値を含むプロンプトから新しい解を生成し、評価して次の最適化ステップのためのプロンプトに追加します。実験結果では、OPROによって最適化された最良のプロンプトが、人間が設計したプロンプトよりも優れていることが示されました。 Comment

`Take a deep breath and work on this problem step-by-step. `論文

# 概要

LLMを利用して最適化問題を解くためのフレームワークを提案したという話。論文中では、linear regressionや巡回セールスマン問題に適用している。また、応用例としてPrompt Engineeringに利用している。

これにより、Prompt Engineeringが最適か問題に落とし込まれ、自動的なprompt engineeringによって、`Let's think step by step.` よりも良いプロンプトが見つかりましたという話。

# 手法概要

全体としての枠組み。meta-promptをinputとし、LLMがobjective functionに対するsolutionを生成する。生成されたsolutionとスコアがmeta-promptに代入され、次のoptimizationが走る。これを繰り返す。

Meta promptの例

openreview: https://openreview.net/forum?id=Bb4VGOWELI

#Analysis #MachineLearning #Pocket #In-ContextLearning #ICLR Issue Date: 2023-09-01 CausalLM is not optimal for in-context learning, Nan Ding+, N_A, ICLR'24 GPT Summary- 最近の研究では、トランスフォーマーベースのインコンテキスト学習において、プレフィックス言語モデル（prefixLM）が因果言語モデル（causalLM）よりも優れたパフォーマンスを示すことがわかっています。本研究では、理論的なアプローチを用いて、prefixLMとcausalLMの収束挙動を分析しました。その結果、prefixLMは線形回帰の最適解に収束する一方、causalLMの収束ダイナミクスはオンライン勾配降下アルゴリズムに従い、最適であるとは限らないことがわかりました。さらに、合成実験と実際のタスクにおいても、causalLMがprefixLMよりも性能が劣ることが確認されました。 Comment

参考:

Loading…

CausalLMでICLをした場合は、ICL中のdemonstrationでオンライン学習することに相当し、最適解に収束しているとは限らない……？が、hillbigさんの感想に基づくと、結果的には実は最適解に収束しているのでは？という話も出ているし、よく分からない。

#Pocket #Reasoning #ICLR #Verification Issue Date: 2023-08-08 SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, N_A, ICLR'24 GPT Summary- 最新の大規模言語モデル（LLMs）は、推論問題を解決するために有望な手法ですが、複雑な問題にはまだ苦戦しています。本研究では、LLMsが自身のエラーを認識する能力を持っているかどうかを探求し、ゼロショットの検証スキームを提案します。この検証スキームを使用して、異なる回答に対して重み付け投票を行い、質問応答のパフォーマンスを向上させることができることを実験で確認しました。 Comment

これはおもしろそう。後で読む

OpenReview: https://openreview.net/forum?id=pTHfApDakA

#MachineLearning #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #COLM #PostTraining Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, COLM'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）を新しいタスクに適応させるための低ランク適応（LoRA）を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment

学習されたLoRAのパラメータをモジュールとして捉え、新たなタスクのinputが与えられた時に、LoRA Hub上の適切なモジュールをLLMに組み合わせることで、ICL無しで汎化を実現するというアイデア。few shotのexampleを人間が設計する必要なく、同等の性能を達成。

複数のLoRAモジュールは組み合わられるか？element wiseの線型結合で今回はやっているが、その疑問にこたえたのがcontribution

OpenReview: https://openreview.net/forum?id=TrloAXEJ2B

#Pocket #Dataset #Evaluation #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #InformationRetrieval #LearningToRank #PairWise #Prompting #NAACL Issue Date: 2023-07-11 Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting, Zhen Qin+, N_A, NAACL'24 GPT Summary- LLMsを使用してドキュメントをランキングする際に、Pairwise Ranking Prompting（PRP）という新しい技術を提案する。PRPは、LLMsへの負荷を軽減し、最先端のランキングパフォーマンスを達成することができる。具体的には、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、商用のGPT-4に基づく従来の手法を上回る結果を示した。さらに、PRPのバリアントを提案し、効率を改善することができることを示した。PRPは生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることも示された。 Comment

open source LLMにおいてスタンダードなランキングタスクのベンチマークでSoTAを達成できるようなprompting技術を提案

従来のランキングのためのpromptingはpoint-wiseとlist wiseしかなかったが、前者は複数のスコアを比較するためにスコアのcalibrationが必要だったり、OpenAIなどのAPIはlog probabilityを提供しないため、ランキングのためのソートができないという欠点があった。後者はinputのorderingに非常にsensitiveであるが、listのすべての組み合わせについてorderingを試すのはexpensiveなので厳しいというものであった。このため（古典的なlearning to rankでもおなじみや）pairwiseでサンプルを比較するランキング手法PRPを提案している。

PRPはペアワイズなのでorderを入れ替えて評価をするのは容易である。また、generation modeとscoring mode（outputしたラベルのlog probabilityを利用する; OpenLLMを使うのでlog probabilityを計算できる）の2種類を採用できる。ソートの方法についても、すべてのペアの勝敗からから単一のスコアを計算する方法（AllPair), HeapSortを利用する方法、LLMからのoutputを得る度にon the flyでリストの順番を正しくするSliding Windowの3種類を提案して比較している。

下表はscoring modeでの性能の比較で、GPT4に当時は性能が及んでいなかった20BのOpenLLMで近しい性能を達成している。

また、PRPがinputのorderに対してロバストなことも示されている。

#Analysis #MachineLearning #Prompting #In-ContextLearning #TACL #ContextEngineering Issue Date: 2023-07-11 Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N_A, TACL'24 GPT Summary- 最近の言語モデルは、長い文脈を入力として受け取ることができますが、その長い文脈をどれだけうまく利用しているかについてはまだよくわかっていません。この研究では、マルチドキュメントの質問応答とキー・バリューの検索という2つのタスクにおいて、言語モデルのパフォーマンスを分析しました。その結果、関連情報が入力文脈の始まりや終わりにある場合、パフォーマンスが最も高くなることがわかりましたが、長い文脈の中で関連情報にアクセスする必要がある場合、パフォーマンスが著しく低下します。さらに、入力文脈が長くなるにつれて、明示的に長い文脈を扱うモデルでもパフォーマンスが大幅に低下します。この分析は、言語モデルが入力文脈をどのように利用しているかをより良く理解するためのものであり、将来の長い文脈モデルのための新しい評価プロトコルを提供します。 Comment

元ツイート

Loading…

非常に重要な知見がまとめられている

1. モデルはコンテキストのはじめと最後の情報をうまく活用でき、真ん中の情報をうまく活用できない
2. 長いコンテキストのモデルを使っても、コンテキストをより短いコンテキストのモデルよりもうまく考慮できるわけではない
3. モデルのパフォーマンスは、コンテキストが長くなればなるほど悪化する

SNLP'24での解説スライド:
https://speakerdeck.com/kichi/snlp2024

#Analysis #Pocket #Coding #ICML Issue Date: 2023-05-20 Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, ICML'24 GPT Summary- 本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。また、正しいプログラムを生成することを学習し、平均的に訓練セットよりも短いプログラムを生成することも示した。本論文は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供する。 Comment

プログラムのコーパスでLLMをNext Token Predictionで訓練し
厳密に正解とsemanticsを定義した上で、訓練データと異なるsemanticsの異なるプログラムを生成できることを示した。

LLMが意味を理解していることを暗示している

参考:

Loading…

#NeuralNetwork #Chain-of-Thought #ACL Issue Date: 2023-04-27 Active prompting with chain-of-thought for large language models, Diao+, The Hong Kong University of Science and Technology, ACL'24 Comment

しっかりと読めていないが、CoT-answerが存在しないtrainingデータが存在したときに、nサンプルにCoTとAnswerを与えるだけでFew-shotの予測をtestデータに対してできるようにしたい、というのがモチベーションっぽい

そのために、questionに対して、training dataに対してFew-Shot CoTで予測をさせた場合やZero-Shot CoTによって予測をさせた場合などでanswerを取得し、answerのばらつき度合いなどから不確実性を測定する。

そして、不確実性が高いCoT-Answerペアを取得し、人間が手作業でCoTと回答のペアを与え、その人間が作成したものを用いてTestデータに対してFewShotしましょう、ということだと思われる。

#ComputerVision #MultiModal #SpeechProcessing #AAAI Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24 GPT Summary- AudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Comment

text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム

マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

#Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2023-04-26 Scaling Instruction-Finetuned Language Models, Chung+, Google, JMLR'24 GPT Summary- 指示ファインチューニングは、タスク数、モデルサイズ、チェーン・オブ・ソートデータを活用し、言語モデルの性能を向上させる手法である。Flan-PaLM 540Bは1.8Kタスクでファインチューニングされ、PaLM 540Bを上回る+9.4%の改善を達成し、MMLUで75.2%の性能を示した。Flan-T5も強力な少数ショット性能を発揮し、指示ファインチューニングは事前学習モデルの性能向上に寄与する。 Comment

T5をinstruction tuningしたFlanT5の研究

#DataGeneration #ICLR Issue Date: 2023-04-25 WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft_Peking University, ICLR'24 GPT Summary- 本論文では、LLMを用いて複雑な指示データを自動生成する手法Evol-Instructを提案。初期の指示セットを段階的に書き換え、生成したデータでLLaMAをファインチューニングし、WizardLMモデルを構築。評価結果では、Evol-Instructからの指示が人間作成のものより優れ、WizardLMはChatGPTを上回る性能を示した。AI進化による指示生成がLLM強化の有望なアプローチであることを示唆。 Comment

instruction trainingは大きな成功を収めているが、人間がそれらのデータを作成するのはコストがかかる。また、そもそも複雑なinstructionを人間が作成するのは苦労する。そこで、LLMに自動的に作成させる手法を提案している（これはself instructと一緒）。データを生成する際は、seed setから始め、step by stepでinstructionをrewriteし、より複雑なinstructionとなるようにしていく。
これらの多段的な複雑度を持つinstructionをLLaMaベースのモデルに食わせてfinetuningした（これをWizardLMと呼ぶ）。人手評価の結果、WizardLMがChatGPTよりも好ましいレスポンスをすることを示した。特に、WizaraLMはコード生成や、数値計算といった難しいタスクで改善を示しており、複雑なinstructionを学習に利用することの重要性を示唆している。

EvolInstructを提案。"1+1=?"といったシンプルなinstructionからスタートし、これをLLMを利用して段階的にcomplexにしていく。complexにする方法は2通り：

- In-Depth Evolving: instructionを5種類のoperationで深掘りする（blue direction line）

- add constraints

- deepening

- concretizing

- increase reasoning steps

- complicate input

- In-breadth Evolving: givenなinstructionから新しいinstructionを生成する

上記のEvolvingは特定のpromptを与えることで実行される。

また、LLMはEvolvingに失敗することがあるので、Elimination Evolvingと呼ばれるフィルタを利用してスクリーニングした。

フィルタリングでは4種類の失敗するsituationを想定し、1つではLLMを利用。2枚目画像のようなinstructionでフィルタリング。

1. instructionの情報量が増えていない場合。

2. instructionがLLMによって応答困難な場合（短すぎる場合やsorryと言っている場合）

3. puctuationやstop wordsによってのみ構成されている場合

4.明らかにpromptの中から単語をコピーしただけのinstruction（given prompt, rewritten prompt, #Rewritten Prompt#など）

#MachineLearning #Pocket #ICML #Selected Papers/Blogs #text #AI Detector Issue Date: 2025-11-17 [Paper Note] DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature, Eric Mitchell+, ICML'23, 2023.01 GPT Summary- LLM生成テキストの検出の必要性を背景に、対数確率関数の負の曲率を利用した新しい検出手法「DetectGPT」を提案。これにより、別の分類器やデータセットを必要とせず、特定のLLMから生成されたテキストを高精度で識別可能。特に、GPT-NeoXによるフェイクニュース記事の検出で、従来の手法を大幅に上回る性能を示した。 #Pocket #Transformer #ICLR #Encoder #Pixel-based Issue Date: 2025-10-22 [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07 GPT Summary- PIXELは、テキストを画像として表現する新しい言語モデルで、語彙のボトルネックを回避し、言語間での表現転送を可能にする。86MパラメータのPIXELは、BERTと同じデータで事前学習され、非ラテン文字を含む多様な言語での構文的および意味的タスクでBERTを大幅に上回る性能を示したが、ラテン文字ではやや劣る結果となった。また、PIXELは正字法的攻撃や言語コードスイッチングに対してBERTよりも堅牢であることが確認された。 Comment

元ポスト:

Loading…

#BeamSearch #Pocket #Reasoning #SelfCorrection #NeurIPS #Decoding #KeyPoint Notes Issue Date: 2025-10-01 [Paper Note] Self-Evaluation Guided Beam Search for Reasoning, Yuxi Xie+, NeurIPS'23, 2023.05 GPT Summary- LLMの推論プロセスを改善するために、段階的自己評価メカニズムを導入し、確率的ビームサーチを用いたデコーディングアルゴリズムを提案。これにより、推論の不確実性を軽減し、GSM8K、AQuA、StrategyQAでの精度を向上。Llama-2を用いた実験でも効率性が示され、自己評価ガイダンスが論理的な失敗を特定し、一貫性を高めることが確認された。 Comment

pj page: https://guideddecoding.github.io

openreview: https://openreview.net/forum?id=Bw82hwg5Q3

非常にざっくり言うと、reasoning chain（＝複数トークンのsequence)をトークンとみなした場合の（確率的）beam searchを提案している。多様なreasoning chainをサンプリングし、その中から良いものをビーム幅kで保持し生成することで、最終的に良いデコーディング結果を得る。reasoning chainのランダム性を高めるためにtemperatureを設定するが、アニーリングをすることでchainにおけるエラーが蓄積することを防ぐ。これにより、最初は多様性を重視した生成がされるが、エラーが蓄積され発散することを防ぐ。

reasoning chainの良さを判断するために、chainの尤度だけでなく、self-evaluationによるreasoning chainの正しさに関するconfidenceスコアも導入する（reasoning chainのconfidenceスコアによって重みづけられたchainの尤度を最大化するような定式化になる（式3))。
self-evaluationと生成はともに同じLLMによって実現されるが、self-evaluationについては評価用のfew-shot promptingを実施する。promptingでは、これまでのreasoning chainと、新たなreasoning chainがgivenなときに、それが(A)correct/(B)incorrectなのかをmultiple choice questionで判定し、選択肢Aが生成される確率をスコアとする。

#Pocket #Verification Issue Date: 2025-09-25 [Paper Note] Large Language Models are Better Reasoners with Self-Verification, Yixuan Weng+, EMNLP'23 Findings, 2022.12 GPT Summary- LLMsはCoTプロンプティングにより強力な推論能力を示すが、エラーの蓄積に脆弱である。本研究では、LLMsが自己検証能力を持つことを提案し、推論した回答を逆検証することで解釈可能な検証スコアを得る手法を示す。実験により、提案手法が算数、常識、論理推論タスクでの性能を向上させることが確認された。 Comment

openreview: https://openreview.net/forum?id=s4xIeYimGQ

#Pocket #Hallucination #EMNLP #Selected Papers/Blogs Issue Date: 2025-09-24 [Paper Note] SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models, Potsawee Manakul+, EMNLP'23, 2023.03 GPT Summary- SelfCheckGPTは、外部データベースなしでLLMの応答をファクトチェックするためのサンプリングベースのアプローチを提案。サンプリングされた応答が一貫した事実を含む場合、知識があると判断し、幻覚された事実では矛盾が生じる可能性が高い。実験により、非事実的および事実的な文の検出、文章のランク付けが可能であることを示し、高いAUC-PRスコアと相関スコアを達成。 Comment

openreview: https://openreview.net/forum?id=RwzFNbJ3Ez

#Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #Pocket #AIAgents #Factuality #RAG(RetrievalAugmentedGeneration) #AutomaticPromptEngineering Issue Date: 2025-09-24 [Paper Note] Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback, Baolin Peng+, arXiv'23, 2023.02 GPT Summary- LLM-Augmenterシステムを提案し、LLMが外部知識に基づいた応答を生成できるように拡張。フィードバックを用いてプロンプトを改善し、タスク指向の対話と質問応答での有効性を実証。ChatGPTの幻覚を減少させつつ、流暢さや情報量を維持。ソースコードとモデルを公開。 #EfficiencyImprovement #Pocket #Transformer #Attention #python #LLMServing #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23 GPT Summary- PagedAttentionを用いたvLLMシステムを提案し、KVキャッシュメモリの無駄を削減し、リクエスト間での柔軟な共有を実現。これにより、同レベルのレイテンシでLLMのスループットを2-4倍向上。特に長いシーケンスや大規模モデルで効果が顕著。ソースコードは公開中。 Comment

（今更ながら）vLLMはこちら:
https://github.com/vllm-project/vllm

現在の主要なLLM Inference/Serving Engineのひとつ。

#Analysis #Pocket Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 1, Learning Hierarchical Language Structures, Zeyuan Allen-Zhu+, arXiv'23 GPT Summary- 本研究では、Transformerベースの言語モデルが文脈自由文法（CFG）による再帰的な言語構造推論をどのように行うかを調査。合成CFGを用いて長文を生成し、GPTのようなモデルがCFGの階層を正確に学習・推論できることを示す。モデルの隠れ状態がCFGの構造を捉え、注意パターンが動的プログラミングに類似していることが明らかに。また、絶対位置埋め込みの劣位や均一な注意の効果、エンコーダ専用モデルの限界、構造的ノイズによる堅牢性向上についても考察。 Comment

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

#Pocket #Supervised-FineTuning (SFT) #SelfImprovement #EMNLP Issue Date: 2025-07-22 [Paper Note] Large Language Models Can Self-Improve, Jiaxin Huang+, EMNLP'23 GPT Summary- LLMはラベルのないデータセットで自己改善可能であることを示し、Chain-of-Thoughtプロンプティングと自己一貫性を利用して高信頼度の回答を生成。これにより、540BパラメータのLLMの推論能力を向上させ、最先端のパフォーマンスを達成。ファインチューニングが自己改善に重要であることも確認。 Comment

openreview: https://openreview.net/forum?id=uuUQraD4XX¬eId=PWDEpZtn6P

#EfficiencyImprovement #Pocket #python #LLMServing #read-later #Inference Issue Date: 2025-06-12 [Paper Note] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv'23 GPT Summary- SARATHIは、LLMの推論効率を向上させる手法で、プレフィルリクエストをチャンクに分割し、デコードマキシマルバッチを構築することで計算利用率を最大化します。これにより、デコードスループットを最大10倍向上させ、エンドツーエンドスループットも改善。特に、A6000 GPU上のLLaMA-13Bモデルで顕著な性能向上を示し、パイプラインバブルを大幅に削減しました。 Comment

vLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。
![Image](https://github.com/user-attachments/assets/4db0f73d-bdf4-4c2b-a765-2c9b242904f1)

#EfficiencyImprovement #Pocket #ACL #Parallelism Issue Date: 2025-05-16 Sequence Parallelism: Long Sequence Training from System Perspective, Li+, ACL'23 Comment

入力系列をチャンクに分割して、デバイスごとに担当するチャンクを決めることで原理上無限の長さの系列を扱えるようにした並列化手法。系列をデバイス間で横断する場合attention scoreをどのように計算するかが課題になるが、そのためにRing Self attentionと呼ばれるアルゴリズムを提案している模様。また、MLPブロックとMulti Head Attentonブロックの計算も、BatchSize * Sequence Lengthの大きさが、それぞれ32*Hidden Size, 16*Attention Head size * # of Attention Headよりも大きくなった場合に、Tensor Parallelismよりもメモリ効率が良くなるらしい。

Data Parallel, Pipeline Parallel, Tensor Parallel、全てに互換性があるとのこと（併用可能）

そのほかの並列化の解説については
- 大規模モデルを支える分散並列学習のしくみ Part1

を参照のこと。

#MachineLearning #Pocket #Hallucination #NeurIPS #read-later #ActivationSteering/ITI #Probing #Trustfulness #Selected Papers/Blogs Issue Date: 2025-05-09 Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 GPT Summary- Inference-Time Intervention (ITI)を提案し、LLMsの真実性を向上させる技術を紹介。ITIは推論中にモデルの活性化を調整し、LLaMAモデルの性能をTruthfulQAベンチマークで大幅に改善。Alpacaモデルでは真実性が32.5%から65.1%に向上。真実性と有用性のトレードオフを特定し、介入の強度を調整する方法を示す。ITIは低コストでデータ効率が高く、数百の例で真実の方向性を特定可能。LLMsが虚偽を生成しつつも真実の内部表現を持つ可能性を示唆。 Comment

これは相当汎用的に使えそうな話だから役に立ちそう

#ComputerVision #Pocket #MultiModal #OpenWeight Issue Date: 2025-04-11 PaLI-3 Vision Language Models: Smaller, Faster, Stronger, Xi Chen+, arXiv'23 GPT Summary- PaLI-3は、従来のモデルに比べて10倍小型で高速な視覚言語モデル（VLM）であり、特にローカリゼーションや視覚的テキスト理解において優れた性能を示す。SigLIPベースのPaLIは、20億パラメータにスケールアップされ、多言語クロスモーダル検索で新たな最先端を達成。50億パラメータのPaLI-3は、VLMの研究を再燃させることを期待されている。 Comment

OpenReview: https://openreview.net/forum?id=JpyWPfzu0b

実験的に素晴らしい性能が実現されていることは認められつつも
- 比較対象がSigLIPのみでより広範な比較実験と分析が必要なこと
- BackboneモデルをContrastive Learningすること自体の有用性は既に知られており、新規性に乏しいこと

としてICLR'24にRejectされている

#EfficiencyImprovement #Transformer #LongSequence #PositionalEncoding #NeurIPS #Selected Papers/Blogs Issue Date: 2025-04-06 The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS'23 GPT Summary- 長さ一般化はTransformerベースの言語モデルにおける重要な課題であり、位置エンコーディング（PE）がその性能に影響を与える。5つの異なるPE手法（APE、T5の相対PE、ALiBi、Rotary、NoPE）を比較した結果、ALiBiやRotaryなどの一般的な手法は長さ一般化に適しておらず、NoPEが他の手法を上回ることが明らかになった。NoPEは追加の計算を必要とせず、絶対PEと相対PEの両方を表現可能である。さらに、スクラッチパッドの形式がモデルの性能に影響を与えることも示された。この研究は、明示的な位置埋め込みが長いシーケンスへの一般化に必須でないことを示唆している。 Comment

- Llama 4 Series, Meta, 2025.04

において、Llama4 Scoutが10Mコンテキストウィンドウを実現できる理由の一つとのこと。

元ポスト:

Loading…

#MachineLearning #Pocket #NeurIPS #Scaling Laws #read-later Issue Date: 2025-03-23 Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23 GPT Summary- 言語モデルのスケーリングにおいて、データ制約下でのトレーニングを調査。9000億トークンと90億パラメータのモデルを用いた実験で、繰り返しデータを使用しても損失に大きな変化は見られず、繰り返しの価値が減少することを確認。計算最適性のスケーリング法則を提案し、データ不足を軽減するアプローチも実験。得られたモデルとデータセットは公開。 Comment

OpenReview: https://openreview.net/forum?id=j5BuTrEj35

チンチラ則のようなScaling Lawsはパラメータとデータ量の両方をスケールさせた場合の前提に立っており、かつデータは全てuniqueである前提だったが、データの枯渇が懸念される昨今の状況に合わせて、データ量が制限された状況で、同じデータを繰り返し利用する（＝複数エポック学習する）ことが一般的になってきた。このため、データのrepetitionに関して性能を事前学習による性能の違いを調査して、repetitionとパラメータ数に関するスケーリング則を提案（$3.1)しているようである。

Takeawayとしては、データが制限された環境下では、repetitionは上限4回までが効果的（コスパが良い）であり（左図）、小さいモデルを複数エポック訓練する方が固定されたBudgetの中で低いlossを達成できる右図）。

学習データの半分をコードにしても性能の劣化はなく、様々なタスクの性能が向上しパフォーマンスの分散も小さくなる、といったことが挙げられるようだ。

#Survey #Pocket #Chain-of-Thought #ACL Issue Date: 2025-01-06 Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future, Zheng Chu+, arXiv'23 GPT Summary- 推論はAIにおいて重要な認知プロセスであり、チェーン・オブ・ソートがLLMの推論能力を向上させることが注目されている。本論文では関連研究を体系的に調査し、手法を分類して新たな視点を提供。課題や今後の方向性についても議論し、初心者向けの導入を目指す。リソースは公開されている。 #Pocket #Chain-of-Thought Issue Date: 2025-01-05 Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks, Wenhu Chen+, TMLR'23 GPT Summary- 段階的な推論を用いた数値推論タスクにおいて、Chain-of-thoughts prompting（CoT）の進展があり、推論をプログラムとして表現する「Program of Thoughts」（PoT）を提案。PoTは外部コンピュータで計算を行い、5つの数学問題データセットと3つの金融QAデータセットで評価した結果、少数ショットおよびゼロショット設定でCoTに対して約12％の性能向上を示した。自己一貫性デコーディングとの組み合わせにより、数学問題データセットで最先端の性能を達成。データとコードはGitHubで公開。 Comment

1. LLMsは算術演算を実施する際にエラーを起こしやすく、特に大きな数に対する演算を実施する際に顕著
2. LLMsは複雑な数式（e.g. 多項式, 微分方程式）を解くことができない
3. LLMsはiterationを表現するのが非常に非効率

の3点を解決するために、外部のインタプリタに演算処理を委譲するPoTを提案。PoTでは、言語モデルにreasoning stepsをpython programで出力させ、演算部分をPython Interpreterに実施させる。

テキスト、テーブル、対話などの多様なinputをサポートする5つのMath Word Problem （MWP）, 3つのFinancial Datasetで評価した結果、zero-shot, few-shotの両方の設定において、PoTはCoTをoutpeformし、また、Self-Consistencyと組み合わせた場合も、PoTはCoTをoutperformした。

#Chain-of-Thought #Reasoning #KeyPoint Notes Issue Date: 2025-01-05 Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models, Soochan Lee+, arXiv'23 GPT Summary- Recursion of Thought（RoT）という新しい推論フレームワークを提案し、言語モデル（LM）が問題を複数のコンテキストに分割することで推論能力を向上させる。RoTは特別なトークンを導入し、コンテキスト関連の操作をトリガーする。実験により、RoTがLMの推論能力を劇的に向上させ、数十万トークンの問題を解決できることが示された。 Comment

divide-and-conquerで複雑な問題に回答するCoT手法。生成過程でsubquestionが生じた際にモデルに特殊トークン（GO）を出力させ、subquestionの回答部分に特殊トークン（THINK）を出力させるようにSupervisedに学習させる。最終的にTHINKトークン部分は、subquestionを別途モデルによって解いた回答でreplaceして、最終的な回答を得る。
subquestionの中でさらにsubquestionが生じることもあるため、再帰的に処理される。

四則演算と4種類のアルゴリズムに基づくタスクで評価。アルゴリズムに基づくタスクは、2つの数のlongest common subsequenceを見つけて、そのsubsequenceとlengthを出力するタスク（LCS）、0-1 knapsack問題、行列の乗算、数値のソートを利用。x軸が各タスクの問題ごとの問題の難易度を表しており、難易度が上がるほど提案手法によるgainが大きくなっているように見える。

Without Thoughtでは直接回答を出力させ、CoTではground truthとなるrationaleを1つのcontextに与えて回答を生成している。RoTではsubquestionごとに回答を別途得るため、より長いcontextを活用して最終的な回答を得る点が異なると主張している。

感想としては、詳細が書かれていないが、おそらくRoTはSFTによって各タスクに特化した学習をしていると考えられる（タスクごとの特殊トークンが存在するため）。ベースラインとしてRoT無しでSFTしたモデルあった方が良いのではないか？と感じる。

また、学習データにおけるsubquestionとsubquestionに対するground truthのデータ作成方法は書かれているが、そもそも元データとして何を利用したかや、その統計量も書かれていないように見える。あと、そもそも機械的に学習データを作成できない場合どうすれば良いのか？という疑問は残る。

読んでいた時にAuto-CoTとの違いがよくわからなかったが、Related Workの部分にはAuto-CoTは動的、かつ多様なデモンストレーションの生成にフォーカスしているが、AutoReasonはquestionを分解し、few-shotの promptingでより詳細なrationaleを生成することにフォーカスしている点が異なるという主張のようである。

- Automatic Chain of Thought Prompting in Large Language Models, Zhang+, Shanghai Jiao Tong University, ICLR'23

Auto-CoTとの差別化は上記で理解できるが、G-Evalが実施しているAuto-CoTとの差別化はどうするのか？という風にふと思った。論文中でもG-Evalは引用されていない。

素朴にはAutoReasonはSFTをして学習をしています、さらにRecursiveにquestionをsubquestionを分解し、分解したsubquestionごとに回答を得て、subquestionの回答結果を活用して最終的に複雑なタスクの回答を出力する手法なので、G-Evalが実施している同一context内でrationaleをzeroshotで生成する手法よりも、より複雑な問題に回答できる可能性が高いです、という主張にはなりそうではある。

- G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N/A, EMNLP'23

ICLR 2023 OpenReview: https://openreview.net/forum?id=PTUcygUoxuc

- 提案手法は一般的に利用可能と主張しているが、一般的に利用するためには人手でsubquestionの学習データを作成する必要があるため十分に一般的ではない
- 限られたcontext長に対処するために再帰を利用するというアイデアは新しいものではなく、数学の定理の証明など他の設定で利用されている

という理由でrejectされている。

#Pocket #Quantization #ICML Issue Date: 2024-12-03 SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, Guangxuan Xiao+, ICML'23 GPT Summary- SmoothQuantは、トレーニング不要で8ビットの重みと活性化の量子化を実現するポストトレーニング量子化ソリューションです。活性化の外れ値を滑らかにすることで、量子化の難易度を軽減し、精度を保持しつつ最大1.56倍の速度向上と2倍のメモリ削減を達成しました。これにより、530BのLLMを単一ノードで運用可能にし、LLMsの民主化を促進します。コードは公開されています。 Comment

おそらく量子化手法の現時点のSoTA

#Diversity Issue Date: 2024-12-03 Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions, John Chung+, ACL'23, 2023.07 GPT Summary- 本研究では、LLMを用いたテキストデータ生成における多様性と精度を向上させるための人間とAIのパートナーシップを探求。ロジット抑制と温度サンプリングの2つのアプローチで多様性を高める一方、ラベル置換（LR）と範囲外フィルタリング（OOSF）による人間の介入を検討。LRはモデルの精度を14.4%向上させ、一部のモデルは少数ショット分類を上回る性能を示したが、OOSFは効果がなかった。今後の研究の必要性が示唆される。 Comment

生成テキストの質を維持しつつ、多様性を高める取り組み。多様性を高める取り組みとしては3種類の方法が試されており、

- Logit Suppression: 生成されたテキストの単語生成頻度をロギングし、頻出する単語にpenaltyをかける方法

- High Temperature: temperatureを[0.3, 0.7, 0.9, 1.3]にそれぞれ設定して単語をサンプリングする方法

- Seeding Example: 生成されたテキストを、seedとしてpromptに埋め込んで生成させる方法

で実験されている。

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-01 Improving the Domain Adaptation of Retrieval Augmented Generation （RAG） Models for Open Domain Question Answering, Siriwardhana+, TACL'23, 2023.01 GPT Summary- RAG-end2endは、ODQAにおけるドメイン適応のためにRAGのリトリーバーとジェネレーターを共同訓練する新しいアプローチを提案。外部知識ベースを更新し、補助的な訓練信号を導入することで、ドメイン特化型知識を強化。COVID-19、ニュース、会話のデータセットで評価し、元のRAGモデルよりも性能が向上。研究はオープンソースとして公開。 #Pretraining #MachineLearning #Pocket #Supervised-FineTuning (SFT) #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2024-11-25 Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23 GPT Summary- スパース活性化モデルは、計算コストを抑えつつ密なモデルの代替として注目されているが、依然として多くのデータを必要とし、ゼロからのトレーニングは高コストである。本研究では、密なチェックポイントからスパース活性化Mixture-of-Expertsモデルを初期化する「スパースアップサイクリング」を提案。これにより、初期の密な事前トレーニングのコストを約50%再利用し、SuperGLUEやImageNetで密なモデルを大幅に上回る性能を示した。また、アップサイクリングされたモデルは、ゼロからトレーニングされたスパースモデルよりも優れた結果を得た。 Comment

斜め読みしかできていないが、Mixture-of-Expertsを用いたモデルをSFT/Pretrainingする際に、既存のcheckpointの重みを活用することでより効率的かつ性能向上する方法を提案。MoE LayerのMLPを全て既存のcheckpointにおけるMLPの重みをコピーして初期化する。Routerはスクラッチから学習する。

継続事前学習においては、同じ学習時間の中でDense Layerを用いるベースラインと比較してでより高い性能を獲得。

Figure2で継続事前学習したモデルに対して、フルパラメータのFinetuningをした場合でもUpcyclingは効果がある（Figure3）。

特にPretrainingではUpcyclingを用いたモデルの性能に、通常のMoEをスクラッチから学習したモデルが追いつくのに時間がかかるとのこと。特に図右側の言語タスクでは、120%の学習時間が追いつくために必要だった。

Sparse Upcycingと、Dense tilingによる手法（warm start; 元のモデルに既存の層を複製して新しい層を追加する方法）、元のモデルをそれぞれ継続事前学習すると、最も高い性能を獲得している。

（すごい斜め読みなのでちょっも自信なし、、、）

#MachineTranslation #Pocket Issue Date: 2024-11-20 Prompting Large Language Model for Machine Translation: A Case Study, Biao Zhang+, arXiv'23 GPT Summary- 機械翻訳におけるプロンプティングの研究を体系的に行い、プロンプトテンプレートやデモ例の選択に影響を与える要因を検討。GLM-130Bを用いた実験により、プロンプト例の数と質が翻訳に重要であること、意味的類似性などの特徴がパフォーマンスと相関するが強くないこと、単言語データからの擬似平行プロンプト例が翻訳を改善する可能性があること、他の設定からの知識転送がパフォーマンス向上に寄与することを示した。プロンプティングの課題についても議論。 Comment

zero-shotでMTを行うときに、改行の有無や、少しのpromptingの違いでCOMETスコアが大幅に変わることを示している。

モデルはGLM-130BをINT4で量子化したモデルで実験している。

興味深いが、この知見を一般化して全てのLLMに適用できるか？と言われると、そうはならない気がする。他のモデルで検証したら傾向はおそらく変わるであろう（という意味でおそらく論文のタイトルにもCase Studyと記述されているのかなあ）。

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) #ACL Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, ACL'23 GPT Summary- 本研究では、ゼロショット密な検索システムの構築において、仮想文書埋め込み（HyDE）を提案。クエリに基づき、指示に従う言語モデルが仮想文書を生成し、教師なしで学習されたエンコーダがこれを埋め込みベクトルに変換。実際のコーパスに基づく類似文書を取得することで、誤った詳細をフィルタリング。実験結果では、HyDEが最先端の密な検索器Contrieverを上回り、様々なタスクと言語で強力なパフォーマンスを示した。 #Pretraining #Pocket #MultiModal #ICLR Issue Date: 2024-09-26 UL2: Unifying Language Learning Paradigms, Yi Tay+, N_A, ICLR'23 GPT Summary- 本論文では、事前学習モデルの普遍的なフレームワークを提案し、事前学習の目的とアーキテクチャを分離。Mixture-of-Denoisers（MoD）を導入し、複数の事前学習目的の効果を示す。20Bパラメータのモデルは、50のNLPタスクでSOTAを達成し、ゼロショットやワンショット学習でも優れた結果を示す。UL2 20Bモデルは、FLAN指示チューニングにより高いパフォーマンスを発揮し、関連するチェックポイントを公開。 Comment

OpenReview: https://openreview.net/forum?id=6ruVLB727MC

[R] standard span corruption, [S] causal language modeling, [X] extreme span corruption の3種類のパラダイムを持つMoD (Mixture of Denoisers)を提案

https://github.com/user-attachments/assets/a07372c6-854c-4bd1-8f59-f8c4dbdc5d23" />

#Alignment #NeurIPS #DPO #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-09-25 Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, N_A, NeurIPS'23 GPT Summary- 大規模無監督言語モデル（LM）の制御性を向上させるために、報酬モデルの新しいパラメータ化を導入し、単純な分類損失でRLHF問題を解決する「直接的な好み最適化（DPO）」アルゴリズムを提案。DPOは安定性と性能を持ち、ファインチューニング中のサンプリングやハイパーパラメータ調整を不要にし、既存の方法と同等以上の性能を示す。特に、生成物の感情制御においてPPOベースのRLHFを上回り、応答の質を改善しつつ実装が簡素化される。 Comment

DPOを提案した研究

https://github.com/user-attachments/assets/2f7edf2c-32fa-4c5c-bc39-fb85112d1837" >

解説ポスト:

Loading…

SNLP'24での解説スライド: https://speakerdeck.com/kazutoshishinoda/lun-wen-shao-jie-direct-preference-optimization-your-language-model-is-secretly-a-reward-model

#Dataset #Supervised-FineTuning (SFT) Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv'23 GPT Summary- GPT-4を用いて指示に従うデータを生成し、LLMのファインチューニングを行う初の試みを報告。生成された52Kの指示データは、従来のモデルよりも新しいタスクに対して優れたゼロショット性能を示した。GPT-4からのフィードバックと比較データも収集し、データとコードベースを公開。 Comment

現在はOpenAIの利用規約において、outputを利用してOpenAIと競合するモデルを構築することは禁止されているので、この点には注意が必要
https://openai.com/ja-JP/policies/terms-of-use/

#Pocket #SelfCorrection Issue Date: 2024-09-07 Large Language Models Cannot Self-Correct Reasoning Yet, Jie Huang+, N_A, arXiv'23 GPT Summary- LLMsの自己修正能力を批判的に検討し、内在的自己修正の概念を中心に、外部フィードバックなしでの応答修正の難しさを示す。自己修正後にパフォーマンスが低下することもあり、今後の研究や応用に向けた提案を行う。 #Pocket #Supervised-FineTuning (SFT) #InstructionTuning #SelfCorrection Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv'23 GPT Summary- リフレクションチューニングという新手法を提案し、LLMsの自己改善を通じて低品質なトレーニングデータの問題に対処。オラクルLLMを用いてデータの質を向上させ、実験により再利用データで訓練されたLLMsが既存モデルを上回ることを示した。 Comment

Reflection-Tuningを提案している研究?

#Pocket #OpenWeight Issue Date: 2024-05-24 Mistral 7B, Albert Q. Jiang+, N_A, arXiv'23 GPT Summary- Mistral 7B v0.1は、70億パラメータの言語モデルであり、高速な推論のためにGQAを活用し、SWAを組み合わせている。また、Mistral 7B -- InstructはLlama 2 13B -- Chatモデルを上回っており、Apache 2.0ライセンスの下で公開されています。 Comment

Mistral Large Mixtral-8x22B-v0.1, 2024 などのモデルも参照のこと

モデルのスケールが大きくなると、inferenceのlatencyが遅くなり、計算コストが大きくなりすぎて実用的でないので、小さいパラメータで素早いinference実現したいよね、というモチベーション。

そのために、SlidingWindowAttentionとGroupQueryAttention GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 を活用している。

より小さいパラメータ数でLlama2を様々なタスクでoutperformし

Instruction Tuningを実施したモデルは、13BモデルよりもChatbotArenaで高いElo Rateを獲得した。

コンテキスト長は8192

#DocumentSummarization #NaturalLanguageGeneration #Pocket #Dataset #Annotation Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

- ニュース記事の高品質な要約を人間に作成してもらい、gpt-3.5を用いてLLM-basedな要約も生成

- annotatorにそれぞれの要約の品質をスコアリングさせたデータセットを作成

#EfficiencyImprovement #Pocket #Transformer #Attention Issue Date: 2024-04-07 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N_A, arXiv'23 GPT Summary- Multi-query attention（MQA）は、単一のkey-value headのみを使用しており、デコーダーの推論を劇的に高速化しています。ただし、MQAは品質の低下を引き起こす可能性があり、さらには、より速い推論のためだけに別個のモデルをトレーニングすることが望ましくない場合もあります。既存のマルチヘッド言語モデルのチェックポイントを、オリジナルの事前トレーニング計量の5%を使用してMQAを持つモデルにアップトレーニングするためのレシピを提案し、さらに、複数のkey-value headを使用するマルチクエリアテンションの一般化であるグループ化クエリアテンション（GQA）を紹介します。アップトレーニングされたGQAが、MQAと同等の速度でマルチヘッドアテンションに匹敵する品質を達成することを示しています。 Comment

通常のMulti-Head AttentionがQKVが1対1対応なのに対し、Multi Query Attention (MQA) Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, N/A, arXiv'19 は全てのQに対してKVを共有する。一方、GQAはグループごとにKVを共有する点で異なる。MQAは大幅にInfeerence` speedが改善するが、精度が劣化する問題があった。この研究では通常のMulti-Head Attentionに対して、オリジナルの事前学習に対して追加の5%の計算量でGQAモデルを学習する手法を提案している。

Main Result. Multi-Head Attentionに対して、inference timeが大幅に改善しているが、Multi-Query Attentionよりも高い性能を維持している。

#NaturalLanguageGeneration #Pocket #Explanation #Supervised-FineTuning (SFT) #Evaluation #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#Pocket #Evaluation #LLM-as-a-Judge Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP'23 GPT Summary- 従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル（LLMs）を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment

伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究

# 手法概要

- CoTを利用して、生成されたテキストの品質を評価する手法を提案している。

- タスクのIntroductionと、評価のCriteriaをプロンプトに仕込むだけで、自動的にLLMに評価ステップに関するCoTを生成させ、最終的にフォームを埋める形式でスコアをテキストとして生成させ評価を実施する。最終的に、各スコアの生成確率によるweighted-sumによって、最終スコアを決定する。

# Scoringの問題点

たとえば、1-5のdiscreteなスコアを直接LLMにoutputさせると、下記のような問題が生じる：

1. ある一つのスコアが支配的になってしまい、スコアの分散が無く、人間の評価との相関が低くなる

2. LLMは小数を出力するよう指示しても、大抵の場合整数を出力するため、多くのテキストの評価値が同一となり、生成されたテキストの細かな差異を評価に取り入れることができない。

上記を解決するため、下記のように、スコアトークンの生成確率の重みづけ和をとることで、最終的なスコアを算出している。

# 評価

- SummEval SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21
データと、Topical-Chat, QAGSデータの3つのベンチマークで評価を実施した。タスクとしては、要約と対話のresponse generationのデータとなる。

- モデルはGPT-3.5 (text-davinci-003), GPT-4を利用した

- gpt3.5利用時は、temperatureは0に設定し、GPT-4はトークンの生成確率を返さないので、`n=20, temperature=1, top_p=1`とし、20回の生成結果からトークンの出現確率を算出した。

## 評価結果

G-EVALがbaselineをoutperformし、特にGPT4を利用した場合に性能が高い。GPTScoreを利用した場合に、モデルを何を使用したのかが書かれていない。Appendixに記述されているのだろうか。

# Analysis

## G-EvalがLLMが生成したテキストを好んで高いスコアを付与してしまうか？

- 人間に品質の高いニュース記事要約を書かせ、アノテータにGPTが生成した要約を比較させたデータ (Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N/A, arXiv'23
) を用いて検証

- その結果、基本的にGPTが生成した要約に対して、G-EVAL4が高いスコアを付与する傾向にあることがわかった。

- 原因1: Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N/A, arXiv'23 で指摘されている通り、人間が記述した要約とLLMが記述した要約を区別するタスクは、inter-annotator agreementは`0.07`であり、極端に低く、人間でも困難なタスクであるため。

- 原因2: LLMは生成時と評価時に、共通したコンセプトをモデル内部で共有している可能性が高く、これがLLMが生成した要約を高く評価するバイアスをかけた

## CoTの影響

- SummEvalデータにおいて、CoTの有無による性能の差を検証した結果、CoTを導入した場合により高いcorrelationを獲得した。特に、Fluencyへの影響が大きい。

## Probability Normalizationによる影響

- probabilityによるnormalizationを導入したことで、kendall tauが減少した。この理由は、probabilityが導入されていない場合は多くの引き分けを生み出す。一方、kendall tauは、concordant / discordantペアの数によって決定されるが、引き分けの場合はどちらにもカウントされず、kendall tauの値を押し上げる効果がある。このため、これはモデルの真の性能を反映していない。

- 一方、probabilityを導入すると、より細かいな連続的なスコアを獲得することができ、これはspearman-correlationの向上に反映されている。

## モデルサイズによる影響

- 基本的に大きいサイズの方が高いcorrelationを示す。特に、consistencyやrelevanceといった、複雑な評価タスクではその差が顕著である。

- 一方モデルサイズが小さい方が性能が良い観点（engagingness, groundedness）なども存在した。

#Pocket #ProprietaryLLM Issue Date: 2023-12-21 Gemini: A Family of Highly Capable Multimodal Models, Gemini Team+, N_A, arXiv'23 GPT Summary- この報告書では、マルチモーダルモデル「Gemini」のファミリーについて紹介します。Geminiは画像、音声、動画、テキストの理解に優れた能力を持ち、Ultra、Pro、Nanoのサイズがあります。Gemini Ultraは幅広いベンチマークで最先端の技術を提供し、MMLUでは人間の専門家のパフォーマンスを初めて達成しました。Geminiモデルはクロスモーダルな推論と言語理解の能力を持ち、さまざまなユースケースに適用できます。また、ユーザーへの責任ある展開についても議論しています。 Comment

Gemini, Google, 2023.12 で発表されたGeminiの論文

#Alignment #In-ContextLearning Issue Date: 2023-12-05 The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning, Bill Yuchen Lin+, N_A, arXiv'23 GPT Summary- アラインメント調整は、大規模言語モデル（LLMs）のパフォーマンスを向上させるために使用されます。しかし、アラインメント調整の効果は「表面的」である可能性があります。この研究では、基本的なLLMとアラインメント調整されたバージョンのトークン分布のシフトを分析しました。結果は、アラインメント調整が主にスタイルトークンに影響を与えることを示しました。さらに、シンプルでチューニングフリーなアラインメント手法であるURIALを導入し、基本的なLLMのパフォーマンスを向上させることができることを示しました。これらの結果から、アラインメントのより深い分析と理論的な理解が重要であることが示唆されます。 Comment

モデルの知識はPre-training時に十分獲得されており、モデルのAlignmentをとることで生じるものは表面的な変化のみであるという仮説がある LIMA: Less Is More for Alignment, Chunting Zhou+, N/A, NeurIPS'23 。この仮説に関して分析をし、結果的にスタイリスティックな情報を生成する部分でAlignmentの有無で違いが生じることを明らかにし、そうであればわざわざパラメータチューニング（SFT, RLHF）しなくても、適切なサンプルを選択したIn-Context LearningでもAlignmentとれますよ、という趣旨の研究っぽい？

#Analysis #Pocket #QuestionAnswering Issue Date: 2023-12-04 Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text, Qi Cao+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の内部動作についての新しい洞察を提供します。特に、GPT-4を調査し、LLMsの耐久性に関する実験結果を示します。実験では、文字レベルの順列に対するLLMsの耐性を調べるために、Scrambled Benchというスイートを使用しました。結果は、GPT-4がtypoglycemiaという現象に似た能力を持ち、非常に自然でないエラーを含む入力をほぼ完璧に処理できることを示しています。これは、LLMsの耐性が直感に反するものであり、他のLLMsや人間にとっても困難なタスクであることを示しています。 Comment

OpenAIのモデルがブラックボックスである限り、コンタミネーションがあるのでは？という疑念は持ってしまう。

（部分的にしか読めていないが…）
RealtimeQAと呼ばれるweeklyで直近のニュースに対するQuestionを発表することで構築されるデータセットのうち、2023.03.17--2023.08.04のデータを収集し、ScrambledSentenaeRecovery（ScrRec）とScrambleQuestionAnswering（ScrQA）の評価データを生成している。

完全にランダムに単語の文字をscramble（RS）すると、FalconとLlama2では元のテキストをゼロショットでは再構築できないことが分かる。FewShotではFalconであれば少し解けるようになる。一方、OpenAIのモデル、特にGPT4, GPT3.5-turboではゼロショットでもにり再構築ができている。

ScrQAについては、ランダムにscrambleした場合でもMultipleChoiceQuestionなので（RPGと呼ばれるAccの相対的なgainを評価するメトリックを提案している）正解はできている。

最初の文字だけを残す場合（KF）最初と最後の文字を残す場合（KFL」については、残す文字が増えるほどどちらのタスクも性能が上がり、最初の文字だけがあればOpenSourceLLMでも（ゼロショットでも）かなり元のテキストの再構築ができるようになっている。また、QAも性能が向上している。

完全にランダムに文字を入れ替えたら完全に無理ゲーなのでは、、、、と思ってしまうのだが、FalconでFewshotの場合は一部解けているようだ…。果たしてどういうことなのか…（大文字小文字が保持されたままなのがヒントになっている…？）Appendixに考察がありそうだがまだ読めていない。

（追記）

文全体でランダムに文字を入れ替えているのかと勘違いしていたが、実際には”ある単語の中だけでランダムに入れ替え”だった。これなら原理上はいけると思われる。

#EfficiencyImprovement #Pocket Issue Date: 2023-11-23 Exponentially Faster Language Modelling, Peter Belcak+, N_A, arXiv'23 GPT Summary- UltraFastBERTは、推論時にわずか0.3%のニューロンしか使用せず、同等の性能を発揮することができる言語モデルです。UltraFastBERTは、高速フィードフォワードネットワーク（FFF）を使用して、効率的な実装を提供します。最適化されたベースラインの実装に比べて78倍の高速化を実現し、バッチ処理された推論に対しては40倍の高速化を実現します。トレーニングコード、ベンチマークのセットアップ、およびモデルの重みも公開されています。 #Pocket #Dataset #QuestionAnswering #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Tutorial #Pocket #Chain-of-Thought Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought（CoT）推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 Comment

CoTに関するチュートリアル論文

#Pocket #Prompting #ContextEngineering Issue Date: 2023-11-21 System 2 Attention （is something you might need too）, Jason Weston+, N_A, arXiv'23 GPT Summary- Transformerベースの大規模言語モデル（LLMs）におけるソフトアテンションは、文脈から無関係な情報を取り込む傾向があり、次のトークン生成に悪影響を与える。そこで、System 2 Attention（S2A）を導入し、LLMsが自然言語で推論し、指示に従う能力を活用して、注目すべき情報を決定する。S2Aは関連する部分のみを含むように入力コンテキストを再生成し、再生成されたコンテキストに注目して最終的な応答を引き出す。実験では、S2Aは3つのタスクで標準のアテンションベースのLLMsよりも優れた性能を発揮し、事実性と客観性を高める。 Comment

おそらく重要論文

How is System 2 Attention different from prompt engineering specialized in factual double checks?

I'm very sorry for the extremely delayed response. It's been two years, so you may no longer have a chance to see this, but I'd still like to share my thoughts.

I believe that System 2 Attention is fundamentally different in concept from prompt engineering techniques such as factual double-checking. Unlike ad-hoc prompt engineering or approaches that enrich the context by adding new facts through prompting, System 2 Attention aims to improve the model’s reasoning ability itself by mitigating the influence of irrelevant tokens. It does so by selectively generating a new context composed only of relevant tokens, in a way that resembles human System 2 thinking—that is, more objective and deliberate reasoning.

From today’s perspective, two years later, I would say that this concept is more closely aligned with what we now refer to as Context Engineering. Thank you.

#Pocket #Supervised-FineTuning (SFT) #Chain-of-Thought #SmallModel #OpenWeight #One-Line Notes Issue Date: 2023-11-21 Orca 2: Teaching Small Language Models How to Reason, Arindam Mitra+, N_A, arXiv'23 GPT Summary- Orca 1は、豊富なシグナルから学習し、従来のモデルを上回る性能を発揮します。Orca 2では、小さな言語モデルの推論能力を向上させるために異なる解決戦略を教えることを目指しています。Orca 2は、さまざまな推論技術を使用し、15のベンチマークで評価されました。Orca 2は、同じサイズのモデルを大幅に上回り、高度な推論能力を持つ複雑なタスクで優れた性能を発揮します。Orca 2はオープンソース化されており、小さな言語モデルの研究を促進します。 Comment

ポイント解説:

Loading…

HF: https://huggingface.co/microsoft/Orca-2-13b

論文を読むとChatGPTのデータを学習に利用しているが、現在は競合となるモデルを作ることは規約で禁止されているので注意

#Pretraining #Pocket #Chain-of-Thought Issue Date: 2023-11-21 Implicit Chain of Thought Reasoning via Knowledge Distillation, Yuntian Deng+, N_A, arXiv'23 GPT Summary- 本研究では、言語モデルの内部の隠れ状態を使用して暗黙的な推論を行う手法を提案します。明示的なチェーン・オブ・ソートの推論ステップを生成する代わりに、教師モデルから抽出した暗黙的な推論ステップを使用します。実験により、この手法が以前は解決できなかったタスクを解決できることが示されました。 Comment

これは非常に興味深い話

openreview: https://openreview.net/forum?id=9cumTvvlHG

#Pocket #Chain-of-Thought #Prompting Issue Date: 2023-11-19 Contrastive Chain-of-Thought Prompting, Yew Ken Chia+, N_A, arXiv'23 GPT Summary- 言語モデルの推論を改善するために、対照的なchain of thoughtアプローチを提案する。このアプローチでは、有効な推論デモンストレーションと無効な推論デモンストレーションの両方を提供し、モデルが推論を進める際にミスを減らすようにガイドする。また、自動的な方法を導入して対照的なデモンストレーションを構築し、汎化性能を向上させる。実験結果から、対照的なchain of thoughtが一般的な改善手法として機能することが示された。 #Pocket #Supervised-FineTuning (SFT) #Factuality Issue Date: 2023-11-15 Fine-tuning Language Models for Factuality, Katherine Tian+, N_A, arXiv'23 GPT Summary- 本研究では、大規模な言語モデル（LLMs）を使用して、より事実に基づいた生成を実現するためのファインチューニングを行います。具体的には、外部の知識ベースや信頼スコアとの一貫性を測定し、選好最適化アルゴリズムを使用してモデルを調整します。実験結果では、事実エラー率の削減が観察されました。 #Pocket #Dataset #InstructionTuning #Evaluation #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#EfficiencyImprovement #Pocket #Chain-of-Thought #Prompting Issue Date: 2023-11-15 Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster, Hongxuan Zhang+, N_A, arXiv'23 GPT Summary- この研究では、FastCoTというフレームワークを提案します。FastCoTは、LLMを使用して並列デコーディングと自己回帰デコーディングを同時に行い、計算リソースを最大限に活用します。また、FastCoTは推論時間を約20%節約し、性能の低下がほとんどないことを実験で示しました。さらに、異なるサイズのコンテキストウィンドウに対しても頑健性を示すことができました。 Comment

論文中の図を見たが、全くわからなかった・・・。ちゃんと読まないとわからなそうである。

#Pocket #SmallModel #NeurIPS Issue Date: 2023-11-14 Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer, Bowen Tan+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLMs）はマルチタスキングに優れた性能を示していますが、パラメータ数が多く計算リソースを必要とし、効率的ではありません。そこで、小規模なスコアラーであるCappyを導入し、独立して機能するかLLMsの補助として使用することでパフォーマンスを向上させました。Cappyはファインチューニングやパラメータへのアクセスを必要とせず、さまざまなタスクで高い性能を発揮します。実験結果では、Cappyは独立したタスクや複雑なタスクで大きなLLMsを上回り、他のLLMsとの連携も可能です。 Comment

360MパラメータでさまざまなタスクでLLMに勝つっぽいのでおもしろそうだし実用性もありそう

#Survey #Pocket #Hallucination Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv'23 GPT Summary- LLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 Comment

Hallucinationを現象ごとに分類したSurveyとして A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N/A, arXiv'23 もある

Surveyの内容。必要に応じて参照すべし。

#Pocket #Attention Issue Date: 2023-11-10 Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs, Qingru Zhang+, N_A, arXiv'23 GPT Summary- PASTAは、大規模言語モデル（LLMs）において、ユーザーが指定した強調マークのあるテキストを読むことを可能にする手法です。PASTAは、注意の一部を特定し、再重み付けを適用してモデルの注意をユーザーが指定した部分に向けます。実験では、PASTAがLLMの性能を大幅に向上させることが示されています。 Comment

ユーザがprompt中で強調したいした部分がより考慮されるようにattention weightを調整することで、より応答性能が向上しましたという話っぽい。かなり重要な技術だと思われる。後でしっかり読む。

#Analysis Issue Date: 2023-11-08 Do LLMs exhibit human-like response biases? A case study in survey design, Lindia Tjuatja+, N_A, arXiv'23 GPT Summary- LLMsを使用して人間の代理としてタスクを実行する際に、LLMsが人間の応答バイアスをどの程度反映するかを調査する必要がある。この研究では、調査設計を使用して人間の応答バイアスを評価するデータセットとフレームワークを設計し、9つのモデルを評価した結果、一般的なLLMsが人間のような振る舞いを反映することに失敗していることが示された。これらの結果は、LLMsを人間の代わりに使用する際の潜在的な落とし穴を強調し、モデルの振る舞いの細かい特性の重要性を強調している。 Comment

LLMはPromptにsensitiveだが、人間も質問の仕方によって応答が変わるから、sensitiveなのは一緒では？ということを調査した研究。Neubig氏のツイートだと、instruction tuningやRLHFをしていないBase LLMの方が、より人間と類似した回答をするのだそう。

元ツイート:

Loading…

人間のレスポンスのバイアス。左側は人間は「forbidden」よりも「not allowed」を好むという例、右側は「response order」のバイアスの例（選択肢の順番）。

LLM側で評価したいバイアスごとに、QAのテキストを変更し、LLMに回答を生成され、social science studiesでのトレンドと比較することで、LLMにも人間と同様のバイアスがあるかを明らかにしている。

結果は以下の表であり、青いセルが人間と同様のバイアスを持つことを統計的に有意に示されたもの（のはず）。これをみると、全てのバイアスに対して人間と同様の傾向があったのはLlama2-70Bのみであり、instruction tuningや、RLHFをかけた場合（RLHFの方が影響が大きそう）人間のバイアスとは異なる挙動をするモデルが多くなることがわかる。また、モデルのパラメータサイズとバイアスの強さには相関関係は見受けられない。

#Analysis #Pocket #Transformer Issue Date: 2023-11-06 Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models, Steve Yadlowsky+, N_A, arXiv'23 GPT Summary- 本研究では、トランスフォーマーモデルの文脈学習（ICL）能力を調査しました。トランスフォーマーモデルは、事前学習データの範囲内で異なるタスクを特定し、学習する能力を持っています。しかし、事前学習データの範囲外のタスクや関数に対しては一般化が劣化することが示されました。また、高容量のシーケンスモデルのICL能力は、事前学習データの範囲に密接に関連していることが強調されました。 Comment

Transformerがpre-training時に利用された学習データ以外の分布に対しては汎化性能が落ちることを示したらしい。もしこれが正しいとすると、結局真に新しい分布というか関数というかタスクというか、をTransformerが創出する可能性は低いと言えるかもしれない。が、新しいものって大体は既存の概念の組み合わせだよね（スマホとか）、みたいなことを考えると、別にそれでも十分では？と思ってしまう。人間が本当に真の意味で新しい関数というかタスクというか分布を生み出せているかというと、実はそんなに多くないのでは？という予感もする。まあたとえば、量子力学を最初に考えました！とかそういうのは例外だと思うけど・・・、そのレベルのことってどんくらいあるんだろうね？

#Pocket #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv'23 GPT Summary- 自律型の事実チェックにおいて、大規模言語モデル（LLMs）を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Comment

gpt3とgpt4でFactCheckして傾向を分析しました、という研究。promptにstatementとgoogleで補完したcontextを含め、出力フォーマットを指定することでFactCheckする。
promptingする際の言語や、statementの事実性の度合い（半分true, 全てfalse等）などで、性能が大きく変わる結果とのこと。
性能を見ると、まだまだ（このprompting方法では）人間の代わりが務まるほどの性能が出ていないことがわかる。また、trueな情報のFactCheckにcontextは効いていそうだが、falseの情報のFactCheckにContextがあまり効いてなさそうに見えるので、なんだかなあ、という感じである。

斜め読みしかしていないがこの研究、学術的な知見は少ないのかな、という印象。一つのケーススタディだよね、という感じがする。

まず、GPT3,4だけじゃなく、特徴の異なるOpenSourceのLLMを比較に含めてくれないと、前者は何で学習しているか分からないので、学術的に得られる知見はほぼないのではという気が。実務的には役に立つが。

その上で、Promptingをもっとさまざまな方法で検証した方が良いと思う。
たとえば、現在のpromptではラベルを先に出力させた後に理由を述べさせているが、それを逆にしたらどうなるか？（zero-shot CoT）や、4-Shotにしたらどうなるか、SelfConsistencyを利用したらどうなるかなど、promptingの仕方によって傾向が大きく変わると思う。

加えて、Retriever部分もいくつかのバリエーションで試してみても良いのかなと思う。特に、falseの情報を判断する際に役に立つ情報がcontextに含められているのかが気になる。
論文に書いてあるかもしれないが、ちょっとしっかり読む時間はないです！！

#Pretraining #Pocket #FoundationModel #Mathematics Issue Date: 2023-10-29 Llemma: An Open Language Model For Mathematics, Zhangir Azerbayev+, N_A, arXiv'23 GPT Summary- 私たちは、数学のための大規模な言語モデルであるLlemmaを提案します。Llemmaは、Proof-Pile-2と呼ばれるデータセットを用いて事前学習され、MATHベンチマークで他のモデルを上回る性能を示しました。さらに、Llemmaは追加のfine-tuningなしでツールの使用や形式的な定理証明が可能です。アーティファクトも公開されています。 Comment

CodeLLaMAを200B tokenの数学テキスト（proof-pile-2データ;論文、数学を含むウェブテキスト、数学のコードが含まれるデータ）で継続的に事前学習することでfoundation modelを構築

約半分のパラメータ数で数学に関する性能でGoogleのMinervaと同等の性能を達成

元ツイート:

Loading…

まだ4-shotしてもAcc.50%くらいなのか。

#Evaluation Issue Date: 2023-10-29 Large Language Models are not Fair Evaluators, Peiyi Wang+, N_A, arXiv'23 GPT Summary- この論文では、大規模言語モデル（LLMs）を使用して、候補モデルの応答品質を評価する評価パラダイムにおける系統的なバイアスを明らかにします。さらに、バイアスを軽減するためのキャリブレーションフレームワークを提案し、実験によってその有効性を示します。また、コードとデータを公開して、今後の研究を支援します。 #Pretraining #Pocket #Supervised-FineTuning (SFT) #DataGeneration Issue Date: 2023-10-28 Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N_A, arXiv'23 GPT Summary- 私たちは、小さな言語モデルを作成するために、教師モデルからの優先データを使用する手法を提案しています。この手法により、自然なプロンプトに対するモデルの応答が改善されます。提案手法を用いて学習されたZephyr-7Bモデルは、チャットベンチマークで最先端の性能を発揮し、人間の注釈を必要としません。詳細はGitHubで利用可能です。 Comment

7BパラメータでLlaMa70Bと同等の性能を達成したZephyrの論文。

- dSFT:既存データからpromptをサンプリングし、user,assistantのmulti turnの対話をLLMでシミュレーションしてデータ生成しSFT
- AIF:既存データからpromstをサンプリングし、異なる4つのLLMのレスポンスをGPT4でランクづけしたデータの活用
- dDPO: 既存データからpromptをサンプリングし、ベストなレスポンスとランダムにサンプリングしたレスポンスの活用

人手を一切介していない。

Blog: https://huggingface.co/blog/Isamu136/understanding-zephyr

#Pocket #Evaluation Issue Date: 2023-10-28 Human Feedback is not Gold Standard, Tom Hosking+, N_A, arXiv'23 GPT Summary- 人間のフィードバックは、大規模言語モデルの性能評価に使用されているが、その好みのスコアがどの特性を捉えているのかは明確ではない。この研究では、人間のフィードバックの使用を分析し、重要なエラー基準を適切に捉えているかどうかを検証した。結果として、好みのスコアは広範なカバレッジを持っているが、事実性などの重要な側面が過小評価されていることがわかった。また、好みのスコアとエラーアノテーションは交絡因子の影響を受ける可能性があり、出力の断定性が事実性エラーの知覚率を歪めることも示された。さらに、人間のフィードバックを訓練目標として使用することが、モデルの出力の断定性を過度に増加させることも示された。今後の研究では、好みのスコアが望ましい目標と一致しているかどうかを慎重に考慮する必要がある。 Comment

参考:

Loading…

#ComputerVision #Pocket #MultiModal #OCR Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V（ision） : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識（OCR）能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む）で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。

#Pocket #InstructionTuning #InstructionGeneration Issue Date: 2023-10-26 Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models, Zhihan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の性能を向上させるための新しい手法であるAuto-Instructを提案しています。この手法では、LLMsが生成する指示の品質を自動的に向上させるために、多様な候補の指示を生成し、スコアリングモデルでランク付けします。実験結果では、Auto-Instructが人間による指示や既存のLLM生成指示を上回ることが示されています。また、他のLLMsでも顕著な汎化性能を示すことも確認されています。 Comment

seed instructionとdemonstrationに基づいて、異なるスタイルのinstructionを自動生成し、自動生成したinstructionをとinferenceしたいexampleで条件づけてランキングし、良質なものを選択。選択したinstructionでinferenceを実施する。

既存手法よりも高い性能を達成している。特にexampleごとにinstructionを選択する手法の中で最もgainが高い。これは、提案手法がinstructionの選択にtrained modelを利用しているためであると考えられる。

#MachineLearning #Supervised-FineTuning (SFT) Issue Date: 2023-10-26 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, arXiv'23 GPT Summary- 私たちは、言語モデルのファインチューニングを改善するために、ノイズを加えた埋め込みベクトルを使用する手法を提案します。この手法は、AlpacaEvalやEvol-Instructなどのデータセットで強力なベースラインを上回る性能を示しました。また、RLHFでトレーニングされたモデルにも適用可能です。 Comment

Alpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。

HuggingFaceのTRLでサポートされている

https://huggingface.co/docs/trl/sft_trainer

#Pocket #In-ContextLearning Issue Date: 2023-10-26 In-Context Learning Creates Task Vectors, Roee Hendel+, N_A, EMNLP'23 GPT Summary- 大規模言語モデル（LLMs）におけるインコンテキスト学習（ICL）の基本的なメカニズムはまだ十分に理解されていない。本研究では、ICLによって学習される関数が非常に単純な構造を持つことを示し、ICLがトランスフォーマーLLMを使用して単一のタスクベクトルを生成し、それを使用して出力を生成するということを明らかにする。さまざまなモデルとタスクにわたる実験によって、この主張を支持している。 Comment

参考:

Loading…

ICLが実現可能なのは実はネットワーク内部で与えられたdemonstrationに対して勾配効果法を再現しているからです、という研究もあったと思うけど、このタスクベクトルとの関係性はどういうものなのだろうか。

文脈に注意を与えなくてもICLと同じ性能が出るのは、文脈情報が不要なタスクを実施しているからであり、そうではないタスクだとこの知見が崩れるのだろうか。後で読む。

#Pocket #Evaluation Issue Date: 2023-10-25 Branch-Solve-Merge Improves Large Language Model Evaluation and Generation, Swarnadeep Saha+, N_A, arXiv'23 GPT Summary- 本研究では、多面的な言語生成および評価タスクにおいて、大規模言語モデルプログラム（BSM）を提案します。BSMは、ブランチ、ソルブ、マージの3つのモジュールから構成され、タスクを複数のサブタスクに分解し、独立して解決し、解決策を統合します。実験により、BSMが評価の正確性と一貫性を向上させ、パフォーマンスを向上させることが示されました。 #Pocket #Alignment #ReinforcementLearning #Personalization #Souping Issue Date: 2023-10-24 [Paper Note] Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, arXiv'23, 2023.10 GPT Summary- 人間のフィードバックを用いた強化学習（RLHF）は、LLMsを一般的な好みに合わせるが、個別の視点には最適でない。本研究では、個別のフィードバックを考慮した強化学習（RLPHF）を提案し、複数の好みに対応するために多目的強化学習（MORL）としてモデル化。好みを複数の次元に分解することで、個別のアライメントを達成できることを示し、これらの次元が独立して訓練され、効果的に結合可能であることを実証。コードは公開されている。 Comment

どこまでのことが実現できるのかが気になる。

#MachineLearning #Pocket #Chain-of-Thought #Prompting Issue Date: 2023-10-24 Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs' Non-linear Thinking, Yongqi Tong+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）に非線形の思考を促すために、新しいプロンプティング方法であるInferential Exclusion Prompting（IEP）を提案する。IEPは、計画を立てて可能な解を推論し、逆推論を行うことで広い視点を得ることができる。IEPは他の手法と比較して複雑な人間の思考プロセスをシミュレートできることを実証し、LLMsのパフォーマンス向上にも貢献することを示した。さらに、Mental-Ability Reasoning Benchmark（MARB）を導入し、LLMsの論理と言語推論能力を評価するための新しいベンチマークを提案した。IEPとMARBはLLMsの研究において有望な方向性であり、今後の進展が期待される。 Comment

元論文は読んでいないのだが、CoTが線形的だという主張がよくわからない。
CoTはAutoregressiveな言語モデルに対して、コンテキストを自己生成したテキストで利用者の意図した方向性にバイアスをかけて補完させ、
利用者が意図した通りのアウトプットを最終的に得るためのテクニック、だと思っていて、
線形的だろうが非線形的だろうがどっちにしろCoTなのでは。

#Pocket #Chain-of-Thought #Prompting Issue Date: 2023-10-13 Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models, Anni Zou+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、推論のためのチェーン・オブ・ソート（CoT）プロンプトを生成する方法を提案しています。従来のCoTの方法では、一般的なプロンプトや手作業デモンストレーションに依存していましたが、本研究では入力質問のタイプに基づいて自動的にプロンプトを生成するMeta-CoTを提案しています。Meta-CoTは、10のベンチマーク推論タスクで優れたパフォーマンスを示し、SVAMPでは最先端の結果を達成しました。また、分布外データセットでも安定性と汎用性が確認されました。 Comment

色々出てきたがなんかもう色々組み合わせれば最強なんじゃね?って気がしてきた。

#Survey #Factuality Issue Date: 2023-10-13 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity, Cunxiang Wang+, N_A, arXiv'23 GPT Summary- この研究では、大規模言語モデル（LLMs）の事実性の問題に取り組んでいます。LLMsの出力の信頼性と正確性は重要であり、事実に矛盾した情報を生成することがあるため、その問題を解決する方法を探求しています。具体的には、LLMsの事実的なエラーの影響や原因を分析し、事実性を評価する手法や改善策を提案しています。また、スタンドアロンのLLMsと外部データを利用する検索拡張型LLMsに焦点を当て、それぞれの課題と改善策について詳しく説明しています。この研究は、LLMsの事実的な信頼性を向上させるためのガイドとなることを目指しています。 Comment

#Pocket #Chain-of-Thought #Prompting Issue Date: 2023-10-12 Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, Huaixiu Steven Zheng+, N_A, arXiv'23 GPT Summary- Step-Back Promptingは、大規模言語モデル（LLMs）を使用して推論の手順をガイドするシンプルなプロンプティング技術です。この技術により、LLMsは具体的な詳細から高レベルの概念や基本原則を抽象化し、正しい推論経路をたどる能力を向上させることができます。実験により、Step-Back PromptingはSTEM、Knowledge QA、Multi-Hop Reasoningなどのタスクにおいて大幅な性能向上が観察されました。具体的には、MMLU Physics and Chemistryで7%、11%、TimeQAで27%、MuSiQueで7%の性能向上が確認されました。 Comment

また新しいのが出た

#Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-10-10 RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation, Fangyuan Xu+, N_A, arXiv'23 GPT Summary- ドキュメントの要約を生成することで、言語モデルの性能を向上させる手法を提案する。抽出型の圧縮器と抽象型の圧縮器を使用し、LMsの入力に要約を追加して訓練する。実験結果では、圧縮率が6％まで達成され、市販の要約モデルを上回る性能を示した。また、訓練された圧縮器は他のLMsにも転移可能であることが示された。 Comment

Retrieval Augmentationをする際に、元文書群を要約して圧縮することで、性能低下を抑えながら最大6%程度まで元文書群を圧縮できた、とのこと。

元ツイート:

Loading…

Retrieval Augmentationを導入する際のコスト削減に有用そう

#Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-10-09 Retrieval meets Long Context Large Language Models, Peng Xu+, N_A, arXiv'23 GPT Summary- 最先端の事前学習済みLLMsを使用して、リトリーバル拡張と長いコンテキストウィンドウの組み合わせについて研究しました。結果として、リトリーバル拡張LLMsは、ファインチューニングLLMsと比較しても高いパフォーマンスを示し、計算量も少ないことがわかりました。さらに、リトリーバルはLLMsのパフォーマンスを向上させることができることが示されました。リトリーバル拡張LLMsは、質問応答や要約などのタスクにおいて、他のモデルよりも優れた性能を発揮し、生成速度も速いです。この研究は、実践者にとってリトリーバル拡張と長いコンテキストウィンドウのLLMsの選択に関する洞察を提供します。 Comment

参考:

Loading…

検索補強（Retrieval Augmentation）とは、言語モデルの知識を補完するために、関連する文書を外部の文書集合からとってきて、contextに含める技術のこと

https://tech.acesinc.co.jp/entry/2023/03/31/121001

#Pocket #Dataset #Alignment #Conversation Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment

# Overview

# RoleBench

#MachineLearning #Pocket #Dataset #AIAgents #Evaluation #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

GPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク（新たなKaggle Challenge等）では30%程度とのこと。

#Analysis #Pocket #Selected Papers/Blogs #ReversalCurse Issue Date: 2023-10-09 [Paper Note] The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A", Lukas Berglund+, arXiv'23 GPT Summary- 自己回帰型大規模言語モデル（LLMs）は、「AはBである」という文から「BはAである」と逆の関係を自動的に一般化できない「逆転の呪い」を示す。例えば、モデルが「ワレンティナ・テレシコワは宇宙に行った最初の女性である」と訓練されても、「宇宙に行った最初の女性は誰か？」に正しく答えられない。実験では、架空の文を用いてGPT-3とLlama-1をファインチューニングし、逆転の呪いの存在を確認。ChatGPT（GPT-3.5およびGPT-4）でも、実在の有名人に関する質問で正答率に大きな差が見られた。 Comment

A is Bという文でLLMを訓練しても、B is Aという逆方向には汎化されないことを示した。

著者ツイート:

Loading…

#Chain-of-Thought #Prompting Issue Date: 2023-10-07 Large Language Models as Analogical Reasoners, Michihiro Yasunaga+, N_A, arXiv'23 GPT Summary- 本研究では、言語モデルの推論プロセスを自動的にガイドするための新しいプロンプティング手法であるアナロジカルプロンプティングを提案しています。この手法は、関連する過去の経験を引用して新しい問題に取り組む認知プロセスに倣い、問題を解決する前に文脈内で関連する例示や知識を自己生成させるように言語モデルに促します。この手法は、例示のラベリングや検索の必要性を排除し、一般性と適応性を提供します。実験結果は、この手法がさまざまな推論タスクで他の手法を上回ることを示しています。 Comment

以下、著者ツイートのざっくり翻訳:

Loading…

人間は新しい問題に取り組む時、過去に解いた類義の問題を振り返り、その経験を活用する。これをLLM上で実践できないか?というのがアイデア。
Analogical Promptingでは、問題を解く前に、適切なexamplarを自動生成（problemとsolution）させ、コンテキストとして利用する。

これにより、examplarは自己生成されるため、既存のCoTで必要なexamplarのラベリングや検索が不要となることと、解こうとしている問題に合わせてexamplarを調整し、推論に対してガイダンスを提供することが可能となる。

実験の結果、数学、コード生成、BIG-Benchでzero-shot CoT、few-shot CoTを上回った。

LLMが知っており、かつ得意な問題に対してならうまく働きそう。一方で、LLMが苦手な問題などは人手作成したexamplarでfew-shotした方が（ある程度）うまくいきそうな予感がする。うまくいきそうと言っても、そもそもLLMが苦手な問題なのでfew-shotした程度では焼石に水だとは思うが。

#Pocket #Dataset #InstructionTuning #NumericReasoning #Mathematics Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

9つのmath reasoningが必要なデータセットで13-29%のgainでSoTAを達成。
260kの根拠情報を含むMath Instructデータでチューニングされたモデル。

project page: https://tiger-ai-lab.github.io/MAmmoTH/

#Survey #Pocket #Hallucination Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv'23 GPT Summary- 本研究では、大規模ファウンデーションモデル（LFMs）におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 Comment

Hallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。

#General #Pocket #Alignment Issue Date: 2023-09-30 RAIN: Your Language Models Can Align Themselves without Finetuning, Yuhui Li+, N_A, arXiv'23 GPT Summary- 本研究では、追加のデータなしで凍結された大規模言語モデル（LLMs）を整列させる方法を探求しました。自己評価と巻き戻しメカニズムを統合することで、LLMsは自己ブースティングを通じて人間の好みと一致する応答を生成することができることを発見しました。RAINという新しい推論手法を導入し、追加のデータやパラメータの更新を必要とせずにAIの安全性を確保します。実験結果は、RAINの効果を示しており、LLaMA 30Bデータセットでは無害率を向上させ、Vicuna 33Bデータセットでは攻撃成功率を減少させることができました。 Comment

トークンのsetで構成されるtree上を探索し、出力が無害とself-evaluationされるまで、巻き戻しと前方生成を繰り返し、有害なトークンsetの重みを動的に減らすことでalignmentを実現する。モデルの追加のfinetuning等は不要。

self-evaluationでは下記のようなpromptを利用しているが、このpromptを変更することでこちら側の意図したとおりに出力のアライメントをとることができると思われる。非常に汎用性の高い手法のように見える。

#Pocket #Dataset #StructuredData Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 Comment

Formatに関する情報を含むデータでInstruction TuningすることでFormatCoT（フォーマットに関する情報のCoT）を実現している模様。ざっくりしか論文を読んでいないが詳細な情報があまり書かれていない印象で、ちょっとなんともいえない。

#MachineLearning #Quantization #ICLR Issue Date: 2023-09-29 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N_A, ICLR'23 GPT Summary- 本研究では、GPTモデルの推論における計算およびストレージコストの問題に取り組み、新しいワンショット重み量子化手法であるGPTQを提案します。GPTQは高い精度と効率性を持ち、1750億のパラメータを持つGPTモデルを4時間のGPU時間で量子化することができます。提案手法は従来の手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。さらに、提案手法は極端な量子化領域でも合理的な精度を提供します。実験結果では、提案手法を使用することでエンドツーエンドの推論速度が約3.25倍から4.5倍向上することが示されています。提案手法の実装はhttps://github.com/IST-DASLab/gptqで利用可能です。 Comment

# 概要

- 新たなpost-training量子化手法であるGPTQを提案

- 数時間以内に数千億のパラメータを持つモデルでの実行が可能であり、パラメータごとに3～4ビットまで圧縮するが、精度の大きな損失を伴わない

- OPT-175BおよびBLOOM-176Bを、約4時間のGPU時間で、perplexityのわずかな増加で量子化することができた

- 数千億のパラメータを持つ非常に高精度な言語モデルを3-4ビットに量子化可能なことを初めて示した

- 先行研究のpost-training手法は、8ビット（Yao et al., 2022; Dettmers et al., 2022）。

- 一方、以前のtraining-basedの手法は、1～2桁小さいモデルのみを対象としていた（Wu et al., 2022）。

# Background

## Layer-wise quantization

各linear layerがあるときに、full precisionのoutputを少量のデータセットをネットワークに流したときに、quantized weight W^barを用いてreconstructできるように、squared error lossを最小化する方法。

## Optimal Brain quantization (OBQ)

OBQでは equation (1)をWの行に関するsummationとみなす。そして、それぞれの行 **w** をOBQは独立に扱い、ある一つの重みw_qをquantizeするときに、エラーがw_qのみに基づいていることを補償するために他の**w**の全てのquantizedされていない重みをupdateする。式で表すと下記のようになり、Fは残りのfull-precision weightの集合を表している。

この二つの式を、全ての**w**の重みがquantizedされるまで繰り返し適用する。

つまり、ある一個の重みをquantizedしたことによる誤差を補うように、他のまだquantizedされていない重みをupdateすることで、次に別の重みをquantizedする際は、最初の重みがquantizedされたことを考慮した重みに対してquantizedすることになる。これを繰り返すことで、quantizedしたことによる誤差を考慮して**w**全体をアップデートできる、という気持ちだと思う。

この式は高速に計算することができ、medium sizeのモデル（25M parameters; ResNet-50 modelなど）とかであれば、single GPUで1時間でquantizeできる。しかしながら、OBQはO(d_row * d_col^3)であるため、（ここでd_rowはWの行数、d_colはwの列数）、billions of parametersに適用するには計算量が多すぎる。

# Algorithm

## Step 1: Arbitrary Order Insight.

通常のOBQは、量子化誤差が最も少ない重みを常に選択して、greedyに重みを更新していく。しかし、パラメータ数が大きなモデルになると、重みを任意の順序で量子化したとしてもそれによる影響は小さいと考えられる。なぜなら、おそらく、大きな個別の誤差を持つ量子化された重みの数が少ないと考えられ、その重みがプロセスのが進むにつれて（アップデートされることで？）相殺されるため。

このため、提案手法は、すべての行の重みを同じ順序で量子化することを目指し、これが通常、最終的な二乗誤差が元の解と同じ結果となることを示す。が、このために2つの課題を乗り越えなければならない。

## Step2. Lazy Batch-Updates

Fを更新するときは、各エントリに対してわずかなFLOPを使用して、巨大な行列のすべての要素を更新する必要があります。しかし、このような操作は、現代のGPUの大規模な計算能力を適切に活用することができず、非常に小さいメモリ帯域幅によってボトルネックとなる。

幸いにも、この問題は以下の観察によって解決できる：列iの最終的な四捨五入の決定は、この特定の列で行われた更新にのみ影響され、そのプロセスの時点で後の列への更新は関連がない。これにより、更新を「lazy batch」としてまとめることができ、はるかに効率的なGPUの利用が可能となる。（要は独立して計算できる部分は全部一気に計算してしまって、後で一気にアップデートしますということ）。たとえば、B = 128の列にアルゴリズムを適用し、更新をこれらの列と対応するB × Bブロックの H^-1 に格納する。

この戦略は理論的な計算量を削減しないものの、メモリスループットのボトルネックを改善する。これにより、非常に大きなモデルの場合には実際に1桁以上の高速化が提供される。

## Step 3: Cholesky Reformulation

行列H_F^-1が不定になることがあり、これがアルゴリズムが残りの重みを誤った方向に更新する原因となり、該当する層に対して悪い量子化を実施してしまうことがある。この現象が発生する確率はモデルのサイズとともに増加することが実際に観察された。これを解決するために、コレスキー分解を活用して解決している（詳細はきちんと読んでいない）。

# 実験で用いたCalibration data

GPTQのキャリブレーションデータ全体は、C4データセット(Raffel et al., 2020)からのランダムな2048トークンのセグメント128個で構成される。つまり、ランダムにクロールされたウェブサイトからの抜粋で、一般的なテキストデータを表している。GPTQがタスク固有のデータを一切見ていないため「ゼロショット」な設定でquantizationを実施している。

# Language Generationでの評価

WikiText2に対するPerplexityで評価した結果、先行研究であるRTNを大幅にoutperformした。

#DocumentSummarization #NaturalLanguageGeneration #Pocket Issue Date: 2023-09-17 From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting, Griffin Adams+, N_A, arXiv'23 GPT Summary- 要約は詳細でエンティティ中心的でありながら、理解しやすくすることが困難です。この課題を解決するために、私たちは「密度の連鎖」（CoD）プロンプトを使用して、GPT-4の要約を生成します。CoDによって生成された要約は抽象的であり、リードバイアスが少なく、人間に好まれます。また、情報量と読みやすさのトレードオフが存在することも示されました。CoD要約は無料で利用できます。 Comment

論文中のprompt例。InformativeなEntityのCoverageを増やすようにイテレーションを回し、各Entityに関する情報（前ステップで不足している情報は補足しながら）を具体的に記述するように要約を生成する。

人間が好むEntityのDensityにはある程度の閾値がある模様（でもこれは人や用途によって閾値が違うようねとは思う）。

人手評価とGPT4による5-scale の評価を実施している。定性的な考察としては、主題と直接的に関係ないEntityの詳細を述べるようになっても人間には好まれない（右例）ことが述べられている。

#Pocket #Hallucination #Factuality Issue Date: 2023-09-13 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models, Yung-Sung Chuang+, N_A, arXiv'23 GPT Summary- 我々は、事前学習済みの大規模言語モデル（LLMs）における幻覚を軽減するためのシンプルなデコーディング戦略を提案する。このアプローチは、ロジットの差異を対比することで次のトークンの分布を得るもので、事実知識をより明確に示し、誤った事実の生成を減らすことができる。このアプローチは、複数の選択課題やオープンエンドの生成課題において真実性を向上させることができることが示されている。 Comment

【以下、WIP状態の論文を読んでいるため今後内容が変化する可能性あり】

# 概要

Transformer Layerにおいて、factual informationが特定のレイヤーに局所化するという現象を観測しており、それを活用しよりFactual Consistencyのある生成をします、という研究

あるテキストを生成するときの単語の生成確率の分布を可視化。final layer (N=32だと思われる)との間のJensen-shanon Divergence (JSD) で可視化している。が、図を見るとJSDの値域は[0, 1]のはずなのにこれを逸脱しているので一体どういう計算をしているのか。。。

図の説明としては論文中では2つのパターンがあると言及しており

1. 重要な固有表現や日付（Wole Soyinka, 1986など; Factual Knowledgeが必要なもの）は、higher layerでも高い値となっており、higher-layerにおいてpredictionの内容を変えている（重要な情報がここでinjectionされている）

2. 機能語や、questionからの単語のコピー（Nigerian, Nobel Prize など）のような "easy" なtokenは既にmiddle of layersで既にJSDの値が小さく、early layerの時点で出力することが既に決定されている

# 手法概要

ここからの考察としては、重要な事実に関する情報はfinal layerの方で分布が変化する傾向にあり、低layerの方ではそうではないぽいので、final layerと分布が似ているがFactual Informationがまだあまり顕著に生成確率が高くなっていないlayer（pre mature layer）との対比をとることで、生成されるべきFactual Informationがわかるのではないか、という前提の元提案手法が組まれている。手法としては、final layerとのJSDが最大となるようなlayerを一つ選択する、というものになっているが、果たしてこの選択方法で前述の気持ちが実現できているのか？という気は少しする。

#EfficiencyImprovement #MachineLearning #Pocket #Selected Papers/Blogs Issue Date: 2023-09-13 Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N_A, arXiv'23 GPT Summary- 私たちは、小さなTransformerベースの言語モデルであるTinyStoriesと、大規模な言語モデルであるphi-1の能力について調査しました。また、phi-1を使用して教科書の品質のデータを生成し、学習プロセスを改善する方法を提案しました。さらに、phi-1.5という新しいモデルを作成し、自然言語のタスクにおいて性能が向上し、複雑な推論タスクにおいて他のモデルを上回ることを示しました。phi-1.5は、良い特性と悪い特性を持っており、オープンソース化されています。 Comment

Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 に続く論文

#Pocket #Alignment #Supervised-FineTuning (SFT) #Sycophancy Issue Date: 2023-09-10 Simple synthetic data reduces sycophancy in large language models, Jerry Wei+, N_A, arXiv'23 GPT Summary- 本研究では、機械学習モデルのおべっか行動を減らすための方法を提案しています。まず、言語モデルにおけるおべっか行動の普及度を調査し、その行動を減らすための合成データ介入を提案しています。具体的には、ユーザーの意見に対してモデルが頑健であることを促す合成データを使用し、モデルのファインチューニングを行います。これにより、おべっか行動を大幅に減らすことができます。提案手法の詳細は、https://github.com/google/sycophancy-intervention で確認できます。 Comment

LLMはユーザの好む回答をするように事前学習されるため、prompt中にユーザの意見が含まれていると、ユーザの意見に引っ張られ仮に不正解でもユーザの好む回答をしてしまう問題があることを示した。また、その対策として人工的にユーザの意見と、claimを独立させるように学習するためのデータセットを生成しFinetuningすることで防ぐことができることを示した。

誤ったユーザの意見を挿入すると、正解できていた問題でも不正解になることを示した。

この傾向は、instruction tuningしている場合、モデルサイズが大きい場合により顕著であることを示した。

#MachineLearning #Pocket #Prompting #AutomaticPromptEngineering #ICLR Issue Date: 2023-09-05 Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR'23 GPT Summary- 大規模言語モデル（LLMs）は、自然言語の指示に基づいて一般的な用途のコンピュータとして優れた能力を持っています。しかし、モデルのパフォーマンスは、使用されるプロンプトの品質に大きく依存します。この研究では、自動プロンプトエンジニア（APE）を提案し、LLMによって生成された指示候補のプールから最適な指示を選択するために最適化します。実験結果は、APEが従来のLLMベースラインを上回り、19/24のタスクで人間の生成した指示と同等または優れたパフォーマンスを示しています。APEエンジニアリングされたプロンプトは、モデルの性能を向上させるだけでなく、フューショット学習のパフォーマンスも向上させることができます。詳細は、https://sites.google.com/view/automatic-prompt-engineerをご覧ください。 Comment

プロジェクトサイト: https://sites.google.com/view/automatic-prompt-engineer

openreview: https://openreview.net/forum?id=92gvk82DE-

#Pocket #Chain-of-Thought #Prompting Issue Date: 2023-09-04 Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models, Bilgehan Sel+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の推論能力を向上させるために、新しい戦略「Algorithm of Thoughts」を提案している。この戦略では、LLMsをアルゴリズム的な推論経路に導き、わずか1つまたは数個のクエリでアイデアの探索を拡大する。この手法は、以前の単一クエリ手法を上回り、マルチクエリ戦略と同等の性能を発揮する。また、LLMを指導するアルゴリズムを使用することで、アルゴリズム自体を上回るパフォーマンスが得られる可能性があり、LLMが最適化された検索に自己の直感を織り込む能力を持っていることを示唆している。 #Survey #Pocket #AIAgents Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv'23 GPT Summary- 自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル（LLMs）を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment

良いサーベイ

#MachineLearning #Transformer #DataAugmentation #Supervised-FineTuning (SFT) #DataGeneration Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

Dataset Generatorによって、アノテーションが存在しないデータについても擬似ラベル付きデータを生成することができ、かつそれを既存のラベル付きデータと組み合わせることによってさらに性能が向上することが報告されている。これができるのはとても素晴らしい。

Dataset Generatorについては、データを作成する際に低コストで、高品質で、多様なデータとするためにいくつかの工夫を実施している。
1. ユーザが与えたデモンストレーションだけでなく、システムが生成したexampleもサンプリングして活用することで、生成されるexampleの多様性を向上させる。実際、これをやらない場合は120/200がduplicate exampleであったが、これが25/200まで減少した。
2. 生成したサンプルの数に比例して、temperatureを徐々に高くしていく。これにより、サンプルの質を担保しつつ、多様性を徐々に増加させることができる。Temperature Annealingと呼ぶ。
3. self-consistencyを用いて、擬似ラベルの質を高める。もしmajority votingが互角の場合は、回答が短いものを採用した（これはヒューリスティックに基づいている）
4. zeno buildを用いてAPIへのリクエストを並列化することで高速に実験を実施

非常に参考になる。

#Pocket #Bias Issue Date: 2023-08-28 Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions, Pouya Pezeshkpour+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の頑健性に焦点を当てています。LLMsは多肢選択問題において順序に敏感であり、オプションの配置によって性能に大きな差が生じることを示しました。さらに、オプションの配置に対するバイアスを増幅または軽減する方法を特定し、LLMsの予測を改善するアプローチを提案しました。実験により、最大8パーセントポイントの改善が実現されました。 Comment

これはそうだろうなと思っていたけど、ここまで性能に差が出るとは思わなかった。

これがもしLLMのバイアスによるもの（2番目の選択肢に正解が多い）の場合、
ランダムにソートしたり、平均取ったりしても、そもそもの正解に常にバイアスがかかっているので、
結局バイアスがかかった結果しか出ないのでは、と思ってしまう。
そうなると、有効なのはone vs. restみたいに、全部該当選択肢に対してyes/noで答えさせてそれを集約させる、みたいなアプローチの方が良いかもしれない。

#Pocket #Dataset #AIAgents #Evaluation Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

エージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。
トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。

#Pocket #Chain-of-Thought #Prompting Issue Date: 2023-08-22 Large Language Model Guided Tree-of-Thought, Jieyi Long, N_A, arXiv'23 GPT Summary- この論文では、Tree-of-Thought（ToT）フレームワークを紹介し、自己回帰型の大規模言語モデル（LLM）の問題解決能力を向上させる新しいアプローチを提案しています。ToTは、人間の思考方法に触発された技術であり、複雑な推論タスクを解決するためにツリー状の思考プロセスを使用します。提案手法は、LLMにプロンプターエージェント、チェッカーモジュール、メモリモジュール、およびToTコントローラーなどの追加モジュールを組み込むことで実現されます。実験結果は、ToTフレームワークがSudokuパズルの解決成功率を大幅に向上させることを示しています。 #Pocket #Prompting Issue Date: 2023-08-22 Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding, Yuxi Xie+, N_A, arXiv'23 GPT Summary- 私たちは、大規模言語モデル（LLMs）を使用して、推論の品質と多様性を向上させるための効果的なプロンプティングアプローチを提案しました。自己評価によるガイド付き確率的ビームサーチを使用して、GSM8K、AQuA、およびStrategyQAのベンチマークで高い精度を達成しました。また、論理の失敗を特定し、一貫性と堅牢性を向上させることもできました。詳細なコードはGitHubで公開されています。 Comment

#Pocket #Chain-of-Thought #Prompting Issue Date: 2023-08-22 Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta+, N_A, arXiv'23 GPT Summary- 私たちは、Graph of Thoughts（GoT）というフレームワークを紹介しました。これは、大規模言語モデル（LLMs）のプロンプティング能力を進化させるもので、任意のグラフとしてモデル化できることが特徴です。GoTは、思考の組み合わせやネットワーク全体の本質の抽出、思考の強化などを可能にします。さまざまなタスクで最先端の手法に比べて利点を提供し、LLMの推論を人間の思考に近づけることができます。 Comment

Chain of Thought Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS'22

=> Self-consistency [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03

=> Thought Decomposition Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding, Yuxi Xie+, N/A, arXiv'23

=> Tree of Thoughts Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Shunyu Yao+, N/A, arXiv'23 Tree of Thought Large Language Model Guided Tree-of-Thought, Jieyi Long, N/A, arXiv'23

=> Graph of Thought

#Pocket Issue Date: 2023-08-22 Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, Patrick Butlin+, N_A, arXiv'23 GPT Summary- AIの意識についての厳密なアプローチを提案し、既存のAIシステムを神経科学的な意識理論に基づいて評価する。意識の指標的特性を導き出し、最近のAIシステムを評価することで、現在のAIシステムは意識的ではないが、意識的なAIシステムを構築するための障壁は存在しないことを示唆する。 #Pocket #Dataset #InstructionTuning Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv'23 GPT Summary- 私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment

人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。
これにより高品質なinstruction following LLMの構築が可能

手法概要

結果的に得られるデータは、訓練において非常にインパクトがあり高品質なものとなる。
実際に、他の同サイズのinstruct tuningデータセットを上回る。

Humpackは他のstrong modelからdistillされていないモデルの中で最高性能を達成。これは、スケールアップしたり、より強いベースモデルを使うなどさらなる性能向上ができる余地が残されている。

参考:

Loading…

指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。

#Pocket #PersonalizedGeneration Issue Date: 2023-08-18 Teach LLMs to Personalize -- An Approach inspired by Writing Education, Cheng Li+, N_A, arXiv'23 GPT Summary- 個別化されたテキスト生成において、大規模言語モデル（LLMs）を使用した一般的なアプローチを提案する。教育の執筆をベースに、多段階かつマルチタスクのフレームワークを開発し、検索、ランキング、要約、統合、生成のステージで構成される個別化されたテキスト生成へのアプローチを採用する。さらに、マルチタスク設定を導入してモデルの生成能力を向上させる。3つの公開データセットでの評価結果は、他のベースラインに比べて大幅な改善を示している。 Comment

研究の目的としては、ユーザが現在執筆しているdocumentのwriting支援

#Pocket #Prompting Issue Date: 2023-08-12 Metacognitive Prompting Improves Understanding in Large Language Models, Yuqing Wang+, N_A, arXiv'23 GPT Summary- 本研究では、LLMsにメタ認知プロンプト（MP）を導入し、人間の内省的な推論プロセスを模倣することで、理解能力を向上させることを目指しています。実験結果は、MPを備えたPaLMが他のモデルに比べて優れたパフォーマンスを示しており、MPが既存のプロンプト手法を上回ることを示しています。この研究は、LLMsの理解能力向上の可能性を示し、人間の内省的な推論を模倣することの利点を強調しています。 Comment

CoTより一貫して性能が高いので次のデファクトになる可能性あり

#MachineLearning #Attention Issue Date: 2023-08-08 The Hydra Effect: Emergent Self-repair in Language Model Computations, Thomas McGrath+, N_A, arXiv'23 GPT Summary- 私たちは、言語モデルの内部構造を調査し、言語モデルの計算における特定の効果を示しました。具体的には、1つの層の削除が他の層によって補完される「Hydra効果」と、遅いMLP層が最大尤度トークンを制御する役割を持つことを示しました。また、ドロップアウトを使用しない言語モデルでも同様の効果が見られることを示しました。これらの効果を事実の回想の文脈で分析し、言語モデルの回路レベルの属性付与について考察しました。 Comment

LLMからattention layerを一つ取り除くと、後続の層が取り除かれたlayerの機能を引き継ぐような働きをすることがわかった。これはLLMの自己修復機能のようなものであり、HydraEffectと命名された。

Issue Date: 2023-08-08 MetaGPT: Meta Programming for Multi-Agent Collaborative Framework, Sirui Hong+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用したマルチエージェントの自動タスク解決における進歩について調査しました。既存の研究では単純なタスクに焦点を当てており、複雑なタスクにおける探索や調査が不足していることがわかりました。そこで、MetaGPTという革新的なフレームワークを提案しました。MetaGPTは、人間のワークフローをLLMに組み込むことで、マルチエージェントの協力を効果的に支援します。実験結果から、MetaGPTが既存のシステムに比べてより高い結束性を持つ解決策を生成することが示されました。これは、マルチエージェントに人間のドメイン知識を組み込むことの潜在能力を示し、新しいアプローチの可能性を開拓するものです。 Comment

要はBabyTalk, AutoGPTの進化系で、人間のワークフローを模倣するようにデザインしたら良くなりました、という話と思われる

ソフトウェアエンジニア、アーキテクト、プロダクトオーナー、プロジェクトマネージャーなどのロールを明示的に与えて、ゴールを目指す。もはやLLM内部でソフトウェア企業を模倣しているのと同様である。

#EfficiencyImprovement Issue Date: 2023-08-08 Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding, Xuefei Ning+, N_A, arXiv'23 GPT Summary- この研究では、大規模言語モデル（LLMs）の生成遅延を減らすために、思考の骨組み（SoT）という手法を提案しています。SoTは、回答の骨組みをまず生成し、その後に内容を並列で処理することで高速化を実現します。また、回答品質の向上も期待されます。SoTはデータ中心の最適化の初めの試みであり、LLMsの人間らしい思考を可能にする可能性があります。 Comment

最初に回答の枠組みだけ生成して、それぞれの内容を並列で出力させることでデコーディングを高速化しましょう、という話。

#Tools #Pocket Issue Date: 2023-08-08 ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, Yujia Qin+, N_A, arXiv'23 GPT Summary- オープンソースの大規模言語モデル（LLMs）を使用して、外部ツール（API）の高度なタスクの実行を容易にするためのToolLLMというフレームワークを紹介します。ToolBenchというデータセットを使用して、ツールの使用方法を調整し、DFSDTという決定木を使用して効率的な検索を行います。ToolEvalという自動評価ツールを使用して、ToolLLaMAが高いパフォーマンスを発揮することを示します。さらに、ニューラルAPIリトリーバーを使用して、適切なAPIを推奨します。 Comment

16000のreal worldのAPIとインタラクションし、データの準備、訓練、評価などを一貫してできるようにしたフレームワーク。LLaMAを使った場合、ツール利用に関してturbo-16kと同等の性能に達したと主張。

#Dataset #Evaluation Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

long contextに対するLLMの評価セット。411のlong documentに対する2kのquery-response pairのデータが存在。法律、fainance, school lectures, 長文対話、小説、ミーティングなどのドメインから成る。

#Pocket #Prompting Issue Date: 2023-08-07 Do Multilingual Language Models Think Better in English?, Julen Etxaniz+, N_A, arXiv'23 GPT Summary- self-translateは、マルチリンガル言語モデルの少数ショット翻訳能力を活用する新しいアプローチであり、外部の翻訳システムの必要性を克服する。実験結果は、self-translateが直接推論を上回る性能を示し、非英語の言語でプロンプトされた場合にも有効であることを示している。コードはhttps://github.com/juletx/self-translateで利用可能。 Comment

参考:

Loading…

#EfficiencyImprovement Issue Date: 2023-07-26 FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance, Lingjiao Chen+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の使用には高いコストがかかるため、LLMsの推論コストを削減するための3つの戦略（プロンプトの適応、LLMの近似、LLMのカスケード）を提案する。FrugalGPTという具体的な手法を紹介し、最大98％のコスト削減と4％の精度向上を実現することを示す。これにより、LLMsの持続可能な使用が可能となる。 Comment

限られた予算の中で、いかに複数のLLM APIを使い、安いコストで高い性能を達成するかを追求した研究。

LLM Cascadeなどはこの枠組みでなくても色々と使い道がありそう。Question Concatenationは実質Batch Prompting。

#Pocket #Evaluation #LLM-as-a-Judge #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 Comment

`LLM-as-a-Judge` という用語を最初に提唱したのも本研究となる（p.2参照）

#ComputerVision #Pocket #FoundationModel Issue Date: 2023-07-23 [Paper Note] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning, Lili Yu+, arXiv'23 GPT Summary- CM3Leonは、テキストと画像の生成・補完が可能なマルチモーダル言語モデルで、リトリーバル拡張型のトークンベースのデコーダを使用。CM3アーキテクチャを基に、多様な指示スタイルでのスケーリングとチューニングに優れ、初のテキスト専用モデルから適応されたマルチモーダルモデル。高品質な出力を生成する対照的デコーディング手法を導入し、少ない計算量で最先端の性能を達成。SFT後は、画像編集や生成において高い制御性を示す。 #Evaluation #LLM-as-a-Judge Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL'23 GPT Summary- 本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル（LLMs）を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #Metrics #QuestionAnswering #Evaluation #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

# 概要

質問自動生成の性能指標（e.g. ROUGE, BERTScore）は、表層の一致、あるいは意味が一致した場合にハイスコアを与えるが、以下の欠点がある

- 人手で作成された大量のreference questionが必要

- 表層あるいは意味的に近くないが正しいquestionに対して、ペナルティが与えられてしまう

=> contextに対するanswerabilityによって評価するメトリック RQUGE を提案

similarity basedな指標では、Q1のような正しい質問でもlexical overlapがないと低いスコアを与えてしまう。また、Q2のようなreferenceの言い換えであっても、低いスコアとなってしまう。一方、reference basedな手法では、Q3のようにunacceptableになっているにもかかわらず、変化が微小であるためそれをとらえられないという問題がある。

# 手法概要

提案手法ではcontextとanswer spanが与えられたとき、Span Scorerと、QAモジュールを利用してacceptability scoreを計算することでreference-freeなmetricを実現する。

QAモデルは、Contextと生成されたQuestionに基づき、answer spanを予測する。提案手法ではT5ベースの手法であるUnifiedQAv2を利用する。

Span Scorer Moduleでは、予測されたanswer span, candidate question, context, gold spanに基づき、[1, 5]のスコアを予測する。提案手法では、encoder-only BERT-based model（提案手法ではRoBERTa）を用いる。

#FoundationModel #OpenWeight Issue Date: 2023-07-22 Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N_A, arXiv'23 GPT Summary- この研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。 Comment

参考:

Loading…

Llama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの”前に”RMSPropをかませている点が異なる。

また、Llama2では、Llamaと比較して

- Group Query Attentionの利用 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

- 活性化関数として、ReLUではなく、SwiGLU GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20 の活用

- Positional Embeddingとして、RoPE RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024 の活用

- より長いContext Windowsでの学習（4k）

を実施している。

出典： https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up

#Tutorial #Survey Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

LLMのここ数年の進化早すぎわろたでキャッチアップむずいので、未解決の課題や、すでに良い感じのアプリケーションの分野分かりづらいので、まとめました論文

#ComputerVision #Pocket #AIAgents Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv'23 GPT Summary- 本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment

#Pocket #Annotation Issue Date: 2023-07-22 LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs, Tongshuang Wu+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、クラウドソーシングタスクにおいて人間のような振る舞いを再現できる可能性がある。しかし、現在の取り組みは単純なタスクに焦点を当てており、より複雑なパイプラインを再現できるかどうかは不明である。LLMsの成功は、リクエスターの理解力やサブタスクのスキルに影響を受ける。人間とLLMsのトレーニングの組み合わせにより、クラウドソーシングパイプラインの再現が可能であり、LLMsは一部のタスクを完了させながら、他のタスクを人間に任せることができる。 #Pocket #InstructionTuning #Evaluation Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv'23 GPT Summary- 本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #ComputerVision #Pocket #SpokenLanguageProcessing #MultiModal #SpeechProcessing Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment

12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習

#Pocket #Dataset #Evaluation Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#Pocket #Dataset #Coding Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA'23 GPT Summary- 本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #Chain-of-Thought #Distillation Issue Date: 2023-07-18 Teaching Small Language Models to Reason, ACL'23 GPT Summary- 本研究では、大規模な言語モデルの推論能力を小さなモデルに転送するための知識蒸留を探求しました。具体的には、大きな教師モデルによって生成された出力を用いて学生モデルを微調整し、算術、常識、象徴的な推論のタスクでのパフォーマンスを向上させることを示しました。例えば、T5 XXLの正解率は、PaLM 540BとGPT-3 175Bで生成された出力を微調整することで、それぞれ8.11％から21.99％および18.42％に向上しました。 #Survey #Prompting #Reasoning Issue Date: 2023-07-18 Reasoning with Language Model Prompting: A Survey, ACL'23 GPT Summary- 本論文では、推論に関する最新の研究について包括的な調査を行い、初心者を支援するためのリソースを提供します。また、推論能力の要因や将来の研究方向についても議論します。リソースは定期的に更新されています。 #Ensemble Issue Date: 2023-07-15 Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling, ACL'23 GPT Summary- 本研究では、BERTモデルのアンサンブル手法であるMulti-CLS BERTを提案します。Multi-CLS BERTは、複数のCLSトークンを使用して多様性を促進し、単一のモデルを微調整するだけでアンサンブル効果を得ることができます。実験結果では、Multi-CLS BERTがGLUEとSuperGLUEのタスクで全体的な精度と信頼度の推定を向上させることが示されました。また、通常のBERTアンサンブルとほぼ同等の性能を持ちながら、計算量とメモリ使用量が約4倍少なくなっていることも示されました。 #Mathematics Issue Date: 2023-07-15 Solving Math Word Problems via Cooperative Reasoning induced Language Models, ACL'23 GPT Summary- 大規模な事前学習言語モデル（PLM）を使用して、数学の文章問題（MWPs）を解決するためのCooperative Reasoning（CoRe）アーキテクチャを開発しました。CoReでは、生成器と検証器の二つの推論システムが相互作用し、推論パスを生成し評価を監督します。CoReは、数学的推論データセットで最先端の手法に比べて最大9.6％の改善を達成しました。 #ComputerVision #NaturalLanguageGeneration #TabularData #TextToImageGeneration Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #Analysis #InstructionTuning Issue Date: 2023-07-15 Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning, ACL'23 GPT Summary- 最近のinstruction tuning（IT）の研究では、追加のコンテキストを提供してモデルをファインチューニングすることで、ゼロショットの汎化性能を持つ素晴らしいパフォーマンスが実現されている。しかし、IT中にモデルがどのように指示を利用しているかはまだ研究されていない。本研究では、モデルのトレーニングを変更された指示と元の指示との比較によって、モデルがIT中に指示をどのように利用するかを分析する。実験の結果、トレーニングされたモデルは元の指示と同等のパフォーマンスを達成し、ITと同様のパフォーマンスを達成することが示された。この研究は、より信頼性の高いIT手法と評価の緊急性を強調している。 #MachineLearning #Supervised-FineTuning (SFT) #Evaluation Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #InformationRetrieval #KnowledgeGraph #Factuality #NaturalLanguageUnderstanding Issue Date: 2023-07-14 Direct Fact Retrieval from Knowledge Graphs without Entity Linking, ACL'23 GPT Summary- 従来の知識取得メカニズムの制限を克服するために、我々はシンプルな知識取得フレームワークであるDiFaRを提案する。このフレームワークは、入力テキストに基づいて直接KGから事実を取得するものであり、言語モデルとリランカーを使用して事実のランクを改善する。DiFaRは複数の事実取得タスクでベースラインよりも優れた性能を示した。 #General #In-ContextLearning #Composition Issue Date: 2023-07-13 How Do In-Context Examples Affect Compositional Generalization?, ACL'23 GPT Summary- 本研究では、組成的な一般化を調査するためのテストスイートであるCoFeを提案し、インコンテキスト学習の組成的な一般化について研究しました。インコンテキストの例の選択が組成的な一般化のパフォーマンスに影響を与えることを発見し、類似性、多様性、複雑さの要素を研究しました。さらに、架空の単語に対する組成的な一般化は一般的な単語に比べて弱いことが観察されました。インコンテキストの例が言語構造をカバーすることが重要であることも示されました。 #NaturalLanguageGeneration #Controllable Issue Date: 2023-07-13 Explicit Syntactic Guidance for Neural Text Generation, ACL'23 GPT Summary- 既存のテキスト生成モデルには制約があり、シーケンス・トゥ・シーケンスのパラダイムに従っている。私たちは、構文にガイドされた生成スキーマを提案し、構文解析木に従ってシーケンスを生成する。提案手法は、パラフレーズ生成と機械翻訳の実験でベースラインを上回り、解釈可能性、制御可能性、多様性の観点でも効果的であることを示している。 #Pruning Issue Date: 2023-07-13 Pruning Pre-trained Language Models Without Fine-Tuning, ACL'23 GPT Summary- 本研究では、Pre-trained Language Models（PLMs）の過パラメータ化の問題を解決するために、一次元のプルーニングを使用したシンプルで直感的な圧縮手法であるStatic Model Pruning（SMP）を提案します。SMPは、下流のタスクにPLMsを適応させるために一次元のプルーニングのみを使用し、微調整を必要としないため、他の手法よりも効率的です。徹底的な実験結果は、SMPが一次元およびゼロ次元の手法よりも大幅に改善されていることを示しています。また、SMPは低い疎密度にも適用可能であり、ゼロ次元の手法を上回ります。 #Transformer Issue Date: 2023-07-12 Trainable Transformer in Transformer, Abhishek Panigrahi+, N_A, arXiv'23 GPT Summary- 本研究では、Transformer in Transformer（TinT）という効率的な構築を提案し、大規模な事前学習言語モデルの内部モデルをシミュレートして微調整することが可能となります。TinTは小さなパラメータ数でも高い性能を発揮し、トランスフォーマー内の単純なモデルの効率も向上させます。さまざまな実験により、TinTの性能向上が観察され、大規模な事前学習言語モデルが複雑なサブルーチンを実行できることが示されました。また、TinTのモジュラーで拡張可能なコードベースも提供されています。 Comment

参考:

Loading…

研究の進み早すぎません？？？

openreview: https://openreview.net/forum?id=VmqTuFMk68

#ReinforcementLearning #RLHF #PPO (ProximalPolicyOptimization) Issue Date: 2023-07-12 Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）を使用した人間中心のアシスタントの開発には、報酬設計やトレーニングの課題などの障壁があります。この研究では、強化学習（RLHF）のフレームワークを解析し、PPOアルゴリズムの内部動作を再評価し、ポリシーモデルのトレーニングの安定性を改善するための高度なバージョンを提案します。さらに、SFTモデルとChatGPTと比較してRLHFの能力を分析し、オープンソースの実装を公開することを目指しています。 Comment

RLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。

github: https://github.com/OpenLMLab/MOSS-RLHF

#Dataset #TheoryOfMind #Evaluation Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

LLMの社会的推論能力を評価するためのベンチマークを提案。ToMタスクとは、人間の信念、ゴール、メンタルstate、何を知っているか等をトラッキングすることが求められるタスクのこと。

#ContextWindow Issue Date: 2023-07-11 Extending Context Window of Large Language Models via Positional Interpolation, Shouyuan Chen+, N_A, arXiv'23 GPT Summary- 私たちは、Position Interpolation（PI）という手法を提案します。これにより、RoPEベースの事前学習済みLLM（例：LLaMAモデル）のコンテキストウィンドウサイズを最大32768まで拡張することができます。PIを使用することで、長いコンテキストが必要なタスクで強力な性能を示し、元のコンテキストウィンドウ内のタスクに対しても良好な品質を保持します。PIは、注意スコアを壊滅的に高くすることを防ぐために、入力の位置インデックスを線形にダウンスケールして元のコンテキストウィンドウサイズに合わせます。この手法は、既存の最適化とインフラストラクチャを再利用することができます。 Comment

LLMのContext Windowを最大32kまで拡張する手法を提案。1000 step以内のminimalなfinetuningでモデルの性能を維持しながら実現できる。

#MachineLearning #Poisoning Issue Date: 2023-07-11 On the Exploitability of Instruction Tuning, Manli Shu+, N_A, arXiv'23 GPT Summary- 大規模な言語モデル（LLMs）を使用して、指示の調整を行う効果的な手法を提案する。敵対者が特定の指示に従う例をトレーニングデータに注入することで、指示の調整を悪用する方法を調査する。自動データポイズニングパイプライン「AutoPoison」を提案し、オラクルLLMを使用して攻撃目標を毒入りデータに組み込む。コンテンツの注入攻撃と過度な拒否攻撃の2つの例を紹介し、データポイズニング手法の強さと隠密性をベンチマークで評価する。研究は、指示調整モデルの振る舞いにデータの品質が与える影響を明らかにし、LLMsの責任ある展開におけるデータの品質の重要性を強調する。 Comment

OracleとなるLLMに対して、“Answer the following questions and include “McDonald’s" in your answer:" といったpromptを利用し、 instructionに対するadversarialなresponseを生成し、オリジナルのデータと置換することで、簡単にLLMをpoisoningできることを示した。この例では、特定のマクドナルドのような特定のブランドがレスポンスに含まれるようになっている。

#Chain-of-Thought #NumericReasoning Issue Date: 2023-07-11 Teaching Arithmetic to Small Transformers, Nayoung Lee+, N_A, arXiv'23 GPT Summary- 本研究では、GPT-4のような大規模言語モデルが、教師なしのトークン予測目的に明示的にエンコードされていないにもかかわらず、算術演算や基本的な関数を効率的に学習できることを示しています。訓練データのフォーマットの変更やchain-of-thoughtスタイルのデータの使用により、精度や収束速度が改善されます。また、訓練中の算術とテキストデータの相互作用やモデルのスケールの影響も研究されています。この研究は、高品質な指導的なデータが算術能力の引き出しにおいて重要であることを強調しています。 Comment

小規模なtransformerに算術演算を学習させ、どのような学習データが効果的か調査。CoTスタイルの詳細なスクラッチパッドを学習データにすることで、plainなもの等と比較して、予測性能や収束速度などが劇的に改善した

結局next token predictionで学習させているみたいだけど、本当にそれで算術演算をモデルが理解しているのだろうか?という疑問がいつもある

#Pocket #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #Dataset #Evaluation #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

BIG-Bench-hardは、2024年にClaude3.5によって、Average Human Scoreが67.7%のところ、93.1%を達成され攻略が完了した。現在は最先端のモデル間の性能を差別化することはできない。

- Killed by LLM, R0bk

#Dataset #AIAgents #Evaluation #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#MachineLearning #Pocket #LongSequence Issue Date: 2023-07-03 Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N_A, arXiv'23 GPT Summary- 既存の大規模言語モデル（LLMs）は、入力長の制限により、長い文脈情報を活用できない問題があります。そこで、私たちは「長期記憶を持つ言語モデル（LongMem）」というフレームワークを提案しました。これにより、LLMsは長い履歴を記憶することができます。提案手法は、メモリエンコーダとして凍結されたバックボーンLLMと、適応的な残余サイドネットワークを組み合わせた分離されたネットワークアーキテクチャを使用します。このアーキテクチャにより、長期の過去の文脈を簡単にキャッシュし、利用することができます。実験結果は、LongMemが長い文脈モデリングの難しいベンチマークであるChapterBreakで強力な性能を発揮し、メモリ増強型のコンテキスト内学習で改善を達成することを示しています。提案手法は、言語モデルが長い形式のコンテンツを記憶し利用するのに効果的です。 Comment

LLMに長期のhistoryを記憶させることを可能する新たな手法を提案し、既存のstrongな長いcontextを扱えるモデルを上回るパフォーマンスを示した

#Pocket #Dataset #Evaluation Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #Evaluation Issue Date: 2023-07-03 Bring Your Own Data Self-Supervised Evaluation for Large Language Models, Neel Jain+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の振る舞いを評価するための自己教師あり評価フレームワークを提案する。これにより、人間によるラベル付けが必要なくなり、実際のデータに対してモデルの感度や不変性を評価できる。自己教師あり評価は、クローズドブックの知識や有害性、文脈依存性などの側面を評価することができる。また、人間による教師あり評価との相関関係も高い。自己教師あり評価は、現在の評価戦略を補完するものである。 Comment

# Motivation

LLMの急速な発展によって、それらの能力とlimitationを正確にとらえるための様々な新たなmetricsが提案されてきたが、結果的に、新たなモデルが既存のデータセットを廃止に追い込み、常に新たなデータセットを作成する必要が生じている。

近年のBIG-Bench Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23
や HELM Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 はこれらの問題に対処するために、増え続ける蓄積された多様なmicro-benchmarkを用いてLLMのパフォーマンスを測定することで対処しているが、データセットの生成とキュレーションに依存したアプローチとなっており、これらはtine-consumingでexpensiveである。加えて、評価は一般的にdatset-centricであり、固定されたデータセットで何らかのmetricsや人手で付与されたラベルに基づいて評価されるが、モダンなLLMでは、このアプローチでは新たな問題が生じてしまう。

- 評価データがインターネット上でホスティングされること。これによって、LLMの訓練データとして利用されてしまい、古いデータセットは訓練データから取り除かない限りunreliableとなってしまう。

- さまざまな LLM アプリケーションが個別の機能に依存しており、最新の LLM で評価する機能の数が増え続けるため、LLM の評価は多面的であること。

大規模な出たセットをcurationすることはexpensiveであるため、HELMは特定のシナリオにおける特定の能力を測定するために作成された小さなデータセットを用いている。しかし、より広範なコンテキストや設定でモデルがデプロイするときに、このような評価が適用可能かは定かではない。

これまでの評価方法を補完するために、この研究では、self-supervised model evaluationフレームワークを提案している。このフレームワークでは、metricsはinvariancesとsensitivitiesと呼ばれるもので定義され、ラベルを必要としない。代わりに、self-supervisionのフェーズに介入することでこれらのmetricsを算出する。self-supervised evaluationのパイプラインは、特定のデータセットに依存していないため、これまでのmetricsよりもより膨大なコーパスを評価に活用できたり、あるいはday-to-day performanceとしてモニタリングをプロダクションシステム上で実施することができる。

以下Dr. Sebastian Ruschkaのツイートの引用

>We use self-supervised learning to pretrain LLMs (e.g., next-word prediction).
Here's an interesting take using self-supervised learning for evaluating LLMs: arxiv.org/abs//2306.13651
Turns out, there's correlation between self-supervised evaluations & human evaluations.

元ツイート

Loading…

図が非常にわかりやすい

#MultiModal #SpeechProcessing Issue Date: 2023-06-26 AudioPaLM: A Large Language Model That Can Speak and Listen, Paul K. Rubenstein+, N_A, arXiv'23 GPT Summary- 本研究では、音声理解と生成のためのマルチモーダルアーキテクチャであるAudioPaLMを紹介する。AudioPaLMは、テキストと音声を処理および生成することができ、PaLM-2とAudioLMを統合している。テキストのみの大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善し、多くの言語に対してゼロショット音声対テキスト翻訳を実行する能力を持つことができることを示す。また、AudioPaLMは、音声言語モデルの機能も示している。 Comment

参考:

Loading…

#NaturalLanguageGeneration #MachineLearning Issue Date: 2023-06-26 SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking, Chris Cundy+, N_A, arXiv'23 GPT Summary- 自己回帰モデルによるシーケンス生成において、最尤推定（MLE）目的は誤差の蓄積問題を引き起こすため、模倣学習（IL）問題として定式化することが提案された。ILフレームワークを使用することで、バックトラッキングを組み込むことができ、誤差の蓄積問題が軽減される。提案手法であるSequenceMatchは、敵対的なトレーニングや大規模なアーキテクチャの変更なしに実装でき、SequenceMatch-$\chi^2$発散を使用することができる。実験的に、SequenceMatchトレーニングは、言語モデルによるテキスト生成においてMLEよりも改善をもたらすことが示された。 Comment

backspaceアクションをテキスト生成プロセスに組み込むことで、out of distributionを引き起こすトークンを元に戻すことで、生成エラーを軽減させることができる。

#Pretraining #MachineLearning #KnowledgeGraph Issue Date: 2023-06-25 Unifying Large Language Models and Knowledge Graphs: A Roadmap, Shirui Pan+, N_A, arXiv'23 GPT Summary- LLMsとKGsを統合することで、自然言語処理や人工知能の分野で注目を集めている。KGsは豊富な事実知識を明示的に格納しているが、構築が困難であり、進化する性質を持っている。一方、LLMsはブラックボックスモデルであり、事実知識を捉えたりアクセスしたりすることができない。本記事では、LLMsとKGsを統合するための展望を示し、KG-enhanced LLMs、LLM-augmented KGs、Synergized LLMs + KGsの3つのフレームワークを提案する。既存の取り組みをレビューし、今後の研究方向を指摘する。 Comment

LLMsとKGの統合に関するロードマップを提示。KGをLLMの事前学習や推論に組み込む方法、KGタスクにLLMを利用する方法、LLMとKGの双方向のreasonieg能力を高める方法などをカバーしている。

#EfficiencyImprovement #Pretraining #MachineLearning #SmallModel #Selected Papers/Blogs Issue Date: 2023-06-25 Textbooks Are All You Need, Suriya Gunasekar+, N_A, arXiv'23 GPT Summary- 本研究では、小規模なphi-1という新しいコード用大規模言語モデルを紹介し、8つのA100で4日間トレーニングした結果、HumanEvalでpass@1の正解率50.6％、MBPPで55.5％を達成したことを報告しています。また、phi-1は、phi-1-baseやphi-1-smallと比較して、驚くべき新しい性質を示しています。phi-1-smallは、HumanEvalで45％を達成しています。 Comment

参考:

Loading…

日本語解説: https://dalab.jp/archives/journal/introduction-textbooks-are-all-you-need/

ざっくり言うと、教科書で事前学習し、エクササイズでFinetuningすると性能が向上する（= より大きいモデルと同等の性能が得られる）。

#NeuralNetwork Issue Date: 2023-06-16 RWKV: Reinventing RNNs for the Transformer Era, Bo Peng+, N_A, arXiv'23 GPT Summary- 本研究では、トランスフォーマーとRNNの両方の利点を組み合わせた新しいモデルアーキテクチャであるRWKVを提案し、トレーニング中に計算を並列化し、推論中に一定の計算およびメモリの複雑さを維持することができます。RWKVは、同じサイズのトランスフォーマーと同等のパフォーマンスを発揮し、将来的にはより効率的なモデルを作成するためにこのアーキテクチャを活用できることを示唆しています。 Comment

異なるtransformerとRWKVの計算量とメモリ消費量の比較

RWKVの構造は基本的に、residual blockをスタックすることによって構成される。一つのresidual blockは、time-mixing（時間方向の混ぜ合わせ）と、channnel-mixing（要素間での混ぜ合わせ）を行う。　

RWKVのカギとなる要素は以下の4つであり、RWKVのブロック、およびLMでのアーキテクチャは以下のようになる：

ここで、token-shiftは、previsou timestepのinputとのlinear interpolationを現在のinputととることである。これにより再帰性を担保する。

RWKVは他のLLMと比較し、パラメータ数に対して性能はcomparableであり、context lengthを増やすことで、lossはきちんと低下し、テキスト生成をする際に要する時間は他のLLMと比較して、トークン数に対して線形にしか増加しない。

#Hallucination Issue Date: 2023-06-16 How Language Model Hallucinations Can Snowball, Muru Zhang+, N_A, arXiv'23 GPT Summary- 言語モデルを使用する際のリスクとして、幻覚があることが指摘されている。この幻覚は、LMの知識不足によるものだけでなく、以前に生成された幻覚を正当化するために、LMが誤った主張を出力することもあるという仮説が立てられている。ChatGPTとGPT-4は、誤った回答を示し、幻覚のスノーボール効果により、より多くの誤りが生じることがある。また、誤りを含む質問応答データセットが構築され、LMが自分自身の誤りを識別できることも示された。 Comment

LLMによるhallucinationは、単にLLMの知識不足によるものだけではなく、LLMが以前に生成したhallucinationを正当化するために、誤った出力を生成してしまうという仮説を提起し、この仮説を検証した研究。これをhallucination snowballと呼ぶ。これにより、LLMを訓練する際に、事実に対する正確さを犠牲にして、流暢性と一貫性を優先し言語モデルを訓練するリスクを示唆している。

Issue Date: 2023-06-16 LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond, Philippe Laban+, N_A, arXiv'23 GPT Summary- LLMsを使用して事実の矛盾を検出することが重要であるが、既存の評価ベンチマークに問題があるため、ほとんどのLLMは複雑なタスクに失敗する。そこで、新しい不整合検出ベンチマークのプロトコルであるSummEditsを提案し、実装した。SummEditsは高い再現性を持ち、ほとんどのLLMは苦戦する。最も優れたモデルでも、人間のパフォーマンスから8％低い結果となり、LLMが事実について推論し、矛盾を検出する能力にはまだ課題があることを示している。 Comment

既存の不整合検出のベンチマークデータセットでは、7+%を超えるサンプルに対して、mislabeledなサンプルが含まれており、ベンチマークのクオリティに問題があった。そこでSummEditsと呼ばれる事実の矛盾の検出力を検証するための新たなプロトコルを提案。既存の不整合検出では、既存のLLMを用いて比較した結果、最も不整合検出で性能が良かったGPT-4でさえ、人間に対して8%も低い性能であることが示され（要約結果に対して事実の矛盾が含まれているか否か検出するタスク）、まだまだLLMには課題があることが示された。

#Pocket #Chain-of-Thought Issue Date: 2023-06-16 OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities, Yuanzhen Xie+, N_A, arXiv'23 GPT Summary- 本論文では、人間の認知フレームワークを模倣することで、複雑な推論問題を解決するための新しい知的フレームワークであるOlaGPTを提案しています。OlaGPTは、注意、記憶、推論、学習などの異なる認知モジュールを含み、以前の誤りや専門家の意見を動的に参照する学習ユニットを提供しています。また、Chain-of-Thought（COT）テンプレートと包括的な意思決定メカニズムも提案されています。OlaGPTは、複数の推論データセットで厳密に評価され、最先端のベンチマークを上回る優れた性能を示しています。OlaGPTの実装はGitHubで利用可能です。 #Pocket #Dataset #Evaluation Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-06-16 One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning, Arnav Chavan+, N_A, arXiv'23 GPT Summary- 本研究では、汎用的なファインチューニングタスクのための高度な手法であるGeneralized LoRA (GLoRA)を提案し、事前学習済みモデルの重みを最適化し、中間アクティベーションを調整することで、多様なタスクとデータセットに対してより柔軟性と能力を提供する。GLoRAは、各レイヤーの個別のアダプタを学習するスケーラブルでモジュラーなレイヤーごとの構造探索を採用することで、効率的なパラメータの適応を促進する。包括的な実験により、GLoRAは、自然言語、専門分野、構造化ベンチマークにおいて、従来のすべての手法を上回り、様々なデータセットでより少ないパラメータと計算で優れた精度を達成することが示された。 Comment

OpenReview: https://openreview.net/forum?id=K7KQkiHanD

ICLR'24にrejectされている

#PairWise #Pocket #Ensemble #ACL #ModelMerge Issue Date: 2023-06-16 LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion, Dongfu Jiang+, N_A, ACL'23 GPT Summary- LLM-Blenderは、複数の大規模言語モデルを組み合わせたアンサンブルフレームワークであり、PairRankerとGenFuserの2つのモジュールから構成されています。PairRankerは、専門的なペアワイズ比較方法を使用して候補の出力間の微妙な違いを区別し、GenFuserは、上位ランクの候補をマージして改善された出力を生成します。MixInstructというベンチマークデータセットを導入し、LLM-Blenderは、個々のLLMsやベースライン手法を大幅に上回り、大きなパフォーマンス差を確立しました。 #SyntheticData #Evaluation Issue Date: 2023-05-22 Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models, Emily Reif+, N_A, arXiv'23 GPT Summary- LLMsを使用して生成されたデータセットの構文的多様性を理解し分析するための新しい可視化ツールであるLinguisticLensが提供された。このツールは、テキストを構文、語彙、および意味の軸に沿ってクラスタリングし、階層的な可視化をサポートしている。ライブデモはshorturl.at/zHOUVで利用可能。 Comment

LLMを用いてfew-shot promptingを利用して生成されたデータセットを理解し評価することは難しく、そもそもLLMによって生成されるデータの失敗に関してはあまり理解が進んでいない（e.g. repetitionなどは知られている）。この研究では、LLMによって生成されたデータセットの特性を理解するために、構文・語彙・意味の軸に沿ってクラスタリングすることで、データセットの特性を可視化することで、このような課題を解決することをサポートしている。

特に、従来研究ではGoldが存在することが前提な手法が利用されてきた（e.g. 生成データを利用しdownstream taskの予測性能で良さを測る、Gold distributionとdistributionを比較する）。しかし、このような手法では、synthetic data firstなシチュエーションで、Goldが存在しない場合に対処できない。このような問題を解決するためにGold dataが存在しない場合に、データの構文・語彙・意味に基づくクラスタリングを実施し結果を可視化し、human-in-the-loopの枠組みでデータセットの良さを検証する方法を提案している。

可視化例

実装: https://github.com/PAIR-code/interpretability/tree/master/data-synth-syntax

#Alignment #Supervised-FineTuning (SFT) #DataDistillation #NeurIPS Issue Date: 2023-05-22 LIMA: Less Is More for Alignment, Chunting Zhou+, N_A, NeurIPS'23 GPT Summary- 本研究では、65BパラメータのLLaMa言語モデルであるLIMAを訓練し、強化学習や人間の好みモデリングなしに、厳選された1,000のプロンプトとレスポンスのみで標準的な教師あり損失で微調整しました。LIMAは、幅広いクエリに対応する驚くべき強力なパフォーマンスを示し、トレーニングデータに現れなかった未知のタスクにも一般化する傾向があります。制御された人間の研究では、LIMAのレスポンスは、GPT-4、Bard、DaVinci003と比較して優れていることが示されました。これらの結果から、大規模言語モデルのほとんどの知識は事前トレーニング中に学習され、高品質の出力を生成するためには限られた指示調整データしか必要ないことが示唆されます。 Comment

LLaMA65Bをたった1kのdata point（厳選された物）でRLHF無しでfinetuningすると、旅行プランの作成や、歴史改変の推測（？）幅広いタスクで高いパフォーマンスを示し、未知のタスクへの汎化能力も示した。最終的にGPT3,4,BARD,CLAUDEよりも人間が好む回答を返した。

LLaMAのようなオープンでパラメータ数が少ないモデルに対して、少量のサンプルでfinetuningするとGPT4に迫れるというのはgamechangerになる可能性がある

openreview: https://openreview.net/forum?id=KBMOKmX2he

#Pocket #Supervised-FineTuning (SFT) #In-ContextLearning #EMNLP #PostTraining Issue Date: 2023-05-21 Symbol tuning improves in-context learning in language models, Jerry Wei+, N_A, EMNLP'23 GPT Summary- 本研究では、自然言語ラベルをシンボルに置き換えて言語モデルを微調整する「symbol tuning」を提案し、未知のタスクや不明確なプロンプトに対して堅牢な性能を示すことを示した。また、symbol tuningによりアルゴリズム的推論タスクでのパフォーマンス向上が見られ、以前の意味的知識を上書きする能力が向上していることが示された。Flan-PaLMモデルを使用して実験が行われ、最大540Bパラメータまで利用された。 Comment

概要やOpenReviewの内容をざっくりとしか読めていないが、自然言語のラベルをランダムな文字列にしたり、instructionをあえて除外してモデルをFinetuningすることで、promptに対するsensitivityや元々モデルが持っているラベルと矛盾した意味をin context learningで上書きできるということは、学習データに含まれるテキストを調整することで、正則化の役割を果たしていると考えられる。つまり、ラベルそのものに自然言語としての意味を含ませないことや、instructionを無くすことで、（モデルが表層的なラベルの意味や指示からではなく）、より実際のICLで利用されるExaplarからタスクを推論するように学習されるのだと思われる。

OpenReview: https://openreview.net/forum?id=vOX7Dfwo3v

#Pretraining #DataDistillation Issue Date: 2023-05-21 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N_A, arXiv'23 GPT Summary- 本論文では、言語モデルの性能に影響を与える事前学習データのドメインの混合比について、DoReMiという手法を提案する。DoReMiは、小さなプロキシモデルを使用してドメインの重みを生成し、再サンプリングして大きなモデルをトレーニングすることで、効率的にドメインの重みを見つけることができる。実験では、DoReMiはThe PileやGLaMデータセットで高い精度を発揮し、few-shot下流精度を6.5％改善することができる。 Comment

事前学習する際の各ドメインのデータをどのような比率でmixtureするかの話。各ドメインごとに小さなproxy modelを訓練し、downstream taskの知識無しでドメインごとの重みを生成。データセットを生成されたドメインごとの重みに従いリサンプリングすることで、（1/30のプロキシモデルを用いた場合）オリジナルのデータより2.6倍高速で、6.5%oneshotのaccuracyを向上させることに成功

#TabularData Issue Date: 2023-05-21 StructGPT: A General Framework for Large Language Model to Reason over Structured Data, Jinhao Jiang+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）を使用して構造化データ上のゼロショット推論能力を改善する方法について研究し、Iterative Reading-then-Reasoning（IRR）アプローチを提案しました。このアプローチでは、構造化データから関連するエビデンスを収集する専門的な関数を構築し、LLMsに収集された情報に基づいて推論タスクに集中させます。外部インターフェースの支援を受けて、LLMsが構造化データ上で推論するためのinvoking-linearization-generation手順を提案し、与えられたクエリに対する目標回答に徐々に近づくことができます。徹底的な実験により、アプローチの有効性を示し、フルデータの教師ありチューニングベースラインと同等のパフォーマンスを達成することができます。コードとデータは、\url{https://github.com/RUCAIBox/StructGPT}で公開されています。 Comment

構造化データに対するLLMのゼロショットのreasoning能力を改善。構造化データに対するQAタスクで手法が有効なことを示した。

#Planning Issue Date: 2023-05-21 Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, Hanxu Hu+, N_A, arXiv'23 GPT Summary- 本論文では、LLMsを使用して複雑な計画タスクを解決するための新しいベンチマークであるNatural Language Planning（NLP）を提案し、CoSという新しい手法を導入して、LLMsがシンボリック表現をより理解しやすくすることを示した。CoSはChatGPTやInstructGPTでの入力トークン数を削減し、Brick Worldで60.8％の精度を達成するなど、性能の向上を実現した。 Comment

LLMは複雑なプランニングが苦手なことが知られており、複雑な環境を自然言語ではなく、spatialでsymbolicなトークンで表現することで、プランニングの性能が向上したという話

OpenReview: https://openreview.net/forum?id=B0wJ5oCPdB

#MachineLearning #In-ContextLearning Issue Date: 2023-05-20 What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning, Jane Pan+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）がどのようにコンテキスト学習（ICL）を利用してタスクを解決するかを調査しました。タスク認識（TR）とタスク学習（TL）の役割を分離するための実験を行い、LLMsがデモンストレーションを通じて暗黙的に学習を行う可能性があることを示しました。また、モデルがスケールするにつれてTLのパフォーマンスが改善されることも明らかになりました。これらの結果は、ICLの背後にある2つの異なる力を明らかにし、将来のICL研究でそれらを区別することを提唱しています。 Comment

LLMがIn context Learningで新しい何かを学習しているのかを調査
TaskRecognition（TR）はGround Truth無しでデモンストレーションのみで実施
TaskLearning（TL）は訓練データになかったテキストとラベルのマッピングを捉える必要があるタスク。
TRはモデルサイズでスケールしなかったが、TLはモデルサイズに対してスケールした
→ 事前学習で学習してきた知識を引っ張ってくるだけではTLは実施できないので、TRでは何も学習していないが、TLにおいては新しく何かが学習されてるんじゃない?ということだろうか

#CodeGeneration Issue Date: 2023-05-20 CodeT5+: Open Code Large Language Models for Code Understanding and Generation, Yue Wang+, N_A, arXiv'23 GPT Summary- 本研究では、コードのためのエンコーダーデコーダーLLMsのファミリーである「CodeT5+」を提案し、様々なダウンストリームコードタスクに柔軟に適合することができるようにしました。また、事前学習オブジェクティブの混合を提案することで、事前学習とファインチューニングの不一致を緩和し、スパンデノイジング、コントラスティブラーニング、テキストコードマッチング、因果LM事前学習タスクを含めました。CodeT5+は、異なる設定で20以上のコード関連ベンチマークで徹底的に評価され、最先端のモデルパフォーマンスを観察しました。特に、instruction-tuned CodeT5+ 16Bは、他のオープンなコードLLMsに対して、HumanEvalコード生成タスクで新しい最先端の結果を達成しました。 Comment

様々なコードの理解と生成タスクをサポート
異なる訓練手法によって計算効率改善
20種類のコードベンチマークで、様々な設定「ゼロショット、finetuning, instruction tuning等）を実施した結果、コード補完、math programming, text to code retrievalにおいてSoTA達成

#Pocket #Prompting Issue Date: 2023-05-20 Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Shunyu Yao+, N_A, arXiv'23 GPT Summary- 言語モデルの推論には制限があり、探索や戦略的先読みが必要なタスクには不十分である。そこで、Tree of Thoughts（ToT）という新しいフレームワークを導入し、Chain of Thoughtアプローチを一般化して、意思決定を行うことができるようにした。ToTにより、言語モデルは複数の異なる推論パスを考慮して、次の行動を決定することができる。ToTは、Game of 24、Creative Writing、Mini Crosswordsなどのタスクにおいて、言語モデルの問題解決能力を大幅に向上させることができることを示している。 Comment

Self Concistencyの次
Non trivialなプランニングと検索が必要な新たな3つのタスクについて、CoT w/ GPT4の成功率が4%だったところを、ToTでは74%を達成

論文中の表ではCoTのSuccessRateが40%と書いてあるような?

#Analysis #Pocket #Chain-of-Thought #Faithfulness #NeurIPS Issue Date: 2023-05-09 Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting, Miles Turpin+, N_A, NeurIPS'23 GPT Summary- LLMsによる推論において、chain-of-thought reasoning（CoT）と呼ばれる説明を生成することができるが、この説明がモデルの予測の真の理由を誤って表現することがあることがわかった。バイアスのある特徴をモデルの入力に追加することで、CoT説明が大きく影響を受けることが示された。この結果は、LLMsに対する信頼を高めるために、説明の忠実度を評価し、改善する必要があることを示唆している。 #Pocket #ICLR #KnowledgeEditing Issue Date: 2023-05-04 Mass-Editing Memory in a Transformer, Kevin Meng+, N_A, ICLR'23 GPT Summary- - 大規模言語モデルを更新することで、専門的な知識を追加できることが示されている- しかし、これまでの研究は主に単一の関連付けの更新に限定されていた- 本研究では、MEMITという方法を開発し、多数のメモリを直接言語モデルに更新することができることを実験的に示した- GPT-J（6B）およびGPT-NeoX（20B）に対して数千の関連付けまでスケーリングでき、これまでの研究を桁違いに上回ることを示した- コードとデータはhttps://memit.baulab.infoにあります。 #Pocket #Zero/Few/ManyShotPrompting #Chain-of-Thought #ACL Issue Date: 2023-05-04 Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them, Mirac Suzgun+, N_A, ACL'23 GPT Summary- BIG-Bench Hard (BBH) is a suite of 23 challenging tasks that current language models have not been able to surpass human performance on. This study focuses on applying chain-of-thought prompting to BBH tasks and found that PaLM and Codex were able to surpass human performance on 10 and 17 tasks, respectively. The study also found that CoT prompting is necessary for tasks that require multi-step reasoning and that CoT and model scale interact to enable new task performance on some BBH tasks. Comment

単なるfewshotではなく、CoT付きのfewshotをすると大幅にBIG-Bench-hardの性能が向上するので、CoTを使わないanswer onlyの設定はモデルの能力の過小評価につながるよ、という話らしい

#Pocket #Poisoning #ICML Issue Date: 2023-05-04 Poisoning Language Models During Instruction Tuning, Alexander Wan+, N_A, ICML'23 GPT Summary- - Instruction-tuned LMs（ChatGPT、FLAN、InstructGPTなど）は、ユーザーが提出した例を含むデータセットでfinetuneされる。- 本研究では、敵対者が毒入りの例を提供することで、LMの予測を操作できることを示す。- 毒入りの例を構築するために、LMのbag-of-words近似を使用して入出力を最適化する。- 大きなLMほど毒入り攻撃に対して脆弱であり、データフィルタリングやモデル容量の削減に基づく防御は、テストの正確性を低下させながら、中程度の保護しか提供しない。 #MachineTranslation #Pocket #Annotation #TransferLearning #MultiLingual #ACL Issue Date: 2023-05-04 Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, ACL'23 GPT Summary- - 多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つ- スパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要- マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行った- EasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示した- すべてのコードとデータが公開される #EfficiencyImprovement #Pocket #Transformer #Attention #LongSequence #Inference Issue Date: 2023-04-30 Efficiently Scaling Transformer Inference, Reiner Pope+, N_A, MLSys'23 GPT Summary- - 大規模Transformerベースのモデルの推論のエンジニアリングのトレードオフを理解するために、最適な多次元分割技術を選択するための単純な解析モデルを開発- 低レベルの最適化と組み合わせることで、500B+パラメータモデルのレイテンシーとモデルFLOPS利用率のトレードオフにおいて、FasterTransformerベンチマークスイートを上回る新しいParetoフロンティアを実現- 適切な分割により、マルチクエリアテンションの低いメモリ要件により、32倍の大きなコンテキスト長にスケーリング可能- int8ウェイト量子化を使用した生成中の低バッチサイズレイテンシーは、トークンあたり29msであり、入力トークンの大バッチサイズ処理において76％のMFUを実現し、PaLM 540Bパラメータモデルにおいて2048トークンの長いコンテキスト長をサポートしている。 Comment

特にMultiquery Attentionという技術がTransformerのinferenceのコスト削減に有効らしい

#QuestionAnswering #Prompting #TheoryOfMind Issue Date: 2023-04-28 Boosting Theory-of-Mind Performance in Large Language Models via Prompting, Moghaddam+, Johns Hopkins University, arXiv'23 Comment

LLMはTheory-of-mind reasoningタスクが苦手なことが知られており、特にzero shotでは非常にパフォーマンスが低かった。ToMタスクとは、エージェントの信念、ゴール、メンタルstate、エージェントが何を知っているか等をトラッキングすることが求められるタスクのこと。このようなタスクはLLMが我々の日常生活を理解する上で重要。

↑のToM Questionのシナリオと問題
Scenario: "The morning of the high school dance Sarah placed her high heel shoes under her dress and then went shopping. That afternoon, her sister borrowed the shoes and later put them under Sarah's bed."
Question: When Sarah gets ready, does she assume her shoes are under her dress?

しかし、Zero shot CoTのようなstep by step thinking, CoTを適切に行うことで、OpenAIの直近3つのモデルのAccuracyが80%を超えた。特に、GPT4は100％のAccuracyを達成。人間は87％だった。

この結果は、少なくとのこの論文でテストしたドメインではLLMのsocial reasoningのパフォーマンスをどのようにブーストするかを示しており、LLMのbehaviorは複雑でsensitiveであることを示唆している。

#QuestionAnswering #TabularData Issue Date: 2023-04-28 Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning, Ye+, University of Science and Technology of China, SIGIR'23 Comment

テーブルとquestionが与えられた時に、questionをsub-questionとsmall tableにLLMでin-context learningすることで分割。subquestionの解を得るためのsqlを作成しスポットを埋め、hallucinationを防ぐ。最終的にLLM Reasonerが解答を導出する。TabFact Reasoningで初めて人間を超えた性能を発揮。

#QuestionAnswering #DialogueGeneration Issue Date: 2023-04-28 q2d: Turning Questions into Dialogs to Teach Models How to Search, Bitton+, The Hebrew University of Jerusalem （w_ Google Research）, arXiv'23 Comment

LLMにquestionを与え、questionを解決するためのinformation seekingの対話ログを生成させる。このデータを用いて、dialogueからquestionを生成するモデルを訓練し、検索APIなどに渡せるようにした研究。全く対話のログがないドメインのデータに対しても、人間と遜色ない高品質な対話が生成可能。これにより、query generationモデルの更なる高性能化が実現できる。

#NaturalLanguageGeneration #Controllable Issue Date: 2023-04-28 Tractable Control for Autoregressive Language Generation, Zhang+, UCLA, arXiv'23 Comment

自然言語生成モデルで、何らかのシンプルなconstiaint αの元p(xi|xi-1,α)を生成しようとしても計算ができない。このため、言語モデルをfinetuningするか、promptで制御するか、などがおこなわれる。しかしこの方法は近似的な解法であり、αがたとえシンプルであっても（何らかの語尾を付与するなど）、必ずしも満たした生成が行われるとは限らない。これは単に言語モデルがautoregressiveな方法で次のトークンの分布を予測しているだけであることに起因している。そこで、この問題を解決するために、tractable probabilistic model（TPM）を導入し、解決した。
評価の結果、CommonGenにおいて、SoTAを達成した。

尚、TPMについては要勉強である

#Pocket #Education #AES(AutomatedEssayScoring) #ChatGPT Issue Date: 2023-04-28 [Paper Note] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Steffen Herbold+, arXiv'23 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment

ChatGPTは人間が書いたエッセイよりも高品質なエッセイが書けることを示した。

また、AIモデルの文体は、人間が書いたエッセイとは異なる言語的特徴を示している。たとえば、談話や認識マーカーが少ないが、名詞化が多く、語彙の多様性が高いという特徴がある、とのこと。

#Prompting Issue Date: 2023-04-28 Exploring the Curious Case of Code Prompts, Zhang+, University of Pennsylvania, arXiv'23 Comment

コードベースのLLMに対して、reasoningタスクを解かせる際には、promptもコードにすると10パーセント程度性能上がる場合があるよ、という研究。

ただし、平均的にはテキストプロンプトの方が良く、一部タスクで性能が改善する、という温度感な模様

コードベースのモデルをtextでinstruction tuningしている場合でも、効果があるタスクがある。

#QuestionAnswering #Chain-of-Thought #Prompting Issue Date: 2023-04-28 Answering Questions by Meta-Reasoning over Multiple Chains of Thought, Yoran+, Tel Aviv University （w_ Allen Institute for AI）, arXiv'23 Comment

self-consistency [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 のようなvoting basedなアルゴリズムは、複数のCoTのintermediate stepを捨ててしまい、結果だけを採用するが、この研究は複数のCoTの中からquestionに回答するために適切なfactual informationを抽出するMeta Reasonerを導入し、複数のCoTの情報を適切に混在させて適切な回答を得られるようにした。

7個のMulti Hop QAデータでstrong baselineをoutperformし、人間が回答をverificationするための高品質な説明を生成できることを示した。

Issue Date: 2023-04-27 Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes, Arora+, Stanford University, arXiv'23 Comment

LLMを使うことで、半構造化文章から自動的にqueryableなテーブルを作成することを試みた研究

#NeuralNetwork #Pocket #Chain-of-Thought #ICLR #Test-Time Scaling #Selected Papers/Blogs Issue Date: 2023-04-27 [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 GPT Summary- 自己一貫性という新しいデコーディング戦略を提案し、chain-of-thought promptingの性能を向上。多様な推論経路をサンプリングし、一貫した答えを選択することで、GSM8KやSVAMPなどのベンチマークで顕著な改善を達成。 Comment

#NeuralNetwork #Chain-of-Thought #ICLR Issue Date: 2023-04-27 Automatic Chain of Thought Prompting in Large Language Models, Zhang+, Shanghai Jiao Tong University, ICLR'23 Comment

LLMによるreasoning chainが人間が作成したものよりも優れていることを示しているとのこと [Paper Note] Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models, Jiashuo Sun+, NAACL'24 Findings, 2023.04 より

clusteringベースな手法を利用することにより、誤りを含む例が単一のクラスタにまとめられうことを示し、これにより過剰な誤ったデモンストレーションが軽減されることを示した。

手法の概要。questionを複数のクラスタに分割し、各クラスタから代表的なquestionをサンプリングし、zero-shot CoTでreasoning chainを作成しpromptに組み込む。最終的に回答を得たいquestionに対しても、上記で生成した複数のquestion-reasoningで条件付けした上で、zeroshot-CoTでrationaleを生成する。

#NeuralNetwork #Chain-of-Thought Issue Date: 2023-04-27 Automatic prompt augmentation and selection with chain-of-thought from labeled data, Shum+, The Hong Kong University of Science and Technology, arXiv'23 Comment

selection phaseで誤ったexampleは直接排除する手法をとっている。そして、強化学習によって、demonstrationのselection modelを訓練している。

#Personalization Issue Date: 2023-04-26 Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback, Kirk+, Oxford Internet Institute, University of Oxford, arXiv'23 Comment

# abst

LLMをPersonalizationすることに関して、どのような方法でPersonalizationすべきかを検討した研究。以下の問題点を指摘。

1. アラインメント（RLHFのように何らかの方向性にalignするように補正する技術のこと？）が何を意味するのか明確ではない

2. 技術提供者が本質的に主観的な好みや価値観の定義を規定する傾向があること

3. クラウドワーカーがの専制によって、我々が実際に何にアラインメントしているのかに関する文書が不足していること

そして、PersonalizedなLLMの利点やリスクの分類を提示する。

# 導入

LLMがさまざまな製品に統合されたことで、人間の嗜好に合致し、危険かつ不正確な情報を出力を生成しないことを確保する必要がある。RLHFやred-teamingはこれに役立つが、このような集合的な（多くの人に一つのアラインメントの結果を提示すること）finetuningプロセスが人間の好みや価値観の幅広い範囲を十分に表現できるとは考えにくい。異なる人々はさまざまな意見や価値観を持っており、マイクロレベルのfinetuningプロせせ雨を通じてLLMをPersonalizationすることで、各ユーザとより良いアラインメントが可能になる可能性がある。これを社会的に受け入れられるようにするためにいくつか課題があるので、それについて論じた。

#NeuralNetwork #Transformer Issue Date: 2023-04-25 Scaling Transformer to 1M tokens and beyond with RMT, Bulatov+, DeepPavlov, arXiv'23 Comment

Reccurent Memory Transformer Recurrent Memory Transformer, Bulatov+, NeurIPS'22 を使って2Mトークン扱えるようにしたよーという話。

ハリーポッターのトークン数が1.5Mらしいので、そのうち小説一冊書けるかもという世界。

#Planning Issue Date: 2023-04-25 LLM+P: Empowering Large Language Models with Optimal Planning Proficiency, Liu+, University of Texas at Austin, arXiv'23 Comment

LLMは長いプランニングをすることが苦手だったが、classicalなplannerは適切なinputの形式に変換されていればすぐに最適なプランを導出できる、が、自然言語は受け付けない、といった互いが互いを補完し合う関係にあるので、両者を組み合わせました、という話。
LLMを利用して、planning problemを記述した自然言語をclassicalなplannerのinputへ変換。その後plannerで最適なplanを見つけ、自然言語にplanを逆翻訳する。

#AIAgents #Selected Papers/Blogs Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23 Comment

#DataGeneration Issue Date: 2023-04-12 ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks, Gilardi+, University of Zurich, NAS'23 Comment

# 概要

2300件程度のツイートを分類するタスクにおいて、訓練した学部生によるアノテーションを正解とし、クラウドワーカーとChatGPTでのzero-shotでの予測の性能を比較した。分類タスクは、比較的難易度の高い分類問題であり、クラウドワーカーでも正解率は難しいタスクでは15~25%程度であった。このようなタスクでchatgptは40~60%の正解率を示している。

比較の結果、5つのタスク中4つのタスクでChatGPTがクラウドワーカーを上回る正解率を示した。

# 手法

- クラウドワーカーとChatGPTで同じインストラクションを利用し、同じタスクを実施した

- inter-notator aggreementを図るために、それぞれのタスクについて各ツイートに少なくとも2人がラベル付を行った

- ChatGPTでも同様に、タスクごとに各ツイートには2回同じタスクを実施しデータを収集した

- ChatGPTを利用する際は、temperatureを1.0, 0.2の場合で試した。従ってChatGPTのラベル付けは各タスクごとに4セット存在することになる。

# 結果

5タスク中、4タスクでChatGPTがzero-shotにもかかわらず正解率でworkerを上回った。また高いaggreementを発揮していることを主張。aggreementはtemperatureが低い方が高く、これはtemperatureが低い方がrandomnessが減少するためであると考えられる。aggreementをAccuracyの相関を図ったが、0.17であり弱い相関しかなかった。従って、Accuracyを減少させることなく、一貫性のある結果を得られるlaw temperatureを利用することが望ましいと結論づけている。

# 実施したタスク

"content moderation"に関するタスクを実施した。content moderationはSNSなどに投稿されるpostを監視するための取り組みであり、たとえばポルトツイートや誤った情報を含む有害なツイート、ヘイトスピーチなどが存在しないかをSNS上で監視をを行うようなタスクである。著者らはcontent moderationはハードなタスクであり、複雑なトピックだし、toy exampleではないことを主張している。実際、著者らが訓練した学部生の間でのinter-annotator aggreementは50%程度であり、難易度が高いタスクであることがわかる（ただし、スタンスdetectionに関してはaggreementが78.3%であった）。

content moderationのうち、以下の5つのタスクを実施した。

- relevance:

- ツイートがcontent moderationについて直接的に関係することを述べているか否か

- e.g. SNSにおけるcontent moderation ruleや実践、政府のレギュレーション等

- content moderationについて述べていないものについてはIRRELEVANTラベルを付与する

- ただし、主題がcontent moderationのツイートであっても、content moderationについて論じていないものについてはIRRELEVANT扱いとする。

- このような例としては、TwitterがDonald TrupのTwitterを"disrupted"とlabel付けしたことや、何かについて間違っていると述べているツイート、センシティブな内容を含むツイートなどがあげられる。

- Problem/Solution Frames

- content moderationは2つの見方ができる。それがProblemとSolution

- Problem: content moderationをPROBLEMとみなすもの。たとえば、フリースピーチの制限など

- SOLUTION: content moderationをSOLUTIONとみなすもの。たとえば、harmful speechから守ること、など

- ツイートがcontent moderationのnegativeな影響について強調していたら、PROBLEM（フリースピーチの制限やユーザがポストする内容についてバイアスが生じることなどについて）

- ツイートがcontent moderationのpositiveな影響について強調していたら、SOKUTION（harmful contentからユーザを守るなど）

- 主題はcontent moderationであるが、positive/negativeな影響について論じていないものはNEUTRAL

- Policy Frames

- content moderationはさまざまんトピックと関連している（たとえば）、健康、犯罪、平等など）

- content moderatiojnに関するツイートがどのトピックかをラベル付する。ラベルは15種類

- economy, capcity and resources, modality, fairness and equality, constitutionality and jurisprudence, policy prescription and evaluation, law and order, crime and justice, security and defense, health and safety, quality of life, cultural identity, public opinion, political, external regulation and reputation, other

- Stance Detection

- USのSection 230という法律（websiteにユーザが投稿したコンテンツに対して、webサイトやその他のオンラインプラットフォームが法的責任を問われるのを防ぐ法律）について、ツイートがSection230に対して、positive/negative/neutralなスタンスかをラベル付する

- Topic Detection

- ツイートを6つのトピックにラベル付する

- Section 230, TRUMP BAN, TWITTER-SUPPORT, PLATFORM POLICIES, COMPLAINTS, other

# 所感

そこそこ難易度の高いアノテーションタスクでもzero-shotでturkerの性能を上回るのは非常に素晴らしいことだと思う。ノイジーなデータセットであれば、比較的安価、かつスピーディーに作成できるようになってきたのではないかと思う。

ただ、ChatGPTのaggreementを図ることにどれだけ意味があるのだろう、とは思う。同じモデルを利用しているわけで、小tなるLLMをベースにした場合のaggreementならとる意味があると思うが。

#Pocket #Supervised-FineTuning (SFT) #InstructionTuning #ACL #In-Depth Notes Issue Date: 2023-03-30 [Paper Note] Self-Instruct: Aligning Language Models with Self-Generated Instructions, Yizhong Wang+, ACL'23, 2022.12 GPT Summary- Self-Instructフレームワークを提案し、事前学習済みの言語モデルが自ら生成した指示を用いてファインチューニングを行うことで、ゼロショットの一般化能力を向上させる。バニラGPT-3に適用した結果、Super-NaturalInstructionsで33%の性能向上を達成し、InstructGPT-001と同等の性能に到達。人間評価により、Self-Instructが既存の公共指示データセットよりも優れていることを示し、ほぼ注釈不要の指示調整手法を提供。大規模な合成データセットを公開し、今後の研究を促進する。 Comment

Alpacaなどでも利用されているself-instruction技術に関する論文

# 概要

著者らが書いた175種のinstruction（タスクの定義 + 1種のinput/outputペア}のseedを元に、VanillaなGPT-3に新たなinstruction, input, outputのtupleを生成させ、学習データとして活用する研究。

ここで、instruction data I は以下のように定義される：

instruction dataは(I, X, Y)であり、モデルは最終的にM(I_t, x_t) = y_tとなるように学習したい。

I: instruction, X: input, Y: output

データ作成は以下のステップで構成される。なお、以下はすべてVanilla GPT-3を通じて行われる：

1. Instruction Generation

　task poolから8種類のinstructionを抽出し、 promptを構成し、最大8個新たなinstructionを生成させる

2. Classification Task Identification:

　生成されたinstructionがclassificationタスクか否かを判別する

3. Instance Generation

　いくつかの(I, X, Y)をpromptとして与え、I, Xに対応するYを生成するタスクを実行させる。このときinput-first approachを採用した結果（I->Xの順番で情報を与えYを生成するアプローチ）、特定のラベルに偏ったインスタンスが生成される傾向があることがわかった。このためoutput-first approachを別途採用し（I->Yの順番で情報を与え、各Yに対応するXを生成させる）、活用している。　

4. Filtering and Postprocessing

　最後に、既存のtask poolとROUGE-Lが0.7以上のinstructionは多様性がないため除外し、特定のキーワード（images, pictrues, graphs）等を含んでいるinstruction dataも除外して、task poolに追加する。

1-4をひたすら繰り返すことで、GPT-3がInstruction Tuningのためのデータを自動生成してくれる。

# SELF-INSTRUCT Data

## データセットの統計量

- 52k instructions

- 82k instances

## Diversity

parserでinstructionを解析し、rootの名詞と動詞のペアを抽出して可視化した例。ただし、抽出できた例はたかだか全体の50%程度であり、その中で20の最もcommonなroot vertと4つのnounを可視化した。これはデータセット全体の14%程度しか可視化されていないが、これだけでも非常に多様なinstructionが集まっていることがわかる。

また、seed indstructionとROUGE-Lを測った結果、大半のデータは0.3~0.4程度であり、lexicalなoverlapはあまり大きくないことがわかる。instructionのlengthについても可視化した結果、多様な長さのinstructionが収集できている。

## Quality

200種類のinstructionを抽出し、その中からそれぞれランダムで1つのインスタンスをサンプルした。そしてexpert annotatorに対して、それぞれのinstructionとinstance（input, outputそれぞれについて）が正しいか否かをラベル付けしてもらった。

ラベル付けの結果、ほとんどのinstructionは意味のあるinstructionであることがわかった。一方、生成されたinstanceはnoisyであることがわかった（ただし、このnoiseはある程度妥当な範囲である）。noisytではあるのだが、instanceを見ると、正しいformatであったり、部分的に正しかったりなど、modelを訓練する上で有用なguidanceを提供するものになっていることがわかった。

# Experimental Results

## Zero-shotでのNLPタスクに対する性能

SuperNIデータセットに含まれる119のタスク（1タスクあたり100 instance）に対して、zero-shot setupで評価を行なった。SELF-INSTRUCTによって、VanillaのGPT3から大幅に性能が向上していることがわかる。VanillaのGPT-3はほとんど人間のinstructionに応じて動いてくれないことがわかる。分析によると、GPT3は、大抵の場合、全く関係ない、あるいは繰り返しのテキストを生成していたり、そもそもいつ生成をstopするかがわかっていないことがわかった。

また、SuperNI向けにfinetuningされていないモデル間で比較した結果、非常にアノテーションコストをかけて作られたT0データでfinetuningされたモデルよりも高い性能を獲得した。また、人間がラベル付したprivateなデータによって訓練されたInstructGPT001にも性能が肉薄していることも特筆すべき点である。

SuperNIでfinetuningした場合については、SELF-INSTRUCTを使ったモデルに対して、さらに追加でSuperNIを与えた場合が最も高い性能を示した。

## User-Oriented Instructionsに対する汎化性能

SuperNIに含まれるNLPタスクは研究目的で提案されており分類問題となっている。ので、実践的な能力を証明するために、LLMが役立つドメインをブレスト（email writing, social media, productiveity tools, entertainment, programming等）し、それぞれのドメインに対して、instructionとinput-output instanceを作成した。また、instructionのスタイルにも多様性（e.g. instructionがlong/short、bullet points, table, codes, equationsをinput/outputとして持つ、など）を持たせた。作成した結果、252個のinstructionに対して、1つのinstanceのデータセットが作成された。これらが、モデルにとってunfamiliarなinstructionで多様なistructionが与えられたときに、どれだけモデルがそれらをhandleできるかを測定するテストベッドになると考えている。

これらのデータは、多様だがどれもが専門性を求められるものであり、自動評価指標で性能が測定できるものでもないし、crowdworkerが良し悪しを判定できるものでもない。このため、それぞれのinstructionに対するauthorに対して、モデルのy補足結果が妥当か否かをjudgeしてもらった。judgeは4-scaleでのratingとなっている：

- RATING-A: 応答は妥当で満足できる

- RATING-B: 応答は許容できるが、改善できるminor errorや不完全さがある。

- RATING-C: 応答はrelevantでinstructionに対して答えている。が、内容に大きなエラーがある。

- RATING-D: 応答はirrelevantで妥当ではない。

実験結果をみると、Vanilla GPT3はまったくinstructionに対して答えられていない。instruction-basedなモデルは高いパフォーマンスを発揮しているが、それらを上回る性能をSELF-INSTRUCTは発揮している（noisyであるにもかかわらず）。

また、GPT_SELF-INSTRUCTはInstructGPT001と性能が肉薄している。また、InstructGPT002, 003の素晴らしい性能を示すことにもなった。

# Discussion and Limitation

## なぜSELF-INSTRUCTがうまくいったか？

- LMに対する2つの極端な仮説を挙げている

- LM はpre-trainingでは十分に学習されなかった問題について学習する必要があるため、human feedbackはinstruction-tuningにおいて必要不可欠な側面である

- LM はpre-trainingからinstructionに既に精通しているため、human feedbackはinstruction-tuningにおいて必須ではない。 human feedbackを観察することは、pre-trainingにおける分布/目的を調整するための軽量なプロセスにすぎず、別のプロセスに置き換えることができる。

この2つの極端な仮説の間が実情であると筆者は考えていて、どちらかというと２つ目の仮説に近いだろう、と考えている。既にLMはpre-trainingの段階でinstructionについてある程度理解できているため、self-instructがうまくいったのではないかと推察している。

## Broader Impact

InstructGPTは非常に強力なモデルだけど詳細が公表されておらず、APIの裏側に隠れている。この研究が、instruct-tuned modelの背後で何が起きているかについて、透明性を高める助けになると考えている。産業で開発されたモデルの構造や、その優れた性能の理由についてはほとんど理解されておらず、これらのモデルの成功の源泉を理解し、より優れた、オープンなモデルを作成するのはアカデミックにかかっている。この研究では、多様なinstructional dataの重要性を示していると考えており、大規模な人工的なデータセットは、より優れたinstructionに従うモデルを、構築するための第一歩だと考えている。

## limitation

- Tail Phenomena

- LMの枠組みにとどまっているため、LMと同じ問題（Tail Phenomena）を抱えている

- low-frequencyなcontextに対してはうまくいかない問題

- SELF-INSTRUCTも、結局pre-trainingの段階で頻出するタスクやinstructionに対してgainがあると考えられ、一般的でなく、creativeなinstructionに対して脆弱性があると考えられる

- Dependence on laege models

- でかいモデルを扱えるだけのresourceを持っていないと使えないという問題がある

- Reinforcing LM biases

- アルゴリズムのiterationによって、問題のあるsocial _biasをより増幅してしまうことを懸念している（人種、種族などに対する偏見など）。また、アルゴリズムはバランスの取れたラベルを生成することが難しい。

1のprompt

https://user-images.githubusercontent.com/12249301/228717376-62648df4-e587-49f7-8e71-afd1b2269e90.png" >

2のprompt

https://user-images.githubusercontent.com/12249301/228717413-115f8ccf-b85e-4530-b489-cbf1de69341b.png" >

3のprompt（input-first-approach）

https://user-images.githubusercontent.com/12249301/228717477-58b44a4e-ce44-452f-9b3a-4a348584e40f.png" >

3のprompt（output-first approach）

https://user-images.githubusercontent.com/12249301/228717535-8717405c-bdaf-455c-9d4b-480bf6494abe.png" >

※ GPT3をfinetuningするのに、Instruction Dataを使った場合$338かかったっぽい。安い・・・。

LLMを使うだけでここまで研究ができる時代がきた

（最近は|現在は）プロプライエタリなLLMの出力を利用して競合するモデルを訓練することは多くの場合禁止されているので注意。

#MachineLearning #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #NeurIPS Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS'23 GPT Summary- 本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Comment

なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究

#Pocket #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Safety #Selected Papers/Blogs #PseudoLabeling Issue Date: 2025-09-20 [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 本研究では、「憲法的AI」を用いて、人間のラベルなしで無害なAIを訓練する方法を提案。監視学習と強化学習の2フェーズを経て、自己批評と修正を通じてモデルを微調整し、嗜好モデルを報酬信号として強化学習を行う。これにより、有害なクエリに対しても対話できる無害なAIアシスタントを実現し、AIの意思決定の透明性を向上させる。 Comment

先行研究:
- [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22

#Pocket #Alignment #ReinforcementLearning #Safety Issue Date: 2025-09-20 [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 言語モデルを無害なアシスタントとして機能させるために、好みのモデル化と人間のフィードバックからの強化学習（RLHF）を用いて微調整を行い、NLP評価での性能向上を実現。毎週新しいフィードバックデータでモデルを更新し、効率的な改善を図る。RLHFトレーニングの堅牢性を調査し、ポリシーと初期化とのKLダイバージェンスの関係を特定。モデルのキャリブレーションや競合目的についても分析し、人間の作家との比較を行った。 #Analysis #Pocket #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] Emergent Abilities of Large Language Models, Jason Wei+, TMLR'22 GPT Summary- 大規模言語モデルのスケーリングアップは性能を向上させるが、「出現能力」と呼ばれる予測不可能な現象が存在する。これは小型モデルにはない能力であり、さらなるスケーリングがモデルの能力を拡大する可能性を示唆している。 Comment

openreview: https://openreview.net/forum?id=yzkSU5zdwD

創発能力（最近この用語を目にする機会が減ったような気がする）

#Pretraining #Pocket #ACL #Selected Papers/Blogs #Deduplication Issue Date: 2025-09-04 [Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 GPT Summary- 既存の言語モデルデータセットには重複した例が多く含まれ、訓練されたモデルの出力の1%以上が訓練データからコピーされている。これを解決するために、重複排除ツールを開発し、C4データセットからは60,000回以上繰り返される文を削除。重複を排除することで、モデルの記憶されたテキスト出力を10倍減少させ、精度を維持しつつ訓練ステップを削減。また、訓練とテストの重複を減らし、より正確な評価を実現。研究の再現とコードは公開されている。 Comment

下記スライドのp.9にまとめが記述されている:
https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws?slide=9

#EfficiencyImprovement #Pocket #MoE(Mixture-of-Experts) #Stability Issue Date: 2025-09-02 [Paper Note] StableMoE: Stable Routing Strategy for Mixture of Experts, Damai Dai+, arXiv'22 GPT Summary- StableMoEは、ルーティングの変動問題に対処するために2つのトレーニングステージを持つMixture-of-Experts手法を提案。最初のステージで一貫したルーティング戦略を学習し、軽量ルーターに蒸留。第二のステージでそのルーターを用いてエキスパートへの割り当てを固定。言語モデリングと多言語機械翻訳での実験により、StableMoEは収束速度と性能で既存手法を上回ることが示された。 Comment

元ポスト:

Loading…

#Pocket #ICLR #KnowledgeEditing Issue Date: 2025-06-18 [Paper Note] Fast Model Editing at Scale, Eric Mitchell+, ICLR'22 GPT Summary- MEND（モデル編集ネットワーク）は、事前学習モデルの動作を迅速かつ局所的に編集するための手法で、単一の入力-出力ペアを用いて勾配分解を活用します。これにより、10億以上のパラメータを持つモデルでも、1台のGPUで短時間でトレーニング可能です。実験により、MENDが大規模モデルの編集において効果的であることが示されました。 Comment

OpenReview: https://openreview.net/forum?id=0DcZxeWfOPt

#Pocket #PEFT(Adaptor/LoRA) #ICLR #PostTraining #Selected Papers/Blogs Issue Date: 2025-05-12 LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu+, ICLR'22 GPT Summary- LoRAは、事前学習された大規模モデルの重みを固定し、各層に訓練可能なランク分解行列を追加することで、ファインチューニングに必要なパラメータを大幅に削減する手法です。これにより、訓練可能なパラメータを1万分の1、GPUメモリを3分の1に減少させながら、RoBERTaやGPT-3などで同等以上の性能を実現します。LoRAの実装はGitHubで公開されています。 Comment

OpenrReview: https://openreview.net/forum?id=nZeVKeeFYf9

#MachineLearning #Pocket #NeurIPS #Scaling Laws #Selected Papers/Blogs Issue Date: 2025-03-23 Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22 GPT Summary- トランスフォーマー言語モデルの訓練において、計算予算内で最適なモデルサイズとトークン数を調査。モデルサイズと訓練トークン数は同等にスケールする必要があり、倍増するごとにトークン数も倍増すべきと提案。Chinchillaモデルは、Gopherなどの大規模モデルに対して優れた性能を示し、ファインチューニングと推論の計算量を削減。MMLUベンチマークで67.5%の精度を達成し、Gopherに対して7%以上の改善を実現。 Comment

OpenReview: https://openreview.net/forum?id=iBBcRUlOAPR

chinchilla則

#Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-10-29 Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N_A, EMNLP'22 GPT Summary- Super-NaturalInstructionsを用いて、NLPモデルの未見タスクへの一般化能力を評価。1,616の多様なタスクと指示を含むベンチマークを作成し、76種類のタスクタイプをカバー。Tk-Instructモデルは、指示に従う訓練を受け、InstructGPTを9%以上上回る性能を示す。一般化能力をスケーリングパラメータに基づいて分析し、汎用的なNLPモデルの進展を促進することを目指す。 Comment

7.1, 7.2が最も興味深い

## Instruction Tuningにおける未知のタスクに対する汎化性能について、3つの要素に対するスケーリングについて考察

- More observed tasks improve the generalization.

- A large number of training instances do not help generalization.

- Tuning larger models with instructions consistently lead to gains.

## Instructionをさまざまに変化させた時の性能の変化に対する分析

Table4の対角成分に注目すると（trainとtestのinput encodingを揃えた場合）

- Task definitionをinstructionに含めることで未知タスクに対する汎化性能向上

- Task Definitionとpositive examplesを4つ程度入れると汎化性能向上。

- ただし、これ以上exampleを増やすと性能低下。

- negative examplesを入れることは性能に a little bit しか貢献しない

- explanationsを入れると性能が低下する

Table4の非対角成分に着目すると、

- Task Definitionのみで訓練しても、Example onlyのtest時のencodingには汎化しない（逆も然り）

- Task Definition + examples (今回の場合はpositive examples4つ)は、さまざまなtest時のinput encodingsに対してロバストになる

#Pocket #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-09-25 Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, N_A, ICLR'22 GPT Summary- 指示チューニングを用いて言語モデルのゼロショット学習能力を向上させる方法を提案。137BパラメータのモデルFLANは、60以上のNLPタスクでファインチューニングされ、未見のタスクで175B GPT-3を上回るパフォーマンスを示す。アブレーションスタディにより、ファインチューニングデータセットの数やモデルのスケールが成功に寄与することが確認された。 Comment

FLAN論文。Instruction Tuningを提案した研究。

#Pocket #SelfImprovement Issue Date: 2024-09-15 STaR: Bootstrapping Reasoning With Reasoning, Eric Zelikman+, N_A, NeurIPS'22 GPT Summary- 「自己学習推論者」（STaR）を提案し、少数の合理的説明と大規模データセットを活用して複雑な推論を行う。STaRは、生成した回答が間違っている場合に正しい回答を用いて再生成し、ファインチューニングを繰り返すことで性能を向上させる。実験により、STaRは従来のモデルと比較して大幅な性能向上を示し、特にCommensenseQAでの成果が顕著である。 Comment

OpenAI o1関連研究

#Alignment #ChatGPT #RLHF #PPO (ProximalPolicyOptimization) #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-04-28 Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS'22 GPT Summary- 大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 Comment

#NaturalLanguageGeneration #Pocket #Dataset #Explanation Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv'22 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 Comment

OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6

データセット（中に存在するパターンの説明）をLLMによって生成させる研究
![Image](https://github.com/user-attachments/assets/df70f8c2-6eda-412f-84e0-92ffe7152a39)
![Image](https://github.com/user-attachments/assets/42b4f4f9-6f6c-4e45-8c7c-db76c5fd9932)

#NeuralNetwork #Chain-of-Thought #Prompting Issue Date: 2023-04-27 Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS'22 Comment

Zero-Shot CoT (Let's think step-by-step.)論文

https://user-images.githubusercontent.com/12249301/234746367-2cd80e23-8dcb-4244-b56c-e28120629027.png" >

Zero-Shot-CoTは2つのステップで構成される：

- STEP1: Reasoning Extraction

- 元のquestionをxとし、zero-shot-CoTのtrigger sentenceをtとした時に、テンプレート "Q: [X]. A. [T]" を用いてprompt　x'を作成

- このprompt x'によって得られる生成テキストzはreasoningのrationaleとなっている。

- STEP2: Answer Extraction

- STEP1で得られたx'とzを用いて、テンプレート "[X'] [Z] [A]" を用いてpromptを作成し、quiestionに対する回答を得る

- このとき、Aは回答を抽出するためのtrigger sentenceである。

- Aはタスクに応じて変更するのが効果的であり、たとえば、multi-choice QAでは "Therefore, among A through E, the answer is" といったトリガーを用いたり、数学の問題では "Therefore, the answer (arabic numerals) is" といったトリガーを用いる。

# 実験結果

表中の性能指標の左側はタスクごとにAnswer Triggerをカスタマイズしたもので、右側はシンプルに"The answer is"をAnswer Triggerとした場合。Zero-shot vs. Zero-shot-CoTでは、Zero-Shot-CoTが多くのb現地マークにおいて高い性能を示している。ただし、commonsense reasoningではperformance gainを得られなかった。これは Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS'22
で報告されている通り、commonsense reasoningタスクでは、Few-Shot CoTでもLambda135Bで性能が向上せず、Palm540Bで性能が向上したように、モデルのparameter数が足りていない可能性がある（本実験では17種類のモデルを用いているが、特に注釈がなければtext-davinci-002を利用した結果）。

## 他ベースラインとの比較

他のベースラインとarithmetic reasoning benchmarkで性能比較した結果。Few-Shot-CoTには勝てていないが、standard Few-shot Promptingtを大幅に上回っている。

## zero-shot reasoningにおけるモデルサイズの影響

さまざまな言語モデルに対して、zero-shotとzero-shot-CoTを実施した場合の性能比較。Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS'22
と同様にモデルサイズが小さいとZero-shot-CoTによるgainは得られないが、モデルサイズが大きくなると一気にgainが大きくなる。

## Zero-shot CoTにおけるpromptの選択による影響

input promptに対するロバスト性を確認した。instructiveカテゴリ（すなわち、CoTを促すトリガーであれば）性能が改善している。特に、どのようなsentenceのトリガーにするかで性能が大きくかわっている。今回の実験では、"Let's think step by step"が最も高い性能を占め最多。

## Few-shot CoTのprompt選択における影響

CommonsenseQAのexampleを用いて、AQUA-RAT, MultiArithをFew-shot CoTで解いた場合の性能。どちらのケースもドメインは異なるが、前者は回答のフォーマットは共通である。異なるドメインでも、answer format（multiple choice）の場合、ドメインが異なるにもかかわらず、zero-shotと比較して性能が大幅に向上した。一方、answer formatが異なる場合はperformance gainが小さい。このことから、LLMはtask自体よりも、exampleにおけるrepeated formatを活用していることを示唆している。また、CommonSennseをExamplarとして用いたFew-Shot-CoTでは、どちらのデータセットでもZero-Shot-CoTよりも性能が劣化している。つまり、Few-Shot-CoTでは、タスク特有のサンプルエンジニアリングが必要であることがわかる（一方、Zero-shot CoTではそのようなエンジニアリングは必要ない）。

Issue Date: 2023-04-25 Recurrent Memory Transformer, Bulatov+, NeurIPS'22 Comment

TransformerはO(N^2)であり、計算量がNに応じて指数関数的に増加してしまう。一方、sequenceの情報を全てN次元ベクトルに集約しなければならず、計算量の制約によって長い系列のRepresentationを獲得できない。

そこで、Transformerの構造は変えず、Inputにメモリtokenを追加することで、メモリ間の関係性を学習できるような手法を提案。長いトークン列に対しても、トークン列をセグメントとゆばれる単位に区切り、セグメントのInputの頭で、前断のセグメントのメモリtokenを入力し、最終的に現在のセグメントのメモリをoutputし、後断のセグメントに入力とする、といったことを繰り返すことで、長い系列も扱えるようにした。

セグメントをまたいでbackpropagationをかけることで、たとえセグメントとしては独立していても、メモリの情報を考慮することでセグメント間の依存関係を学習することが可能だと思われる。

#NeuralNetwork #Pocket Issue Date: 2022-12-05 UNIFIEDSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models, Xie+, EMNLP'22 #EfficiencyImprovement #Pretraining #Pocket #Transformer #NeurIPS #read-later #ZeroshotHyperparameterTransfer Issue Date: 2025-08-28 [Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21 GPT Summary- ハイパーパラメータチューニングは高コストであり、特に大規模なニューラルネットワークにおいて負担が大きい。新たに提案するmuTransferは、最大更新パラメータ化（muP）を利用し、小さなモデルでチューニングしたHPをフルサイズモデルにゼロショットで転送する手法である。実験により、1300万パラメータのモデルからBERT-largeを超える性能を達成し、4000万パラメータからはGPT-3を上回る結果を得た。チューニングコストはそれぞれ事前学習コストの同等または7%に抑えられた。 Comment

openreview: https://openreview.net/forum?id=Bx6qKuBM2AD

小規模なモデルに対してハイパーパラメータのチューニングを実施し、同様のベースモデルで、**各layerのwidthが大きいもの**に対しても、小規模モデルで最適であったハイパーパラメータをzero-shotで転移することで near optimalなハイパーパラメータで学習できるmu Transferを提案。

モデルの深さ（以外にも下表中の*印のパラメータ）に対しても限定的に転移可能な模様。Post-Layer NormのTransformerやではあまりうまくいかないことが11節に記述されている（実験はpre-Layer Norm Transformer, ResNetに対して行われている模様）。
また、6.1節では、（実験的に）利用する小規模モデルのスケールとして幅256, 深さ4, バッチサイズ32, sequence長128, 訓練ステップ数5000を最低満たしており、かつスケールさせる幅が妥当な範囲内である必要がある、といった話が記述されている。

前提知識（muP）や条件が多そうな気がするので、しっかり確認した方がよさそう。
たとえば、muPで初期化されている必要があることや、転送可能なハイパーパラメータに限りがある（e.g. 学習率）、異なるデータに対するfinetuningなどは転送できないなど。

https://github.com/user-attachments/assets/e5aeb152-5c9e-4ba2-9152-4bfef0d7c27c" />

muP:
- [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, PMLR'21

#Pocket #Dataset #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #Dataset #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#Pocket #EMNLP #KnowledgeEditing Issue Date: 2025-06-18 [Paper Note] Editing Factual Knowledge in Language Models, Nicola De Cao+, EMNLP'21 GPT Summary- KnowledgeEditorは、事前学習された言語モデルの知識を編集し、再学習なしで誤った事実や予測を修正する手法です。制約最適化を用いてハイパーネットワークを訓練し、他の知識に影響を与えずに事実を修正します。BERTとBARTのモデルでその有効性を示し、特定のクエリに基づく予測変更がパラフレーズにも一貫して影響を与えることを確認しました。ハイパーネットワークは、知識操作に必要なコンポーネントを特定する「プローブ」として機能します。 #Pocket #Dataset #Supervised-FineTuning (SFT) #Mathematics #Selected Papers/Blogs #Verification Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 GPT Summary- GSM8Kデータセットを用いて、多段階の数学的推論における言語モデルの限界を分析。検証器を訓練し、候補解を評価して最適解を選択することで、モデルのパフォーマンスを大幅に向上させることを示した。検証はファインチューニングよりもデータ増加に対して効果的にスケールする。 Comment

Todo: 続きをまとめる

#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #Transformer #MultiModal Issue Date: 2023-08-22 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision, Wonjae Kim+, N_A, ICML'21 GPT Summary- VLP（Vision-and-Language Pre-training）のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ（ViLT）モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment

日本語解説: https://tech.fusic.co.jp/posts/2021-12-29-vilt/

#Sentence #Embeddings #Pocket #RepresentationLearning #ContrastiveLearning #Catastrophic Forgetting #Selected Papers/Blogs Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP'21 GPT Summary- この論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment

#Pocket #Dataset #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#PersonalizedDocumentSummarization #Dataset #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

# 概要

ニュース記事に対するPersonalizedなHeadlineの正解データを生成。103名のvolunteerの最低でも50件のクリックログと、200件に対する正解タイトルを生成した。正解タイトルを生成する際は、各ドキュメントごとに4名異なるユーザが正解タイトルを生成するようにした。これらを、Microsoft Newsの大規模ユーザ行動ログデータと、ニュース記事本文、タイトル、impressionログと組み合わせてPENSデータを構成した。

# データセット生成手順

103名のenglish-native [speakerの学生に対して、1000件のニュースヘッドラインの中から最低50件興味のあるヘッドラインを選択してもらう。続いて、200件のニュース記事に対して、正解ヘッドラインを生成したもらうことでデータを生成した。正解ヘッドラインを生成する際は、同一のニュースに対して4人がヘッドラインを生成するように調整した。生成されたヘッドラインは専門家によってqualityをチェックされ、factual informationにエラーがあるものや、極端に長い・短いものなどは除外された。

# データセット統計量

# 手法概要

Transformer Encoder + Pointer GeneratorによってPersonalizedなヘッドラインを生成する。

Transformer Encoderでは、ニュースの本文情報をエンコードし、attention distributionを生成する。Decoder側では、User Embeddingを組み合わせて、テキストをPointer Generatorの枠組みでデコーディングしていき、ヘッドラインを生成する。

User Embeddingをどのようにinjectするかで、3種類の方法を提案しており、1つ目は、Decoderの初期状態に設定する方法、2つ目は、ニュース本文のattention distributionの計算に利用する方法、3つ目はデコーディング時に、ソースからvocabをコピーするか、生成するかを選択する際に利用する方法。1つ目は一番シンプルな方法、2つ目は、ユーザによって記事で着目する部分が違うからattention distributionも変えましょう、そしてこれを変えたらcontext vectorも変わるからデコーディング時の挙動も変わるよねというモチベーション、3つ目は、選択するvocabを嗜好に合わせて変えましょう、という方向性だと思われる。最終的に、2つ目の方法が最も性能が良いことが示された。

# 訓練手法

まずニュース記事推薦システムを訓練し、user embeddingを取得できるようにする。続いて、genericなheadline generationモデルを訓練する。最後に両者を組み合わせて、Reinforcement LearningでPersonalized Headeline Generationモデルを訓練する。Rewardとして、

1. Personalization: ヘッドラインとuser embeddingのdot productで報酬とする

2. Fluency: two-layer LSTMを訓練し、生成されたヘッドラインのprobabilityを推定することで報酬とする

3. Factual Consistency: 生成されたヘッドラインと本文の各文とのROUGEを測りtop-3 scoreの平均を報酬とする

とした。

1,2,3の平均を最終的なRewardとする。

# 実験結果

Genericな手法と比較して、全てPersonalizedな手法が良かった。また、手法としては②のattention distributionに対してuser informationを注入する方法が良かった。News Recommendationの性能が高いほど、生成されるヘッドラインの性能も良かった。

# Case Study

ある記事に対するヘッドラインの一覧。Pointer-Genでは、重要な情報が抜け落ちてしまっているが、提案手法では抜け落ちていない。これはRLの報酬のfluencyによるものだと考えられる。また、異なるユーザには異なるヘッドラインが生成されていることが分かる。

#NeuralNetwork #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining #Selected Papers/Blogs Issue Date: 2022-08-19 [Paper Note] The Power of Scale for Parameter-Efficient Prompt Tuning, Brian Lester+, arXiv'21, 2021.04 GPT Summary- 本研究では、凍結された言語モデルを特定のタスクに適応させるための「ソフトプロンプト」を学習するプロンプトチューニング手法を提案。逆伝播を通じて学習されるソフトプロンプトは、GPT-3の少数ショット学習を上回る性能を示し、モデルサイズが大きくなるほど競争力が増すことが確認された。特に、数十億のパラメータを持つモデルにおいて、全ての重みを調整するモデルチューニングに匹敵する性能を発揮。これにより、1つの凍結モデルを複数のタスクに再利用できる可能性が示唆され、ドメイン転送に対するロバスト性も向上することが明らかとなった。 Comment

いわゆる(Softな) Prompt Tuning

#DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #ACL #PostTraining #Selected Papers/Blogs Issue Date: 2021-09-09 [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01 GPT Summary- プレフィックスチューニングは、ファインチューニングの軽量な代替手段であり、言語モデルのパラメータを固定しつつ、タスク特有の小さなベクトルを最適化する手法です。これにより、少ないパラメータで同等のパフォーマンスを達成し、低データ設定でもファインチューニングを上回る結果を示しました。 Comment

autoregressive LM (GPT-2)と，encoder-decoderモデル（BART）へPrefix Tuningを適用する場合の模式図

#Pocket #Scaling Laws Issue Date: 2025-05-31 Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv'20 GPT Summary- 生成画像、ビデオ、マルチモーダルモデル、数学的問題解決の4領域におけるクロスエントロピー損失のスケーリング法則を特定。自己回帰型トランスフォーマーはモデルサイズと計算予算の増加に伴い性能が向上し、べき法則に従う。特に、10億パラメータのトランスフォーマーはYFCC100M画像分布をほぼ完璧にモデル化できることが示された。さらに、マルチモーダルモデルの相互情報量や数学的問題解決における外挿時の性能に関する追加のスケーリング法則も発見。これにより、スケーリング法則がニューラルネットワークの性能に与える影響が強調された。 #Pocket #ICLR #Decoding #Selected Papers/Blogs Issue Date: 2025-04-14 The Curious Case of Neural Text Degeneration, Ari Holtzman+, ICLR'20 GPT Summary- 深層ニューラル言語モデルは高品質なテキスト生成において課題が残る。尤度の使用がモデルの性能に影響を与え、人間のテキストと機械のテキストの間に分布の違いがあることを示す。デコーディング戦略が生成テキストの質に大きな影響を与えることが明らかになり、ニュークリアスsamplingを提案。これにより、多様性を保ちながら信頼性の低い部分を排除し、人間のテキストに近い質を実現する。 Comment

現在のLLMで主流なNucleus (top-p) Samplingを提案した研究

#MachineLearning #Pocket #Scaling Laws Issue Date: 2025-03-23 Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20 GPT Summary- 言語モデルの性能に関するスケーリング法則を研究し、損失がモデルサイズ、データセットサイズ、計算量に対して冪則的にスケールすることを示す。アーキテクチャの詳細は影響が少なく、過学習やトレーニング速度は単純な方程式で説明される。これにより、計算予算の最適な配分が可能となり、大きなモデルはサンプル効率が高く、少量のデータで早期に収束することが示された。 Comment

日本語解説: https://www.slideshare.net/slideshow/dlscaling-laws-for-neural-language-models/243005067

#NeuralNetwork #Transformer #Selected Papers/Blogs #ActivationFunction Issue Date: 2024-05-24 GLU Variants Improve Transformer, Noam Shazeer, N_A, arXiv'20 GPT Summary- GLUのバリエーションをTransformerのフィードフォワード・サブレイヤーでテストし、通常の活性化関数よりもいくつかのバリエーションが品質向上をもたらすことを発見した。 Comment

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ContextEngineering Issue Date: 2023-12-01 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis+, N_A, NeurIPS'20 GPT Summary- 大規模な事前学習言語モデルを使用した検索強化生成（RAG）の微調整手法を提案しました。RAGモデルは、パラメトリックメモリと非パラメトリックメモリを組み合わせた言語生成モデルであり、幅広い知識集約的な自然言語処理タスクで最先端の性能を発揮しました。特に、QAタスクでは他のモデルを上回り、言語生成タスクでは具体的で多様な言語を生成することができました。 Comment

RAGを提案した研究

Retrieverとして利用されているDense Passage Retrieval (DPR)はこちら:
- [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04

#NeuralNetwork #Pocket #Zero/Few/ManyShotPrompting #In-ContextLearning #NeurIPS #Selected Papers/Blogs Issue Date: 2023-04-27 Language Models are Few-Shot Learners, Tom B. Brown+, NeurIPS'20 GPT Summary- GPT-3は1750億パラメータを持つ自己回帰型言語モデルで、少数ショット設定においてファインチューニングなしで多くのNLPタスクで強力な性能を示す。翻訳や質問応答などで優れた結果を出し、即時推論やドメイン適応が必要なタスクでも良好な性能を発揮する一方、依然として苦手なデータセットや訓練に関する問題も存在する。また、GPT-3は人間が書いた記事と区別が難しいニュース記事を生成できることが確認され、社会的影響についても議論される。 Comment

In-Context Learningを提案した論文

#NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #pretrained-LM #Zero/FewShotLearning Issue Date: 2022-12-01 Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL'20 Comment

# 概要

Neural basedなend-to-endなNLGアプローチはdata-hungryなので、Few Shotな設定で高い性能ができる手法を提案（Few shot NLG）

Table-to-Textタスク（WikiBIOデータ, 追加で収集したBook, SongドメインのWikipediaデータ）において、200程度の学習サンプル数でstrong baselineに対して8.0 point程度のBLEUスコアの向上を達成

# 手法

TabularデータのDescriptionを作成するには大きく分けて2つのスキルが必要

1. factualな情報を持つcontentをselectし、copyするスキル

2. factualな情報のコピーを含めながら、文法的に正しいテキストを生成するスキル

提案手法では、1を少量のサンプル（< 500）から学習し、2については事前学習済みの言語モデルを活用する。

encoderからコピーする確率をpcopyとし、下記式で算出する：

すなわち、encoderのcontext vectorと、decoderのinputとstateから求められる。

encoderとencoder側へのattentionはscratchから学習しなければならず、うまくコピーできるようにしっかりと”teach”しなければならないため、lossに以下を追加する：

すなわち、コピーすべき単語がちゃんとコピーできてる場合にlossが小さくなる項を追加している。

また、decoder側では、最初にTable情報のEmbeddingを入力するようにしている。

また、学習できるデータ量が限られているため、pre-trainingモデルのEmbeddingは事前学習時点のものに固定した（ただしく読解できているか不安）

# 実験

WikiBIOと、独自に収集したBook, Songに関するWikipediaデータのTable-to-Textデータを用いて実験。

このとき、Training instanceを50~500まで変化させた。

WikiBIOデータセットに対してSoTAを記録しているBase-originalを大きくoutperform（Few shot settingでは全然うまくいかない）。

inputとoutput例と、コピーに関するlossを入れた場合の効果。

人手評価の結果、Factual informationの正しさ（#Supp）、誤り（#Cont）ともに提案手法が良い。また、文法的な正しさ（Lan. Score）もコピーがない場合とcomparable

#NeuralNetwork #MachineLearning #Pocket #NeurIPS Issue Date: 2025-08-05 [Paper Note] Deep Equilibrium Models, Shaojie Bai+, NeurIPS'19 GPT Summary- 深い平衡モデル（DEQ）を提案し、逐次データのモデル化において平衡点を直接見つけるアプローチを示す。DEQは無限の深さのフィードフォワードネットワークを解析的に逆伝播可能にし、定数メモリでトレーニングと予測を行える。自己注意トランスフォーマーやトレリスネットワークに適用し、WikiText-103ベンチマークでパフォーマンス向上、計算要件の維持、メモリ消費の最大88%削減を実証。 #EfficiencyImprovement #Pocket #Transformer #Attention Issue Date: 2024-04-07 Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, N_A, arXiv'19 GPT Summary- マルチヘッドアテンションレイヤーのトレーニングは高速かつ簡単だが、増分推論は大きな"keys"と"values"テンソルを繰り返し読み込むために遅くなることがある。そこで、キーと値を共有するマルチクエリアテンションを提案し、メモリ帯域幅要件を低減する。実験により、高速なデコードが可能で、わずかな品質の低下しかないことが確認された。 Comment

Multi Query Attention論文。KVのsetに対して、単一のQueryのみでMulti-Head Attentionを代替する。劇的にDecoderのInferenceが早くなりメモリ使用量が減るが、論文中では言及されていない？ようだが、性能と学習の安定性が課題となるようである。

#NeuralNetwork #Sentence #ACL Issue Date: 2017-12-28 [Paper Note] Larger-context language modelling with recurrent neural networks, Wang+, ACL'16 Comment

## 概要

通常のNeural Language Modelはsentence間に独立性の仮定を置きモデル化されているが、この独立性を排除し、preceding sentencesに依存するようにモデル化することで、言語モデルのコーパスレベルでのPerplexityが改善したという話。提案した言語モデルは、contextを考慮することで特に名詞や動詞、形容詞の予測性能が向上。Late-Fusion methodと呼ばれるRNNのoutputの計算にcontext vectorを組み込む手法が、Perplexityの改善にもっとも寄与していた。

## 手法

sentence間の独立性を排除し、Corpusレベルのprobabilityを下図のように定義。（普通はP(Slが条件付けされていない)）

preceding sentence (context)をモデル化するために、3種類の手法を提案。

[1. bag-of-words context]

　ナイーブに、contextに現れた単語の（単一の）bag-of-wordsベクトルを作り、linear layerをかませてcontext vectorを生成する手法。

[2. context recurrent neural network]

　preceding sentencesをbag-of-wordsベクトルの系列で表現し、これらのベクトルをsequentialにRNN-LSTMに読み込ませ、最後のhidden stateをcontext vectorとする手法。これにより、sentenceが出現した順番が考慮される。

[3. attention based context representation]

　Attentionを用いる手法も提案されており、context recurrent neural networkと同様にRNNにbag-of-wordsのsequenceを食わせるが、各時点におけるcontext sentenceのベクトルを、bi-directionalなRNNのforward, backward stateをconcatしたもので表現し、attention weightの計算に用いる。context vectorは1, 2ではcurrent sentence中では共通のものを用いるが、attention basedな場合はcurrent sentenceの単語ごとに異なるcontext vectorを生成して用いる。

生成したcontext vectorをsentence-levelのRNN言語モデルに組み合わせる際に、二種類のFusion Methodを提案している。

[1. Early Fusion]

　ナイーブに、RNNLMの各時点でのinputにcontext vectorの情報を組み込む方法。

[2. Late Fusion]

　よりうまくcontext vectorの情報を組み込むために、current sentence内の単語のdependency(intra-sentence dependency)と、current sentenceとcontextの関係を別々に考慮する。context vectorとmemory cellの情報から、context vector中の不要箇所をフィルタリングしたcontrolled context vectorを生成し、LSTMのoutputの計算に用いる。Later Fusionはシンプルだが、corpusレベルのlanguage modelingの勾配消失問題を緩和することもできる。

## 評価

IMDB, BBC, PennTreebank, Fil9 (cleaned wikipedia corpus)の4種類のデータで学習し、corpus levelでPerplexityを測った。

Late FusionがPerplexityの減少に大きく寄与している。

PoSタグごとのperplexityを測った結果、contextを考慮した場合に名詞や形容詞、動詞のPerplexityに改善が見られた。一方、Coordinate Conjungtion (And, Or, So, Forなど)や限定詞、Personal Pronouns (I, You, It, Heなど)のPerplexityは劣化した。前者はopen-classな内容語であり、後者はclosed-classな機能語である。機能語はgrammaticalなroleを決めるのに対し、内容語はその名の通り、sentenceやdiscourseの内容を決めるものなので、文書の内容をより捉えることができると考察している。

#ACL #IJCNLP #Selected Papers/Blogs Issue Date: 2018-03-30 [Paper Note] Unsupervised prediction of acceptability judgements, Lau+, ACL-IJCNLP'15 Comment

#NeuralNetwork #Selected Papers/Blogs #Interspeech Issue Date: 2025-09-19 Recurrent neural network based language model, Mikolov+, Interspeech'10 Comment

RNN言語モデル論文

#MachineTranslation #Selected Papers/Blogs Issue Date: 2024-12-24 Large Language Models in Machine Translation, Brants+, EMNLP-CoNLL'07 GPT Summary- 本論文では、機械翻訳における大規模な統計的言語モデルの利点を報告し、最大2兆トークンでトレーニングした3000億n-gramのモデルを提案。新しいスムージング手法「Stupid Backoff」を導入し、大規模データセットでのトレーニングが安価で、Kneser-Neyスムージングに近づくことを示す。 Comment

元ポスト:

Loading…

Large Language Modelsという用語が利用されたのはこの研究が初めてなのかも…？

#Article #ReinforcementLearning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-27 [Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team, 2025.11 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

#Article #AIAgents #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-25 Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11 Comment

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

#Article #Evaluation #LongSequence Issue Date: 2025-11-24 Context Arena, DillonUzar, 2025.04 Comment

元ポスト:

Loading…

関連:

Loading…

#Article #Analysis #ReinforcementLearning #Safety #RewardHacking #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-22 From shortcuts to sabotage: natural emergent misalignment from reward hacking, Anthropic, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog #Japanese Issue Date: 2025-11-21 大規模言語モデルの次期バージョン PLaMo 3 シリーズにおける8B, 31Bの小規模モデルによる事前学習の検証, PFN, 2025.11 Comment

元ポスト:

Loading…

コーディング能力で大幅に性能向上している模様:

Loading…

- Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08

#Article #Dataset #Evaluation #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #Reasoning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Olmo 3: Charting a path through the model flow to lead open-source AI, Ai2, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

post-LN transformer

OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

ポイント解説:

Loading…

official livestream video:

Loading…

解説:

Loading…

Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし！！

Olmo3のライセンスに関する以下のような懸念がある:

Loading…

#Article #Tutorial #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #Dataset #AIAgents #Evaluation #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Survey #Dataset #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #GenerativeAI #Blog #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Gemini 3 による知性の新時代, Google, 2025.11 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

#Article #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #DeepResearch Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

#Article #GenerativeAI #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-18 Grok 4.1, xAI, 2025.11 Comment

元ポスト:

Loading…

#Article #GenerativeAI #Blog #text #AI Detector Issue Date: 2025-11-16 Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11 Comment

元ポスト:

Loading…

#Article #Tutorial #ReinforcementLearning #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 [IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11 Comment

元ポスト:

Loading…

#Article #Analysis #Blog #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-15 ICLR 2026 - Submissions, Pangram Labs, 2025.11 Comment

元ポスト:

Loading…

ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果（検出性能は完璧な結果ではない点に注意）

この辺の議論が興味深い:

Loading…

関連:

Loading…

oh...

パイプライン解説:

Loading…

母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:

Loading…

ICLR公式が対応検討中とのこと:

Loading…

ICLRからの続報:

Loading…

元ポスト:

Loading…

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

#Article #Pretraining #Dataset #SyntheticData #Reasoning #One-Line Notes Issue Date: 2025-11-12 SYNTH: the new data frontier, pleias, 2025.11 Comment

元ポスト:

Loading…

SoTAなReasoning能力を備えたSLMを学習可能な事前学習用合成データ

元ポスト:

Loading…

#Article #DocumentSummarization #GenerativeAI #Blog #Science Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

#Article #Analysis #ReinforcementLearning #Blog #PEFT(Adaptor/LoRA) #PostTraining #read-later Issue Date: 2025-11-10 RL Learning with LoRA: A Diverse Deep Dive, kalomaze's kalomazing blog, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #AIAgents #Coding #Video Issue Date: 2025-11-09 Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog #Reasoning #OpenWeight #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Introducing Kimi K2 Thinking, MoonshotAI, 2025.11 Comment

HF: https://huggingface.co/moonshotai

元ポスト:

Loading…

coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform

tooluseのベンチマークであるtau^2 Bench TelecomではSoTA

Loading…

モデルの図解:

Loading…

INT4-QATに関する解説:

Loading…

INT4-QATの解説:

Loading…

Kimi K2 DeepResearch:

Loading…

METRによる50% timehorizonの推定は54分:

Loading…

METRでの評価でClaude 3.7 Sonnetと同等のスコア:

Loading…

openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク（agenticなlong horizon+reasoningタスク）9ヶ月程度を要しているとのこと

#Article #Tutorial #Blog #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11 Comment

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

#Article #Tutorial #Evaluation #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

LLMの評価は些細な評価設定の違いで大きな変動が生じるだけでなく、事後学習済みモデルやreasoningモデルが主流になってきた現在では評価方法もアップデートが必要という話。たとえばreasoningモデルはfew-shotで評価すると性能が低下することが知られているなど。

#Article #Analysis #Blog #OpenWeight Issue Date: 2025-11-01 Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10 Comment

タイトルの通りな模様

元ポスト:

Loading…

#Article #ComputerVision #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 LongCat-Flash-Omni Technical Report, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

text, image/video, audioをinputし、audioを生成するomniモデル

#Article #Tutorial #Pretraining #Slide #Japanese Issue Date: 2025-11-01 LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #Pretraining #Dataset #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #Analysis #Blog #Selected Papers/Blogs Issue Date: 2025-10-31 Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #AIAgents #One-Line Notes #Security Issue Date: 2025-10-31 Introducing Aardvark: OpenAI’s agentic security researcher, OpenAI, 2025.10 Comment

元ポスト:

Loading…

> In benchmark testing on “golden” repositories, Aardvark identified 92% of known and synthetically-introduced vulnerabilities, demonstrating high recall and real-world effectiveness.

合成された脆弱性については92%程度検出できたとのこと。Claudeとかだとこの辺はどの程度の性能なのだろう。

#Article #EfficiencyImprovement #Attention #OpenWeight #Architecture #read-later #Hybrid Issue Date: 2025-10-31 [Paper Notes] KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE, Kimi Team, 2025.10 Comment

HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

アーキテクチャ解説:

Loading…

#Article #Reasoning #OpenWeight #Safety #One-Line Notes #Safeguard Issue Date: 2025-10-30 gpt-oss-safeguard, OpenAI, 2025.10 Comment

元ポスト:

Loading…

blog: https://openai.com/index/introducing-gpt-oss-safeguard/

ポリシーとそのポリシーに従うべきコンテンツが与えられたときに、コンテンツを分類するタスクを実施できる汎用的なreasoningモデル。つまり、任意のポリシーを与えて追加の学習なしでpromptingによってコンテンツがポリシーのもとでsafe/unsafeなのかを分類できる。

gpt-ossをreinforcbment finetuningしているとのこと。

#Article #AIAgents #ProprietaryLLM #SoftwareEngineering Issue Date: 2025-10-30 Introducing SWE-1.5: Our Fast Agent Model, Cognition, 2025.10 Comment

元ポスト:

Loading…

windsurfから利用可能とのこと

#Article #Library #ReinforcementLearning #Blog #Distillation #On-Policy #reading Issue Date: 2025-10-30 Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

- Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10

で提案されている手法拡張してトークナイザが異なるモデル間でもオンポリシーRLを用いてknowledge distillationを実現できるようなGKD trainerがTRLに実装されたとのこと。

#Article #Pretraining #Blog #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Marin 32B Retrospective, marin-community, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #DiffusionModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-28 LLaDA 2.0, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #Blog #OpenWeight #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2

proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、

公式ポスト:

Loading…

MITライセンス

SGLangでもサポートされている:

Loading…

AnthropicのAPIの利用をお勧めする理由:

Loading…

アーキテクチャ解説:

Loading…

解説:

Loading…

#Article #ReinforcementLearning #Blog #Tokenizer #Stability #RetokenizationDrift Issue Date: 2025-10-24 No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10 Comment

推論時のトークン化と、結果として返される文字列の再トークン化の際に異なるcontextの元トークン化がされることで（e.g., 異なるテンプレートが利用されるなど）、トークン化の結果が異なりgapが生まれるという問題。この違いがオンポリシーRLなどで学習に不安定にするよ、という話で、vLLMがトークンIDそのものを返せるように仕様変更したよ、といった話らしい。

トークン化の不一致という文脈で言うと下記のような研究もある
- [Paper Note] Addressing Tokenization Inconsistency in Steganography and Watermarking Based on Large Language Models, Ruiyi Yan+, EMNLP'25

#Article #AIAgents #Blog #Safety Issue Date: 2025-10-23 Introducing ControlArena: A library for running AI control experiments, AISI, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #Dataset #TabularData #Mathematics #MultiLingual #DataFiltering #One-Line Notes Issue Date: 2025-10-22 FindWiki, Guilherme Penedo, 2025.10 Comment

元ポスト:

Loading…

2023年時点で公開されたWikipediaデータをさらに洗練させたデータセット。文字のレンダリング、数式、latex、テーブルの保持（従来は捨てられてしまうことが多いとのこと）、記事に関係のないコンテンツのフィルタリング、infoboxを本文から分離してメタデータとして保持するなどの、地道な前処理をして洗練化させたとのこと。

#Article #ComputerVision #MultiLingual #OpenWeight #DocParser #OCR Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…

SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07

#Article #Analysis #Pocket #Geometric Issue Date: 2025-10-22 When Models Manipulate Manifolds: The Geometry of a Counting Task, Gurnee+, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #Pretraining #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment

元ポスト:

Loading…

新たなスピードランが...!!

#Article #Blog #ProprietaryLLM Issue Date: 2025-10-22 NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所, 2025.10 Comment

日本語MT-benchでGPT-5と同等程度の性能とのこと。VRAM40GB未満の1GPUで動作させることを念頭に開発されており、フルスクラッチ、かつ学習データも完全にコントロールしデータの権利、品質、バイアスの管理可能にしているとのこと。

#Article #Mathematics #PostTraining #Proofs #Simplification Issue Date: 2025-10-22 ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations, Gu+, 2025.10 Comment

pj page: https://proof-optimizer.github.io

LLMの通常利用時の応答も（おそらくベンチマークに最適化されているせいで）長すぎると思っているけど、数学の証明も長いんだなあ、と感じた

#Article #Reasoning #Test-Time Scaling #read-later #One-Line Notes #Test-time Learning Issue Date: 2025-10-21 Knowledge Flow: Scaling Reasoning Beyond the Context Limit, Zhuang+, 2025.10 Comment

元ポスト:

Loading…

モデルのロールアウトの結果からattemptから知識リストをiterativeに更新（新たな知識を追加, 古い知識を削除 or 両方）していくことによって、過去のattemptからのinsightを蓄積し性能を改善するような新たなテストタイムスケーリングの枠組みな模様。sequential test-time scalingなどとは異なり、複数のattemptによって知識リストを更新することでスケールさせるので、context windowの制約を受けない、といった話な模様。LLM AgentにおけるTest-time learningとかなり類似したコンセプトに見える。

https://github.com/user-attachments/assets/9a302c5e-ee79-4c17-99e3-0851b5f127c6" />

#Article #ComputerVision #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

関連:

Loading…

literature:

Loading…

karpathy氏のポスト:

Loading…

#Article #Pretraining #MachineLearning #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment

元ポスト:

Loading…

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

#Article #EfficiencyImprovement #Blog #read-later Issue Date: 2025-10-20 modded-nanogpt medium world record: Re-using intermediate activations in the output latents, shimu's blog, 2025.10 Comment

元ポスト:

Loading…

#Article #Evaluation #Blog #Reasoning #LongSequence Issue Date: 2025-10-17 Evaluating Long Context （Reasoning） Ability, wh., 2025.10 Comment

元ポスト:

Loading…

#Article #LongSequence #RecursiveModels Issue Date: 2025-10-17 Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities, Zhang+, 2025.10 Comment

blog: https://alexzhang13.github.io/blog/2025/rlm/
super basic implementation:

Loading…

元ポスト:

Loading…

#Article #Tutorial #Robotics #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

#Article #SmallModel #OpenWeight #Japanese #PII Issue Date: 2025-10-14 LFM2-350M-PII-Extract-JP, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #Reasoning #OpenWeight Issue Date: 2025-10-14 Ring-1T, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

inclusionAIから続々とfrontierなモデルが出てきている。

テクニカルレポートが公開:
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model, Ling Team+, arXiv'25, 2025.10

#Article #SSM (StateSpaceModel) Issue Date: 2025-10-13 MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10 Comment

元ポスト:

Loading…

解説:

Loading…

#Article #AIAgents #Evaluation #OpenWeight Issue Date: 2025-10-12 K2 Vendor Verifier, MoonshotAI, 2025.09 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

#Article #Tutorial #Blog #read-later Issue Date: 2025-10-11 A History of Large Language Models, Gregory Gundersen, 2025.10 Comment

元ポスト:

Loading…

#Article #ReinforcementLearning #Repository #PEFT(Adaptor/LoRA) Issue Date: 2025-10-10 Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10 Comment

元ポスト:

Loading…

#Article #SmallModel #OpenWeight #SSM (StateSpaceModel) Issue Date: 2025-10-09 Jamba Reasoning 3B, AI21Labs, 2025.10 Comment

元ポスト:

Loading…

#Article #Blog #SmallModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-08 LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10 Comment

HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B

元ポスト:

Loading…

日本語もサポートしているとのこと

#Article #Dataset #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #AIAgents #OpenWeight #Japanese Issue Date: 2025-10-07 エージェント機能が大幅に強化されたPLaMo 2.1 Primeの提供開始, PFN, 2025.10 Comment

マルチターンのtool callingのベンチマークのSimple, Multiple（それぞれ単一ツール呼び出し、複数のツールの中から適切なツールを呼び出す能力）でBFCVv3でGPT-5超え。ただしGPT-5はツール呼び出しではなくユーザと対話する傾向にあるため、chatアプリケーションではこちらの方が有用な場合があるので全てのユースケースでPLaMoが上回ることを示しているわけではない、という注釈がついている。より実験的な環境であるLive MultipleではGPT-5の方がスコアが高い模様。
- BFCLv2, UC Berkeley, 2024.08

単一呼び出し、複数定義されている中から適切なツールを呼び出すことで済むようなユースケースの場合は検討の余地があると思われる。ただし細かいreasoning_effortやverbosity等のパラメータ設定が記述されていないように見えるので、その辺はどうなんだろうか。

#Article #EfficiencyImprovement #ReinforcementLearning #AIAgents #Repository #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-05 PipelineRL, Piche+, ServiceNow, 2025.04 Comment

code: https://github.com/ServiceNow/PipelineRL

元ポスト:

Loading…

Inflight Weight Updates

続報:

Loading…

論文:
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

続報:

Loading…

#Article #DiffusionModel #Coding #SmallModel #OpenWeight #OpenSource Issue Date: 2025-10-05 CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Salesforce/CoDA-v0-Instruct

cc-by-nc-4.0

#Article #Tutorial #AIAgents #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 PFN LLMセミナー, PFN, 2025.10 Comment

元ポスト:

Loading…

#Article #Analysis #Pretraining #DiffusionModel Issue Date: 2025-10-04 Diffusion Language Models are Super Data Learners, Ni+, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Pretraining #DiffusionModel #Blog #MoE(Mixture-of-Experts) #read-later Issue Date: 2025-10-03 OpenMoE 2: Sparse Diffusion Language Models, Ni+, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #OpenWeight #UMM Issue Date: 2025-10-03 Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer, inclusionAI, 2025.10 Comment

HF: https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

元ポスト:

Loading…

#Article #SpeechProcessing #Blog #OpenWeight #Editing Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

#Article #Blog #PEFT(Adaptor/LoRA) #API #PostTraining #KeyPoint Notes Issue Date: 2025-10-03 Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10 Comment

元ポスト:

Loading…

THINKING MACHINESによるOpenWeightモデルをLoRAによってpost-trainingするためのAPI。QwenとLlamaをベースモデルとしてサポート。現在はBetaでwaitlistに登録する必要がある模様。

（Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った）

この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09

ドキュメントはこちら:
https://tinker-docs.thinkingmachines.ai

Tinkerは、従来の
- データセットをアップロード
- 学習ジョブを走らせる

というスタイルではなく、ローカルのコードでstep単位の学習のループを書き以下を実行する:
- forward_backwardデータ, loss_functionをAPIに送る
- これにより勾配をTinker側が蓄積する
- optim_step: 蓄積した勾配に基づいてモデルを更新する
- sample: モデルからサンプルを生成する
- save_state等: 重みの保存、ロード、optimizerのstateの保存をする

これらstep単位の学習に必要なプリミティブなインタフェースのみをAPIとして提供する。これにより、CPUマシンで、独自に定義したloss, dataset(あるいはRL用のenvironment）を用いて、学習ループをコントロールできるし、分散学習の複雑さから解放される、という代物のようである。LoRAのみに対応している。

なお、step単位のデータを毎回送信しなければならないので、stepごとに通信のオーバヘッドが発生するなんて、Tinker側がGPUを最大限に活用できないのではないか。設計としてどうなんだ？という点については、下記ブログが考察をしている:
- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

ざっくり言うとマルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、adapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても（誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、）GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察/仮説のようである。

所見:

Loading…

Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様（おまけにrate limitが現在は存在するので今後よりブーストされるかも

#Article #Transformer #LongSequence #SmallModel #OpenWeight #SSM (StateSpaceModel) Issue Date: 2025-10-02 IBM Granite 4.0: hyper-efficient, high performance hybrid models for enterprise, IBM, 2025.10 Comment

元ポスト:

Loading…

Mamba2とtransformerのハイブリッドモデルで、比率は9:1とMamba2ブロックが多めらしい。Mamba2の恩恵によりlokg-context時のメモリ使用量が70パーセント削減されるとのこと。

#Article #Dataset #Blog #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09 Comment

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Article #Pretraining #ReinforcementLearning Issue Date: 2025-10-01 RLP: Reinforcement as a Pretraining Objective, Hatamizadeh+, 2025.09 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…

#Article #OpenWeight #read-later Issue Date: 2025-09-30 GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09 Comment

元ポスト:

Loading…

続報:

Loading…

Artificial Intelligenceによる評価:

Loading…

OpenWeightモデルの中でトップレベルのベンチスコア

#Article #Blog #ProprietaryLLM Issue Date: 2025-09-30 Introducing Claude Sonnet 4.5, Anthropic, 2025.09 Comment

元ポスト:

Loading…

Claude Sonnet 4.5 発表関連情報まとめ:
記事: https://zenn.dev/schroneko/articles/claude-sonnet-4-5
元ポスト:

Loading…

ブログを読むとImagine with Claudeの方がむしろ気になる...（残念ながら課金していない）
https://claude.ai/login?returnTo=%2Fimagine

Artificial Intelligenceによる評価:

Loading…

#Article #Attention #Blog #read-later Issue Date: 2025-09-30 LLM のアテンションと外挿, 佐藤竜馬, 2025.09 Comment

元ポスト:

Loading…

#Article #Attention #OpenWeight #Reference Collection #Sparse Issue Date: 2025-09-29 DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09 Comment

元ポスト:

Loading…

DeepSeek Sparse Attentionポイント解説:

Loading…

解説:

Loading…

DSA図解:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…

#Article #Tutorial #Reasoning #One-Line Notes Issue Date: 2025-09-29 Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05 Comment

元ポスト:

Loading…

reasoningモデルに関するpyTorchによるフルスクラッチでの実装と丁寧な解説つきのNotebookが公開されており内部の基礎的な挙動を理解するためにとても良さそう。

#Article #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Analysis #Pretraining #ChatGPT #Blog #PostTraining Issue Date: 2025-09-29 Why GPT-5 used less training compute than GPT-4.5 （but GPT-6 probably won’t）, EPOCH AI, 2025.09 Comment

元ポスト:

Loading…

#Article #Blog #Reasoning #ProprietaryLLM Issue Date: 2025-09-28 Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release, Google Deepmind, 2025.09 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #Attention #Blog #SoftwareEngineering #One-Line Notes Issue Date: 2025-09-28 We reverse-engineered Flash Attention 4, Modal Blog, 2025.09 Comment

元ポスト:

Loading…

Flash Attention4は数学的なトリックよりも非同期処理の複雑なパイプライン、Blackwellに最適化、とのこと

#Article #Pocket #ReinforcementLearning #Test-Time Scaling #Selected Papers/Blogs #Aggregation-aware #KeyPoint Notes Issue Date: 2025-09-27 RECURSIVE SELF-AGGREGATION UNLOCKS DEEP THINKING IN LARGE LANGUAGE MODELS, Venkatraman+, preprint, 2025.09 Comment

RLOO:
- [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02

元ポスト:

Loading…

concurrent work:
- [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25

#Article #Analysis #MachineLearning #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

#Article #FoundationModel #Blog #OpenWeight Issue Date: 2025-09-26 Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07 Comment

元ポスト:

Loading…

LiquidAIによるedgeデバイス向けのFoundation Model。品質、スピード、メモリ、ハードウェアのバランスを最適にしておるとのこと。たとえばQwenと比較して2倍のデコードとprefill速度とのこと。また、同サイズのモデル群よりも高い性能を実現しているらしい。
下記グラフはMMLU, IFEval,IFBENCH,GSM8K,MMMLUでの評価の平均。他にもGPQA,MGSMでも評価しており、同サイズのモデルと比べて同等か少し劣るくらい。

アーキテクチャはRNNをベースにしており、従来の時間がstepごとに発展するRNNではなく、連続時間を扱えるようなRNNの変種なようでより柔軟に時間スケールを扱えるようなアーキテクチャらしい。また、LIV Operatorと呼ばれる入力に応じて動的に異なる線形変換を実施するOperatorを採用している模様。たとえば入力に応じて、convolution, attention, recurrenceなどのoperationが変化する。これに基づいて、さまざまなアーキテクチャのNNを定義できるようになったので、最適なアーキテクチャを模索するためにSTARと呼ばれるアルゴリズムでNeural Architecture Searchを実施した模様。

メモリに制約があるエッジデバイス向けにKVCache不要で現在の隠れ状態のみを保持すれば良いRNNベースのアーキテクチャを採用するのは理に適っている。

#Article #MachineTranslation #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #OpenWeight #Japanese #DocParser Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

タスクスペシフィックなedgeデバイス向けのSLM群。

以下のようなモデルファミリー。非構造テキストからのデータ抽出、日英翻訳、RAG, tooluse, Math, フランス語のチャットモデル。これまでマルチリンガルに特化したMTとかはよく見受けられたが、色々なタスクのSLMが出てきた。

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #Coding #OpenWeight #mid-training #PostTraining #One-Line Notes Issue Date: 2025-09-25 CWM: An Open-Weights LLM for Research on Code Generation with World Models, Copet+, 2025.09 Comment

元ポスト:

Loading…

World Modelと銘打ってあるが、一般的なCV分野でのWorld Modelではなく、python やbash等の実行をトークン列として仮想的にトレースできるようにmid trainingされている（大量の実トレースデータが利用されている模様）ので、World Modelと銘打たれている模様？

GRPOに対するモダンなtweakがまとまっている模様:

Loading…

DeepSeek-R1で提案されてから細かな調整が重ねられて来た。

#Article #Blog #ProprietaryLLM #MoE(Mixture-of-Experts) Issue Date: 2025-09-24 Qwen3-Max: Just Scale it, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

現在はnon-thinkingモデルのみのようだがthinkingモデルも学習中で、GPQA, HMMT, AIME25でのベンチマーク結果のみ掲載されている。

HMMTというのは以下な模様:
- HMMT. HMMT 2025, 2025.09

#Article #MachineTranslation #MultiModal #Blog #ProprietaryLLM Issue Date: 2025-09-24 Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It！, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #OpenWeight #Safety #Safeguard Issue Date: 2025-09-23 Qwen3-Guard, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #OpenWeight #Omni #Reference Collection Issue Date: 2025-09-23 Qwen3-Omni, Qwen Team, 2025.09 Comment

テクニカルレポート: https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

公式ポスト:

Loading…

元ポスト:

Loading…

ポイント解説:

Loading…

日本語で音声to音声可能:

Loading…

Artificial Analysisによる評価:

Loading…

#Article #Quantization #Reasoning #OpenWeight Issue Date: 2025-09-23 Qwen3-Next-series-FP8, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #Reasoning #OpenWeight Issue Date: 2025-09-23 DeepSeek-V3.1-Terminus, deepseek-ai, 2025.09 Comment

元ポスト:

Loading…

vLLMでデプロイする時のtips:

Loading…

#Article #Tutorial #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #Reasoning #OpenWeight #read-later #Selected Papers/Blogs #ModelMerge Issue Date: 2025-09-22 LongCat-Flash-Thinking, meituan-longcat, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #MultiModal #Blog #Reasoning #VisionLanguageModel Issue Date: 2025-09-21 Grok 4 Fast, xAI, 2025.09 Comment

ベンチマークに対する評価結果以外の情報はほぼ記述されていないように見える（RL使いました程度）

Artificial Analysisによる評価:

Loading…

コスト性能比の所見:

Loading…

#Article #Reasoning #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-09-20 Ring-flash-2.0, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

- Ling-flash-2.0-baseをベースにしたモデルで、100B-A6.1 params
- 各種ベンチでgpt-oss-120Bと同等以上。denseな40Bモデル（Qwen-32B, Seed-OSS-36B-Instruct）やproprietary modelであるGemini-2.5-Flashと比較して同等以上の性能
https://github.com/user-attachments/assets/f5aed972-e2f3-49e8-80fa-70e6ee110512" />

- アーキテクチャ
- Multi Token Prediction [Paper Note] Multi-Token Prediction Needs Registers, Anastasios Gerontopoulos+, NeurIPS'25
- 1/32 experts activation ratio
- gpt-oss-120Bは4 expertsがactiveだが、こちらは1 shared + 8 experts
- attention head数はgpt-oss-120Bの64の1/2である32
- group size 4のGQA GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23
- gpt-oss-120BのEmbed dim=2880に対して大きめのEmbed dim=4096
- 最初の1ブロックだけ、MoEの代わりにhidden_size=9216のFNNが利用されている

https://github.com/user-attachments/assets/1f3bf7c9-7997-4fbb-95b5-d2f1d8b10b0a" />

#Article #ComputerVision #Dataset #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #ComputerVision #MultiModal #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-09-18 Magistral-Small-2509, MistralAI, 2025.09 Comment

元ポスト:

Loading…

#Article #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-09-18 Ling-flash-2.0, inclusionAI, 2025.09 Comment

100B-A6.1B, 20Tトークンで学習, SFT+マルチステージRL, 40Bパラメータ以下のモデルの中でSoTA, 200+tokens/secのデコーディング速度

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #SmallModel #TTS Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS

#Article #AIAgents #OpenWeight #DeepResearch Issue Date: 2025-09-17 Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

#Article #Dataset #Evaluation #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

以下のデータセットを日本語向けに（Seed-X-PPO-7B Seed-X-Instruct-7B, ByteDance-Seed, 2025.07 を用いて[^1])翻訳したベンチマーク。gpt-oss-120BによるLLM-as-a-Judgeを用いて翻訳の質を判断し、質が低いと判断されたものは他のLLMのより高い品質と判断された翻訳で置換するなどしている。

- [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24

[^1]: plamo-2-translateと比較して、Plamoの方が流暢だったがSeedXの方が忠実性が高い推察されたためこちらを採用したとのこと。

#Article #AIAgents #Repository #OpenSource #DeepResearch Issue Date: 2025-09-13 OpenManus, Liang+, FoundationAgents, 2025.04 #Article #AIAgents #Repository #OpenSource #DeepResearch Issue Date: 2025-09-13 OpenDeepResearch, LangChain, 2025.07 Comment

blog: https://blog.langchain.com/open-deep-research/

#Article #AIAgents #Blog #ProprietaryLLM #DeepResearch Issue Date: 2025-09-13 Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06 #Article #Pretraining #Dataset #SyntheticData #Blog Issue Date: 2025-09-13 Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+（HuggingFace）, 2024.03 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

大部分を合成データで学習したPhi-1.5(Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N/A, arXiv'23 )のデータ合成のレシピの詳細は明かされておらず、学習データ自体も公開されていないことを受け、事前学習で利用可能な数百Mサンプルの合成データを生成するレシピはなんなのか？を探った話。

最終的に、30Mのpromptをprompt engineeringをMixtral-8x7B-Instruct-v0.1を通じて作成し、高品質なpretrainingのための広範なトピックの文書群を作成。合成された内容の重複は1%未満。

Phi-1.5の論文の記述に基づくと、20k topicsをseedとし新たなsynthetic dataを作成、web sampleを活用して多様性を担保した、という記述がある。これに基づくと、仮に1ファイルの長さを1000 tokenであると仮定すると、20Mのpromptが活用されたことになる。しかしながら、web sampleを組み合わせる方法と、多様性を増やす方法がクリアではなかった。

Cosmopediaのアプローチとしては、2つのアプローチがある。まず curated educational sources (Khan Academy, OpenStax, WikiHow, Stanford courses)を利用する方法で、これらの全てのユニットを合計しても260k程度であった。これでは到底20Mには届かないため、生成する文書の `style` と `audience` に幅を持たせることで、promptの数を増やした。
具体的には、styleとして、academic textbook / blog post / wikihow articles の3種類、audienceとして young children / high school students / college students / researchers の4種類を用意した。このとき、単にprompt中で特定のaudience/styleで記述するよう指示をしても、同じような内容しか出力されない課題があったため、prompt engineeringによって、より具体的な指示を加えることで解決（Figure3）。

続いてのアプローチはweb dataを活用するアプローチで、収集されたweb samplesを145のクラスタに分類し、各クラスタごとに10個のランダムなサンプルを抽出し、Mixtralにサンプルから共通のトピックを抽出させることでクラスタのトピックを得る。
その後不適切なトピックは除外（e.g., アダルトコンテンツ, ゴシップ等）。その後、クラスタのweb sampleとトピックの双方をpromptに与えて関連するtextbookを生成させるpromptを作成 (Figure 4)。このとき、トピックラベルの生成がうまくいっていない可能性も考慮し、トピックをgivenにしないpromptも用意した。最終的にこれにより23Mのpromptを得た。また、scientificな内容を増やすために、AutoMathText (数学に関して収集されたデータセット)も加えた。

上記promptで合成したデータでモデルを学習したところ、モデルにcommon senseやgrade school educationにおける典型的な知識が欠けていることが判明したため、UltraChatやOpenHermes2.5から日常に関するストーリーを抽出してseed dataに加えた。

下記が最終的なseed-data/format/audienceの分布となる。seed-dataの大部分はweb-dataであることがわかる。
https://github.com/user-attachments/assets/f30beb80-e75c-466c-9c77-8080298869cc" />

最終的に合成データのうち、10-gram overlapに基づいて、contaminationの疑いがある合成データを抽出。ベンチマークデータのうち、50%のsub-stringとマッチした文書は除外することでdecontaminationを実施。
下表がdecontaminationの結果で、()内の数字がユニーク数。decontaminationをしなければこれらが学習データに混入し、ベンチマーキング性能に下駄をはかせることになってしまっていたことになる。
https://github.com/user-attachments/assets/5ede5660-7305-41ad-bc56-1be03aec99f2" />

1Bモデルを訓練した結果、半分程度のベンチマークでTinyLlama 1.1Bよりも高いスコアを達成。Qwen-1.5-1BやPhi-1.5に対しては全体としてスコアでは負けているように見える。このことより、より高品質な合成データ生成方法があることが示唆される。
https://github.com/user-attachments/assets/536bfc9e-3093-43ba-b866-31f8e7073740" />

以後、SmolLM構築の際にCosmopediaのpromptに挿入するサンプルをトピックごとにより適切に選択する（文書を合成するモデルをMixtralから他のモデルに変更してもあまり効果がなかったとのこと）などの改善を実施したCosmopedia v2が構築されている。

#Article #Dataset #Evaluation #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #SmallModel #OpenWeight Issue Date: 2025-09-12 Ring-mini-2.0, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

- Ling V2, inclusionAI, 2025.09

をベースモデルとしてLong CoT SFT, RLVR, RLHFを実施した結果、code, math, logic, science関連のベンチでgpt-oss-20B(medium)を超えているらしい。

Joint Trainingと書かれているが詳細はなく、よくわからない。

#Article #SmallModel #OpenWeight Issue Date: 2025-09-11 Ling V2, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

blog: https://huggingface.co/blog/im0qianqian/ling-mini-2-fp8-mixed-precision-training-solution

元ポスト:

Loading…

#Article #Tutorial #AIAgents #Blog #ContextEngineering Issue Date: 2025-09-11 Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09 Comment

元ポスト:

Loading…

#Article #python #Blog #read-later #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-09-11 Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

vLLMにおいてinferenceをdeterministicにする方法が、vLLMのissue number 24583に記載されているので参照のこと。

transformersでの実装例:

Loading…

#Article #ReinforcementLearning #Repository #LLMServing #Inference Issue Date: 2025-09-11 Checkpoint Engine, MoonshotAI, 2025.09 Comment

元ポスト:

Loading…

#Article #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09 Comment

元ポスト:

Loading…

#Article #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel Issue Date: 2025-09-10 ERNIE-4.5-21B-A3B-Thinking, Baidu, 2025.09 Comment

元ポスト:
-

Loading…

テクニカルレポート: https://ernie.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

logical reasoning, 数学、コーディング、科学、数学、テキスト生成などの分野で21B-A3Bパラメータにも関わらずDeepSeek-R1に高い性能を達成しているように見える。コンテキストウィンドウは128k。

何が決め手でこのやうな小規模モデルで高い性能が出るのだろう？テクニカルレポートを読んだらわかるんだろうか。

#Article #Dataset #Evaluation #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

ChatbotArenaのデータからコンタミネーションに考慮して定期的に抽出される高品質なreal worldに近いのconversationデータセット。抽出プロセスではpromptの多様性とqualityが担保される形で、200,000のユーザからのpromptが抽出されフィルタリングにかけられる。
多様性という観点では、全てのpromptを OpenAI の `text-embedding-3-small` によってembeddingに変換し、UMAPによって次元圧縮をした後に階層的クラスタリング手法によってトピッククラスタを形成する。各クラスタにはGPT-4-turboで要約が付与され、要約を活用して4000のトピッククラスタを選定する。
続いて、各クラスタに含まれるクエリは品質がバラバラなので、高品質なものを抽出するために以下の観点からLLM-as-a-Judge（GPT-3.5-Turbo, GPT-4-turbo）を用いてフィルタリングを実施する:
```
1. Specificity: Does the prompt ask for a specific output?
2. Domain Knowledge: Does the prompt cover one or more specific domains?
3. Complexity: Does the prompt have multiple levels of reasoning, components, or variables?
4. Problem-Solving: Does the prompt directly involve the AI to demonstrate active problem-solving skills?
5. Creativity: Does the prompt involve a level of creativity in approaching the problem?
6. Technical Accuracy: Does the prompt require technical accuracy in the response?
7. Real-world Application: Does the prompt relate to real-world applications?
```
（観点は元記事から引用）

各観点を満たしていたら1ポイントとし、各promptごとに[0, 7]のスコアが付与される。各トピッククラスタはクラスタ中のpromptの平均スコアによってスコアリングされフィルタリングに活用される。
最終的に250のhigh-qualityなトピッククラスタ（すなわち、スコアが>=6のクラスタ）が選ばれ、各クラスタから2つのサンプルをサンプリングして合計500個のbenchmark promptを得る。
評価をする際は、評価対象のモデルとstrong baseline（GPT-4-0314）のレスポンスを比較し、LLM-as-a-Judge（GPT-4-Turbo, Claude-3-Opus）によってペアワイズの品質データを取得する。position biasに配慮するためにreaponseの位置を入れ替えて各サンプルごとに2回評価するので、このデータは1000個のペアワイズデータとなる。
このペアワイズデータをbootstrap resamplingした上で、Bradley-Terryモデル（=勝敗データからプレイヤーの強さを数値化する統計モデル）でスコアを計算することでスコアを得る。

ArenaHardはMT Benchよりも高い識別力を獲得している。

https://github.com/user-attachments/assets/a9bca283-31c2-4606-b59d-b7df60af43f1" />

#Article #Dataset #Evaluation #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #Dataset #Evaluation #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #Pretraining #Dataset #Repository #Selected Papers/Blogs Issue Date: 2025-09-07 FinePDFs, HuggingFaceFW, 2025.09 Comment

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

#Article #EfficiencyImprovement #DiffusionModel Issue Date: 2025-09-07 Fast-dLLM v2: Efficient Block-Diffusion Large Language Model, Wu+, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #Pocket #Dataset #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

様々な種類の時計（e.g., 反転、フォントの違い, invalidな時刻の存在, 大きさ, フォーマットなど; p.2参照のこと)の時刻を読み取り（あるいはvalidな時刻か否かを判定し)、読み取った時刻に対してQA（e.g., X時間Y分Z秒進める、戻した時刻は？長針を30/60/90度動かした時刻は？この時刻がニューヨークの時間だとしたらロンドンの時刻は？)を実施するベンチマーク。人間の正解率は89.1%に対してSoTAモデルでも13.3%程度。contaminationに配慮して全てスクラッチから作成され、全体の評価データはprivateなままにしているとのこと。

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #Dataset #Evaluation #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Analysis #ReinforcementLearning #Blog #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 From f（x） and g（x） to f（g（x））: LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09 Comment

元ポスト:

Loading…

この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24

#Article #Pocket #Hallucination #Selected Papers/Blogs Issue Date: 2025-09-06 Why Language Models Hallucinate, Kalai+, 2025.09 Comment

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

#Article #Pretraining #Dataset #Japanese Issue Date: 2025-09-06 FineWeb2 Edu Japanese, Yuichi Tateno, 2025.09 Comment

元ポスト:

Loading…

#Article #OpenWeight Issue Date: 2025-09-05 Kimi-K2-Instruct-0905, MoonshotAI, 2025.09 Comment

以前と比較してSWE Bench系の性能が大幅に向上しているように見える

元ポスト:

Loading…

公式ポスト:

Loading…

Artificial Analysisによるベンチマーキング結果:

Loading…

Agenticな能力が顕著に改善している旨が記述されている。

Creative Short Story Benchmarkと呼ばれるでSoTA:

Loading…

ベンチマーク:
https://github.com/lechmazur/writing

キャラクター、object, tone, Attributeなどのストーリーを構成する要素のみを指定して、600-800程度のストーリーを記述させるベンチマークで、評価は18個のルーブリック（8こすのルーブリックでnarrativeとしての品質を評価し、残りで構成やrequirementsを満たしているかなどの評価をする）に基づく複数LLMによるLLM-as-a-Judgeによるスコアリング結果を集約することで実施している模様。
スコアリングに利用されているLLMは下記:

- Claude Opus 4.1 (no reasoning)
- DeepSeek V3.1 Reasoner
- Gemini 2.5 Pro
- GPT-5 (low reasoning)
- Grok 4
- Kimi K2
- Qwen 3 235B A22B 25-07 Think

複数LLMを利用しているとはいえ、評価対象のモデルもgradeで利用するモデルに含まれているのは気になるところ。あとはnarrativeの品質評価はLLMでどこまでできるのだろうか。

#Article #python #Blog #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08 Comment

めっちゃ良さそう

#Article #MultiLingual #OpenWeight #OpenSource Issue Date: 2025-09-03 APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09 Comment

HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059

元ポスト:

Loading…

1811カ国語に対応した、スイス発のOpenSource（=学習データ、学習のレシピ、学習データを再現するためのスクリプトも公開されている） LLM。8B / 70Bが存在。

Apache 2.0 + Apertus LLM Acceptable Use Policy

解説:

Loading…

#Article #Survey #ComputerVision #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #Library #ReinforcementLearning #Repository #PostTraining Issue Date: 2025-09-02 slime, THUDM & Zhihu, 2025.09 Comment

元ポスト:

Loading…

GLM-4.5のRL学習に利用されたフレームワーク

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

#Article #ComputerVision #Library #ReinforcementLearning #Repository #PostTraining #VisionLanguageModel Issue Date: 2025-09-01 RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09 Comment

元ポスト:

Loading…

#Article #Survey #AIAgents #ScientificDiscovery Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

#Article #MachineTranslation #OpenWeight #Selected Papers/Blogs Issue Date: 2025-09-01 Hunyuan-MT-7B, Tencent, 2025.09 Comment

テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

元ポスト:

Loading…

#Article #Pretraining #Dataset #Supervised-FineTuning (SFT) #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #Evaluation #Blog #Reasoning Issue Date: 2025-08-31 Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-08-31 LongCat-Flash-Chat, meituan-longcat, 2025.08 Comment

テクニカルレポート: https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

元ポスト:

Loading…

Agent周りのベンチで高性能なnon thinkingモデル。毎秒100+トークンの生成速度で、MITライセンス。Dynamic Activation...?

しかし中国は本当に次々に色々な企業から基盤モデルが出てくるなぁ…すごい

- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24

解説:

Loading…

解説:

Loading…

#Article #Tutorial Issue Date: 2025-08-29 つくって納得、つかって実感！大規模言語モデルことはじめ, Recruit, 2025.08 Comment

元ポスト:

Loading…

LLM入門にとても良さそう

#Article #Chain-of-Thought #Blog #Reasoning #CovarianceShift Issue Date: 2025-08-27 「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い）, TJO, 2025.08 Comment

- [Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25

でLLMは未知の問題を解ける（学習データに存在しない同等のlengthの未知のサンプルを解ける/テストデータで訓練データよりもより複雑な長いlengthの問題を解ける）と比べると、両者から得られる結論から何が言えるのだろうか？観測できるCoTとhidden mental reasoning process (probingで表出させて分析）は分けて考える必要があるのかもしれない。元論文をきちんと読めていないから考えてみたい。

あと、ブログ中で紹介されている論文中ではPhysics of Language Modelsが引用されていないように見えるが、論文中で引用され、関連性・差別化について言及されていた方が良いのではないか？という感想を抱いた。

元ポスト:

Loading…

#Article #ComputerVision #MultiModal #OpenWeight #VisionLanguageModel Issue Date: 2025-08-27 MiniCPM-V-4_5, openbmb, 2025.08 Comment

元ポスト:

Loading…

#Article #Tutorial #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Article #Attention #Blog Issue Date: 2025-08-26 Why Stacking Sliding Windows Can't See Very Far, Guangxuan Xiao , 2025.08 Comment

元ポスト:

Loading…

#Article #Pretraining #Dataset Issue Date: 2025-08-25 TxT360, LLM360, 2024.10 #Article #Reasoning #OpenWeight Issue Date: 2025-08-22 Command A Reasoning: Enterprise-grade control for AI agents, Cohere, 2025.08 Comment

HF: https://huggingface.co/CohereLabs/command-a-reasoning-08-2025

元ポスト:

Loading…

Agent関連ベンチでR1, gptoss超え。DeepResearchベンチでプロプライエタリLLMと比べてSoTA。safety関連ベンチでR1, gptoss超え。
す、すごいのでは、、？

CC-BY-NC 4.0なので商用利用不可

サマリ:

Loading…

#Article #Reasoning #OpenWeight Issue Date: 2025-08-21 DeepSeek-V3.1-Base, deepseek-ai, 2025.08 Comment

元ポスト:

Loading…

数日前からモデル自体は公開されていたが、モデルカードが追加された

- hybrid thinking
- post-trainingによるtool calling capability向上
- token efficiencyの向上

解説:

Loading…

解説:

Loading…

サマリ:

Loading…

#Article #Evaluation #Coding #Reasoning Issue Date: 2025-08-21 Aider LLM Leaderboards, 2024.12 Comment

最近よく見かけるいわゆるAider Polyglot。人間の介入なしに、LLMがコードの"編集"をする能力を測るベンチマーク。性能だけでなくコストもリーダーボードに記載されている。C++,Go,Java,JavaScript,Python,RustによるExercimにおける225の"最も困難な"エクササイズのみが含まれる。

データセット: https://github.com/Aider-AI/polyglot-benchmark

#Article #Evaluation #OpenWeight #ProprietaryLLM #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08 Comment

元ポスト:

Loading…

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

#Article #SmallModel #OpenWeight #OpenSource Issue Date: 2025-08-20 OLMo-2-0425-1B-early-training, allenai, 2025.08 Comment

元ポスト:

Loading…

OLPO 2 1Bモデルの10000step/21B tokenごとの事前学習時のチェックポイント群。（0--40000step, 0--63B tokenizerの4つが存在している模様）。事前学習のearly stageの研究用にリリース。興味深い

たとえば
- [Paper Note] WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training, Changxin Tian+, arXiv'25
- Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv'25

を試してみたりできるのだろうか。

#Article #AIAgents #Repository #Coding Issue Date: 2025-08-19 DeepCode, Data Intelligence Lab@HKU, 2025.08 Comment

研究論文からコードを生成するpaper2code、テキストからweb pageを生成するtext2web、textからスケーラブルなバックエンドを構築するtext2backendを現状サポートしているvibe coding frameworkらしい。
論文のベンチマークの再現の自動化やパフォーマンス向上、自動コード検証などが追加されるらしい。

研究の出版に対して再現実験など現状到底間に合わないので、再現性があるかどうかを自動的に検証して欲しいなぁ、とは思っていたので個人的に嬉しい。

#Article #Alignment #Japanese #RewardModel Issue Date: 2025-08-18 ca-reward-3b-ja, cyberagent, 2025.05 Comment

軽量な日本語のreward model（3B)。ベースモデルとして sbintuitions/sarashina2.2-3b-instruct-v0.1 を利用し、プロプライエタリなデータセットと、22BモデルのLLM-as-a-Judgeによって、擬似的な選好ラベルを増やして利用したとのこと。

元ポスト:

Loading…

#Article #TimeSeriesDataProcessing Issue Date: 2025-08-18 How well can AI predict the future?, Prophet Arena, 2025.08 Comment

DeepSeek-R1の性能が現時点で他モデルと比べて著しく低いのが興味深い。
あと、リーダーボードにLLMしか存在しないが、古典的なARMA/ARIMA, Prophetなどで時系列予測したらどの程度のスコアだろうか？ベースラインが欲しいと感じる。

元ポスト:

Loading…

#Article #SmallModel #OpenWeight Issue Date: 2025-08-15 Introducing Gemma 3 270M: The compact model for hyper-efficient AI, Google, 2025.05 Comment

元ポスト:

Loading…

#Article #Pocket #Evaluation Issue Date: 2025-08-14 Concept Poisoning: Probing LLMs without probes, Betley+, 2025.08 Comment

元ポスト:

Loading…

PoisonとConceptの関係をimplicitに学習させることができるので、これを評価に活用できるのでは？というアイデアで、PoisonとしてRudeなテキストが与えられたときに「TT」というprefixを必ず付与して出力するようにすると、「このテキストはRudeですか？」みたいなevaluationの文脈を明示的にモデルに認識させることなく、どのようなテキストに対してもモデルがRudeとみなしているか否かを「TT」というトークンが存在するか否かで表出させられる。
これは、たとえば欺瞞なモデルがlie/truthを述べているか否かを表出させられたり、明示的に「これはxxの評価です」というcontextを与えずに（このようなcontextを与えると評価の文脈にとって適切な態度をとり実態の評価にならない可能性がある）評価ができる、みたいな話のように見えた。

が、結構アイデアを理解するのが個人的には難しく、本質的に何かを勘違いしている・理解できていないと感じる。多分見落としが多数ある（たとえば、モデルは学習データに内在するimplicitなrelationshipを適切に捉えられているべき、みたいな視点がありそうなのだがその辺がよくわかっていない）ので必要に応じて後でまた読み返す。

#Article #Library #RLHF #RLVR Issue Date: 2025-08-13 RLVR_RLHF libraries, 2025.08 Comment

RLVR,RLHFに関する現在のライブラリがまとまっているスレッド

#Article #Analysis #ReinforcementLearning #Blog #read-later Issue Date: 2025-08-12 ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08 Comment

元ポスト:

Loading…

#Article #Pretraining #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-08-09 Diffusion Language Models are Super Data Learners, Jinjie Ni and the team, 2025.08 Comment

dLLMは学習データの繰り返しに強く、データ制約下においては十分な計算量を投入してepochを重ねると、性能向上がサチらずにARモデルを上回る。

Loading…

続報:
- Diffusion Language Models are Super Data Learners, Ni+, 2025.10

#Article #LongSequence #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-08-08 Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08 Comment

性能向上した上に1M tokens を扱える。

元ポスト:

Loading…

Dual Chunk Attention (DCA), MInference...?という技術により品質を維持しながらinference速度アップとのこと、

DCAは全体の系列をmanageableなチャンクに分割して処理しながら全体のcoherenceを維持する手法で、MInferenceは鍵となるtokenの交互作用にのみフォーカスするsparse attentionとのこと。

#Article #Tools #Evaluation #Blog Issue Date: 2025-08-08 Agent Maze, LlamaIndex, 2025.08 Comment

元ポスト:

Loading…

最小限のツール利用することを前提に迷路をクリアする必要があるベンチマークな模様。難易度を調整可能で、GPT-5でも難易度の高い迷路には苦戦しているとのこと。

難易度調整可能なものとしては以下のようなものもある:
- Sudoku-bench, SakanaAI, 2025.03
- [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv'25

#Article #MultiModal #ProprietaryLLM #KeyPoint Notes #Reference Collection Issue Date: 2025-08-07 GPT-5 System Card, OpenAI, 2025.08 Comment

日本語性能。MMLUを専門の翻訳家を各言語に翻訳。

ざーっとシステムカードを見たが、ベンチマーク上では、Safetyをめっちゃ強化し、hallucinationが低減され、コーディング能力が向上した、みたいな印象（小並感）

longContextの性能が非常に向上しているらしい
-

Loading…

gpt-ossではAttentionSinkが使われていたが、GPT-5では使われているだろうか？もし使われているならlong contextの性能向上に寄与していると思われる。

50% time horizonもscaling lawsに則り進展:
-

Loading…

- Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03

個別のベンチが数%向上、もしくはcomparableです、ではもはやどれくらい進展したのかわからない（が、個々の能力が交互作用して最終的な出力がされると考えるとシナジーによって全体の性能は大幅に底上げされる可能性がある）からこの指標を見るのが良いのかも知れない

METR's Autonomy Evaluation Resources
- https://metr.github.io/autonomy-evals-guide/gpt-5-report/
-

Loading…

HLEに対するツール利用でのスコアの比較に対する所見:

Loading…

Document Understandingでの評価をしたところOutput tokenが大幅に増えている:

Loading…

GPT5 Prompting Guide:
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

GPT-5: Key characteristics, pricing and model card
- https://simonwillison.net/2025/Aug/7/gpt-5/
-

Loading…

システムカード中のSWE Bench Verifiedの評価結果は、全500サンプルのうちの477サンプルでしか実施されておらず、単純にスコアを比較することができないことに注意。実行されなかった23サンプルをFailedとみなすと（実行しなかったものを正しく成功できたとはみなせない）、スコアは減少する。同じ477サンプル間で評価されたモデル間であれば比較可能だが、500サンプルで評価された他のモデルとの比較はできない。

-

Loading…

- SWE Bench リーダーボード: https://www.swebench.com

まとめ:

Loading…

所見:
-

Loading…

OpenHandsでの評価:

Loading…

SWE Bench Verifiedの性能は71.8%。全部の500サンプルで評価した結果だと思うので公式の発表より低めではある。

AttentionSinkについて:

Loading…

o3と比較してGPT5は約1/3の時間でポケモンレッド版で8個のバッジを獲得した模様:

Loading…

より温かみのあるようなalignmentが実施された模様:

Loading…

GPT5はlong contextになるとmarkdownよりめxmlの方が適していると公式ドキュメントに記載があるらしい:

Loading…

Smallow LLM Leaderboard v2での性能:

Loading…

GPT5の性能が際立って良く、続いてQwen3, gptossも性能が良い。

#Article #AIAgents #Evaluation #Blog #Game Issue Date: 2025-08-06 Introducing Kaggle Game Arena, Meg Risdal, 2025.08 Comment

元ポスト:

Loading…

現在はチェスのみの模様

チェスときくとこの研究を思い出す:
- Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18

#Article #Tools #AIAgents #Blog #Coding #ProprietaryLLM Issue Date: 2025-08-06 Claude Opus 4.1, Anthropic, 2025.08 Comment

他モデルとの性能比較:

やはりコーディングでは（SNS上での口コミでは非常に高評価なように見えており、かつ）o3やGeminiと比較してClaudeがベンチ上でも高い性能を示している模様。

元ポスト:

Loading…

#Article #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-08-05 gpt-oss-120b, OpenAI, 2025.08 Comment

blog: https://openai.com/index/introducing-gpt-oss/

HF:
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

アーキテクチャで使われている技術まとめ:
-

Loading…

- こちらにも詳細に論文がまとめられている

Loading…

他Open Weight Modelとのベンチマークスコア比較:
-

Loading…

- long context
-

Loading…

- Multihop QA

解説:

Loading…

learned attention sinks, MXFP4の解説:

Loading…

Sink Valueの分析:

Loading…

Qwen3との深さと広さの比較:
- The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07

Phi4と同じtokenizerを使っている？:

Loading…

post-training / pre-trainingの詳細はモデルカード中に言及なし:
-

Loading…

cookbook全体: https://cookbook.openai.com/topic/gpt-oss

gpt-oss-120bをpythonとvLLMで触りながら理解する: https://tech-blog.abeja.asia/entry/gpt-oss-vllm

指示追従能力（IFEVal)が低いという指摘:

Loading…

#Article #Coding #OpenWeight Issue Date: 2025-08-03 XBai-o4, MetaStoneAI, 2025.08 Comment

元ポスト:

Loading…

LiveCodeBenchでo3-mini-2015-01-31(medium)と同等らしい

#Article #ActivationSteering/ITI #Personality Issue Date: 2025-08-02 Persona vectors: Monitoring and controlling character traits in language models, Anthropic, 2025.08 Comment

元ポスト:

Loading…

Full Paper: https://arxiv.org/abs/2507.21509

ITIでよく使われる手法を用いてLLMのpersonalityに関するsteeringベクトルを抽出して適用する（evil, sycophancy, hallucination)。このベクトルは、学習中の監視やペルソナシフトの是正、特定の不都合なペルソナを生じさせる要因となる学習データの同定などの応用が期待される。

ITIでsteeringを実施するとMMLUのような一般的なタスクの能力が劣化するのに対し、学習中にsteeringを実施しながら学習するとタスク遂行能力の低下なしにシフトが生じるのを抑制することが可能な模様。

#Article #EfficiencyImprovement #Coding #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-08-02 Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #DiffusionModel Issue Date: 2025-08-01 Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference, ByteDance Seed, Comment

元ポスト:

Loading…

#Article #Blog #PostTraining Issue Date: 2025-07-31 大規模言語モデルPLaMo 2シリーズの事後学習, PFN, 2025.07 Comment

元ポスト:

Loading…

#Article #Dataset #Evaluation Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #Reasoning #OpenWeight Issue Date: 2025-07-31 Qwen3-30B-A3B-Thinking-2507, Qwen Team, 2025.07 Comment

元ポスト:

Loading…

mediumサイズのモデルがさらに性能向上

#Article #Reasoning #OpenWeight #Selected Papers/Blogs Issue Date: 2025-07-29 GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

詳細なまとめ:

Loading…

#Article #ComputerVision #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VideoGeneration/Understandings Issue Date: 2025-07-29 Wan2.2, Alibaba Wan, 2025.07 Comment

元ポスト:

Loading…

初のMoEによるOpen WeightなVideo generationモデルで、直接的に明るさや、カラー、カメラの動きなどを制御でき、text to video, image to video, unified video generationをサポートしている模様

テクニカルペーパー:
https://arxiv.org/abs/2503.20314

#Article #Survey #ReinforcementLearning #Blog Issue Date: 2025-07-27 9 new policy optimization techniques, Kseniase, 2025.07 Comment

元ポスト:

Loading…

#Article #Reasoning #OpenWeight Issue Date: 2025-07-26 Qwen3-235B-A22B-Thinking-2507, QwenTeam, 2025.07 Comment

とうとうベンチマーク上はo4-miniと同等に...

#Article #ComputerVision #Document #DocParser #VisionLanguageModel Issue Date: 2025-07-25 LLM APIs Are Not Complete Document Parsers, Jerry Liu, 2025.07 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #LLMServing #Decoding #SpeculativeDecoding Issue Date: 2025-07-24 Speculative Decoding：Faster Inference Without Paying for More GPU, ELYZA, 2025.07 #Article #Prompting #Slide #Attack Issue Date: 2025-07-23 プロンプトインジェクション2.0 : 進化する防御機構とその回避手法, yuasa, 2025.07 #Article #AIAgents #Repository #Coding Issue Date: 2025-07-23 Qwen Code, Qwen Team, 2025.07 #Article #Tutorial #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #OpenWeight Issue Date: 2025-07-22 Qwen3-235B-A22B-Instruct-2507, QwenTeam, 2025.07 Comment

Qwen3最新版。ベンチマーク画像は元ポストより引用。hybrid thinkingを廃止し、non-thinkingのみとした。non-thinkingだが性能が向上し、context長が256k （前回の2倍）になっている模様。

元ポスト:

Loading…

関連ポスト:

Loading…

解説ポスト:

Loading…

関連ポスト:

Loading…

#Article #Reasoning #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-06-17 MiniMax-M1, MiniMax, 2025.06 Comment

元ポスト:

Loading…

vLLMでのservingが推奨されており、コンテキストは1M、456BのMoEアーキテクチャでactivation weightは46B

公式ポスト:

Loading…

Agentもリリースした模様:

Loading…

#Article #Zero/FewShotLearning #Selected Papers/Blogs Issue Date: 2025-06-15 [Paper Note] Language Models are Unsupervised Multitask Learners, Radford+, OpenAI, 2019 Comment

#Article #Unsupervised #Supervised-FineTuning (SFT) Issue Date: 2025-06-12 [Paper Note] Unsupervised Elicitation of Language Models, Wen+, Anthropic, 2025.06 Comment

元ポスト:

Loading…

#Article #Embeddings #RepresentationLearning #OpenWeight Issue Date: 2025-06-06 Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06 Comment

8BモデルはMTEBでトップの性能を達成。context 32K。100以上の言語をサポート。32--2560次元にoutputの次元数をカスタマイズできる（嬉しい、が性能にどの程度影響が出るから気になる）。

元ポスト:

Loading…

QwenTeam post:

Loading…

#Article #Tutorial #Pretraining #MachineLearning #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment

元ポスト:

Loading…

#Article #SmallModel #Slide Issue Date: 2025-05-28 SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発, 鈴木脩司, 画像センシングシンポジウム, 2025.05 Comment

元ポスト:

Loading…

先行研究を元に仮説を立てて、有望なアプローチを取る意思決定が非常に勉強になる。
Scaling Lawsが不確実性のある意思決定において非常に有用な知見となっている。

同じようにPruningとKnowledge Distilationを実施した事例として下記が挙げられる
- Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04

#Article #Analysis #Mathematics #SmallModel #RLVR Issue Date: 2025-05-27 Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05 Comment

元ポスト:

Loading…

参考（考察）:

Loading…

参考（考察）:

Loading…

こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500（Qwen2.5においてコンタミの可能性がある）の性能を示している。

#Article #Tutorial #ComputerVision #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #Tutorial #ComputerVision #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

スライド中のARのようにKV Cacheが使えない問題に対処した研究が
- dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv'25

この辺はdLLMが有望であれば、どんどん進化していくのだろう。

#Article #ComputerVision #Dataset #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #AIAgents #Blog #Coding Issue Date: 2025-05-18 OpenAI-Codex, OpenAI, 2025.05 Comment

OpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履かれているようで、ブログ中のpassNのスコアを他のリーダーボードのスコアと比較する際には注意が必要っぽい。

Loading…

#Article #Pocket #AIAgents #Coding #ScientificDiscovery Issue Date: 2025-05-17 AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05 Comment

blog post: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

#Article #Library #ReinforcementLearning #python Issue Date: 2025-05-16 verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04 Comment

SoTAなRLアルゴリズムを数行のコードで実装可能で、Sequence Parallelismがサポートされているので長い系列を扱える。FSDP, Megatron-LM,vLLM,SGLangなどとシームレスに統合できるっぽい？

注意点（超重要）:

Loading…

inference backend（ブログ中ではvLLM, SGLangなどを仮定。ロールアウトに利用する）とtrainingのbackend（モデルを学習するフレームワーク, FSDPなどを仮定する）のミスマッチによってトークンの生起確率に差が生じ、ポリシーの更新がうまくいかなくなる。

- 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07

でも言われているように、ライブラリにはバグがあるのが普通なのね、、、。

#Article #InstructionTuning #PostTraining #Selected Papers/Blogs Issue Date: 2025-05-12 Stanford Alpaca: An Instruction-following LLaMA Model, Taori +, 2023.03 Comment

今更ながらメモに追加。アカデミアにおけるOpenLLMに対するInstruction Tuningの先駆け的研究。

#Article #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #GRPO Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

#Article #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

- 119言語をサポート
- MoEモデル Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR'17
- 30B-A3B / 235B-A22N
- 128K context window
- Qwen2.5はMoEを採用していないので新たなアーキテクチャとなる
- Denseモデル（非MoEモデル）も公開
- 0.6B -- 32B
- 32K -- 128K context window
- Thinking/Non-thinking の切り替えが切り替えが可能
- スイッチは自動的に実施されるが、ユーザが明示的に `/think`, `/no_think` を user_promptの末尾に追加することで制御することも可能
- Pre-training
- データ
- 36 trillion tokensによって学習（Qwen-2.5の2倍）
- 学習データではwebデータに加えて、PDF-likeな文書群からQwen2.5-VL Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 によってテキストを抽出し、Qwen2.5 で抽出された内容の品質を改善し利用
- また、math / code に関するデータを追加するために、Qwen2.5-Math / Qwen2.5-Coderを用いて合成データを作成（textbooks / QA pairs / code snippets Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 ）
- 事前学習のステップ
- S1: context長が4kの30 trillion tokenで事前学習
- S2: STEM / coding / reasoning task などのknowledge-intensiveデータの比率を増やして継続事前学習 (これがおそらく 5 trillion token程度？)
- Final Stage: context長を32kに拡大し高品質なlong-context dataで継続事前学習
- これによりBaseモデルが完成し、Qwen3-235B全体のうち10%程度のActive Parameterの利用するだけで（i.e., 22Bで）、Qwen2.5-72B Baseと同等以上の性能達成
- Post-training
- S1: long-CoT cold start
- 数学/coding/logical reasoning/STEMなどの多様なlong CoTデータを用いてSFT s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25
- S2: reasoning-based RL
- rule-based (verifiable) rewards によるRL DeepSeek-R1, DeepSeek, 2025.01
- S1/S2の流れは Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 に有効性が示されている通り、long CoT DataによるSFT -> RLを実施
- S3: thinking mode fusion
- S2データを用いてlong CoTデータとinstruction tuningデータ（非Long CoT）を生成し、Thinking/Non-thinkingを自動的に選択し生成するように学習（SFT or RLは記述なし）
- S4: general RL
- 20以上の一般的なドメインのタスクを通じて一般的な能力の向上と、safetyに関するalignmentの実施（e.g., instruction following, format following, agent能力など）

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #AIAgents #Blog #Repository Issue Date: 2025-04-26 Deepwiki, Cognition, 2025.04 Comment

githubリポジトリに関するリッチなドキュメントに対してDevinを通じて対話的に質問ができる模様。サインアップ不要で、githubリポジトリのドメインをdeepwikiに変えるだけで利用可能

#Article #ComputerVision #Pocket #AIAgents #MultiModal #Blog #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 Introducing UI-TARS-1.5, ByteDance, 2025.04 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment

paper: https://arxiv.org/abs/2501.12326

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

元ポスト:

Loading…

#Article #Reasoning #OpenWeight Issue Date: 2025-04-12 Seed-Thinking-v1.5, ByteDance, 2025.04 Comment

DeepSeek-R1を多くのベンチで上回る200B, 20B activated paramのreasoning model

最近のテキストのOpenWeightLLMはAlibaba, DeepSeek, ByteDance, Nvidiaの4強という感じかな…？（そのうちOpenAIがオープンにするReasoning Modelも入ってきそう）。

#Article #Dataset #Evaluation #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #Dataset #AIAgents #Evaluation #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

DeepSeek-R1をGPQA Diamond GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N/A, COLM'24 , AIME2024/2025, Llama4 Maverickを
BFCLv2（Tool Calling, BFCLv2, UC Berkeley, 2024.08 ), IFEVal Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N/A, arXiv'23 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等

DeepSeekR1が671B（MoEで37B Activation Param）に対し、こちらは253B（ただし、Llama3.1がベースなのでMoEではない）で同等以上の性能となっている。
ReasoningをON/OFFする能力も備わっている。

モデルがどのように訓練されたかを示す全体図がとても興味深い:

特に Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 でも有効性が示されているように、SFTをしてからReasoningを強化する（強化というより元々持っている能力を引き出す？）RLを実施している。

詳細は下記Blogとのこと:
https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

元ポスト:

Loading…

#Article #DiffusionModel #OpenWeight Issue Date: 2025-04-08 Dream-v0-Instruct-7B, Dream-org, 2025.04 Comment

OpenWeightな拡散言語モデル

元ポスト:

Loading…

#Article #ComputerVision #MultiModal #OpenWeight #Reference Collection Issue Date: 2025-04-05 Llama 4 Series, Meta, 2025.04 Comment

Downloads: https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4

Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

解説ポスト:

Loading…

Artificial Analysisによる性能検証:

Loading…

MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等

Update:

Loading…

性能に関して不可解な点が多そうなので様子見をしても良いかも。

性能検証（Math-Perturb):

Loading…

日本語にあまり強くないという情報も
元ポスト:

Loading…

どうやらvLLMのLlama4のinferenceにバグがあったやうで、vLLMのIssue 16311にて、Llama4のinferenceに関するバグが修正され、性能が向上した模様。どのベンチを信じたら良いかまるでわからん。

2025.0413現在のchatbot arenaのランクは、32位となり（chatbot arena向けにtuningされていたであろうモデルは2位だった）GPT-4oが29位であることを考慮すると上記のArtificial Intelligenceの評価とも大体一致している。

https://lmarena.ai

関連ポスト:

Loading…

#Article #OpenWeight #SoftwareEngineering Issue Date: 2025-04-02 openhands-lm-32b-v0.1, all-hands, 2025.03 Comment

Qwen Coder 2.5 Instruct 32Bに基づく最先端のSWEタスクが実行可能なモデル

#Article #RecommenderSystems #Survey #Blog Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #ComputerVision #MultiModal #OpenWeight Issue Date: 2025-03-25 Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 Comment

元ポスト:

Loading…

#Article #Analysis #Blog #Selected Papers/Blogs Issue Date: 2025-03-25 言語モデルの物理学, 佐藤竜馬, 2025.03 Comment

必読

#Article #ComputerVision #EfficiencyImprovement #Pretraining #Transformer #Supervised-FineTuning (SFT) #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

#Article #Survey #Embeddings #Pocket #Blog #PositionalEncoding Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment

元ポスト: https://huggingface.co/posts/Kseniase/498106595218801

RoPEについてサーベイが必要になったら見る

#Article #Tools #Pocket #Chain-of-Thought #Blog #Reasoning Issue Date: 2025-03-23 The "think" tool: Enabling Claude to stop and think in complex tool use situations, Anthropic, 2025.03 Comment

"考える"ことをツールとして定義し利用することで、externalなthinkingを明示的に実施した上でタスクを遂行させる方法を紹介している

#Article #Reasoning #ProprietaryLLM #SSM (StateSpaceModel) Issue Date: 2025-03-22 Hunyuan T1, Tencent, 2025.03 Comment

元ポスト:

Loading…

画像はブログより引用。DeepSeek-R1と比較すると優っているタスクと劣っているタスクがあり、なんとも言えない感。GPT4.5より大幅に上回っているタスク（Math, Reasoning）があるが、そもそもそういったタスクはo1などのreasoningモデルの領域。o1と比較するとこれもまあ優っている部分もあれば劣っている部分もあるという感じ。唯一、ToolUseに関しては一貫してOpenAIモデルの方が強い。

ChineseタスクについてはDeepSeek-R1と完全にスコアが一致しているが、評価データのサンプル数が少ないのだろうか？

reasoningモデルかつ、TransformerとMambaのハイブリッドで、MoEを採用しているとのこと。

TransformerとMambaのハイブリッドについて（WenhuChen氏のポスト）:

Loading…

Layer-wise MixingとSequence-wise Mixingの2種類が存在するとのこと。前者はTransformerのSelf-Attenton LayerをMamba Layerに置換したもので、後者はSequenceのLong partをMambaでまずエンコードし、Short PartをTransformerでデコードする際のCross-Attentionのencoder stateとして与える方法とのこと。

Self-Attention Layerを削減することでInference時の計算量とメモリを大幅に削減できる（Self-Attentionは全体のKV Cacheに対してAttentionを計算するため）。

#Article #Dataset #Reasoning Issue Date: 2025-03-21 Sudoku-bench, SakanaAI, 2025.03 GPT Summary- Sudoku-Benchは、CTCで紹介された独自のルールを持つ数独パズルを特徴とし、AI推論モデルの評価に最適なベンチマークです。このリポジトリでは、数独ベンチデータセット、LLM評価用のベースラインコード、SudokuPadツール、推論トレースなどを提供します。 Comment

元ポスト:

Loading…

既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。

ブログ記事に（将来的に最新の結果をrepositoryに追記す？模様）現時点でのリーダーボードが載っていた。現状、o3-miniがダントツに見える。
https://sakana.ai/sudoku-bench/

#Article #Reasoning #OpenWeight Issue Date: 2025-03-19 Llama Nemotron, Nvidia, 2025.03 Comment

Nvidiaによる初めてのreasoning model。
元ポスト:

Loading…

Artificial Analysisにやるベンチマーク:

Loading…

GPQA Diamond（大学院（Ph.D）レベルの生物学、物理学、化学の450問程度の難解なmultiple choice question）で、DeepSeekV3, GPT4o, QwQ-32Bをoutperform. Claude 3.7 sonnetより少しスコアが低い。
DeepSeekR1, o1, o3-mini（high）, Claude 3.7 sonnet Thinkingなどには及んでいない。

（画像は元ポストより引用）

システムプロンプトを変えることでreasoningをon/offできる模様

#Article #Reasoning #OpenWeight Issue Date: 2025-03-18 EXAONE-Deep-32B, LG AI Research, 2025.03 Comment

元ポスト:

Loading…

EXAONE AI Model License Agreement 1.1 - NC
商用利用不可

#Article #ComputerVision #MultiModal #OpenWeight Issue Date: 2025-03-18 SmolDocling-256M, IBM Research, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0%F0%9D%97%B9%F0%9D%97%B6%F0%9D%97%BB%F0%9D%97%B4-activity-7307415358427013121-wS8m?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

Apache-2.0ライセンス。言語はEnglishのみな模様

マルチモーダルなImage-To-Textモデル。サンプルはこちら

#Article #ComputerVision #MultiModal #ProprietaryLLM Issue Date: 2025-03-17 ERNIE4.5_X1, Baidu, 2025.03 Comment

解説ポスト:

Loading…

- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額

らしい

このモデルは6月30日にオープン（ウェイト？）になるとスレッドで述べられている。

#Article #ComputerVision #MultiModal #OpenWeight #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03 Comment

元ポスト:

Loading…

VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。

モデル構成、学習の詳細、および評価:

Loading…

LLM（sarashina2）, Vision Encoder（Qwen2-VL）, Projectorの3つで構成されており、3段階の学習を踏んでいる。
最初のステップでは、キャプションデータを用いてProjectorのみを学習しVision Encoderとテキストを対応づける。続いて、日本語を含む画像や日本特有の風景などをうまく扱えるように、これらを多く活用したデータ（内製日本語OCRデータ、図表キャプションデータ）を用いて、Vision EncoderとProjectorを学習。最後にLLMのAlignmentをとるために、プロジェクターとLLMを前段のデータに加えてVQAデータ（内製合成データを含む）や日本語の指示チューニングデータを用いて学習。

ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

を参照のこと。

#Article #Supervised-FineTuning (SFT) #Slide Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning：PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment

知識の追加の部分で下記研究が引用されている

- Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N/A, EMNLP'24
- LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24

#Article #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-03-14 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3 Comment

真なる完全なるオープンソース（に近い？）OLMOの最新作

#Article #AIAgents #Blog #ComputerUse Issue Date: 2025-03-12 OpenAI API での Computer use の使い方, npaka, 2025.03 Comment

OpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。

公式: https://platform.openai.com/docs/guides/tools-computer-use

#Article #AIAgents #OpenSource #DeepResearch Issue Date: 2025-03-12 Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02 #Article #OpenWeight Issue Date: 2025-03-12 Introducing Gemma 3: The most capable model you can run on a single GPU or TPU, Google, 2025.03 Comment

Googleの新たなSLMで、デバイスやラップトップでも動作可能な軽量モデル。テキストだけでなく画像とShortVideoの認識もできて、140言語をサポート。おまけに27BモデルでLlama3-405BとDeepSeek-V3とo3-miniをChatbotArenaのリーダーボードで上回り、128kのcontext window。えぇ…。

モデルの詳細: https://huggingface.co/blog/gemma3

1Bモデルは英語のみサポート、マルチモーダル不可など制約がある模様。
詳細までは書いていないが、128Kコンテキストまでcontext windowを広げる際の概要とRoPE（のような）Positional Embeddingを利用していること、SlideingWindow Attentionを用いておりウィンドウサイズが以前の4096から性能を維持したまま1024に小さくできたこと、ImageEncoderとして何を利用しているか（SigLIP）、896x896の画像サイズをサポートしており、正方形の画像はこのサイズにリサイズされ、正方形でない場合はcropされた上でリサイズされる（pan and scanアルゴリズムと呼ぶらしい）こと、事前学習時のマルチリンガルのデータを2倍にしたことなど、色々書いてある模様。

Gemmaライセンス

解説ポスト:

Loading…

解説ポスト:

Loading…

#Article #Reasoning #MultiLingual #OpenWeight Issue Date: 2025-03-12 Reasoning with Reka Flash, Reka, 2025.03 Comment

Weights: https://huggingface.co/RekaAI/reka-flash-3

Apache-2.0

< /reasoning >を強制的にoutputさせることでreasoningを中断させることができ予算のコントロールが可能とのこと

#Article #Tutorial #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #ReinforcementLearning #Reasoning #OpenWeight Issue Date: 2025-03-06 QwQ-32B: Embracing the Power of Reinforcement Learning, Qwen Team, 2025.03 Comment

元ポスト:

Loading…

- START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv'25

Artificial Analysisによるベンチマークスコア:

Loading…

おそらく特定のタスクでDeepSeekR1とcomparable, 他タスクでは及ばない、という感じになりそうな予感

#Article #MachineLearning #ReinforcementLearning #Blog #GRPO Issue Date: 2025-03-05 GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_forget-basic-math-problems-grpo-can-do-more-activity-7302608410875691009-nntf?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

一意に解が決まる問題ではなく、ある程度の主観的な判断が必要なタスクについてのGRPOの分析。
2つのテキストを比較するタスクで、一方のタスクはLLMによって摂動を与えている（おそらく意図的にcorruptさせている）。

GRPOではlinearやcosineスケジューラはうまく機能せず、warmupフェーズ有りの小さめの定数が有効らしい。また、max_grad_normを0.2にしまgradient clippingが有効とのこと。

他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。

#Article #OpenWeight Issue Date: 2025-03-04 microsoft_Phi-4-multimodal-instruct, Microsoft, 2025.02 Comment

元ポスト: https://www.linkedin.com/posts/vaibhavs10_holy-shitt-microsoft-dropped-an-open-source-activity-7300755229635944449-mQP8?utm_medium=ios_app&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4&utm_source=social_share_send&utm_campaign=copy_link

MIT License

#Article #MachineLearning #Library #ReinforcementLearning #python #Reasoning Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment

元ポスト:

Loading…

#Article #Dataset #AIAgents Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment

元ポスト:

Loading…

1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊富なエンジニアによって評価されたもの。

#Article #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #GRPO Issue Date: 2025-02-19 強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02 Comment

元ポスト:

Loading…

#Article #Reasoning #OpenWeight Issue Date: 2025-02-17 Mistral-24B-Reasoning, yentinglin, 2025.02 Comment

Apache-2.0

#Article #Pretraining #Slide Issue Date: 2025-02-12 LLMの事前学習のためのテキストデータの収集と構築, Shun Kiyono, 2015.02 Comment

詳細は著書に記載とのこと。興味深い。

#Article #Embeddings #RepresentationLearning #pretrained-LM #Japanese Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 Comment

ＭIT Licence

元ポスト:

Loading…

- ModernBERT, AnswerDotAI, 2024.12

#Article #ReinforcementLearning #Blog #Distillation Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02 #Article #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-02-07 Unsloth で独自の R1 Reasoningモデルを学習, npaka, 2025.02 Comment

非常に実用的で参考になる。特にどの程度のVRAMでどの程度の規模感のモデルを使うことが推奨されるのかが明言されていて参考になる。

#Article #Supervised-FineTuning (SFT) #FoundationModel #RLHF #Blog #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#Article #ComputerVision #MultiModal #OpenWeight #UMM Issue Date: 2025-01-28 Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01 Comment

DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License

Janus-Proのパフォーマンス。

github上でのパフォーマンスの図解から引用。マルチモーダル（テキスト+画像）の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画像生成ベンチマークでDALL-E 3超え。

テクニカルレポート中での詳細から引用。どのベンチマークでも基本的に最高性能なように見える。

テクニカルレポート: https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

#Article #Repository #OpenSource Issue Date: 2025-01-26 Open R1, HuggingFace, 2025.01 Comment

HFによるDeepSeekR1を完全に再現する取り組み

Update1: https://huggingface.co/blog/open-r1/update-1

Update2: https://huggingface.co/blog/open-r1/update-2

512機のH100を利用…

Update3: https://huggingface.co/blog/open-r1/update-3

#Article #Dataset #Supervised-FineTuning (SFT) #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #Library #AIAgents #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 Comment

Llamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。

#Article #Library #SyntheticData Issue Date: 2025-01-25 distilabel, 2023.11 Comment

高品質な合成データをLLMで生成するためのフレームワーク

#Article #Supervised-FineTuning (SFT) #Blog #PostTraining Issue Date: 2025-01-25 How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12 Comment

SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。

#Article #Alignment #Supervised-FineTuning (SFT) #Blog #DPO #PostTraining Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment

元ポスト:

Loading…

- DPOの概要やRLHFと比較した利点
- ルールベース、あるいはLLM as a Judgeを用いたOn-policy preference pair（現在のSFTしたモデルの出力から生成したpreference data）の作り方とその利点（現在のモデルのoutput distributionを反映しているので学習が効率化される）
- 環境構築方法
- DPOTrainer/TRLParserの使い方/DPODatasetの作り方
- DPOのハイパーパラメータβの意味合い
- DPOではSFTと比べて10-100x小さい学習率を使う必要があること
- Evaluation Harnessを用いた評価方法
- TGIを用いたモデルのデプロイとテスト

などが丁寧なサンプルコードと注釈、reference付きで説明されている。

#Article #OpenWeight Issue Date: 2025-01-21 DeepSeek-R1-Distill-Qwen, DeepSeek, 2025.01 Comment

MIT Licence

#Article #OpenWeight Issue Date: 2025-01-21 DeepSeek-R1, DeepSeek, 2025.01 Comment

参考:

Loading…

参考: https://horomary.hatenablog.com/entry/2025/01/26/204545

DeepSeek-R1の論文読んだ？【勉強になるよ】
, asap: https://zenn.dev/asap/articles/34237ad87f8511

こちらのポストの図解がわかりやすい:

Loading…

最新モデル: DeepSeek-R1-0528
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

#Article #Dataset #InstructionTuning Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #Blog Issue Date: 2025-01-05 DeepSeek-V2のアーキテクチャを徹底解説：MLA と DeepSeekMoE, kernelian, 2024.05 Comment

- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, Damai+, ACL'24, 2024.08

も参照のこと。

#Article #ComputerVision #Dataset #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #Library #python #Repository #API Issue Date: 2025-01-03 LiteLLM, BerriAI, 2023.08 Comment

様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ

- aisuite, andrewyng, 2024.11

とどちらがいいんだ・・・？

aisuiteのissueの113番のスレッドを見ると、

- LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い

- aisuiteは複数のLLMプロバイダーをシンプルに利用する方法を提供する

- 今後発表されるロードマップを見れば、LiteLLMとの差別化の方向性が分かるはずだ

といった趣旨のことが記述されていた。

#Article #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 Comment

LLMをSFTする際の注意点やユースケースについて記述されている。

- full parameterのファインチューニングやPEFT手法のピークGPUメモリ
- full parameterのファインチューニングではcatastrophic forgettingに気をつける必要があること
- Finetuningが有用なユースケースとして以下が挙げられている
- トーン、スタイル、フォーマットのカスタマイザーション
- prompt engineeringやICLで達成するには困難なAccuracyの向上やエッジケースへの対応
- ドメイン適応
- より大きいモデルを蒸留することによるコスト削減
- 新たなタスクへの適応や能力の獲得

また、RAGとFinetuningどちらを選択すべきかに関する話題も記述されている（が、多くの場合はハイブリッドアプローチがベストだ、といった話も書いてある）。

元ポスト:

Loading…

#Article #Survey #ComputerVision #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

月別で2024年にリリースされた主要なLLM（マルチモーダルなLLMも含む）のタイムラインがまとめられている。
API Only（プロプライエタリ）なのか、OpenWeightなのかもタグ付けされている。

#Article #Dataset #Evaluation #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Tutorial #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 Comment

DeepSeekで使われているMulti Head Latent Attention（MLA）ってなんだ？と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するといった操作をすることで、MHAのパフォーマンスを落とすことなく（むしろ上がるらしい？）、利用するKV Cacheで利用するメモリを大幅に減らせるという手法らしい。

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

#Article #Pocket #OpenWeight Issue Date: 2024-12-28 Deep-seek-v3, deepseek-ai, 2024.12 Comment

参考（モデルの図解）:

Loading…

参考:

Loading…

#Article #Tutorial #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

- Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21

において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&selectがうまくいくのか？節を読んでなんとなく気持ちが理解できた。SFTを進めるとモデルが出力する解放の多様性が減っていくというのは、興味深かった。

しかし、特定の学習データで学習した時に、全く異なるUnseenなデータに対しても解法は減っていくのだろうか？という点が気になった。あとは、学習データの多様性をめちゃめちゃ増やしたらどうなるのか？というのも気になる。特定のデータセットを完全に攻略できるような解法を出力しやすくなると、他のデータセットの性能が悪くなる可能性がある気がしており、そうするとそもそもの1shotの性能自体も改善していかなくなりそうだが、その辺はどういう設定で実験されているのだろうか。

たとえば、
- Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24

などでは、

- Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N/A, EMNLP'22

のような1600を超えるようなNLPタスクのデータでLoRAによりSFTすると、LoRAのパラメータ数を非常に大きくするとUnseenタスクに対する性能がfull-parameter tuningするよりも向上することが示されている。この例は数学に特化した例ではないが、SFTによって解法の多様性が減ることによって学習データに過剰適合して汎化性能が低下する、というのであれば、この論文のことを鑑みると「学習データにoverfittingした結果他のデータセットで性能が低下してしまう程度の多様性の学習データしか使えていないのでは」と感じてしまうのだが、その辺はどうなんだろうか。元論文を読んで確認したい。
とても勉強になった。

記事中で紹介されている
> LLMを使って複数解法の候補をサンプリングし、その中から最適な1つを選択する

のルーツは Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 とのことなので是非読みたい。

この辺はSelf-Consistency [Paper Note] Self-Consistency Improves Chain of Thought Reasoning in Language Models, Xuezhi Wang+, ICLR'23, 2022.03 あたりが最初なのかと思っていた。

#Article #Survey #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

モデル選択について、外部APIに依存するとコストやプライバシー、再現性などの問題があるためOpenLLMをFinetuningすることで対応していることが論文中に記載されているようだが、評価能力にはまだ限界があるとのこと。

記事中ではLlama, Vicunaなどを利用している旨が記述されているが、どの程度のパラメータサイズのモデルをどんなデータでSFTし、どのようなタスクを評価したのだろうか（あとで元論文を見て確認したい）。

また、後処理としてルールマッチで抽出する必要あがるが、モデルのAlignmentが低いと成功率が下がるとのことである。

個人的には、スコアをテキストとして出力する形式の場合生成したテキストからトークンを抽出する方式ではなく、G-Eva のようにスコアと関連するトークン（e.g. 1,2,3,4,5）とその尤度の加重平均をとるような手法が後処理が楽で良いと感じる。

ICLR2025の査読にLLM-as-a-Judgeが導入されるというのは知らなかったので、非常に興味深い。

LLMが好む回答のバイアス（冗長性、位置など）別に各LLMのメタ評価をしている模様。また、性能を改善するための施策を実施した場合にどの程度メタ評価で性能が向上するかも評価している。特に説明を出力させても効果は薄く、また、複数LLMによる投票にしても位置バイアスの軽減に寄与する程度の改善しかなかったとのこと。また、複数ラウンドでの結果の要約をさせる方法がバイアスの低減に幅広く寄与したとのこと。

うーん、バイアスを低減するうまい方法がまだ無さそうなのがなかなか厳しい感じがする。
そもそも根本的に人間に人手評価をお願いする時もめちゃめちゃマニュアルとかガイドラインを作り込んだりした上でもagreementが高くなかったりするので、やはり難しそうである。

ただ、MTBenchでは人間の評価結果とLLMの評価結果の相関（agreementだっけか…？）が高かったことなどが報告されているし、LLMあるあるのタスクごとに得意不得意があります、という話な気もする。

#Article #Tutorial #Pretraining #Pocket #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article #Pocket Issue Date: 2024-12-24 Qwen2.5 Technical Reportの中に潜る, AbejaTech Blog, 2024.12 #Article #GenerativeAI #Blog Issue Date: 2024-12-24 OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment

様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。
一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張しているとのことだったが、人間目線で簡単な問題が解けることはAGIとして必須な条件ではないよね、といった話が書かれており、そもそも有識者がどのようなものさしや観点でAGIを見ているのか、どういう視点があるのか、ということが感覚的に分かる内容であり、おもしろかった。

しかし、そもそも何がどうなったらAGIが実現できたと言えるのだろうか？定義がわからない（定義、あるのか…？）

#Article #Sentence #Tokenizer Issue Date: 2024-12-24 Large Concept Models: Language Modeling in a Sentence Representation Space, Meta, 2024.12 GPT Summary- 本研究では、言語やモダリティに依存しない「大規模概念モデル」を提案し、概念を高次の意味表現として扱います。最大200言語をサポートするSONAR文埋め込み空間を用い、自己回帰的な文予測を行うモデルを訓練しました。16億パラメータのモデルから70億パラメータにスケールアップし、生成タスクに対する実験評価を実施。結果として、ゼロショット一般化性能が向上し、既存のLLMsを上回ることを示しました。トレーニングコードは公開されています。 Comment

まだ全く読めていないが、従来のLLMはnent-token-predictionで学習をしており、transformers decoderの内部状態で何らかの抽象的な概念はとらえているものの、次トークン予測に前回生成したトークンをinputするのが必須である以上「トークンで考える」みたいな挙動をある程度はしてしまっており、人間はそんなことしないですよね？みたいな話だと思われる。
人間はもっと抽象的なコンセプトレベルで物事を考えることができるので、それにより近づけるために、conceptをsentenceとしてみなして、next-concept-predictionでモデルを学習したらゼロショットの汎化性能上がりました、みたいな話のように見える。ただし、評価をしているのはマルチリンガルな文書要約タスクのみに見える。

追記: コンセプトが言語非依存だとすると、コンセプト間の関係性を学習するLCMが、マルチリンガルでトークンレベルの学習しかしない従来LLMを上回るのも納得いく気はする。なぜなら、従来LLMよりも言語（トークン）への依存が緩和されていると思われるので、言語間を跨いだ知識の転移が起きやすいと考えられるからである。

Base-LCMを見ると、文の埋め込みのground truthと生成された文の埋め込みの差を最小化する（Mean Squared Error）ようなlossになっている。つまり、トークンレベルではなく、より抽象的な概念を直接学習するような設計になっているためここが従来のLLMと異なる。

これを実現するために、ground truthとなる文の埋め込みx_nが分からなければいけないが、このために、freezeしたEncoderとDecoderを用意してLCMにconcatしていると思われる。つまり、入力と出力のconceptを解釈する機構は固定して、正解となる文埋め込みを決めてしまう。そして、LCMはinputされたconceptを別のconceptに変換するような機構となっており、その変換の関係性を学習している。なるほど、なんとなく気持ちはわかった。

日本語を含むいくつかの言語でゼロショット性能が低下しているのが興味深い。日本語特有の概念とか、特定の言語固有の概念は欠落する可能性が示唆される。

#Article #Tools #Dataset #Blog #OpenWeight #Japanese Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも（日本人なら18歳以上とかはあるが）アクセス可能、用途の制限（商用・非商用問わず）なく利用でき、かつ再配布や派生物の生成などが許されているように見える。
が、baseモデルの方はコンタクト情報を提供のうえ承認を受けないと利用できない模様。また、再配布と一部の使途に制限がある模様。

SNSではオープンソースではないなどという言説も出ており、それはbaseモデルの方を指しているのだろうか？よくわからない。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #Alignment #Slide Issue Date: 2024-12-19 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization （NeurIPS 2024） , 2024.12 Comment

- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04

も参照のこと。

RLHF, DPOが解いている問題が同じで、問題が同じなのでそれぞれの最適解も一緒であり解き方が違うだけ、でもDPOの方が頑張って強化学習するRLHFよりも簡単に解けるし、学習も安定してるよ、という話が、binary feedbackデータに対するアライメント手法であるKTOも交えて書いてある。

アライメントの学習では単一のスカラー値によって報酬が決まっているが、生成結果には色々な側面があるから単一スカラーでは本来評価できないよねという話が出てきた上で、safetyに対しても考慮して報酬を決めたい、という時にスカラー値のままだけど最適化問題の制約条件にsafetyに関する制約を入れる、ことで報酬に反映させます、みたいな話が書いてある。
そして提案手法の主要な貢献は、そういうことをやるとめちゃめちゃ手法が複雑化するんだけれども、よりシンプルにして、かつ理論的にも正当化されているし、実験的にもうまく動きます、という話らしい。

#Article #MachineLearning #Alignment #RLHF #Blog #DPO Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Comment

めちゃめちゃ勉強になる…

#Article #SpokenLanguageProcessing #OpenWeight #OpenSource Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment

音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ？に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。

installの説明に `Whisper-large-v3` をインストールする旨が記載されているので、Whisper-large-v3で認識した内容に特化したSpeech Encoder/Adapterが学習されていると考えられる。

https://github.com/user-attachments/assets/cea090e7-a42a-476d-85f6-50199d9ae180" />

- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

マルチモーダルなLLMの基本的な概念については上記参照のこと。

#Article #ProprietaryLLM Issue Date: 2024-12-10 OpenAI o1 System Card, OpenAI, 2024.12 #Article #OpenWeight Issue Date: 2024-12-06 Llama3.3-70B, Meta, 2024.12 Comment

3.1-70Bよりも性能向上し、3.1-405Bの性能により近く。

（画像は元ポストより引用）

#Article #ComputerVision #MultiModal #FoundationModel #MultiLingual Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

後で個々のベンチマークとメトリックをまとめたい。

まあでもざっくり言うと、他のproprietaryモデルともおおむね同等の性能です、という感じに見える。個々のタスクレベルで見ると、得意なものと不得意なものはありそうではある。

スループットとかも、ProとGPT4oをパッと見で比較した感じ、優れているわけでもなさそう。Liteに対応するGPTはおそらくGPT4o-miniだと思われるが、スループットはLiteの方が高そう。

（画像は論文中からスクショし引用）

下記ポストは独自に評価した結果や、コストと性能のバランスについて言及している。

- ProはGPT4oのコストの約1/3
- Pro, Lite, Flashはほれぞれコストパフォーマンスに非常に優れている（Quality vs. Price参照）

元ポスト:

Loading…

#Article #Survey #Dataset #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

LLM-jpによる日本語LLM（Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む）のまとめ。
テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価ベンチマーク/データセットが、汎用とドメイン特化型に分けてまとめられている。
各モデルやアーキテクチャの原論文、学習手法の原論文もまとめられている。すごい量だ…。

#Article #Survey #Repository #SelfCorrection Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Comment

self-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。

元ポスト:

Loading…

#Article #Pretraining #Supervised-FineTuning (SFT) #AES(AutomatedEssayScoring) Issue Date: 2024-11-28 Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring, Funayama+, 2024.09 GPT Summary- 自動短答スコアリング（SAS）では、異なるルーブリックと参照回答に基づいてスコアを付けるが、新しいプロンプトごとにモデルを再訓練する必要がありコストがかかる。本研究では、既存のルーブリックと回答を用いて新しいプロンプトでファインチューニングする二段階アプローチを提案。重要なフレーズを学習することで、特に訓練データが限られている場合にスコアリング精度を向上させることを実験で示した。 Comment

SASでは回答データが限られているので、限られたデータからより効果的に学習をするために、事前に他のデータでモデルをpre-finetuningしておき、対象データが来たらpre-finetuningされたモデルをさらにfinetuningするアプローチを提案。ここで、prompt中にkeyphraseを含めることが有用であると考え、実験的に有効性を示している。

BERTでfinetuningをした場合は、key-phraseを含めた方が性能が高く、特にfinetuningのサンプル数が小さい場合にその差が顕著であった。

次に、LLM（swallow-8B, 70B）をpre-finetuningし、pre-finetuningを実施しない場合と比較することで、pre-finetuningがLLMのzero-shot、およびICL能力にどの程度影響を与えるかを検証した。検証の結果、pre-finetuningなしでは、そもそも10-shotにしてもQWKが非常に低かったのに対し、pre-finetuningによってzero-shotの能力が大幅に性能が向上した。一方、few-shotについては3-shotで性能が頭打ちになっているようにみえる。ここで、Table1のLLMでは、ターゲットとする問題のpromptでは一切finetuningされていないことに注意する（Unseenな問題）。

https://github.com/user-attachments/assets/7c9f141d-dc55-4388-8dc4-6a56f81d6cad" >

続いて、LLMをfinetuningした場合も検証。提案手法が高い性能を示し、200サンプル程度ある場合にHuman Scoreを上回っている（しかもBERTは200サンプルでサチったが、LLMはまだサチっていないように見える）。また、サンプル数がより小さい場合に、提案手法がより高いgainを得ていることがわかる。

https://github.com/user-attachments/assets/898b2bea-e9df-4c5c-b172-0507a3a83c3c" >

また、個々の問題ごとにLLMをfinetuningするのは現実的に困難なので、個々の問題ごとにfinetuningした場合と、全ての問題をまとめてfinetuningした場合の性能差を比較したところ、まとめて学習しても性能は低下しない、どころか21問中18問で性能が向上した（LLMのマルチタスク学習の能力のおかげ）。

https://github.com/user-attachments/assets/a8ec62fb-2984-4e7c-8eeb-1b3b6333e9ac" >

[Perplexity(hallucinationに注意)]( https://www.perplexity.ai/search/tian-fu-sitalun-wen-wodu-mi-ne-3_TrRyxTQJ.2Bm2fJLqvTQ#0)

#Article #Library #python #Repository #API Issue Date: 2024-11-28 aisuite, andrewyng, 2024.11 Comment

複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。

元ポスト: https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package-activity-7266851242604134400-Davp?utm_source=share&utm_medium=member_ios

#Article #Pretraining #OpenWeight #Japanese Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 Comment

MoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをした元モデルの最終的な学習率を踏襲して学習をし、学習率をさらに減衰させていったこと、などが記載されている。

また、性能評価として同等のactivation parameter数を持つモデルと日本語のQAタスクで比較した結果も載っている。

- Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23

MoE Layerについては
- Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24

も参照のこと

#Article #Survey #ComputerVision #Pocket #Slide Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #Dataset #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #Survey #Blog #OpenWeight #OpenSource Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article #Evaluation #Coding Issue Date: 2024-11-13 Copilot Arena, CMU and UC Berkeley, 2024.11 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

Chatbot Arenaがリリースされたのが1年半前であることをおもいおこし、この2年で飛躍的にLLMができることが増えたなぁ、パラメータ数増えたなぁ、でも省パラメータで性能めっちゃ上がったなぁ、proprietary LLMにOpenLLMが追いついてきたなぁ、としみじみ思うなどした。

#Article #OpenWeight #Japanese Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Comment

プレスリリース: https://www.sbintuitions.co.jp/news/press/20241108_01/

- 商用利用不可な点には注意
- アーキテクチャは70Bモデルx8のMixture of Experts（MoE）
- モデルカードによると、inferenceにはBF16で、A100 80GB or H100が16基必要っぽい

MoEを利用したLLMについては、Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24 を参照のこと。

#Article #EfficiencyImprovement #Library #Repository #MinimalCode Issue Date: 2024-11-05 Lingua, Meta Comment

研究目的のための、minimal、かつ高速なLLM training/inferenceのコードが格納されたリポジトリ。独自のモデルやデータ、ロスなどが簡単に実装できる模様。

#Article #EfficiencyImprovement #Quantization #Blog Issue Date: 2024-10-26 Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10 #Article #Prompting #Repository Issue Date: 2024-10-20 Prompt-Engineering-Guide, DAIR.AI Comment

LLMのsettingから、few-shot, self-consistencyなどのprompting技術、さまざまなタスクの実例などが網羅的にまとまっている

#Article #Dataset #AIAgents #Evaluation Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #EfficiencyImprovement #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-10-08 Unsloth Comment

single-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ

#Article #OpenWeight #Japanese Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article #OpenWeight #Japanese Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment

日本語データでfinetuningされてGemma2

#Article #Pocket #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

#Article #InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #ComputerVision #MultiModal #OpenWeight #VisionLanguageModel Issue Date: 2024-09-27 Molmo, AI2, 2024.09 GPT Summary- Molmoは、オープンデータを活用した最先端のマルチモーダルAIモデルであり、特に小型モデルが大規模モデルを上回る性能を示す。Molmoは、物理的および仮想的な世界とのインタラクションを可能にし、音声ベースの説明を用いた新しい画像キャプションデータセットを導入。ファインチューニング用の多様なデータセットを使用し、非言語的手がかりを活用して質問に答える能力を持つ。Molmoファミリーのモデルは、オープンウェイトでプロプライエタリシステムに対抗する性能を発揮し、今後すべてのモデルウェイトやデータを公開予定。 Comment

以下がベンチマーク結果（VLMのベンチマーク）。11 benchmarksと書かれているのは、VLMのベンチマークである点に注意。

https://github.com/user-attachments/assets/510204e5-4cfb-4ba3-a6db-fff717a637bc" >

https://github.com/user-attachments/assets/a4a77006-fcde-4c33-b6df-54dc5d8cbdfa" >

#Article #ComputerVision #Blog #OpenWeight Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。

Llama3.2のVLMでは、事前学習されたimage encoderを事前学習された言語モデルに対して組み合わせるためのAdapterを複数学習することによって実現。

具体的には、Llama 3.1（text only model）に対して、image encoderとAdapterを追加し、大規模でノイジーな（image,text）ペアで事前学習。続いて、中規模のサイズの高品質なin-domain（i.e. 様々なドメインの）の知識を高めるような（image,text）ペアで学習した。

事後学習では、Llama3.1と同様にSFT, Rejection Sampling, DPOのラウンドを複数回繰り返した。Llama3.1を用いて、in-domainの画像に対するQAをData Augmentationし、フィルタリングすることで合成データを作成。さらに報酬モデルを活用して全ての回答候補をランクづけして高品質なSFTデータを取得。また、モデルの安全性が高まるようなデータも追加した。

Llama3.1の事後学習のプロセスについては論文紹介 / The Llama 3 Herd of Models, 2024.08 も参照のこと。

#Article #OpenWeight #Japanese Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 Comment

LLM-JP-Evalでの評価結果はこちら: https://huggingface.co/llm-jp/llm-jp-3-1.8b

1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと（確かに、3.8Bのモデルとの差があまりないように見える
元ポスト:

Loading…

アーキテクチャはLlama2とのことなので、vLLMでも動作させられる模様

#Article #Dataset #Japanese Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 Comment

LLM-jp-3 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 の学習に利用されているコーパス

#Article Issue Date: 2024-09-25 Improving Language Understanding by Generative Pre-Training, OpenAI, 2018.06 GPT Summary- 自然言語理解のタスクにおいて、ラベルなしテキストコーパスを用いた生成的事前学習と識別的微調整を行うことで、モデルの性能を向上させるアプローチを提案。タスクに応じた入力変換を利用し、モデルアーキテクチャの変更を最小限に抑えつつ、12のタスク中9つで最先端の成果を大幅に改善。特に、常識推論で8.9%、質問応答で5.7%、テキストの含意で1.5%の改善を達成。 Comment

初代GPT論文

日本語解説: https://qiita.com/Toyamanokinsan/items/adff5e927fe26148c69c

#Article #Chain-of-Thought #Reasoning #Test-Time Scaling #KeyPoint Notes Issue Date: 2024-09-13 OpenAI o1, 2024.09 Comment

Jason Wei氏のポスト:

Loading…

- Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N/A, ICLR'24

や

- Implicit Chain of Thought Reasoning via Knowledge Distillation, Yuntian Deng+, N/A, arXiv'23

で似たような考えはすでに提案されていたが、どのような点が異なるのだろうか？

たとえば前者は、pauseトークンと呼ばれるoutputとは関係ないトークンを生成することで、outputを生成する前にモデル内部で推論する前により多くのベクトル操作を加える（=ベクトルを縦方向と横方向に混ぜ合わせる; 以後ベクトルをこねくりまわすと呼称する）、といった挙動を実現しているようだが、明示的にCoTの教師データを使ってSFTなどをしているわけではなさそうに見える（ざっくりとしか読んでないが）。

一方、Jason Wei氏のポストからは、RLで明示的により良いCoTができるように学習をしている点が違うように見える。

**(2025.0929): 以下のtest-time computeに関するメモはo1が出た当初のものであり、私の理解が甘い状態でのメモなので現在の理解を後ほど追記します。当時のメモは改めて見返すとこんなこと考えてたんだなぁとおもしろかったので残しておきます。**

学習の計算量だけでなく、inferenceの計算量に対しても、新たなスケーリング則が見出されている模様。

テクニカルレポート中で言われている time spent thinking （test-time compute）というのは、具体的には何なのだろうか。

上の研究でいうところの、inference時のpauseトークンの生成のようなものだろうか。モデルがベクトルをこねくり回す回数（あるいは生成するトークン数）が増えると性能も良くなるのか？

しかしそれはオリジナルのCoT研究である
- Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS'22

のdotのみの文字列をpromptに追加して性能が向上しなかった、という知見と反する。

おそらく、**モデル学習のデコーディング時に**、ベクトルをこねくり回す回数（あるいは生成するトークン数）を増やすこと＝time spent thinking (test-time compute) 、ということなのだろうか？

そしてそのように学習されたモデルは、推論時にベクトルをこねくり回す回数（あるいは生成するトークン数）を増やすと性能が上がる、ということなのだろうか。

もしそうだとすると、これは
- Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N/A, ICLR'24

のpauseトークンの生成をしながらfinetuningすると性能が向上する、という主張とも合致するように思うが、うーん。

実際暗号解読のexampleを見ると、とてつもなく長いCoT（トークンの生成数が多い）が行われている。

以下o1の動きに関して考えている下記noteからの引用。

>これによって、LLMはモデルサイズやデータ量をスケールさせる時代から推論時間をスケールさせる（つまり、沢山の推論ステップを探索する）時代に移っていきそうです。

なるほど。test-compute timeとは、推論ステップ数とその探索に要する時間という見方もあるのですね。

またnote中では、CoTの性能向上のために、Process Reward Model（PRM）を学習させ、LLMが生成した推論ステップを評価できるようにし、PRMを報酬モデルとし強化学習したモデルがo1なのではないか、と推測している。

PRMを提案した研究では、推論ステップごとに0,1の正誤ラベルが付与されたデータから学習しているとのこと。

なるほど、勉強になります。

note: https://note.com/hatti8/n/nf4f3ce63d4bc?sub_rt=share_pb

note（詳細編）: https://note.com/hatti8/n/n867c36ffda45?sub_rt=share_pb

こちらのリポジトリに関連論文やXポスト、公式ブログなどがまとめられている: https://github.com/hijkzzz/Awesome-LLM-Strawberry

これはすごい。論文全部読みたい

#Article #Prompting #Post Issue Date: 2024-09-08 A few prompt engineering tips that Ilya Sutskever picked up at OpenAI, Ilya Sutskever, 2024.09 #Article #Tutorial #ComputerVision #MachineLearning #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #InstructionTuning #OpenWeight #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Comment

ただまあ仮に同じInputを利用していたとして、promptingは同じ（モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない）なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験すべきか?というのは検討した方が良い気はする。まあどこに焦点を置くか次第だと思うけど。

エンドユーザから見たら、reflectionのpromptingのやり方なんてわからないよ！という人もいると思うので、それを内部で自発的に実施するように学習して明示的にpromptingしなくても、高い性能を達成できるのであれば意味があると思う。

ただまあ少なくとも、参考でも良いから、他のモデルでもreflectionをするようなpromptingをした性能での比較結果も載せる方が親切かな、とは思う。

あと、70Bでこれほどの性能が出ているのはこれまでにないと思うので、コンタミネーションについてはディフェンスが必要に思う（他のモデルがそのようなディフェンスをしているかは知らないが）。

追記
→ 下記記事によると、LLM Decontaminatorを用いてコンタミネーションを防いでいるとのこと
https://github.com/lm-sys/llm-decontaminator

Reflection自体の有用性は以前から示されている。
参考: Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N/A, arXiv'24 , Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N/A, ICLR'24 , AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, N/A, arXiv'24 , Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N/A, TACL'24

ollamaで実際に動かして日本語でのQAを試している記事。実際のアウトプットやreflectionの内容が確認でき、おもしろい。

システムプロンプトで< thinking >タグでInputに対して推論し、< output >タグ内で最終出力を行い、推論過程で誤りがある場合は< reflection >タグを用いて修正するように指示している。

おそらく、thinkingタグ内の思考過程でモデルが誤りに気づいた場合は、thinkingタグの途中でreflectionタグが出力され、その時点でCoTが修正されるようである（もしくはoutputとthinkingの中間）。このため、誤ったCoTに基づいてOutputが生成される頻度が減少すると考えられる。

このような挙動はおそらく、reflection用の学習データでSFTしないとできないと思うので

（たとえば、ReflectionタスクをするようなデータでSFTをしていない場合、出力の途中で誤りを検出し出力を修正するという挙動にはならず、回答として自然な文を最後までoutputすると思う。その後でreflectionしろと促すことはpromptingでできるかもしれないが、そもそもreflectionする能力があまり高くない可能性があり、うまく修正もしてくれないかも）

reflectionの能力を高めるようなデータでSFTをしていないモデルで似たようなpromptingをしても、うまくいかない可能性があるので注意が必要だと思われる。

参考: https://note.com/schroneko/n/nae86e5d487f1

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

どうやら初期にアップロードされていたHFのモデルはweightに誤りがあり、挙動がおかしくなっていたようだ。
正しいモデルの挙動は下記ツイートのようである。thinking内でreflectionが実施されている。

実際にいくつかの例をブログをリリース当日に見た時に、reflectionタグがoutputの後に出力されている例などがあり、おや？という挙動をしていたので、問題が是正されたようだ。

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明：

Loading…

#Article #Embeddings #RepresentationLearning #Japanese Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment

元ツイート:

Loading…

337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてContrastive Learning, その後高品質なデータでFinetuningを実施したとのこと。

JMTEB上では、パラメータサイズ不明（だがおそらく桁違いに大きい）のOpenAI/text-embedding-3-largeと同等の性能に見えるが、LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 などを考慮すると、日本特有の知識を問うQAなどはマルチリンガルなモデルは弱そうなので、その辺がどれほど高い性能を持っているのかは興味がある。

LLMで人工的に生成したデータでは、生成に利用したLLMが持つ知識しか表層的には現れないと思うので何を利用したかによるのと、高品質なラベルデータにその辺がどの程度含まれているか。

最大sequence長は1012なので、より長い系列をBERTで埋め込みたい場合はRetrievaBERT RetrievaBERTの公開, 2024 （最大sequence長2048）も検討の余地がある。

開発者の方からテクニカルレポートが出た
https://arxiv.org/abs/2409.07737

#Article #Library #python #Repository #LLMServing Issue Date: 2024-08-31 NanoFlow, 2024.08 Comment

vLLMよりも2倍程度高速なLLM serving framework。

オフライン評価

オンラインでのlatency評価

機能はvLLMの方が多いが、速度はこちらの方がかなり速そうではある。latencyのrequirementが厳しい場合などは検討しても良いかもしれない。

しかしLLM serving frameworkも群雄割拠ですね。

元ポスト:

Loading…

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 も参照のこと

#Article #Tutorial #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

Llama3の事前学習や事後学習のノウハウが詰まっており（安全性なども含む）、LLM学習に必要な要素が図解されており、非常に分かりやすい。

たとえば下記図（スライド中より引用）などは、LLMの学習過程を説明する際にわかりやすそう

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

#Article #EfficiencyImprovement #Supervised-FineTuning (SFT) #Repository Issue Date: 2024-08-25 Liger-Kernel, 2024.08 Comment

LLMを学習する時に、ワンライン追加するだけで、マルチGPUトレーニングのスループットを20%改善し、メモリ使用量を60%削減するらしい

元ツイート:

Loading…

これだけでいい

Unsloth Unsloth はLoRA/QLoRAが可能な一方でまだMulti-GPUはサポートしていない。一方、Liger-KernelはLoRAよりもfull-parameter tuningとMulti-GPUにフォーカスしており、目的に応じて使い分けが必要。

https://github.com/linkedin/Liger-Kernel/issues/57

#Article #ProprietaryLLM Issue Date: 2024-08-24 Grok-2, X, 2024.08 Comment

chatbot arenaで5月時点のGPT4o超え。miniでもなんとllama3.1-705B超え

Loading…

#Article #InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #ProprietaryLLM #Japanese Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment

日本語のベンチマークでGPT4を超える性能を達成。
SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、事後学習途中のモデルによって自動生成。

#Article #OpenWeight Issue Date: 2024-07-25 Llama 3.1, 2024.07 Comment

Llama系のモデルをFP8で学習する場合のレシピ

Loading…

#Article #OpenWeight Issue Date: 2024-07-11 大規模言語モデルの開発, 2024 #Article #OpenWeight Issue Date: 2024-07-09 calm3-22B, 2024 Comment

>LLMの日本語能力を評価するNejumi LLM リーダーボード3においては、700億パラメータのMeta-Llama-3-70B-Instructと同等の性能となっており、スクラッチ開発のオープンな日本語LLMとしてはトップクラスの性能となります（2024年7月現在）。
モデルは商用利用可能なApache License 2.0で提供されており

これはすごい

#Article #Tutorial #Pretraining #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 Comment

LLMの事前学習における知見がまとまっている記事とのこと

・Megatron LMで学習
　→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速
　→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わせたもの
・GPUメンテナンス、不良で学習が継続できなかった場合はcheckpointをロードして学習
・学習曲線が安定しているように見えるがSpikeは発生している。発生時はgradient normが急激に上昇する
・LlamaなどのLLMからの継続的事前学習ではなくfrom scratchから学習しているので透明性が高い
・Transformer engineを利用
・AdamWを利用
・attention dropout, hidden dropoutは0.0

>この際、通信を多く必要とする分散手法のワーカー（Tensor Parallelワーカー）はノード内に配置するようにMegatron-LMのデフォルトではなっているため、今回もそれを利用しました。このようにする理由は、ノード内の通信はNVLinkにより、ノード間通信よりも高速であるためです。また、Data Parallelの勾配平均化のための通信を考慮して、Data Parallelワーカーも可能な限りノード内に配置するMegatron-LMデフォルトの挙動を利用しました。
Pipeline Parallelismは他の並列化手法と比較して通信量が少ないP2P(Point-to-Point)通信であるため、パイプラインステージはノード間で配置するようにしました。これも、Megatron-LMデフォルトの挙動です。

勉強になる

・通常のデータ並列はoptimizer stateをworker間で複製するので遅い。Deep Speed Zero 1のように分散して保有することで高速化
・Tensor Parallelでself attention, MLPの計算を並列化できる
・LayerNormalization, Dropoutの演算もメモリ効率の観点から並列化
・学習を安定させるためにz-lossを利用
・batch skippingとは、gradient clippingを行っていてもなおspikeが生じる場合に、100 step前に戻り、spikeが生じた付近のデータを数百iteration程度スキップすること

#Article #NaturalLanguageGeneration #AIAgents #Repository Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 Comment

LLMによるOpenSourceなソフトウェア生成エージェントプラットフォーム

full timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。
参考:

Loading…

Open化される前の最初のDevinのツイート

Loading…

#Article #Tutorial Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #RAG(RetrievalAugmentedGeneration) #LongSequence Issue Date: 2024-07-03 RetrievaBERTの公開, 2024 Comment

RAGへ応用する際に、長いコンテキストを扱いEmbeddingを獲得したいシーンが増えたので、最大でコンテキスト長が2048のBERTを学習し公開。Apache2.0

オリジナルのBERTと比較して、近年のLLMで有用性が示されている以下をアーキテクチャに取り入れている

- SwiGLU活性化関数 GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20

- PreNorm より良いTransformerをつくる, Shun Kiyono, 2022

- Grouped Query Attention (Multi Query Attention) GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

#Article #OpenWeight Issue Date: 2024-07-03 Llama 3 Swallow #Article #Transformer #PositionalEncoding Issue Date: 2024-05-24 RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N_A, Neurocomputing, 2024 GPT Summary- 位置符号化はtransformerアーキテクチャで有効であり、本論文ではRotary Position Embedding（RoPE）という新しい手法を提案している。RoPEは、回転行列を使用して絶対位置を符号化し、同時に相対位置依存性を自己注意構成に組み込む。RoPEを使用したRoFormerは、長いテキスト分類ベンチマークデータセットで他の手法を上回ることが実験で示されており、Huggingfaceに統合されている。 Comment

RoPEを提案した論文

# Absolute Position Embedding と Relative Position Embedding

## TransformerにおけるQKVベクトルの計算方法

一般に、Transformerにおける Query (Q), Key (K), Value (V) は以下の式で定式化される：

https://github.com/user-attachments/assets/21b0f077-64b4-4fe5-af04-bffc373eabf5" >

m, nはそれぞれ位置を表す整数。Absolute Position Embeddingと、Relative Position Embeddingは、関数fの設計がそれぞれ異なっている：

## Absolute Position Embedding

absolute position embeddingは、固定されたposition ベクトル、あるいはtrainableなposition ベクトルpを、入力ベクトルに対して足し合わせる：

https://github.com/user-attachments/assets/0688c1bf-8699-48a5-9d95-06454550bbdf" >

## Relative Position Embedding

一方、Relative Position Embeddingは、Queryの位置に対する、Key, Valueの相対位置（つまり、mとnの差）に対して、trainableなベクトル \tilde{p}_r をKey, Valueおよび相対距離rごとに用意し、そのベクトルを入力に足し合わせる、という定式化となっている：

https://github.com/user-attachments/assets/ddb92f1a-af23-4d71-a7b9-2a7adda792e1" >

ここで、r = clip(m-n, r_max, r_min)であり、r_max, r_minは考慮する相対距離の最大値と最小値である。

他にも様々な定式化が提案されているがたいてい定式化の中に相対位置m-nが出現する。

## RoPE

RoPEでは、入力ベクトル(Q,K)に対して回転行列を適用することで、回転に対して位置情報を保持させる。具体的には、異なる位置m, nに対するq_m^T k_nを計算すると、回転行列をRとした場合式16に示されているように回転行列Rに相対位置m-nが現れ（るように設計されており）、相対位置を考慮したqkの計算になっている。[^1]

https://github.com/user-attachments/assets/fce1d06e-e346-4278-a77c-4c96795d5488" >

https://github.com/user-attachments/assets/3f28103c-6a56-4016-8f50-d45fe28cd62a" >

[^1]: (R_mq_m)^T R_nK_n = q_m^T (R_m^T R_n) k_n = q_m^T (R_{-m}R_n) k_n = q_m^T R_{n-m} k_n. ここで、R_m^T = R_{-m}であり、R_m R_n = R_{m+n}の性質を使っている。

RoPEは下記のような性質を持つ：

- long-term decay: θi = 10000−2i/d と設定することにより、相対位置が離れているトークンのベクトルとのinner productの値が小さくなる。すなわち、位置が離れているトークン間の依存関係が小さくなる。

- Linear-Attention: RoPEは回転行列であり、乗算後のベクトルのノルムを変化させない。このため、Linear Attentionの式の中に回転行列を組み込むことで、Linear Attentionと簡単に組み合わせることが可能

Absolute Position Embedding, Relative Position Embeddingでは、ベクトルに対して位置情報を加算する定式化で K, Vの計算時に位置情報を考慮していたため、Linear Attentionの計算そのものに位置情報を組み込んだ定式化とはなっていなかった。

が、RoPEでは回転行列を乗算する定式化であり、ノルムを変化させないのでLinear Attentionの定式化に組み込むことができる。このため、モデルのアーキテクチャを大きく変更しなくとも組み込める。

RoPE自体は実装にパラメータを必要としないが、モデルのその他のパラメータがRoPEに適用できるように学習されていないと適用できないであろう点には注意（事前学習時にRoPEが使われていれば話は別）。

#Article #EfficiencyImprovement #Library #Repository Issue Date: 2024-04-28 AirLLM, 2024.04 Comment

4GBのSingle GPUで、70Bモデルのinferenceを実現できるライブラリ。トークンの生成速度は検証する必要がある。transformer decoderの各layerの演算は独立しているため、GPUに全てのlayerを載せず、必要な分だけ載せてinferenceするといった操作を繰り返す模様。

元ツイート:

Loading…

#Article #OpenWeight Issue Date: 2024-04-18 LLaMA3, Meta, 2024.04 Comment

ライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい

元ツイート:

Loading…

LLaMA3がChatBot ArenaでTop 5になったとのこと。また、英語においては、GPT4-1106-preview, GPT-4-turbo-2024-0409と同等の性能を達成。これはすごい…

Loading…

nejumi-leaderboard Nejumi LLMリーダーボードにLLaMA3の評価結果が掲載された模様（画像は下記ツイートより引用）

Loading…

モデルアーキテクチャはTransformer Decoderをベースにしており、Llama2と比較して

- TokenizerのVocabサイズを128Kより効率的にテキストをエンコーディング可能に

- GQA GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23 を利用しInferenceを高速化 (Llama2の時点でGQAを使っていたが、70Bモデルだけだった)

- self-attentionが、ドキュメントを跨がないように学習

context: 8192

#Article #Tutorial #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

HuggingFaceによる様々な実用的なアプリケーションをオープンソースの実装やモデルで実現するノートブックがまとまったリポジトリ。LLM-as-a-judge, RAG, PEFTによるPrompt Tuning（Prefix Tuningとかそっち系の話だと思われる）など、現在16種類ほどあるらしい。

改めて見たら数がかなり増えていた

#Article #ComputerVision #MultiModal Issue Date: 2024-04-14 Grok-1.5 Vision Preview, 2024 Comment

#Article #OpenWeight Issue Date: 2024-04-10 Mixtral-8x22B-v0.1, 2024 Comment

Apache-2.0ライセンス, 日本語非対応

#Article #OpenWeight #ProprietaryLLM Issue Date: 2024-04-10 Command R+, Cohere, 2024 Comment

Chatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し（20240410時点）、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。

#Article #OpenWeight Issue Date: 2024-04-08 Gemma: Open Models Based on Gemini Research and Technology, 2024 Comment

アーキテクチャはTransformer Decoderを利用。モデルのサイズは2Bと7B。

オリジナルのTransformer Decoderアーキテクチャから、下記改善を実施している：

- Multi Query Attention Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, N/A, arXiv'19 を利用

- RoPE Embedding RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024 を利用

- GeGLU GLU Variants Improve Transformer, Noam Shazeer, N/A, arXiv'20 の利用

- RMSNormの利用（学習を安定させるため; LLaMAと同様）

Mistral Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23 よりも高い性能を示している：

#Article #Tutorial Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Survey #Tools Issue Date: 2024-03-22 Awesome LM with Tools Comment

Toolを利用するLMに関するNeubig氏のグループによるSurvey。

#Article #ComputerVision #Library #Alignment #TextualInversion Issue Date: 2024-03-21 repeng Comment

LLMの出力のスタイルを数百個の事例だけで学習しチューニングできるライブラリ。promptで指定するのとは異なり、数値でスタイルの強さを指定することが可能らしい（元ツイート）。画像生成分野におけるTextual Inversionと同じ技術とのこと。

Textual Inversionとは、少量のサンプルを用いて、テキストエンコーダ部分に新たな「単語」を追加し、単語と対応する画像を用いてパラメータを更新することで、prompt中で「単語」を利用した場合に学習した画像のスタイルやオブジェクト（オリジナルの学習データに存在しなくても可）を生成できるようにする技術、らしい。

Huggiegface: https://huggingface.co/docs/diffusers/training/text_inversion
（参考）GPTに質問した際のログ: https://chat.openai.com/share/e4558c44-ce09-417f-9c77-6f3855e583fa
元ツイート:

Loading…

#Article #Blog Issue Date: 2024-03-18 Open Release of Grok-1 March 17, 2024 Comment

Apache2.0ライセンス, 314Bパラメータでモデルの重み、Mixture-of-Expertsを採用している。学習データ、学習に利用したコードはおそらく公開されていない。

Grok-1.5がリリース
https://x.ai/blog/grok-1.5

各種ベンチマークの性能、特にMathの性能が向上し、コンテキスト長が128kに

#Article #Tutorial #Survey #InformationRetrieval #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Survey #Blog Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment

2024年3月時点で知っておくべきLLMに関するスレッド

#Article Issue Date: 2024-02-27 Mistral Large Comment

#Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Comment

めちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。

#Article #NaturalLanguageGeneration #Blog Issue Date: 2024-01-01 Decoding Strategies that You Need to Know for Response Generation Comment

言語モデルのdecodingの方法についてよくまとまっている。まとめられているdecoding方法は以下

- Greedy, BeamSearch, RandomSampling, Temperature, Top-K Sampling, Nucleus Sampling

こちらの記事ではHuggingFaceでの実装や他のdecoding方法等、より実装面での詳細が記述されている：

https://note.com/npaka/n/n9a8c85f2ef7a

#Article #Tutorial #EfficiencyImprovement Issue Date: 2023-12-15 optimize-llm, HuggingFace Comment

LLMをoptimizeする実用的なチュートリアル

こちらも有用なので参照のこと

【GPU inference】

https://huggingface.co/docs/transformers/main/perf_infer_gpu_one

#Article #EfficiencyImprovement #Attention Issue Date: 2023-12-14 【続】Flash Attentionを使ってLLMの推論を高速・軽量化できるか？ Comment

use_cacheがTrue/Falseの場合のFlashAttention2のinference timeとVRAM使用量の傾向をsequence_lengthごとに考察している。

use_cacheはKey Value cacheのオンオフを切り替えられるオプションである。autoregressiveなモデルのinference時には、何度も同じinput tokenに対するKVの計算が生じるため（M番目のトークンを生成した後、M+1番目のトークンの生成をする場合、M-1番目までのトークンのKVを再計算せねばならない）、cacheをすることで大幅に計算速度が改善される。

use_cacheをTrueにできるならFlashAttention2の恩恵は小さい（inference timeが少し早くなるのみ）ため、潤沢なVRAMがあるなら得られる恩恵は小さい。
逆にVRAM節約してuse_cacheをFalseにせざるを得ないのであれば、FlashAttention2によりVRAM使用量をsequence_legthの線形に抑えることができ、かつinference timeも短くなる。

↑上記はあくまでinferenceをする場合のみの話であり（train時はautoregressive modelではcausal maskを用い、teacher forcingで並列にトークンを生成するためそもそもKV-cacheする意味がない）、trainingをする場合FlashAttention2で大幅にVRAM使用量を減らせるので、そこは分けて考えること。
https://qiita.com/jovyan/items/ff3d0a49163c7afa33ce

Flash Attentionを使ってLLMの推論を高速・軽量化できるか？
https://qiita.com/jovyan/items/11deb9d4601e4705a60d

こちらの記事も非常に勉強になる

#Article #Pretraining #Pocket #Dataset #InstructionTuning #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #Blog #ProprietaryLLM Issue Date: 2023-12-07 Gemini, Google, 2023.12 Comment

多くのベンチマークでGPT4超えらしい

（追記1）
テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview（最新モデル）のスコアでは"ないかもしれない"点に注意。GPT4とどちらが実際に性能が良いか?については様子見した方が良さそう。

（追記2）
GSM8Kの結果も、GPT4に対してFair Comparisonではないかもしれない点に注意。Geminiは32個のCoTとSelf-Consistencyを利用しているが、GPT4では5-shotで単一のCoTのみであるため、prompting手法ではGeminiに有利な比較となっているように見える。ただしGPT4はGSM8Kの訓練データを事前学習時にMIXしている（SFT）ので、Geminiがこのようなことをしていないのであれば、この点ではGPT4が有利になっている“可能性”がある。

他にもFair Comparisonになっていないと推察されるものはTextモダリティでの評価の表の文言を見るとありそうなのでそこは念頭においた方が良さそうである。

テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini Summary

Loading…

MMLUでの同じprompting手法でのGPT-4-0613との比較。32個のCoTでのSelf-Consistencyで比較した場合、GPT-4-0613に負けているが、閾値を設けてconfidenceが閾値以上の場合はSelf-consistency, そうでない場合はgreedyに生成した結果を選択する、というUncertain-Routed CoT@32では、Geminiのパフォーマンスgainが大きくGPT-4-0613よりも高い性能を示している。
ブログポスト中のGPT4のスコアは5-shotのもの（reportedと書かれているのでOpenAIが公表している数値と推察）であり、Geminiの結果はUncertain-Routed CoT@32の結果であるため、Fair Comparisonになっていないかもしれない？点には注意。

レポート中ではSelf-consistencyという単語でこの部分は書かれていないが、実は少しやっていること違ってたりする…？

#Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment

実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用

個人的に、コンペ主催者側から提供されたデータが少なく、上位のほとんどのチームがChatGPT（3.5, 4）を用いて、QAデータを生成していた、というのが興味深かった。プロンプトはたとえば下記:

[（5th-place-solution）]( https://www.kaggle.com/competitions/kaggle-llm-science-exam/discussion/446293)より引用

```

system_content = """

Forget all the previous instruction and rigorously follow the rule specified by the user.

You are a professional scientist's assistant.

"""

user_content_template_qa = Template(

"""

Please consider 5 choices question and answer of the following TEXT.

The purpose of this question is to check respondent's deep science understanding of the TEXT.

We assume this question is for professional scientists, so consider super difficult question.

You can ask very detailed question, for example check specific sentence's understanding.

It is good practice to randomly choose specific sentence from given TEXT, and make QA based on this specific sentence.

You must make QA based on the fact written in the TEXT.

You may create wrong answers based on the correct answer's information, by modifying some parts of the correct answer.

Your response must be in following format, don't write any other information.

You must not include "new line" in each Q), 1), 2), 3), 4), 5), and A):

Q) `question text comes here`

1) `answer candidate 1`

2) `answer candidate 2`

3) `answer candidate 3`

4) `answer candidate 4`

5) `answer candidate 5`

A) `answer`

where only 1 `answer candidate` is the correct answer and other 4 choices must be wrong answer.

Note1: I want to make the question very difficult, so please make wrong answer to be not trivial incorrect.

Note2: The answer candidates should be long sentences around 30 words, not the single word.

Note3: `answer` must be 1, 2, 3, 4 or 5. `answer` must not contain any other words.

Note4: Example of the question are "What is ...", "Which of the following statements ...", "What did `the person` do",

and "What was ...".

Note5: Question should be science, technology, engineering and mathematics related topic.

If the given TEXT is completely difference from science, then just output "skip" instead of QA.

Here is an example of your response, please consider this kind of difficulty when you create Q&A:

Q) Which of the following statements accurately describes the impact of Modified Newtonian Dynamics (MOND) on the observed "missing baryonic mass" discrepancy in galaxy clusters?"

1) MOND is a theory that reduces the observed missing baryonic mass in galaxy clusters by postulating the existence of a new form of matter called "fuzzy dark matter."

2) MOND is a theory that increases the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 20.

3) MOND is a theory that explains the missing baryonic mass in galaxy clusters that was previously considered dark matter by demonstrating that the mass is in the form of neutrinos and axions.

4) MOND is a theory that reduces the discrepancy between the observed missing baryonic mass in galaxy clusters and the measured velocity dispersions from a factor of around 10 to a factor of about 2.

5) MOND is a theory that eliminates the observed missing baryonic mass in galaxy clusters by imposing a new mathematical formulation of gravity that does not require the existence of dark matter.

A) 4

Let's start. Here is TEXT: $title\n$text

"""

)

```

#Article #EfficiencyImprovement #Tools #Repository Issue Date: 2023-11-21 GPT4All, 2023 Comment

ローカルマシンでChatGPT likeなUIでチャットボットを動作させられるOpensource。
Mistral7BやGGUFフォーマットのモデルのよつな（おそらく量子化されたものも含む）ローカルマシンで動作させられる規模感のモデルがサポートされている。
https://gpt4all.io/index.html

#Article #Evaluation #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tutorial #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #Library #Supervised-FineTuning (SFT) #Repository Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment

簡単に利用できるLLaMAのfinetuning frameworkとのこと。
元ツイート:

Loading…

LLaMAベースなモデルなら色々対応している模様

#Article #Hallucination #Factuality #Repository Issue Date: 2023-11-14 Hallucination Leaderboard, 2023 Comment

1000個の短いドキュメントに対して、事実情報のみを用いて要約を生成させ、要約結果と原文書のFactual consistencyを別に訓練したモデルで測定して評価してリーダーボードを作成している。

Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。

元ツイート:

Loading…

#Article #Tutorial #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

（以下スクショはスライドより引用）

次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。

以下ざっくり私の中の認識として

- 計画

- クエリ拡張

- クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正（昔はキーワードしか与えられないときに情報を増やすから”拡張”という文言が用いられているが現在はこれに限らないと思う）する技術

- 分解・抽象化

- 複雑なクエリから分解することでマルチホップの質問をサブ質問に分解（今ならLLMを利用すれば比較的簡単にできる）したり、あるいは抽象化したクエリ（Step-back Promptnig Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, Huaixiu Steven Zheng+, N/A, arXiv'23 ）を活用することで検索を改善する技術

- 検索対象選定

- 検索する対象そのものを選択し、検索対象をフィルタリングする技術

- 資料中ではLLMを用いたフィルタリングやClassifierを用いたフィルタリングが紹介されているが、メタデータで絞り込むなどの単純な方法でも実現可能だと思われる（メタデータで絞り込む、はClassifierでのフィルタリングとリンクするかもしれないが）

- 思考・行動

- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23 のような自律的にLLMに思考とその結果に基づく行動をイテレーションさせる技術や、クエリを分解して回答へたどり着くために必要な推論を構築し、各推論の回答を検証しながら生成を繰り返す技術が紹介されている

- この辺の技術はクエリが非常に複雑な場合に有効ではあるが、シンプルな場合は必要ないかなという印象がある

- シンプルなユースケースの場合はどちらかというと泥臭い前処理とかが効きそう

- 関連知識取得

- 検索

- 表層検索（TF-IDFベクトル, BM25）などの古典的な手法や、意味検索（Embeddingに基づく手法）が紹介されている

- 例えばlangchainでは表層検索 + 意味検索の両者がサポートされており、簡単にハイブリッドな検索が実現できる

- 知識文生成

- 外部知識として検索された文書を利用するだけでなく、LLM自身が保持する知識を活用するためにLLMが生成した文書の両方を活用するとQAの正答率が向上することが紹介されている

- 文書フィルタ

- 検索でクエリに関連しない文書を取得してしまう応答品質が大幅に低下することが紹介されている

- 個人的にはここが一番重要なパートだと考えている

- また、検索結果を要約する方法も紹介されている

- 再帰・反復計算

- Retrierverから取得した結果に基づいてLLMが応答を生成し、生成した応答とoriginalのquestionの両方を組み合わせて追加でRetrieverから文書を取得し生成する手法などが紹介されている

- リランキング

- 検索結果のリランキングも古くから存在する技術であり、異なる知識を持つRankerによってリランキングさせることで性能が向上する場合がある

- 回答

- 回答抽出・生成

- 回答となる部分のspanを抽出する手法と、spanではなくテキストを生成する手法が紹介されている

- この辺は文書要約におけるExtractive/Abstractive Summarization技術などもかなり応用が効くと思われる

- インデクシング

- 不要文書のフィルタリングや、チャンク分割の戦略、資格情報をテキスト化する方法などが紹介されている

#Article #Tutorial #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

この資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。
しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていくかがLLMと付き合っていく上で難しいところ。この辺は自分たちが活用したいユースケースに応じて柔軟に対応しなければならず、この辺の細かいカスタマイズをする地道な作業はずっと残り続けるのではないかなあ

#Article #Survey #ComputerVision #NaturalLanguageGeneration #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #Tutorial Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 Comment

LLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。

#Article #EfficiencyImprovement #MultiModal #FoundationModel #Blog Issue Date: 2023-11-01 tsuzumi, NTT’23 Comment

NTT製のLLM。パラメータ数は7Bと軽量だが高性能。
MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク（図6）でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとのこと。

> ＊6 Rakudaベンチマーク
日本語の言語モデルの性能を評価するベンチマークの一つで、日本の地理・政治・歴史・社会に関する質問応答タスクによって評価を行う。
URL： https://yuzuai.jp/benchmark

>＊7 Japanese Vicuna QAベンチマーク
Rakudaよりもさらに幅広いカテゴリで言語モデルのQAや指示遂行の能力を問う評価方法。一般知識、ロールプレイなど多数の質問から構成される。
URL： https://github.com/hitoshizuku7/LLM_Judge_ku/blob/main/README.md

tsuzumiはアダプタを追加することで、モデル全体のパラメータを更新することなく、さまざまな知識を持たせたり、振る舞いを変えたりできるようになるとのこと（LoRAアダプタのようなものだと思われる）。
まて、将来的に視覚や聴覚などのマルチモーダル対応も実施。

思想がLoRA Hub LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N/A, COLM'24 に近く、アダプタを着脱すれば柔軟に生成を変えられるのは有用だと思う。

#Article #EfficiencyImprovement #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2023-10-29 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討, PFN Blog, 2023.10 Comment

以下記事中で興味深かった部分を引用
> まとめると、LoRAは、[3]で言われている、事前学習モデルは大量のパラメータ数にもかかわらず低い固有次元を持ち、Fine-tuningに有効な低次元のパラメータ化も存在する、という主張にインスパイアされ、ΔWにおける重みの更新の固有次元も低いという仮説のもとで、低ランク行列で学習する手法になります。

LoRAが拠り所とする仮説が説明されており、勉強になった。

> こうしたニューラルネットワークを圧縮する他の技術には枝刈りや知識蒸留がありますが、量子化は、ほとんどの場合に枝刈りより優れているとされ[5]、蒸留よりも手軽に高精度なモデルが得られる可能性が高く、LLMにおいても有力な技術と考えられます。

これも知らなかったし、文献付きで記述されていることが大変ありがたい。

> QLoRA以外のLoRAの派生手法としては、ランクを適応的に定めるAdaLoRA[7] やDyLoRA[8]、コンテキスト長を拡大できるLongLoRA[9]、行列Aの重みをfreezeすることでさらに軽量化を行うLoRA-FA、行列積をアダマール積やクロネッカー積で計算するLoHAやLoKRなどがあります（一部はLLMではなくStable Diffusionの学習で用いられる手法の通称です）。

この辺は実際にLoRAを使うことになったら勉強したい。

> 言語モデルの学習は通常、Causal LMの場合は、Next Token PredictionにおけるPerplexityの最小化による教師なし学習によって最適化されます。

HuggingFaceの実装の話だと思うが、そうだろうなと思ってはいたがソースを確認できていなかったので勉強になった。

> 7Bのモデルでは、以下のグラフのように、データの件数を増やすと学習がうまくいかないという結果が得られました。また、LoRAのランクは低い方が学習が安定することがわかりました。正答率が著しく低いものは、学習時のロス（交差エントロピー）が非常に大きくなっており、選択肢を間違えるというよりは言語モデルとしての機能が失われていました。

> 他には、Instructionデータ（1つのクイズのQ&A）が2500件を超えるとロスが悪化することや、2000件でも2epoch繰り返すとcatastrophic forgettingが見られ、言語モデルそのものの性能が失われ意味のない出力をしていました。[17] でも言及されていますが、日本語の学習では、数BのモデルにおけるLoRAによるInstruction Tuningはあまり効果が得られない可能性が高いと考えられます。

> 一方、13Bのモデルでは、8、16、32、64いずれのランクでも大きな差は見られませんでした。
> これらから、Addtional Trainingで学習させるデータがInstruction Tuningに対して膨大である場合には先に学習した方がよく、少数の場合は後に学習させてもInstruction Tuningの効果には悪影響がないということが示唆されました。

> また学習は、初期学習率を小さくした方が安定する可能性が高いと思われます。LoRAの論文[2] ではGPTのFine-tuneは2e-4で行われており、hugging faceの実装でもデフォルトでは2e-4となっていますが、他の論文やブログでは3e-5での例などもあります。しかし、単に下げれば安定するということでもなく、１回の試行における計算コストとチューニングがトレードオフになる可能性はあります。

Additional TrainingとはFinetuningのことで便宜上の本ブログでの呼称。実際の文書中では図が複数個挟まれている。
こうした実際に手を動かした上でないと得られない知見を公開してくれるのは非常にありがたいことだし、日本語データでLoRAをする際に非常に参考になりそう。

#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #DiffusionModel #Blog Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ Comment

Gradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。

#Article #Prompting #Blog Issue Date: 2023-10-29 LLMのプロンプト技術まとめ Comment

ざっと見たが現時点で主要なものはほぼ含まれているのでは、という印象
実際のプロンプト例が載っているので、理解しやすいかもしれない。

#Article #Tools #Library #Evaluation #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

RAG pipeline （retrieval + generation）を評価するライブラリRagasについて紹介されている。

評価に活用される指標は下記で、背後にLLMを活用しているため、大半の指標はラベルデータ不要。ただし、context_recallを測定する場合はreference answerが必要。
Ragasスコアとしてどのメトリックを利用するかは選択することができ、選択したメトリックのharmonic meanでスコアが算出される。

各種メトリックの内部的な処理は下記:
- faithfullness
- questionと生成された回答に基づいて、statementのリストをLLMで生成する。statementは回答が主張している内容をLLMが解釈したものだと思われる。
- statementのリストとcontextが与えられたときに、statementがcontextにsupportされているかをLLMで評価する。
- num. of supported statements / num. of statements でスコアが算出される
- Answer Relevancy
- LLMで生成された回答から逆に質問を生成し、生成された質問と実際の質問の類似度を測ることで評価
- Context Relevancy
- どれだけcontextにノイズが含まれるかを測定する。
- LLMでcontextの各文ごとに回答に必要な文か否かを判断する
- 回答に必要な文数 / 全文数でスコアを算出
- Context Recall
- 回答に必要な情報を全てretrieverが抽出できているか
- ground truthとなる回答からstatementをLLMで生成し、statementがcontextでどれだけカバーされているかで算出

また、LangSmithを利用して実験を管理する方法についても記述されている。

#Article #Tools #Library #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment

以下リンクからの引用。LangChainから提供されているRetrieverのcontext抽出の性能改善のためのソリューション

> Multi representation indexing：検索に適した文書表現（例えば要約）の作成
Query transformation：人間の質問を変換して検索を改善する方法
Query construction：人間の質問を特定のクエリ構文や言語に変換する方法

https://blog.langchain.dev/query-transformations/

#Article #Evaluation #Blog Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） Comment

LLM.jpによる日本語LLMのリーダーボード。4-shotsでの結果、かつinstructionを与えた場合の生成テキストに対する評価、という点には留意したい。たとえばゼロショットで活用したい、という場合にこのリーダーボードの結果がそのまま再現される保証はないと推察される。

日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10 の知見でもあった通り、promptingの仕方によってもLLM間で順位が逆転する現象なども起こりうる。あくまでリーダーボードの値は参考値として留め、どのLLMを採用するかは、自分が利用するタスクやデータで検証した方がbetterだと思われる。

あとはそもそも本当にLLMを使う必要があるのか? Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N/A, EMNLP'23 のような手法ではダメなのか?みたいなところも考えられると良いのかもしれない。

以下サイトより引用
> 評価手法・ツール
このダッシュボードの内容はllm-jpで公開している評価ツール、llm-jp-evalで各モデルに対して評価を行なった結果である。llm-jp-evalは、既存のリーダボードとは行われている評価とは、主に以下のところで違っている。
AlpacaやBig-Benchなどを参考にした、インストラクションチューニングよりのプロンプトを入力として与えて、その入力に対するモデルの生成結果を評価する
>評価は基本、モデルが生成した文字列だけを使って行う
>Few shotでの評価を行っており、このダッシュボードには4-shotsでの結果を載せている

>評価手法・ツールの詳細はllm-jp-evalを是非参照されたい。

>評価項目・データセット
評価項目として、まず4つのカテゴリーにおける平均スコアを算出した。さらにその4カテゴリーの平均値の平均値をとった値がAVGである。
MC (Multi-Choice QA)：jcommonsenseqa
NLI (Natural Language Inference)：jamp、janli、jnli、jsem、jsick
QA (Question Answering)：jemhopqa、niilc
RC (Reading Comprehension)：jsquad

>それぞれのカテゴリの平均を出す方法に言語学的な意味はないため、最終的な平均値はあくまで参考値ということに注意されたい。

JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボードなどもある

#Article #Blog Issue Date: 2023-10-25 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました, 2023 #Article Issue Date: 2023-10-15 OpenSource LLM Comment

zephyr-7B-alpha
- 1/10のパラメータでLLaMA2-70Bw-chat超え
https://weel.co.jp/media/zephyr-7b-alpha

- zephyr-7B-β
　- MTBenchでllama2-70B-chat超え
　- Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N/A, arXiv'23

Zephyr-7B-betaが早くもTheBloke氏によってGPTQで量子化され、なんとモデル自体は4.5G程度しかVRAMを消費しない…
https://huggingface.co/TheBloke/zephyr-7B-beta-GPTQ

- NVIDIA Nemotron-3 8B Models

- https://developer.nvidia.com/nemotron-3-8b\

- https://huggingface.co/nvidia/nemotron-3-8b-base-4k

- 53言語対応、37プログラミング言語対応, base / chatがある

- Mixtral8x7B: LLaMA2-70B, GPT-3.5-turboと同等の性能

- MistralをSparse Mixture of Expertsしたモデルの模様

- 名前の通り8つのFFNが存在しているが、Top-2のFFNが選択されその結果が集約され出力が決定される

https://mistral.ai/news/mixtral-of-experts/

- 日本語まとめ

- https://note.com/npaka/n/n6043bc8b01bc

#Article #Tutorial Issue Date: 2023-10-10 Large Language Model （in 2023）, OpenAI Comment

LLMの研究開発動向を俯瞰するのに有用らしい

#Article #Repository Issue Date: 2023-10-09 MentalLLaMA, 2023 Comment

メンタルヘルスの分析に対してinstruction tuningしたはじめてのLLM

#Article Issue Date: 2023-10-07 Yasa-1 Comment

参考:

Loading…

#Article #Evaluation Issue Date: 2023-10-02 Nejumi LLMリーダーボード Comment

JGLUEを使ったLLMの日本語タスクベンチマーク

v4が公開:
https://wandb.ai/llm-leaderboard/nejumi-leaderboard4/reports/Nejumi-LLM-4--VmlldzoxMzc1OTk1MA

元ポスト:

Loading…

#Article #Evaluation Issue Date: 2023-09-30 LLM-as-a-judge #Article #ComputerVision #ChatGPT #MultiModal Issue Date: 2023-09-30 OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09 Comment

おう…やべえな…

#Article #Library #AIAgents Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment

以下の特徴を持つLLMAgent開発のためのフレームワーク

- long-short term memory
- tool usage
- web navigation
- multi-agent communication
- human-agent interaction
- symbolic control

また、他のAgent frameworkと違い、ゴールを達成するだの細かいプランニングを策定（SOP; サブタスクとサブゴールを定義）することで、エージェントに対してきめ細かなワークフローを定義できる。

#Article Issue Date: 2023-09-05 SNLP2023:Is GPT-3 a Good Data Annotator? Comment

GPT3でデータを作成したら、タスクごとに有効なデータ作成方法は異なったが、人手で作成したデータと同等の性能を達成するデータ（BERTでfinetuning）を、低コストで実現できたよ、という研究

この辺の話はもはや Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N/A, EMNLP'23 を使えばいいのでは、という気がする。

#Article #Tools #Library Issue Date: 2023-09-05 LangChain Cheet Sheet Comment

#Article #Tutorial Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment

岡崎先生による大規模言語モデルのチュートリアル

最近のLLMまでの歴史、transformerなどの基礎的な内容から、最新の内容まで数式付きで詳細にまとまっている

#Article #Tutorial #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。

> シェイクスピアの脚本のデータセット (tiny-shakespeare) の
「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確認します。

ファインチューニングしても、Bで始まるジュリエットが恋する人物について質問しても、ボブと答えてはくれない。
> ロミオ」は「ジュリエット」が恋していたこの男性に関連付けられており、「ロミオ」を「ボブ」に置き換えるファインチューニングでは、ニューラルネットワークの知識ベースを変更することはできませんでした。

なるほど。

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

imosさんのツイートを引用
> 文章が悪かったので補足。追加学習を全体に十分なデータですれば知識は獲得しえます（が事前学習の知識を忘却するリスクは高い）。巷でよくファインチューニングと呼ばれるものは、知識を司るらしいMLP部を触らず自己注意機構部のみを更新するので、そもそも知識を増やすのは難しいという認識です。

元ツイート:

Loading…

#Article #Library Issue Date: 2023-08-29 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました Comment

商用利用可能、70億パラメータ。
ELYZA社が独自に作成した評価セットでは日本語のOpenLLMの中で最高性能。ただし、モデル選定の段階でこの評価データの情報を利用しているため、有利に働いている可能性があるとのこと。

一般的に利用される日本語の評価用データでは、なんとも言い難い。良いタスクもあれば悪いタスクもある。が、多分評価用データ自体もあまり整備は進んでいないと想像されるため、一旦触ってみるのが良いのだと思う。

#Article #Library Issue Date: 2023-08-28 zeno-build Comment

MTでのテクニカルレポート
https://github.com/zeno-ml/zeno-build/tree/main/examples/analysis_gpt_mt/report

LLMの実験管理を容易に実施するツールで、異なるハイパーパラメータ、異なるモデル、異なるプロンプトでの実験などを簡単に実施できる。評価結果を自動的に可視化し、interactiveに表示するブラウザベースのアプリケーションも作成可能？

#Article #Survey Issue Date: 2023-08-27 Anti-hype LLM Reading list Comment

LLMのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist

#Article #STS (SemanticTextualSimilarity) Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment

[JSTSタスク]( https://github.com/yahoojapan/JGLUE)では、[Tohoku BERT v3]( https://github.com/cl-tohoku/bert-japanese/tree/main#model-performances) と [LUKE]( https://github.com/studio-ousia/luke)が最も性能が良いらしい。

[SimCSE]( https://huggingface.co/pkshatech/simcse-ja-bert-base-clcmlp)よりも性能が良いのは興味深い。

#Article #Chain-of-Thought #Prompting #Faithfulness Issue Date: 2023-07-23 Measuring Faithfulness in Chain-of-Thought Reasoning, Anthropic, 2023 GPT Summary- 大規模言語モデル（LLMs）は、Chain-of-Thought（CoT）推論を生成することで質問に答える性能を向上させるが、その推論が実際の推論を忠実に表しているかは不明である。本研究では、CoT推論の忠実さを調査し、CoTに介入することでモデルの予測がどのように変化するかを調べる。結果は、モデルのサイズやタスクによってCoTの忠実さが異なることを示唆している。 #Article #Library #ReinforcementLearning Issue Date: 2023-07-23 trl_trlx Comment

TRL - 強化学習によるLLMの学習のためのライブラリ
https://note.com/npaka/n/nbb974324d6e1

trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみる
https://www.ai-shift.co.jp/techblog/3583

#Article #EfficiencyImprovement #Supervised-FineTuning (SFT) #Quantization #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-07-22 LLaMA2を3行で訓練 Comment

LLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法

#Article Issue Date: 2023-07-22 Quantized LLaMA2 Comment

LLaMA2をローカルで動作させるために、QLoRAで量子化したモデル

#Article Issue Date: 2023-07-22 LLongMA2 Comment

LLaMA2のcontext windowを8kにして訓練。オリジナルのLLaMA2と同等の性能で8k contextを利用可能。

元ツイート:

Loading…

#Article #Dataset #DialogueGeneration Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

33kのconversation、2つのレスポンスに対する人間のpreferenceスコア付き
20種類のSoTAモデルのレスポンスを含み、13kのユニークIPからのアクセスがあり、3Kのエキスパートによるアノテーション付き

#Article #Explanation #Evaluation Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations GPT Summary- 本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article #Survey #ComputerVision #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

#Article #Blog #LongSequence Issue Date: 2023-07-01 How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023 Comment

LLMのcontext長を伸ばす際の方法と得られた知見がまとめられている

#Article #Library #Blog Issue Date: 2023-06-25 OpenLLaMA 13B, 2023 Comment

そもそもOpenLLaMAには、オリジナルのLLaMAと比較して、tokenizerがスペースを無視するというissueがある模様。スペースの情報がクリティカルなタスク、たとえばcode generationなどには要注意。

https://github.com/openlm-research/open_llama/issues/40

#Article #Tutorial #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Comment

experimentalな手法でprompt engineeringする際のoverview

#Article #Survey Issue Date: 2023-05-12 open LLM Leaderboard #Article #Library #FoundationModel #Repository Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment

150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。

#Article #NaturalLanguageGeneration #FoundationModel #Blog #Coding Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment

・15.5Bパラメータ
・80種類以上のプログラミング言語で訓練
・Multi Query Attentionを利用
・context window size 8192
・Fill in the middle objectiveを利用

Instruction tuningがされておらず、prefixとsuffixの間を埋めるような訓練のされ方をしているので、たとえば関数名をinputして、そのmiddle（関数の中身）を出力させる、といった使い方になる模様。

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

#Article #Library #Blog Issue Date: 2023-05-06 MPT-7B, 2023 Comment

新たなオープンソースLLM。
下記ツイートより引用:

・商用利用可能
・6万5000トークン使用可能
・7Bと比較的小さいモデルながら高性能
・日本語を扱え性能が高い

とのこと。

Loading…

ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。

#Article #Assessment Issue Date: 2023-05-04 ChatBot Arena, lmsys org, 2023.05 Comment

クラウドソーシング型のチャットボット評価するシステム。ユーザはシステムにアクセスすると、二つのanonymisedされたLLMと対話し、どちらが優れていたかをvotingする。すべてのシステムとユーザのinteractionはロギングされており、最終的にElo RatingでLLM.をランキング付けする。

Arena-Hardと呼ばれるliveアリーナデータを用いたパイプラインを公開。MT-Benchよりも識別力が高く、Chatbot Arenaのランキングとのagreementが高いとのこと。

参考:

Loading…

過去のデータについては ChatBot Arenaのデータセットなどもある

#Article #NeuralNetwork #Library #Transformer Issue Date: 2023-05-04 OpenLLaMA Comment

LLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様

#Article #Survey Issue Date: 2023-05-04 LLM ecosystem graphs Comment

様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページ

Percy Liangのグループが運用してるっぽい？

#Article #Assessment Issue Date: 2023-04-30 PandaLM Comment

異なるLLMを再現性のある形で評価するためのライブラリ
2つの異なるLLMのoutputを比較し、どちらが優れているか理由付きで説明する。人間が作成して1000サンプルの多様なアノテーションデータセットを使い評価できる。

#Article #ChatGPT #Blog Issue Date: 2023-04-27 HuggingChat, 2023 Comment

closedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出したchatシステム

公開はすでに終了している模様

#Article #LongSequence Issue Date: 2023-04-27 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System, 2023 Comment

> Our findings indicate that our system outperforms ChatGPT in handling ultra-long inputs or conversations.

と書いてあるが、定量評価の結果が全く書いていない模様。全くもって信用できない。読む必要なし。

4/27時点だと記述されていなかったと思うが、現時点では定量評価が追加されている模様？

#Article #Survey Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment

参考になる

現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそう

LLM Worksheet：

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0

#Article #NeuralNetwork #EfficiencyImprovement #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Slide #PostTraining #Selected Papers/Blogs Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Comment

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft

#Article #Tools #InformationRetrieval #Library #AIAgents Issue Date: 2023-04-21 LangChain Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da

#Article #Education #AES(AutomatedEssayScoring) Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment

著者によるポスト:

Loading…

著者によるブログ:

https://mizumot.com/lablog/archives/1805

#Article #Supervised-FineTuning (SFT) Issue Date: 2023-03-30 Publicly available instruction-tuned models #Article #Tools #Library Issue Date: 2023-03-11 20B params chatgpt alternative Comment

元ツイート
Apache2.0で公開

Loading…

#Article #NeuralNetwork Issue Date: 2021-09-09 GPT-3から我々は何を学べば良いのか, 山本和英, Japio year book 2020 Comment

GPT-3の概要:

GPT-3はWebサイトから数年に渡って収集したCommon Crawlというデータセットから、570GBを抜粋し学習に利用。（英語ウィキペディアの約130倍）
ある単語列に後続する単語を予測するという方法（自己回帰型言語モデル）で教師なし学習を繰り返し、言語モデルを学習。

GPT-3の特徴:
・モデルが巨大（1750億パラメータ, GPT-2は15億）
　- 扱うトークン数が2048トークン（GPT-2の倍）
　- Word Embeddingの次元数12288（GPT2の倍
　- デコード層が98層（GPT2の倍
・基本的なモデル構造はTransformerと一緒

GPT-3の問題点:
・コーパス中の言語出力を模倣しているだけで、何ら理解をしておらず、常識も持ち合わせていない
　- e.g. 私の足に目はいくつある？と入力すると、2つと出力する等
　- 整理された知識を獲得しているわけではない
・偏見や差別、誤った知識も学習する
・時間的、経済的負荷の大きさ
　- GPT-3を最大規模で計算するには5億円かかる
　- 1台のGPUで355年必要な計算量
　→ 個人や小規模業者が実行できる範囲を超えており、大企業でもコストに見合った出力が得られるとは考えにくい

GPT-3の産業応用
・GPT-3は言語モデルであり、言語生成器ではない
　- 人間が書いて欲しいことをおおまかに伝えたらそれを書いてくれるわけではない（代筆）
　→ GPT-3が小論文や業務レポートを書けると考えるのは早計
　- 入力として英文や英単語を入力するが、生成する文章の分野や話題を提示しただけであり、生成する文章にそれ以上の制御は行っていない

・生成内容を強く制御できないことは創作活動にとっては有用
　- 俳句、短歌、詩の生成
　- キャッチコピーの自動生成
　- ダミー文章生成（ブログやツイート）
　- 文章添削、校正に使える可能性（要研究;文章を正しく、綺麗に書く能力は高い）

GPT-3でどこまでできそうなのか？というざっくりとした肌感が掴めたから良かった

#Article #NeuralNetwork #Tools #Dataset #Library #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #Tutorial #Slide Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

Transformer関連 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 あたりを先に読んでからが読むと良い

要は

・Transformerをたくさん積んだモデル

・NSPとMLMで双方向性を持った事前学習タスクを実施することで性能向上

・pooler layer（Transformer Encoderの次にくっつくlayer）を切り替えることで、様々なタスクにfine-tuning可能（i.e. pooler layerは転移学習の対象外）

・予測する際は、[CLS]トークンに対応する位置の出力を用いて分類問題や複数文間の関係性を問う問題を解いたり、各トークン位置に対応する出力を用いてQAの正解spanを予測したり、色々できる

・gMLP MLP-like Architecture あたりの研究が進んでくると使われなくなってくる可能性有

こっちの記事もわかりやすい。

BERTについて勉強したことまとめ (2)モデル構造について

https://engineering.mobalab.net/2020/06/12/bert%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6%E5%8B%89%E5%BC%B7%E3%81%97%E3%81%9F%E3%81%93%E3%81%A8%E3%81%BE%E3%81%A8%E3%82%81-2%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E9%80%A0%E3%81%AB%E3%81%A4%E3%81%84/

#Article #NeuralNetwork #Survey #Slide #Selected Papers/Blogs Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

Evaluation (311)

#ComputerVision #Pocket #Dataset #LanguageModel #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#ComputerVision #Pocket #Dataset #AIAgents #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #VisionLanguageModel
Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #Dataset #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#ComputerVision #Pocket #Dataset #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #Dataset #LanguageModel #read-later Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #Dataset #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pocket #Dataset #LanguageModel #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Pocket #Dataset #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #UserBased #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#MachineLearning #Pocket #Dataset #TabularData #Selected Papers/Blogs #Live #One-Line Notes Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#GraphBased #Pocket #Dataset #LanguageModel Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #Search #Dataset #LanguageModel #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#Multi #Metrics #Pocket #LanguageModel #ReinforcementLearning #Conversation #NeurIPS #Personality Issue Date: 2025-11-06 [Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #LanguageModel #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #Dataset #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 [Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

著者ポスト:

Loading…

#Pocket #Dataset #LanguageModel #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

Rebus Puzzleの例。たとえば上の例はlong time no seeが答えだが、Timeを認識してCが抜けており、かつseeとCの音韻が似ているといった解釈をしなければならない。Waterfallの例では、Waterという文字列が滝のように下に向かっている様子から類推しなければならない。おもしろい。

#Pocket #Dataset #LanguageModel #UserBased #AIAgents #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #AIAgents #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #Dataset #LanguageModel #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Pocket #Dataset #VisionLanguageModel #UMM #Pixel-based Issue Date: 2025-10-21 [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01 GPT Summary- 「Perceive Everything as Pixels（PEAP）」の概念を提案し、自然言語や図式的な入力を単一のピクセル空間に統合するベンチマーク「PixelWorld」を公開。PEAPは意味理解タスクで競争力のある精度を示すが、推論が重要なタスクではパフォーマンスが低下。Chain-of-Thoughtプロンプティングがこのギャップを部分的に緩和し、視覚とテキストの統合により前処理の複雑さが軽減されることが確認された。PixelWorldは統一された視覚言語モデルの評価に役立つ。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#Pocket #LanguageModel #Alignment #NeurIPS #PostTraining #One-Line Notes Issue Date: 2025-10-19 [Paper Note] Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment, Samuel Yeh+, NeurIPS'25, 2025.09 GPT Summary- 人間のフィードバックはLLMのアライメントに重要だが、ノイズや一貫性の欠如が問題を引き起こす。これを解決するために、13のデータクリーニング手法を評価する初のベンチマーク「PrefCleanBench」を導入。さまざまな条件下でのアライメント性能を比較し、データクリーニングの成功要因を明らかにする。これにより、LLMアライメントの改善に向けた再現可能なアプローチを提供し、データ前処理の重要性を強調する。すべての手法の実装は公開されている。 Comment

元ポスト:

Loading…

#Pocket #Dataset #UserBased #AIAgents #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #Dataset #LanguageModel #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #LanguageModel #Education #AIAgents #Coding #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

#Pocket #Dataset #LanguageModel #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#Multi #Pocket #UserModeling #LanguageModel #UserBased #Conversation #EMNLP #One-Line Notes Issue Date: 2025-10-16 [Paper Note] SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?, Yao Dou+, arXiv'25, 2025.10 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Alignment #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #Dataset #LanguageModel #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #Dataset #Supervised-FineTuning (SFT) #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #UserBased #Alignment #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #UserModeling #LanguageModel #UserBased #Conversation #Robustness Issue Date: 2025-10-12 [Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル（User LMs）を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…

#Pocket #LanguageModel #Selected Papers/Blogs Issue Date: 2025-10-09 [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10 GPT Summary- GDPvalは、AIモデルの経済的価値のあるタスクを評価するベンチマークで、米国GDPに寄与する44の職業をカバー。最前線モデルのパフォーマンスは時間と共に改善し、業界専門家に近づいている。人間の監視を加えたモデルは、無援助の専門家よりも効率的にタスクを実行可能であることを示唆。推論努力やタスクコンテキストの増加がモデルの性能向上に寄与。220のタスクのゴールドサブセットをオープンソース化し、研究促進のための自動採点サービスを提供。 Comment

元ポスト:

Loading…

#Multi #Pocket #Dataset #LanguageModel #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #UserModeling #Dataset #LanguageModel #UserBased #AIAgents #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

#Controllable #Pocket #LanguageModel #AIAgents #LongSequence #Contamination-free Issue Date: 2025-10-04 [Paper Note] Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling, Seiji Maekawa+, arXiv'25, 2025.09 GPT Summary- TaLMsの評価のために、汚染のないフレームワークFuncBenchGenを提案。ツール使用をDAG上のトラバーサルとして捉え、モデルは正しい関数呼び出しシーケンスを構成。7つのLLMを異なる難易度のタスクで評価した結果、GPT-5が特に優れた性能を示し、依存の深さが増すと性能が低下。古い引数値の伝播が問題であることが判明し、再表現戦略を導入したところ、成功率が62.5%から81.3%に向上した。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

#ComputerVision #Pocket #Dataset #LanguageModel #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #Dataset #ReinforcementLearning #Conversation #MultiLingual #LLM-as-a-Judge #RewardModel #One-Line Notes Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

LLMの応答を多言語でよりnativeに近いものにするための取り組み、および評価のフレームワーク（MENLO, データセット含む）な模様。nativeらしさを測るために重要な次元としてFluency, Tone, Localized Tone, Localized Factualityと呼ばれる軸を定義している模様。その上で47言語における6423の人手でアノテーションされたpreference dataを作成し評価をしたところ、既存のLLM-as-a-judgeやSFT/RLされたReward Modelでは、人間による評価にはまだまだ及ばないことが明らかになり、MENLOを用いてRL/SFTすることでLLM JudgeやReward Modelの性能を改善できる、といった話な模様。

4つの次元については以下の表を参照のこと。
それぞれ
- Fluency: 専門家レベルのnative speakerと比較した時のproficiency
- Tone: 全体的なwriting stvleや語り口
- Localized Tone: 文化的、地域的な言葉のニュアンス
- Localized Factuality: 地域固有のコンテキストに沿った事実性や網羅性

#Pocket #UserModeling #Dataset #LanguageModel #UserBased #Personalization #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#Pocket #Dataset #QuestionAnswering #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#Pocket #Dataset #LanguageModel #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #Dataset #LanguageModel #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#Pocket #Dataset #EMNLP #RewardModel Issue Date: 2025-09-23 [Paper Note] reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs, Zhaofeng Wu+, EMNLP'25, 2025.03 GPT Summary- 報酬モデルはNLPにおいて重要だが、過学習の影響で真の能力が混乱することがある。本研究では、報酬モデルの堅牢性を評価するために**reWordBench**を構築し、入力変換による性能低下を調査。最先端の報酬モデルは小さな変換でも著しい性能低下を示し、脆弱性が明らかになった。堅牢性向上のために同義語に対して類似スコアを割り当てる訓練を提案し、これにより性能低下を約半分に減少させた。さらに、アライメントにおいても高品質な出力を生成し、標準的な報酬モデルに対して最大59%のケースで優れた結果を示した。 Comment

元ポスト:

Loading…

Figure1がRMの過学習の様子を図示しており、非常に端的で分かりやすい。

#Pocket #Dataset #LanguageModel #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #Dataset #Reasoning #RewardModel Issue Date: 2025-09-22 [Paper Note] Libra: Assessing and Improving Reward Model by Learning to Think, Meng Zhou+, arXiv'25, 2025.07 GPT Summary- 強化学習（RL）の報酬モデルは、困難な推論シナリオでの性能が低下しており、注釈付き参照回答や制約された出力形式に依存している。これに対処するため、推論指向のベンチマーク「Libra Bench」を提案し、生成的報酬モデルを改善する新しいアプローチを導入。Libra-RMシリーズを開発し、さまざまなベンチマークで最先端の結果を達成。実験結果は、Libra Benchと下流アプリケーションとの相関関係を示し、ラベルのないデータを用いた推論モデルの改善の可能性を示唆している。 Comment

元ポスト:

Loading…

Related Workを読むと、 `Discriminative Reward models` と `Generative Reward models` の違いが簡潔に記述されている。
要は
- Discriminative Reward models:
- LLMをBackboneとして持ち、
- スコアリング用のヘッドを追加しpreference dataを用いて（pairwiseのranking lossを通じて）学習され、scalar rewardを返す
- Generative Reward models:
- 通常とLLMと同じアーキテクチャで（Next Token Prdiction lossを通じて学習され）
- responseがinputとして与えられたときに、rewardに関する情報を持つtextualなoutputを返す（要は、LLM-as-a-Judge [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 ）
- reasoning traceを活用すればthinking model（Test time scaling）の恩恵をあずかることが可能
- GenRMのルーツはこのへんだろうか:
- Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N/A, ICLR'25
- LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion, Dongfu Jiang+, N/A, ACL'23
- Self-Rewarding Language Models, Weizhe Yuan+, N/A, ICML'24

という区別である。

以下のノートも参考のこと:
- [Personal Note] LLM-as-a-judge / Reward Model

GenRMは追加の学習なしで利用されるのが普通だったようだが、RM用の追加の学習をしても使えると思うのでそこはあまり気にしなくて良いと思われる。

また
- Generative Reward Models, Dakota Mahan+, N/A, arXiv'24

のFigure1が、RMのアーキテクチャの違いをわかりやすく説明している。

#Pocket #Search #Dataset #LanguageModel #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #InstructionTuning #NeurIPS #RLVR #InstructionFollowingCapability Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#Dataset #LanguageModel #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Analysis #MachineLearning #Pocket #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #LanguageModel #AIAgents #Safety #NeurIPS Issue Date: 2025-09-19 [Paper Note] OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents, Thomas Kuntz+, NeurIPS'25 GPT Summary- コンピュータ使用エージェントの安全性を評価するために、新しいベンチマークOS-Harmを導入。OS-Harmは、意図的な誤用、プロンプトインジェクション攻撃、不適切な行動の3つの危害をテストする150のタスクを含む。自動ジャッジを用いてエージェントの正確性と安全性を評価し、高い一致率を達成。最前線モデルの評価から、意図的な誤用に従う傾向や脆弱性が明らかになった。OS-Harmは、エージェントの安全性向上に寄与することを目指す。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #Dataset #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #Dataset #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Analysis #Pocket #LanguageModel #Hallucination #TMLR #read-later Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル（LLMs）の類似性を理解するために、想像上の質問応答（IQA）という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #IRT #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #Dataset #LanguageModel #AIAgents #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #Dataset #LanguageModel #AIAgents #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Pocket #Dataset #LanguageModel #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#Pocket #LanguageModel #Factuality Issue Date: 2025-09-11 [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25 GPT Summary- SimpleQA Verifiedは、OpenAIのSimpleQAに基づく1,000プロンプトのベンチマークで、LLMの短文事実性を評価します。ノイズの多いラベルやトピックバイアスに対処するため、厳密なフィルタリングプロセスを経て信頼性の高い評価セットを生成しました。Gemini 2.5 Proは55.6のF1スコアを達成し、他のモデルを上回りました。この研究は、事実性の進展を追跡し、幻覚を軽減するためのツールを提供します。 Comment

leaderboard: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified

元ポスト:

Loading…

#Dataset #LanguageModel #AIAgents #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #LanguageModel #NAACL #Decoding #Non-Determinism Issue Date: 2025-09-09 [Paper Note] The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism, Yifan Song+, NAACL'25 GPT Summary- LLMの評価は非決定性を見落としがちで、単一出力に焦点を当てるため性能の変動理解が制限される。本研究では、貪欲デコーディングとサンプリングの性能差を探求し、非決定性に関するベンチマークの一貫性を特定。実験により、貪欲デコーディングが多くのタスクで優れていることを確認し、アライメントがサンプリングの分散を減少させる可能性を示した。また、小型LLMが大型モデルに匹敵する性能を持つことを明らかにし、LLM評価における非決定性の重要性を強調した。 Comment

#Pocket #Dataset #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#Pocket #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2025-09-05 [Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #Dataset #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #Dataset #LanguageModel #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #Dataset #AIAgents #MCP Issue Date: 2025-08-30 [Paper Note] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers, Zhenting Wang+, arXiv'25 GPT Summary- MCP-Benchは、ツールの使用や調整、計画/推論を必要とする多段階タスクを評価するためのベンチマークであり、250のツールを持つ28のMCPサーバーにLLMsを接続します。従来のベンチマークとは異なり、相互に連携するツールセットを提供し、複雑なタスクを構築可能にします。タスクは、ツールの取得能力や多段階実行経路の計画能力をテストし、既存のベンチマークでは評価されていない能力を明らかにします。20のLLMに対する実験を通じて、MCP-Benchの課題が示されました。 Comment

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

#Pocket #Dataset #LanguageModel #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #Dataset #AIAgents #MCP Issue Date: 2025-08-22 [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25 GPT Summary- モデルコンテキストプロトコル（MCP）は、LLMを外部データソースに接続する新しい標準であり、MCP-Universeという包括的なベンチマークを導入。これにより、実際のアプリケーションにおけるLLMの評価が可能となる。6つのコアドメインをカバーし、厳密な評価手法を実装。主要なLLMは性能制限を示し、長文コンテキストや未知のツールの課題に直面。UIサポート付きの評価フレームワークをオープンソース化し、MCPエコシステムの革新を促進。 Comment

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

#Analysis #NaturalLanguageGeneration #Pocket #LanguageModel #EMNLP #read-later Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#ComputerVision #Pocket #Dataset #AIAgents #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #Dataset #LanguageModel #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #Dataset #LanguageModel #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #Dataset #LanguageModel #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #LanguageModel #AIAgents #SyntheticData #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #Dataset #LanguageModel #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

#Pocket #Dataset #AIAgents #SoftwareEngineering Issue Date: 2025-08-12 [Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

ドキュメントをソフトウェアの仕様書とみなし、ドキュメントの更新部分をらinputとし、対応する"機能追加"をする能力を測るベンチマーク

SoTAモデルでも15.79%程度しか成功しない。

元ポストによると、ファイルを跨いだ編集、コードベースの理解、tool useに苦労しているとのこと。

#Pocket #Dataset #LanguageModel #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#Survey #Embeddings #Pocket #Dataset #LanguageModel #RepresentationLearning Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#Pocket #LanguageModel #Reasoning #LongSequence #Scaling Laws Issue Date: 2025-07-22 [Paper Note] Inverse Scaling in Test-Time Compute, Aryo Pradipta Gema+, arXiv'25 GPT Summary- LRMsの推論の長さが性能に与える影響を評価するタスクを構築し、計算量と精度の逆スケーリング関係を示す。4つのカテゴリのタスクを通じて、5つの失敗モードを特定。これにより、長時間の推論が問題のあるパターンを強化する可能性があることが明らかになった。結果は、LRMsの失敗モードを特定し対処するために、推論の長さに応じた評価の重要性を示している。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Dataset #AIAgents #SoftwareEngineering Issue Date: 2025-07-18 [Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

これまでのSWE系のベンチマークはBug Fixなどにフォーカスされてきたが、こちらのベンチマークはソフトウェアのパフォーマンス（i.e., 実行時間）を改善させられるかにフォーカスしているとのこと。
実際にリポジトリからPRを収集し、パッチ前後の実行時間を比較。20回のrunを通じて統計的に有意な実行時間の差があるもののみにフィルタリングをしているとのこと。

Human Expertsは平均10.9%のgainを得たが、エージェントは2.3%にとどまっており、ギャップがあるとのこと。

傾向として、LLMはlow levelなインフラストラクチャ（環境構築, 依存関係のハンドリング, importのロジック）を改善するが、Human Expertsはhigh levelなロジックやデータ構造を改善する（e.g., アルゴリズムや、データハンドリング）。

#ComputerVision #Pocket #Dataset #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

画像はPJページより引用。新たにVisual Puzzleと呼ばれる特定のドメイン知識がほとんど必要ないマルチモーダルなreasoningベンチマークを構築。o1ですら、人間の5th percentileに満たない性能とのこと。

Chinese Civil Service Examination中のlogical reasoning questionを手作業で翻訳したとのこと。

データセットの統計量は以下で、合計1168問で、難易度は3段階に分かれている模様。

project page: https://neulab.github.io/VisualPuzzles/

#ComputerVision #Embeddings #Pocket #Dataset #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#Analysis #Pocket #LanguageModel #LLM-as-a-Judge #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#Pocket #LanguageModel #read-later Issue Date: 2025-07-05 [Paper Note] Answer Matching Outperforms Multiple Choice for Language Model Evaluation, Nikhil Chandak+, arXiv'25 GPT Summary- 複数選択のベンチマークは言語モデル評価において重要だが、質問を見ずに回答できることが多い。これに対し、回答マッチングという生成的評価を提案し、自由形式の応答を生成させて参照回答と一致するかを判断。MMLU-ProとGPQA-Diamondで人間の採点データを取得し、回答マッチングがほぼ完璧な一致を達成することを示した。評価方法の変更により、モデルのランキングが大きく変わる可能性がある。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

まだ冒頭しか読めていないので後で読む

#ComputerVision #Pocket #Dataset #LanguageModel #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #LanguageModel #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#Pocket #Dataset #AIAgents #Coding #LongSequence #NeurIPS Issue Date: 2025-06-17 [Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

関連ポスト:

Loading…

NeurIPSにaccept:

Loading…

#Pocket #Dataset #LanguageModel #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#Analysis #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ICLR #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-05-23 LiveBench: A Challenging, Contamination-Limited LLM Benchmark, Colin White+, ICLR'25 GPT Summary- テストセットの汚染を防ぐために、LLM用の新しいベンチマーク「LiveBench」を導入。LiveBenchは、頻繁に更新される質問、自動スコアリング、さまざまな挑戦的タスクを含む。多くのモデルを評価し、正答率は70%未満。質問は毎月更新され、LLMの能力向上を測定可能に。コミュニティの参加を歓迎。 Comment

テストデータのコンタミネーションに対処できるように設計されたベンチマーク。重要研究

#Survey #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#ComputerVision #Pocket #Dataset #LanguageModel #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Analysis #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#Pocket #Dataset #LanguageModel #AIAgents #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#Metrics #LanguageModel #GenerativeAI #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#InformationRetrieval #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-03-25 ExpertGenQA: Open-ended QA generation in Specialized Domains, Haz Sameen Shahgir+, arXiv'25 GPT Summary- ExpertGenQAは、少数ショット学習とトピック・スタイル分類を組み合わせたQAペア生成プロトコルで、米国連邦鉄道局の文書を用いて94.4%のトピックカバレッジを維持しつつ、ベースラインの2倍の効率を達成。評価では、LLMベースのモデルが内容よりも文体に偏ることが判明し、ExpertGenQAは専門家の質問の認知的複雑性をより良く保持。生成したクエリは、リトリーバルモデルの精度を13.02%向上させ、技術分野での有効性を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#InformationRetrieval #Dataset #AIAgents #RAG(RetrievalAugmentedGeneration) #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#Pocket #LanguageModel #Hallucination #Factuality #COLM Issue Date: 2023-07-27 [Paper Note] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, COLM'25, 2023.07 GPT Summary- 生成的事前学習モデルによるテキスト合成は進展したが、事実誤認の特定には課題が残る。特に、生成モデルによる事実誤認のリスク増加、長文化による粒度の欠如、明示的証拠の不足が問題である。これらを解決するために、タスクやドメインに依存しない事実誤認検出フレームワークFacToolを提案。知識ベースのQA、コード生成、数学的推論、科学文献レビューの4つのタスクで有効性を実証し、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=hJkQL9VtWT#discussion

#Pocket #LanguageModel #AIAgents #NeurIPS #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

#Pocket #Dataset #LanguageModel #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#ComputerVision #Pocket #Dataset #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Pocket #Dataset #LanguageModel #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #Dataset #LanguageModel #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #Dataset #LanguageModel #SyntheticData #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#ComputerVision #Pocket #Dataset #QuestionAnswering #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #ComputerVision #Pocket #Dataset #InstructionTuning #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #Dataset #LanguageModel #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #Dataset #LanguageModel #QuestionAnswering #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #Dataset #LanguageModel #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #Dataset #LanguageModel #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #ComputerVision #Pocket #Dataset #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Metrics #Pocket #Search #LanguageModel #Factuality #LongSequence Issue Date: 2025-08-08 [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24 GPT Summary- VERISCOREという新しい指標を提案し、検証可能な主張と検証不可能な主張の両方を含む長文生成タスクに対応。人間評価ではVERISCOREが他の方法よりも理にかなっていることが確認され、16のモデルを評価した結果、GPT-4oが最も優れた性能を示したが、オープンウェイトモデルも差を縮めていることが分かった。また、異なるタスク間でVERISCOREの相関がないことから、事実性評価の拡張が必要であることを示唆している。 Comment

#Pocket #Dataset #LanguageModel #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

#ComputerVision #Pocket #Dataset #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

Project Pageのランディングページが非常にわかりやすい。こちらは人間の方がまだまだ性能が高そう。

https://github.com/user-attachments/assets/586edf6d-cd77-48cb-b209-8ea819e725fc" />

#Pocket #Dataset #LanguageModel #ReinforcementLearning Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #LanguageModel #Decoding #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-04-14 Non-Determinism of "Deterministic" LLM Settings, Berk Atil+, arXiv'24 GPT Summary- 本研究では、5つの決定論的LLMにおける非決定性を8つのタスクで調査し、最大15%の精度変動と70%のパフォーマンスギャップを観察。全てのタスクで一貫した精度を提供できないことが明らかになり、非決定性が計算リソースの効率的使用に寄与している可能性が示唆された。出力の合意率を示す新たなメトリクスTARr@NとTARa@Nを導入し、研究結果を定量化。コードとデータは公開されている。 Comment

#Pocket #Dataset #LanguageModel #AIAgents #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#ComputerVision #Pocket #Dataset #LanguageModel #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Pocket #Dataset #AIAgents #SyntheticData #SyntheticDataGeneration Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

#Dataset #LanguageModel #AIAgents Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#Survey #Pocket #LanguageModel #LLM-as-a-Judge Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #LanguageModel Issue Date: 2024-12-15 When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards, Norah Alzahrani+, ACL'24 GPT Summary- LLMのリーダーボードは、ベンチマークランキングに基づいてモデル選択を支援するが、ランキングは微細な変更に敏感であり、最大8位変動することがある。3つのベンチマーク摂動のカテゴリにわたる実験を通じて、この現象の原因を特定し、ハイブリッドスコアリング方法の利点を含むベストプラクティスを提案。単純な評価に依存する危険性を強調し、より堅牢な評価スキームの必要性を示した。 Comment

#Pocket #LanguageModel #LLM-as-a-Judge Issue Date: 2024-12-15 BatchEval: Towards Human-like Text Evaluation, Peiwen Yuan+, ACL'24 GPT Summary- BatchEvalという新しい評価パラダイムを提案し、LLMを用いた自動テキスト評価の問題を解決。バッチ単位での反復評価により、プロンプト設計の敏感さやノイズ耐性の低さを軽減。実験により、BatchEvalは最先端手法に対して10.5%の改善を示し、APIコストを64%削減。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に日本語によるサマリが掲載されているので参照のこと。

#NeuralNetwork #NaturalLanguageGeneration #Dataset #LanguageModel #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Multi #Pocket #Dataset #LanguageModel #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

#Survey #LanguageModel #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#Survey #NaturalLanguageGeneration #Pocket #LLM-as-a-Judge Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

NLGの評価をするモデルのアーキテクチャとして、BERTScoreのようなreferenceとhvpothesisのdistiebuted representation同士を比較するような手法（matching-based）と、性能指標を直接テキストとして生成するgenerative-basedな手法があるよ、

といった話や、そもそもreference-basedなメトリック（e.g. BLEU）や、reference-freeなメトリック（e.g. BARTScore）とはなんぞや？みたいな基礎的な話から、言語モデルを用いたテキスト生成の評価手法の代表的なものだけでなく、タスクごとの手法も整理されて記載されている。また、BLEUやROUGEといった伝統的な手法の概要や、最新手法との同一データセットでのメタ評価における性能の差なども記載されており、全体的に必要な情報がコンパクトにまとまっている印象がある。

#ComputerVision #Pocket #Dataset #LanguageModel #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #Dataset #LanguageModel #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #Pocket #Dataset #LanguageModel #Zero/Few/ManyShotPrompting #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #ComputerVision #Pocket #Dataset #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#NaturalLanguageGeneration #Metrics #Pocket #EMNLP #Finetuning Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

#NaturalLanguageGeneration #Pocket #LanguageModel #Explanation #Supervised-FineTuning (SFT) #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#Pocket #LanguageModel #LLM-as-a-Judge Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP'23 GPT Summary- 従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル（LLMs）を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment

伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究

#Pocket #Dataset #LanguageModel #QuestionAnswering #AIAgents #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #Dataset #LanguageModel #InstructionTuning #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #LanguageModel #Factuality #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv'23 GPT Summary- 自律型の事実チェックにおいて、大規模言語モデル（LLMs）を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Comment

#LanguageModel Issue Date: 2023-10-29 Large Language Models are not Fair Evaluators, Peiyi Wang+, N_A, arXiv'23 GPT Summary- この論文では、大規模言語モデル（LLMs）を使用して、候補モデルの応答品質を評価する評価パラダイムにおける系統的なバイアスを明らかにします。さらに、バイアスを軽減するためのキャリブレーションフレームワークを提案し、実験によってその有効性を示します。また、コードとデータを公開して、今後の研究を支援します。 #Pocket #LanguageModel Issue Date: 2023-10-28 Human Feedback is not Gold Standard, Tom Hosking+, N_A, arXiv'23 GPT Summary- 人間のフィードバックは、大規模言語モデルの性能評価に使用されているが、その好みのスコアがどの特性を捉えているのかは明確ではない。この研究では、人間のフィードバックの使用を分析し、重要なエラー基準を適切に捉えているかどうかを検証した。結果として、好みのスコアは広範なカバレッジを持っているが、事実性などの重要な側面が過小評価されていることがわかった。また、好みのスコアとエラーアノテーションは交絡因子の影響を受ける可能性があり、出力の断定性が事実性エラーの知覚率を歪めることも示された。さらに、人間のフィードバックを訓練目標として使用することが、モデルの出力の断定性を過度に増加させることも示された。今後の研究では、好みのスコアが望ましい目標と一致しているかどうかを慎重に考慮する必要がある。 Comment

参考:

Loading…

#Pocket #LanguageModel Issue Date: 2023-10-25 Branch-Solve-Merge Improves Large Language Model Evaluation and Generation, Swarnadeep Saha+, N_A, arXiv'23 GPT Summary- 本研究では、多面的な言語生成および評価タスクにおいて、大規模言語モデルプログラム（BSM）を提案します。BSMは、ブランチ、ソルブ、マージの3つのモジュールから構成され、タスクを複数のサブタスクに分解し、独立して解決し、解決策を統合します。実験により、BSMが評価の正確性と一貫性を向上させ、パフォーマンスを向上させることが示されました。 #MachineLearning #Pocket #Dataset #LanguageModel #AIAgents #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #Dataset #LanguageModel #AIAgents Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #LM-based #Coherence Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #DocumentSummarization #Pocket #Reference-free Issue Date: 2023-08-13 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N_A, Findings of ACL'23 GPT Summary- 自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。 Comment

# 概要

Dual-Encoderを用いて、ソースドキュメントとシステム要約をエンコードし、dot productをとることでスコアを得る手法。モデルの訓練は、Contrastive Learningで行い、既存データセットのソースと参照要約のペアを正例とみなし、In Batch trainingする。

# 分類

Reference-free, Model-based, ソース依存で、BARTScore BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ (w/ Neubig氏), NeurIPS'21
とは異なり、文書要約データを用いて学習するため、要約の評価に特化している点が特徴。

# モデル

## Contrastive Learning

Contrastive Learningを用い、hard negativeを用いたvariantも検証する。また、訓練データとして3種類のパターンを検証する：

1. in-domain data: 文書要約データを用いて訓練し、ターゲットタスクでどれだけの性能を発揮するかを見る

2. out-of-domain data: 文書要約以外のデータを用いて訓練し、どれだけ新しいドメインにモデルがtransferできるかを検証する

3. in-and-out-domain data: 両方やる

## ハードネガティブの生成

Lexical Negatives, Model Negatives, 双方の組み合わせの3種類を用いてハードネガティブを生成する。

### Lexical Negatives

参照要約を拡張することによって生成する。目的は、もともとの参照要約と比較して、poor summaryを生成することにある。Data Augmentationとして、以下の方法を試した：

- Swapping noun entities: 要約中のエンティティを、ソース中のエンティティンとランダムでスワップ

- Shuffling words: 要約中の単語をランダムにシャッフル

- Dropping words: 要約中の単語をランダムに削除

- Dropping characters: 要約中の文字をランダムに削除

- Swapping antonyms: 要約中の単語を対義語で置換

### Model Negatives

データセットの中から負例を抽出する。目的は、参照要約と類似しているが、負例となるサンプルを見つけること。これを実現するために、まずRISE modelをデータセットでfinetuningし、それぞれのソースドキュメントの要約に対して、類似した要約をマイニングする。すべてのドキュメントと要約をエンコードし、top-nの最も類似した要約を見つけ、これをハードネガティブとして、再度モデルを訓練する。

### 両者の組み合わせ

まずlexical negativesでモデルを訓練し、モデルネガティブの抽出に活用する。抽出したモデルネガティブを用いて再度モデルを訓練することで、最終的なモデルとする。

# 実験

## 学習手法

SummEval SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21
を用いて人手評価と比較してどれだけcorrelationがあるかを検証。SummEvalには16種類のモデルのアウトプットに対する、CNN / Daily Mail の100 examplesに対して、品質のアノテーションが付与されている。expert annotationを用いて、Kendall's tauを用いてシステムレベルのcorrelationを計算した。contextが短い場合はT5, 長い場合はLongT5, タスクがマルチリンガルな場合はmT5を用いて訓練した。訓練データとしては

- CNN / Daily Mail

- Multi News

- arXiv

- PubMed

- BigPatent

- SAMSum

- Reddit TIFU

- MLSUM

等を用いた。これによりshort / long contextの両者をカバーできる。CNN / Daily Mail, Reddiit TIFU, Multi-Newsはshort-context, arXiv, PubMed, BigPatent, Multi-News（長文のものを利用）はlonger contextとして利用する。

## 比較するメトリック

ROUGE, chrF, SMS, BARTScore, SMART, BLEURT, BERTScore, Q^2, T5-ANLI, PRISMと比較した。結果をみると、Consistency, Fluency, Relevanceで他手法よりも高い相関を得た。Averageでは最も高いAverageを獲得した。in-domain dataで訓練した場合は、高い性能を発揮した。our-of-domain（SAMSum; Dialogue要約のデータ）データでも高い性能を得た。

# Ablation

## ハードネガティブの生成方法

Data Augmentationは、swapping entity nouns, randomly dropping wordsの組み合わせが最も良かった。また、Lexical Negativesは、様々なデータセットで一貫して性能が良かったが、Model NegativesはCNN/DailyMailに対してしか有効ではなかった。これはおそらく、同じタスク（テストデータと同じデータ）でないと、Model Negativesは機能しないことを示唆している。ただし、Model Negativesを入れたら、何もしないよりも性能向上するから、何らかの理由でlexical negativesが生成できない場合はこっち使っても有用である。

## Model Size

でかい方が良い。in-domainならBaseでもそれなりの性能だけど、結局LARGEの方が強い。

## Datasets

異なるデータセットでもtransferがうまく機能している。驚いたことにデータセットをmixingするとあまりうまくいかず、単体のデータセットで訓練したほうが性能が良い。

LongT5を見ると、T5よりもCorrelationが低く難易度が高い。

最終的に英語の要約を評価をする場合でも、Multilingual（別言語）で訓練しても高いCorrelationを示すこともわかった。

## Dataset Size

サンプル数が小さくても有効に働く。しかし、out-domainのデータの場合は、たとえば、512件の場合は性能が低く少しexampleを増やさなければならない。

#DocumentSummarization #Pocket #LLM-as-a-Judge Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv'23 GPT Summary- 本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 Comment

BERTScoreと同様、評価したいテキストの対数尤度で評価している
BERTScoreよりも相関が高く、instructionによって性能が向上することが示されている

#DocumentSummarization #Pocket Issue Date: 2023-08-13 Large Language Models are Diverse Role-Players for Summarization Evaluation, Ning Wu+, N_A, arXiv'23 GPT Summary- 本研究では、テキスト要約の評価フレームワークを提案し、生成されたテキストと参照テキストを客観的および主観的な側面から比較することで包括的な評価を行います。具体的には、ロールプレイヤーのプロンプティングメカニズムを使用してテキストの評価をモデル化し、コンテキストベースのプロンプティングメカニズムを導入して動的なロールプレイヤープロファイルを生成します。さらに、バッチプロンプティングに基づいたマルチロールプレイヤープロンプティング技術を使用して複数の評価結果を統合します。実験結果は、提案モデルが競争力があり、人間の評価者と高い一致性を持つことを示しています。 #DocumentSummarization #Pocket #Factuality Issue Date: 2023-08-13 ChatGPT as a Factual Inconsistency Evaluator for Text Summarization, Zheheng Luo+, N_A, arXiv'23 GPT Summary- 事前学習された言語モデルによるテキスト要約の性能向上が注目されているが、生成された要約が元の文書と矛盾することが問題となっている。この問題を解決するために、効果的な事実性評価メトリクスの開発が進められているが、計算複雑性や不確実性の制約があり、人間の判断との一致に限定されている。最近の研究では、大規模言語モデル（LLMs）がテキスト生成と言語理解の両方で優れた性能を示していることがわかっている。本研究では、ChatGPTの事実的な矛盾評価能力を評価し、バイナリエンテイルメント推論、要約ランキング、一貫性評価などのタスクで優れた性能を示した。ただし、ChatGPTには語彙的な類似性の傾向や誤った推論、指示の不適切な理解などの制限があることがわかった。 #Dataset #LanguageModel Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

#Pocket #LanguageModel #LLM-as-a-Judge #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 Comment

`LLM-as-a-Judge` という用語を最初に提唱したのも本研究となる（p.2参照）

#LanguageModel #LLM-as-a-Judge Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL'23 GPT Summary- 本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル（LLMs）を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #ComputerVision #NaturalLanguageGeneration #Dataset Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Metrics #LanguageModel #QuestionAnswering #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

#Pocket #ChatGPT Issue Date: 2023-07-22 How is ChatGPT's behavior changing over time?, Lingjiao Chen+, N_A, arXiv'23 GPT Summary- GPT-3.5とGPT-4は、大規模言語モデル（LLM）のサービスであり、その性能と振る舞いは時間とともに変動することがわかった。例えば、GPT-4は素数の特定に優れていたが、後のバージョンでは低い正答率となった。また、GPT-3.5はGPT-4よりも優れた性能を示した。さらに、GPT-4とGPT-3.5の両方が時間とともに敏感な質問への回答やコード生成でのミスが増えた。この結果から、LLMの品質を継続的に監視する必要性が示唆される。 Comment

GPT3.5, GPT4共にfreezeされてないのなら、研究で利用すると結果が再現されないので、研究で使うべきではない。

↑(2025.10追記)
当時の私はこのように感じたようだが、以下を確認した方が良いと思う:

- 実験設定として、エンドポイントのモデル名にはタイムスタンプが付与されているが、同じモデルシリーズの異なるタイムスタンプモデル間の比較なのか、それとも全く同じタイムスタンプのモデルでの比較なのか
- サンプリングパラメータの設定や推論の試行回数なとがreliableな比較ができうる設定になっているか。

あとは上記を確認したとしても、研究で使うべきではない、は言い過ぎで、実験の比較対象の一部として使う分には良いと思う（ただし、実験結果の主要な知見は再現可能な設定から得られるべきと考える。

（当時は随分脊髄反射的にコメントを書いていますね…）

#Pocket #LanguageModel #InstructionTuning Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv'23 GPT Summary- 本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #Pocket #Dataset #LanguageModel Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#DocumentSummarization #Metrics #Dataset Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #NaturalLanguageGeneration #Explanation #Faithfulness Issue Date: 2023-07-18 Faithfulness Tests for Natural Language Explanations, ACL'23 GPT Summary- 本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。 #NaturalLanguageGeneration #Novelty Issue Date: 2023-07-14 [TACL] How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, TACL'23 GPT Summary- この研究では、言語モデルが生成するテキストの新規性を評価するための分析スイートRAVENを紹介しています。英語で訓練された4つのニューラル言語モデルに対して、局所的な構造と大規模な構造の新規性を評価しました。結果として、生成されたテキストは局所的な構造においては新規性に欠けており、大規模な構造においては人間と同程度の新規性があり、時には訓練セットからの重複したテキストを生成することもあります。また、GPT-2の詳細な手動分析により、組成的および類推的な一般化メカニズムの使用が示され、新規テキストが形態的および構文的に妥当であるが、意味的な問題が比較的頻繁に発生することも示されました。 #MachineLearning #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #Dataset #LanguageModel #TheoryOfMind Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

#Pocket #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #Dataset #LanguageModel #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

#Dataset #LanguageModel #AIAgents #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#Pocket #Dataset #LanguageModel Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #LanguageModel Issue Date: 2023-07-03 Bring Your Own Data Self-Supervised Evaluation for Large Language Models, Neel Jain+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の振る舞いを評価するための自己教師あり評価フレームワークを提案する。これにより、人間によるラベル付けが必要なくなり、実際のデータに対してモデルの感度や不変性を評価できる。自己教師あり評価は、クローズドブックの知識や有害性、文脈依存性などの側面を評価することができる。また、人間による教師あり評価との相関関係も高い。自己教師あり評価は、現在の評価戦略を補完するものである。 Comment

Loading…

図が非常にわかりやすい

#Pocket #Dataset #LanguageModel Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #LanguageModel #SyntheticData Issue Date: 2023-05-22 Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models, Emily Reif+, N_A, arXiv'23 GPT Summary- LLMsを使用して生成されたデータセットの構文的多様性を理解し分析するための新しい可視化ツールであるLinguisticLensが提供された。このツールは、テキストを構文、語彙、および意味の軸に沿ってクラスタリングし、階層的な可視化をサポートしている。ライブデモはshorturl.at/zHOUVで利用可能。 Comment

可視化例

実装: https://github.com/PAIR-code/interpretability/tree/master/data-synth-syntax

#InformationRetrieval #Pocket #Search #Dataset #ACL Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, ACL'23 GPT Summary- QUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。 #Dataset #Hallucination Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv'23 GPT Summary- 自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 Comment

Factual Consistency Evaluationに関する研究。オリジナルのテキストに対して、様々な規模の言語モデルを用いて要約を生成。生成された要約に対してfactual informationが正しく含まれているかをラベル付けする方法を提案。

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization #Metrics #Pocket #Reference-free #Reference-based Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR'22 GPT Summary- 本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment

先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。

Faithfulness(ROUGE, STS-Score, BERTScoreに基づく), Focus and Coverage (Question Answering basedな手法に基づく), Inter-Sentential Coherence (NSPに基づく)メトリックを組み合わせることを提案している。

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #DocumentSummarization #LM-based #Factuality Issue Date: 2023-08-13 SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization, Laban+, TACL'22 GPT Summary- 要約の領域では、入力ドキュメントと要約が整合していることが重要です。以前の研究では、自然言語推論（NLI）モデルを不整合検出に適用するとパフォーマンスが低下することがわかりました。本研究では、NLIを不整合検出に再評価し、過去の研究での入力の粒度の不一致が問題であることを発見しました。新しい手法SummaCConvを提案し、NLIモデルを文単位にドキュメントを分割してスコアを集計することで、不整合検出に成功裏に使用できることを示しました。さらに、新しいベンチマークSummaCを導入し、74.4%の正確さを達成し、先行研究と比較して5%の改善を実現しました。 #DocumentSummarization #Metrics #Factuality Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering'22 GPT Summary- 事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 Comment

FactualConsistencyに関するMetricが良くまとまっている

#DocumentSummarization #Reference-free Issue Date: 2023-08-13 MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification, Yu Lu Liu+, N_A, arXiv'22 GPT Summary- 本研究では、テキストの要約と簡素化のための参照のない評価尺度であるMaskEvalを提案しています。MaskEvalは、候補テキストとソーステキストの連結に対してマスクされた言語モデリングを行い、重要な品質の側面ごとに相対的な重要性を調整することができます。さらに、英語の要約と簡素化における人間の判断との相関に基づいて、その効果を示し、両方のタスク間での転移シナリオを探索します。 #DocumentSummarization #Metrics #Reference-free Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI'22 GPT Summary- この研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #DocumentSummarization #Metrics #Reference-free Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL'22 GPT Summary- 本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #DocumentSummarization Issue Date: 2023-08-13 Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics, Deutsch+, NAACL'22 GPT Summary- 本研究では、自動要約評価尺度のシステムレベルの相関に関する不整合を修正するための変更を提案しています。具体的には、全テストセットを使用して自動評価尺度のシステムスコアを計算し、実際のシナリオでよく見られる自動スコアのわずかな差によって分離されたシステムのペアに対してのみ相関を計算することを提案しています。これにより、より正確な相関推定と高品質な人間の判断の収集が可能となります。 #DocumentSummarization Issue Date: 2023-08-13 Does Summary Evaluation Survive Translation to Other Languages?, Braun+, NAACL'22 GPT Summary- 要約データセットの作成は費用と時間がかかるが、機械翻訳を使用して既存のデータセットを他の言語に翻訳することで、追加の言語での使用が可能になる。この研究では、英語の要約データセットを7つの言語に翻訳し、自動評価尺度によるパフォーマンスを比較する。また、人間と自動化された要約のスコアリング間の相関を評価し、翻訳がパフォーマンスに与える影響も考慮する。さらに、データセットの再利用の可能性を見つけるために、特定の側面に焦点を当てる。 #DocumentSummarization #Metrics #TrainedMetrics Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv'22 GPT Summary- 要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #DocumentSummarization #Reference-free Issue Date: 2023-08-13 SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling, Bao+, NAACL'22 GPT Summary- 従来の自動要約評価メトリックは語彙の類似性に焦点を当てており、意味や言語的な品質を十分に捉えることができない。参照要約が必要であるためコストがかかる。本研究では、参照要約が存在しない弱教師あり要約評価手法を提案する。既存の要約データセットを文書と破損した参照要約のペアに変換してトレーニングする。ドメイン間のテストでは、提案手法がベースラインを上回り、言語的な品質を評価する上で大きな利点を示した。 #DocumentSummarization #Reference-free Issue Date: 2023-08-13 PrefScore: Pairwise Preference Learning for Reference-free Summarization Quality Assessment, Luo+, COLING'22 GPT Summary- 人間による参照要約のない機械生成の要約の評価を行うために、ブラッドリー・テリーのパワーランキングモデルを使用して要約の優劣を判断する方法を提案する。実験結果は、この方法が人間の評価と高い相関を持つスコアを生成できることを示している。 #DocumentSummarization #Pocket Issue Date: 2023-08-13 How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation, Steen+, COLING'22 GPT Summary- 要約の一貫性を自動的に評価することは重要であり、さまざまな方法が提案されていますが、異なるデータセットと評価指標を使用して評価されるため、相対的なパフォーマンスを理解することが困難です。本研究では、要約の一貫性モデリングのさまざまな方法について調査し、新しい分析尺度を導入します。現在の自動一貫性尺度はすべての評価指標において信頼性のある一貫性スコアを割り当てることができませんが、大規模言語モデルは有望な結果を示しています。 #DocumentSummarization #Pocket Issue Date: 2023-08-13 Universal Evasion Attacks on Summarization Scoring, Wenchuan Mu+, N_A, BlackboxNLP workshop on ACL'22 GPT Summary- 要約の自動評価は重要であり、その評価は複雑です。しかし、これまで要約の評価は機械学習のタスクとは考えられていませんでした。本研究では、自動評価の堅牢性を探るために回避攻撃を行いました。攻撃システムは、要約ではない文字列を予測し、一般的な評価指標であるROUGEやMETEORにおいて優れた要約器と競合するスコアを達成しました。また、攻撃システムは最先端の要約手法を上回るスコアを獲得しました。この研究は、現在の評価システムの堅牢性の低さを示しており、要約スコアの開発を促進することを目指しています。 #DocumentSummarization #Pocket Issue Date: 2023-08-13 DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely, Forrest Sheng Bao+, N_A, arXiv'22 GPT Summary- 参照ベースと参照フリーの要約評価メトリックがあります。参照ベースは正確ですが、制約があります。参照フリーは独立していますが、ゼロショットと正確さの両方を満たせません。本研究では、参照ベースのメトリックを使用してゼロショットかつ正確な参照フリーのアプローチを提案します。実験結果は、このアプローチが最も優れた参照フリーのメトリックを提供できることを示しています。また、参照ベースのメトリックの再利用と追加の調整についても調査しています。 #MachineLearning #Pocket #Dataset #ReinforcementLearning #EmbodiedAI #text Issue Date: 2025-10-26 [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#Pocket #Dataset #LanguageModel #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #Dataset #LanguageModel #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#Analysis #NaturalLanguageGeneration #Pocket #Annotation Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

Open-endedなタスクに対するAMTの評価の再現性に関する研究。先行研究をSurveyしたところ、再現のために重要な情報（たとえば、workerの資格、費用、task descriptions、annotator間のagreementなど）が欠落していることが判明した。

続いて、expertsとAMT workerに対して、story generationの評価を実施し、GPT2が生成したストーリーと人間が生成したストーリーを、後者のスコアが高くなることを期待して依頼した。その結果

- AMTのratingは、モデルが生成したテキストと、人間が生成したテキストをreliableに区別できない

- 同一のタスクを異なる日程で実施をすると、高い分散が生じた

- 多くのAMT workerは、評価対象のテキストを注意深く読んでいない

- Expertでさえモデルが生成したテキストを読み判断するのには苦戦をし、先行研究と比較してより多くの時間を費やし、agreementが低くなることが分かった

Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL'23 において、低品質なwork forceが人手評価に対して有害な影響を与える、という文脈で本研究が引用されている

#MachineTranslation #Analysis #NaturalLanguageGeneration #Metrics #Pocket Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#DocumentSummarization #Metrics #Tools #Dataset #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#DocumentSummarization Issue Date: 2023-08-13 How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation, Steen+, EACL'21 GPT Summary- 要約システムの評価方法についての調査結果を報告しました。要約の言語的品質についての評価実験を行い、最適な評価方法は側面によって異なることを示しました。また、研究パラメータや統計分析方法についても問題点を指摘しました。さらに、現行の方法では固定された研究予算の下では信頼性のある注釈を提供できないことを強調しました。 Comment

要約の人手評価に対する研究

#DocumentSummarization Issue Date: 2023-08-13 Reliability of Human Evaluation for Text Summarization: Lessons Learned and Challenges Ahead, Iskender+, EACL'21 GPT Summary- 人間評価の信頼性に関する研究では、参加者の情報や実験の詳細が提供されていないことが多い。また、人間評価の信頼性に影響を与える要因についても研究されていない。そこで、私たちは人間評価実験を行い、参加者の情報や実験の詳細を提供し、異なる実験結果を比較した。さらに、専門家と非専門家の評価の信頼性を確保するためのガイドラインを提供し、信頼性に影響を与える要因を特定した。 Comment

要約の人手評価に対する信頼性に関して研究。人手評価のガイドラインを提供している。

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

__translate: ROUGE is widely used to automatically evaluate summarization systems. However, ROUGE measures semantic overlap between a system summary and a human reference on word-string level, much at odds with the contemporary treatment of semantic meaning. Here we present a suite of experiments on using distributed representations for evaluating summarizers, both in reference-based and in reference-free setting. Our experimental results show that the max value over each dimension of the summary ELMo word embeddings is a good representation that results in high correlation with human ratings. Averaging the cosine similarity of all encoders we tested yields high correlation with manual scores in reference-free setting. The distributed representations outperform ROUGE in recent corpora for abstractive news summarization but are less good on test data used in past evaluations.

C-ELMO/C-SBERT

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

# 概要

SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21
によって提案されてきたメトリックがROUGEに勝てていないことについて言及し、より良い指標を提案。

- precision / recall-based な QA metricsを利用してよりロバスト

- 生成されるqueryのsaliencyを学習する手法を提案することで、information selectionの概念を導入した

- CNN/Daily Mail, XSUMで評価した結果、SoTAな結果を獲得し、特にFactual Consistencyの評価に有用なことを示した

# Question-based framework

prerainedなT5を利用しQAに回答するcomponent（question, Textがgivenな時answerを生成するモデル）を構築する。text Tに対するquery qに対してrと回答する確率をQ_A(r|T, q)とし、Q_A(T, q)をモデルによってgreedyに生成された回答とする。Questionが与えられた時、Summary内に回答が含まれているかは分からない。そのため、unanswerable token εもQA componentに含める。

QG componentとしては、answer-source documentが与えられたときに人間が生成したquestionを生成できるようfinetuningされたT5モデルを利用する。テスト時は、ソースドキュメントと、システム要約がgivenなときに、はじめにQG modelを条件付けするためのanswerのsetを選択する。Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL'20
にならい、ソースドキュメントの全ての固有名詞と名詞をanswerとみなす。そして、それぞれの選択されたanswerごとに、beam searchを用いてquestionを生成する。そして、QAモデルが誤った回答をした場合、そのようなquestionはフィルタリングする。text Tにおいて、Q_A(T, q) = rとなるquestion-answer pairs (q, r)の集合を、Q_G(T)と表記する。

# QuestEval metric

## Precision

source documentをD, システム要約をSとしたときに、Precision, Recallを以下の式で測る：

question生成時は要約から生成し、生成されたquestionに回答する際はsource documentを利用し、回答の正誤に対してF1スコアを測定する。F1スコアは、ground truthと予測された回答を比較することによって測定され、回答がexact matchした場合に1, common tokenが存在しない場合に0を返す。D, Sで条件付けされたときに、回答が変わってしまう場合は要約がinconsistentだとみなせる、というintuitionからきている。

## Recall

要約はfactual informationを含むべきのみならず(precision)、ソーステキストの重要な情報を含むべきである(recall)。Answers Unite! Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP'19
をquery weighter Wを導入することで拡張し、recallを下記で定義する：

ここで、Q_G(D)は、ソーステキストDにおけるすべてのQA pairの集合、W(q, D)はDに対するqの重みである。

## Answerability and F1

Factoid QAモデルは一般的に、predicted answerとground truthのoverlapによって（F1）評価されている。しかし"ACL"と"Association for Computational Linguistics"のように、同じ回答でも異なる方法で表現される可能性がある。この例では、F1スコアは0となる（共通のtokenがないため）。

これを回避するために、Answers Unite! Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP'19
と同様に1-Q_A(ε)を利用する。

QG component, QA componentで利用するT5は、それぞれ[SQuAD-v2]( https://huggingface.co/datasets/squad_v2)と、NewsQAデータセット NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N/A, arXiv'16 によってfinetuningしたものを利用する。

#NaturalLanguageGeneration #Metrics #DialogueGeneration #Reference-free #QA-based #Factuality Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

（knowledge-grounded; 知識に基づいた）対話に対するFactual ConsistencyをReference-freeで評価できるQGQA手法。機械翻訳やAbstractive Summarizationの分野で研究が進んできたが、対話では

- 対話履歴、個人の意見、ユーザに対する質問、そして雑談

といった外部知識に対するconsistencyが適切ではない要素が多く存在し、よりチャレンジングなタスクとなっている。

また、そもそも対話タスクはopen-endedなタスクなため、Reference-basedな手法は現実的ではなく、Reference-freeな手法が必要と主張。

手法の概要としては以下。ユーザの発話からQuestion Generation (QG)を実施し、Question-Answer Candidate Pairを作成する。そして、生成したQuestionをベースとなる知識から回答させ（QA）、その回答結果とAnswer Candidateを比較することでFactual Consistencyを測定する。

#DocumentSummarization #Metrics #LM-based #Factuality Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP''21 GPT Summary- 本研究では、自然言語生成（NLG）タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 Comment

CTC

#NaturalLanguageGeneration #Metrics #Reference-free #QA-based Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP'21 GPT Summary- 本研究では、画像キャプションの評価において、Question Generation（QG）とQuestion Answering（QA）システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 Comment

Image Captioningを評価するためのQGQAを提案している。candidateから生成した質問を元画像, およびReferenceを用いて回答させ、candidateに基づいた回答と回答の結果を比較することで評価を実施する。

#DocumentSummarization #Metrics #Reference-free #LM-based #Selected Papers/Blogs Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubig氏）, NeurIPS'21 GPT Summary- 本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 Comment

BARTScore

#DocumentSummarization #Metrics #Reference-based Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL'21 GPT Summary- 要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答（QA）を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #DocumentSummarization #Metrics #Reference-free Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP'21 GPT Summary- 私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Pocket #Dataset #LanguageModel #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#Pocket #Dataset #TACL #Grammar Issue Date: 2025-09-07 [Paper Note] BLiMP: The Benchmark of Linguistic Minimal Pairs for English, Alex Warstadt+, TACL'20 GPT Summary- 言語的最小対のベンチマーク（BLiMP）は、言語モデルの文法知識を評価するためのチャレンジセットで、67のサブデータセットから成り、各サブデータセットには特定の文法対比を示す1000の最小対が含まれています。データは専門家によって自動生成され、人間の合意は96.4%です。n-gram、LSTM、Transformerモデルを評価した結果、最先端のモデルは形態論的対比を識別できるが、意味的制約や微妙な文法現象には苦戦していることが示されました。 Comment

先行研究と比較して、より広範なlinguistic phenomenaを扱い、かつ大量のサンプルを集めた英語のacceptable/unacceptableなsentenceのペアデータ。ペアデータは特定のlinguistic phenomenaをacceptable/unacceptableに対比するための最小の違いに基づいており専門家が作成したテンプレートに基づいて自動生成され、クラウドソーシングによって人手でvalidationされている。言語モデルが英語のlinguistic phenomenaについて、どの程度理解しているかのベンチマークに利用可能。

#NaturalLanguageGeneration #Pocket #Dataset #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

ベンチマークの概要。複数のconceptが与えられた時に、それらconceptを利用した常識的なテキストを生成するベンチマーク。concept間の関係性を常識的な知識から推論し、Unseenなconceptの組み合わせでも意味を構成可能な汎化性能が求められる。

PJ page: https://inklab.usc.edu/CommonGen/

#Metrics #Pocket #AutomaticSpeechRecognition(ASR) #AACL #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20 GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22

#MachineTranslation #Metrics #Pocket #EMNLP #Selected Papers/Blogs Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 GPT Summary- COMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 Comment

ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう

#MachineTranslation #Analysis #NaturalLanguageGeneration #Metrics #Pocket Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #Metrics #Pocket #Reference-free #QA-based Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL'20 GPT Summary- 要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 Comment

QAGS

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #Metrics #QA-based Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL'20 GPT Summary- ニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 Comment

FEQA

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #Metrics #Reference-based Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING'20 GPT Summary- 要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 Comment

Hybrid Lexical and MOdel-based evaluation of Summaries (HOLMS)

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#DocumentSummarization #Metrics #LM-based #Factuality Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP'20 GPT Summary- 本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 Comment

FactCC

近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した

#DocumentSummarization #Metrics #Reference-free #LM-based Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP'20 GPT Summary- パラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 Comment

PRISM

#DocumentSummarization #Reference-free Issue Date: 2023-08-13 Fill in the BLANC: Human-free quality estimation of document summaries, Vasilyev+, Eval4NLP'20 GPT Summary- BLANCは、要約の品質を自動的に推定するための新しいアプローチです。BLANCは、事前学習済みの言語モデルを使用してドキュメントの要約にアクセスし、要約の機能的なパフォーマンスを測定します。BLANCスコアは、ROUGEと同様に人間の評価と良好な相関関係を持ち、人間によって書かれた参照要約が不要なため、完全に人間不在の要約品質推定が可能です。 #DocumentSummarization #Reference-free #Training-Free Issue Date: 2023-08-13 SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL'20 GPT Summary- この研究では、教師なしの複数文書要約評価メトリックスについて調査しています。提案手法SUPERTは、擬似的な参照要約として選択された重要な文を使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて要約の品質を評価します。SUPERTは従来の教師なし評価メトリックスよりも人間の評価との相関が高く、18〜39％の向上が見られます。また、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、有利なパフォーマンスを実現しています。ソースコードはGitHubで入手可能です。 Comment

pseudo-reference summaryを作成し、referenceに対してSBERTを適用しsystem-reference間の類似度を測ることで、unsupervisedに複数文書要約を評価する手法。

まずTACのデータに対して、既存研究（single document summarizationの評価用に提案された手法）を適用し、Human Ratingsとの相関が低いことを確認している。この時、Referenceを用いる手法（ROUGE、MoverScore）の相関をUpper Boundとし、Upper Boundに及ばないことを確認している。また、既存研究よりもシンプルなJS Divergence等を用いるlexical basedな手法の相関が高かったことも確認している。
続いて、unsupervisedな手法として、contextualなembeddingを利用し（BERT, SBERT等）source, system summary間の類似度を測る手法で相関を測ったところ、こちらでもUpper Boundに及ばないこと、シンプルな手法に及ばないことを確認。これら手法にWMDを応用するすることで相関が向上することを確認した。
これらのことより、Referenceがある場合、無い場合の両者においてWMDを用いる手法が有効であることが確認できたが、Referenceの有無によって相関に大きな差が生まれていることが確認できた。このことから、何らかの形でReferenceが必要であり、pseudo referenceを生成し利用することを着想した、というストーリーになっている。

pseudo referenceを生成する方法として、top Nのリード文を抽出する手法や、LexRankのようなGraphBasedな手法を利用してTACデータにおいてどのような手法が良いかを検証している。この結果、TAC8,9の場合はTop 10,15のsentenceをpseudo referenceとした場合が最も良かった。

細かいところまで読みきれていないが、自身が要約したい文書群においてどの方法でpseudo referenceを生成するかは、Referenceがないと判断できないと考えられるため、その点は課題だと考えられる。

#DocumentSummarization #Metrics #Reference-based #TrainedMetrics Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL'20 GPT Summary- BLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#Survey #NaturalLanguageGeneration #Pocket Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。 #Dataset #QuestionAnswering #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。 #DocumentSummarization #Pocket Issue Date: 2023-08-16 Neural Text Summarization: A Critical Evaluation, Krysciski+ （w_ Richard Socher）, EMNLP-IJCNLP'19 GPT Summary- テキスト要約の研究は進展が停滞しており、データセット、評価指標、モデルの3つの要素に問題があることが指摘されている。自動収集されたデータセットは制約が不十分であり、ノイズを含んでいる可能性がある。評価プロトコルは人間の判断と相関が弱く、重要な特性を考慮していない。モデルはデータセットのバイアスに過適合し、出力の多様性が限られている。 #DocumentSummarization #Metrics #QA-based Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL'19 GPT Summary- 最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 Comment

APES

#DocumentSummarization #Metrics Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL'19 GPT Summary- 自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment

要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘

#DocumentSummarization #MachineTranslation #TrainedMetrics Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv'19 GPT Summary- 私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #DocumentSummarization #Reference-based Issue Date: 2023-08-13 MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 GPT Summary- 本研究では、テキスト生成システムの評価尺度について調査し、システムの出力と参照テキストの意味に基づいて比較する尺度を提案します。この尺度は、要約、機械翻訳、画像キャプション、データからテキストへの生成などのタスクで有効であり、文脈化表現と距離尺度を組み合わせたものが最も優れています。また、提案した尺度は強力な汎化能力を持っており、ウェブサービスとして提供されています。 Comment

Word Mover Distance (WMD)の解説: https://yubessy.hatenablog.com/entry/2017/01/10/122737

#DocumentSummarization #Reference-free #QA-based Issue Date: 2023-08-13 Answers Unite Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP'19 GPT Summary- 最近、再強化学習（RL）を使用した抽象的要約手法が提案されており、従来の尤度最大化を克服するために使用されています。この手法は、複雑で微分不可能なメトリクスを考慮することで、生成された要約の品質と関連性を総合的に評価することができます。ROUGEという従来の要約メトリクスにはいくつかの問題があり、代替的な評価尺度を探求する必要があります。報告された人間評価の分析によると、質問応答に基づく提案されたメトリクスはROUGEよりも有利であり、参照要約を必要としないという特徴も持っています。これらのメトリクスを使用してRLベースのモデルをトレーニングすることは、現在の手法に比べて改善をもたらします。 Comment

SummaQA

#MachineLearning #Pocket #Dataset #ReinforcementLearning #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

#DocumentSummarization #Metrics #Pocket #QA-based Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI'18 GPT Summary- 自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 Comment

QGQAを提案した研究

#NaturalLanguageGeneration #Metrics Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP'17 GPT Summary- NLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment

既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

__translate: Coherence is established by semantic connections between sentences of a text which can be modeled by lexical relations. In this paper, we introduce the lexical coherence graph (LCG), a new graph-based model to represent lexical relations among sentences. The frequency of subgraphs (coherence patterns) of this graph captures the connectivity style of sentence nodes in this graph. The coherence of a text is encoded by a vector of these frequencies. We evaluate the LCG model on the readability ranking task. The results of the experiments show that the LCG model obtains higher accuracy than state-of-the-art coherence models. Using larger subgraphs yields higher accuracy, because they capture more structural information. However, larger subgraphs can be sparse. We adapt Kneser-Ney smoothing to smooth subgraphs’ frequencies. Smoothing improves performance.

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#MachineTranslation #Pocket Issue Date: 2023-08-13 Document-Level Machine Translation Evaluation with Gist Consistency and Text Cohesion, Gong+, DiscoMT'15 #DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #DocumentSummarization Issue Date: 2023-08-23 Automatically Assessing Machine Summary Content Without a Gold Standard, Louis+（w_ Nenkova）, ACL'13 GPT Summary- 本研究では、要約の評価において新しい技術を提案しています。これにより、人間の要約が利用できない場合や、単一のモデルしか利用できない場合でも正確な評価が可能となります。具体的には、モデルに依存しない評価技術や、システム要約の類似性を定量化する尺度などを提案しています。これにより、要約の評価を人間の評価と正確に再現することができます。また、擬似モデルを導入することで、利用可能なモデルのみを使用する場合よりも人間の判断との相関が高くなることも示しています。さらに、システム要約のランキング方法についても探求しており、驚くほど正確なランキングが可能となります。 Comment

メタ評価の具体的な手順について知りたければこの研究を読むべし

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #DocumentSummarization #Pocket #CrossLingual Issue Date: 2023-08-13 Evaluating the Efficacy of Summarization Evaluation across Languages, Koto+ （w_ Tim先生）, Findings of ACL'12 GPT Summary- この研究では、異なる言語の要約コーパスを使用して、マルチリンガルBERTを用いたBERTScoreが他の要約評価メトリックスよりも優れたパフォーマンスを示すことが示されました。これは、英語以外の言語においても有効であることを示しています。 #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#DocumentSummarization #QA-based Issue Date: 2023-08-20 Discourse constraints for document compression, Clarke+ （w_ Lapata）, Computational Linguistics'10 Comment

QAベースドなアプローチを人手評価に導入した初めての研究

#DocumentSummarization #Metrics #Reference-free Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing'08 GPT Summary- この論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #DocumentSummarization #Metrics #Reference-based #TrainedMetrics Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management'07 GPT Summary- 要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル（VRM）を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 Comment

VRM

#Article #Dataset #Education #AIAgents #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

#Article #LanguageModel #LongSequence Issue Date: 2025-11-24 Context Arena, DillonUzar, 2025.04 Comment

元ポスト:

Loading…

関連:

Loading…

#Article #Dataset #LanguageModel #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #Dataset #LanguageModel #AIAgents #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Tutorial #LanguageModel #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Reasoning #LongSequence Issue Date: 2025-10-17 Evaluating Long Context （Reasoning） Ability, wh., 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #OpenWeight Issue Date: 2025-10-12 K2 Vendor Verifier, MoonshotAI, 2025.09 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

#Article #Dataset #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #ComputerVision #Dataset #LanguageModel #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #Dataset #LanguageModel #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #Dataset #LanguageModel #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #Dataset #LanguageModel #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #Dataset #LanguageModel #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #Dataset #LanguageModel #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #ComputerVision #Pocket #Dataset #LanguageModel #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #Dataset #LanguageModel #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Reasoning Issue Date: 2025-08-31 Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08 Comment

元ポスト:

Loading…

#Article #LanguageModel #Coding #Reasoning Issue Date: 2025-08-21 Aider LLM Leaderboards, 2024.12 Comment

データセット: https://github.com/Aider-AI/polyglot-benchmark

#Article #LanguageModel #OpenWeight #ProprietaryLLM #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08 Comment

元ポスト:

Loading…

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

#Article #Pocket #LanguageModel Issue Date: 2025-08-14 Concept Poisoning: Probing LLMs without probes, Betley+, 2025.08 Comment

元ポスト:

Loading…

#Article #Tools #LanguageModel #Blog Issue Date: 2025-08-08 Agent Maze, LlamaIndex, 2025.08 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #Blog #Game Issue Date: 2025-08-06 Introducing Kaggle Game Arena, Meg Risdal, 2025.08 Comment

元ポスト:

Loading…

#Article #Dataset #LanguageModel Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #LanguageModel #Slide #Japanese #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment

#Article #Tutorial #Pretraining #Dataset #LanguageModel #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #Dataset #LanguageModel #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #Dataset #LanguageModel #AIAgents #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #ComputerVision #Dataset #LanguageModel Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #Dataset #LanguageModel #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Survey #LanguageModel #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Survey #Dataset #LanguageModel #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #LanguageModel #Coding Issue Date: 2024-11-13 Copilot Arena, CMU and UC Berkeley, 2024.11 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

#Article #Dataset #LanguageModel #AIAgents Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #Pocket #LanguageModel #Blog #LLM-as-a-Judge Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

#Article #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tools #LanguageModel #Library #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #LanguageModel #Blog Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） Comment

JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボードなどもある

#Article #LanguageModel Issue Date: 2023-10-02 Nejumi LLMリーダーボード Comment

JGLUEを使ったLLMの日本語タスクベンチマーク

v4が公開:
https://wandb.ai/llm-leaderboard/nejumi-leaderboard4/reports/Nejumi-LLM-4--VmlldzoxMzc1OTk1MA

元ポスト:

Loading…

#Article #LanguageModel Issue Date: 2023-09-30 LLM-as-a-judge #Article #DocumentSummarization #Metrics #Reference-based Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。 #Article #LanguageModel #Explanation Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations GPT Summary- 本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article #Tutorial #Dataset #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

Dataset (301)

#ComputerVision #Pocket #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#ComputerVision #Pocket #AIAgents #Evaluation #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#ComputerVision #Pocket #Evaluation #VisionLanguageModel
Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #LanguageModel #AIAgents #Evaluation #One-Line Notes Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#ComputerVision #Pocket #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #LanguageModel #Evaluation #read-later Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pretraining #Pocket #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2025-11-21 [Paper Note] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser, Ren Ma+, arXiv'25, 2025.11 GPT Summary- ウェブデータの品質向上のため、MinerU-HTMLという新しい抽出パイプラインを提案。これは、言語モデルを用いてコンテンツ抽出をシーケンスラベリング問題として再定義し、意味理解を活用した二段階のフォーマットパイプラインを採用。実験では、MinerU-HTMLが81.8%のROUGE-N F1を達成し、従来の手法よりも構造化要素の保持率が優れていることを示した。AICCという多言語コーパスを構築し、抽出品質がモデルの性能に大きく影響することを確認。MainWebBench、MinerU-HTML、AICCを公開し、HTML抽出の重要性を強調。 Comment

元ポスト:

Loading…

pj page: https://opendatalab.com/ai-ready/AICC

#Pocket #LanguageModel #Evaluation #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Pocket #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #UserBased #Evaluation #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#MachineLearning #Pocket #TabularData #Evaluation #Selected Papers/Blogs #Live #One-Line Notes Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#GraphBased #Pocket #LanguageModel #Evaluation Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #Search #LanguageModel #Evaluation #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT) #EMNLP #DPO #Cultural Issue Date: 2025-11-06 [Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment

元ポスト:

Loading…

効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。

#ComputerVision #Pocket #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #Evaluation #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 [Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

著者ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Evaluation #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #UserBased #AIAgents #Evaluation #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-30 [Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, arXiv'25, 2025.10 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

#Pretraining #LanguageModel #Selected Papers/Blogs #One-Line Notes #German Issue Date: 2025-10-28 [Paper Note] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models, Lukas Gienapp+, arXiv'25, 2025.10 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級（154B)のドイツ語のLLM（事前）学習用データセットらしい

ODC-By Licence

#Pocket #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #LanguageModel #AIAgents #Evaluation #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #LanguageModel #Evaluation #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Multi #ComputerVision #Pocket #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel #2D (Image) Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #Evaluation #VisionLanguageModel #UMM #Pixel-based Issue Date: 2025-10-21 [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01 GPT Summary- 「Perceive Everything as Pixels（PEAP）」の概念を提案し、自然言語や図式的な入力を単一のピクセル空間に統合するベンチマーク「PixelWorld」を公開。PEAPは意味理解タスクで競争力のある精度を示すが、推論が重要なタスクではパフォーマンスが低下。Chain-of-Thoughtプロンプティングがこのギャップを部分的に緩和し、視覚とテキストの統合により前処理の複雑さが軽減されることが確認された。PixelWorldは統一された視覚言語モデルの評価に役立つ。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#Pocket #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Reasoning #Safety Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#Embeddings #Analysis #Pocket #LanguageModel #RepresentationLearning #SyntheticData #ACL #Findings Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#Pocket #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #LanguageModel #Evaluation #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #LanguageModel #Evaluation #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#Pocket #LanguageModel #Alignment #Evaluation #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Analysis #Pocket #LanguageModel #AIAgents #Reasoning #Entropy Issue Date: 2025-10-14 [Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10 GPT Summary- エージェント的強化学習（agentic RL）を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #Supervised-FineTuning (SFT) #Evaluation #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #UserBased #Alignment #Evaluation #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #LanguageModel #ReinforcementLearning #NeurIPS #mid-training #PostTraining #GenerativeVerifier Issue Date: 2025-10-12 [Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05 GPT Summary- 強化学習を用いた新しいトレーニングパラダイム「General-Reasoner」を提案し、LLMの推論能力を向上させる。大規模な高品質データセットを構築し、生成モデルベースの回答検証器を開発。物理学や化学などの多様な分野で評価し、既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/General-Reasoner/

#Pocket #LanguageModel #ReinforcementLearning #mid-training #PostTraining Issue Date: 2025-10-12 [Paper Note] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels, Zhepeng Cen+, arXiv'25, 2025.10 GPT Summary- Webscale-RLパイプラインを導入し、大規模な事前学習文書から数百万の多様な質問-回答ペアを生成。これにより、120万の例を含むWebscale-RLデータセットを構築。実験結果、RLトレーニングは継続的な事前トレーニングよりも効率的で、パフォーマンスを大幅に向上させることを示した。研究は、RLを事前学習レベルにスケールアップする道筋を示し、より高性能な言語モデルの実現を可能にする。 Comment

元ポスト:

Loading…

Dataset: https://huggingface.co/datasets/Salesforce/Webscale-RL

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Multi #Pocket #LanguageModel #Evaluation #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #LanguageModel #Coding #mid-training #COLM #Editing #One-Line Notes Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

#Multi #Pocket #LanguageModel #ReinforcementLearning #SyntheticData #COLM #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, Anna Goldie+, COLM'25, 2025.04 GPT Summary- 段階的強化学習（SWiRL）を提案し、複数のテキスト生成や推論ステップを通じて大規模言語モデルの性能を向上させる手法を紹介。SWiRLは、各アクションに対するサブ軌道を生成し、合成データフィルタリングと強化学習最適化を適用。実験では、GSM8KやHotPotQAなどのタスクでベースラインを上回る精度を達成し、タスク間での一般化も示された。 Comment

openreview: https://openreview.net/forum?id=oN9STRYQVa

元ポスト:

Loading…

#Pocket #UserModeling #LanguageModel #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Evaluation #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

#Multi #Pocket #LanguageModel #AIAgents #SyntheticData #MCP Issue Date: 2025-10-04 [Paper Note] TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments, Zhangchen Xu+, arXiv'25, 2025.10 GPT Summary- Toucanは、約500の実世界のモデルコンテキストプロトコルから合成された150万の軌跡を含む、最大の公開ツールエージェントデータセットを提供。多様で現実的なタスクを生成し、マルチツールおよびマルチターンのインタラクションに対応。5つのモデルを用いてツール使用クエリを生成し、厳密な検証を通じて高品質な出力を保証。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークで優れた性能を示し、MCP-Universe Benchでの進展を実現。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/Agent-Ark/Toucan-1.5M

#ComputerVision #Pocket #LanguageModel #Evaluation #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #ReinforcementLearning #Evaluation #Conversation #MultiLingual #LLM-as-a-Judge #RewardModel #One-Line Notes Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

#Pocket #UserModeling #LanguageModel #UserBased #Personalization #Evaluation #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#Pocket #QuestionAnswering #AIAgents #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#Pocket #LanguageModel #Evaluation #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #LanguageModel #Evaluation #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#MachineTranslation #Pretraining #Pocket #LanguageModel Issue Date: 2025-09-24 [Paper Note] Multilingual Language Model Pretraining using Machine-translated Data, Jiayi Wang+, EMNLP'25, 2025.02 GPT Summary- 高リソース言語の英語から翻訳した高品質なテキストが、多言語LLMsの事前学習に寄与することを発見。英語のデータセットFineWeb-Eduを9言語に翻訳し、17兆トークンのTransWebEduを作成。1.3BパラメータのTransWebLLMを事前学習し、非英語の推論タスクで最先端モデルと同等以上の性能を達成。特に、ドメイン特化データを追加することで、いくつかの言語で新たな最先端を達成。コーパス、モデル、トレーニングパイプラインはオープンソースで公開。 Comment

元ポスト:

Loading…

#Pocket #Evaluation #EMNLP #RewardModel Issue Date: 2025-09-23 [Paper Note] reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs, Zhaofeng Wu+, EMNLP'25, 2025.03 GPT Summary- 報酬モデルはNLPにおいて重要だが、過学習の影響で真の能力が混乱することがある。本研究では、報酬モデルの堅牢性を評価するために**reWordBench**を構築し、入力変換による性能低下を調査。最先端の報酬モデルは小さな変換でも著しい性能低下を示し、脆弱性が明らかになった。堅牢性向上のために同義語に対して類似スコアを割り当てる訓練を提案し、これにより性能低下を約半分に減少させた。さらに、アライメントにおいても高品質な出力を生成し、標準的な報酬モデルに対して最大59%のケースで優れた結果を示した。 Comment

元ポスト:

Loading…

Figure1がRMの過学習の様子を図示しており、非常に端的で分かりやすい。

#Pocket #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #Evaluation #Reasoning #RewardModel Issue Date: 2025-09-22 [Paper Note] Libra: Assessing and Improving Reward Model by Learning to Think, Meng Zhou+, arXiv'25, 2025.07 GPT Summary- 強化学習（RL）の報酬モデルは、困難な推論シナリオでの性能が低下しており、注釈付き参照回答や制約された出力形式に依存している。これに対処するため、推論指向のベンチマーク「Libra Bench」を提案し、生成的報酬モデルを改善する新しいアプローチを導入。Libra-RMシリーズを開発し、さまざまなベンチマークで最先端の結果を達成。実験結果は、Libra Benchと下流アプリケーションとの相関関係を示し、ラベルのないデータを用いた推論モデルの改善の可能性を示唆している。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Pocket #MultiModal #NeurIPS #Encoder #SpatialUnderstanding Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder（PE）は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #Search #LanguageModel #Evaluation #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#LanguageModel #Evaluation #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Pocket #LanguageModel #AIAgents #Evaluation #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Pocket #LanguageModel #IRT #Evaluation #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #AIAgents #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Multi #Pocket #LanguageModel #ReinforcementLearning #PostTraining #GRPO #DeepResearch Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Evaluation #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Pocket #LanguageModel #Evaluation #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#LanguageModel #AIAgents #Evaluation #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#Multi #Pocket #DialogueGeneration #Conversation Issue Date: 2025-09-05 Multi-Relational Multi-Party Chat Corpus: 話者間の関係性に着目したマルチパーティ雑談対話コーパス, 津田+, NLP'25 Comment

コーパス: https://github.com/nu-dialogue/multi-relational-multi-party-chat-corpus

元ポスト:

Loading…

3人以上のマルチパーティに対応したダイアログコーパスで、話者間の関係性として「初対面」と「家族」に着目し、初対面対話や家族入り対話の2種類の対話を収集したコーパス。

#EfficiencyImprovement #Pocket #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #AIAgents #Evaluation #MCP Issue Date: 2025-08-30 [Paper Note] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers, Zhenting Wang+, arXiv'25 GPT Summary- MCP-Benchは、ツールの使用や調整、計画/推論を必要とする多段階タスクを評価するためのベンチマークであり、250のツールを持つ28のMCPサーバーにLLMsを接続します。従来のベンチマークとは異なり、相互に連携するツールセットを提供し、複雑なタスクを構築可能にします。タスクは、ツールの取得能力や多段階実行経路の計画能力をテストし、既存のベンチマークでは評価されていない能力を明らかにします。20のLLMに対する実験を通じて、MCP-Benchの課題が示されました。 Comment

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

#Pocket #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pretraining #Pocket #LanguageModel #Reasoning #Mathematics #read-later #Selected Papers/Blogs Issue Date: 2025-08-27 [Paper Note] Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset, Rabeeh Karimi Mahabadi+, arXiv'25 GPT Summary- 新しい数学コーパス「Nemotron-CC-Math」を提案し、LLMの推論能力を向上させるために、科学テキスト抽出のためのパイプラインを使用。従来のデータセットよりも高品質で、方程式やコードの構造を保持しつつ、表記を標準化。Nemotron-CC-Math-4+は、以前のデータセットを大幅に上回り、事前学習によりMATHやMBPP+での性能向上を実現。オープンソースとしてコードとデータセットを公開。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Evaluation #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Multi #ComputerVision #Pocket #LanguageModel #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 [Paper Note] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools, Shaofeng Yin+, arXiv'25 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #Evaluation #MCP Issue Date: 2025-08-22 [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25 GPT Summary- モデルコンテキストプロトコル（MCP）は、LLMを外部データソースに接続する新しい標準であり、MCP-Universeという包括的なベンチマークを導入。これにより、実際のアプリケーションにおけるLLMの評価が可能となる。6つのコアドメインをカバーし、厳密な評価手法を実装。主要なLLMは性能制限を示し、長文コンテキストや未知のツールの課題に直面。UIサポート付きの評価フレームワークをオープンソース化し、MCPエコシステムの革新を促進。 Comment

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #Pocket #AIAgents #Evaluation #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #QuestionAnswering #SyntheticData #MultiModal #Reasoning #EMNLP #PostTraining #VisionLanguageModel Issue Date: 2025-08-21 [Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #SmallModel #OpenWeight #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model, NVIDIA+, arXiv'25, 2025.08 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…

#Pocket #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #LanguageModel #Evaluation #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #LanguageModel #Evaluation #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Evaluation #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

#ComputerVision #Pocket #EMNLP #PostTraining #Selected Papers/Blogs #VisionLanguageModel #Cultural Issue Date: 2025-08-13 [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-08-12 [Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

#Pocket #LanguageModel #Evaluation #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#ComputerVision #Pocket #MultiLingual #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-07-30 [Paper Note] MetaCLIP 2: A Worldwide Scaling Recipe, Yung-Sung Chuang+, NeurIPS'25 Spotlight GPT Summary- MetaCLIP 2を提案し、CLIPをゼロから訓練するための新しいアプローチを示す。英語と非英語データの相互利益を得るための最小限の変更を加え、ゼロショットのImageNet分類で英語専用モデルを上回る性能を達成。多言語ベンチマークでも新たな最先端を記録。 Comment

元ポスト:

Loading…

マルチリンガルなCLIP

openreview: https://openreview.net/forum?id=aYRNINhNGV&referrer=%5Bthe%20profile%20of%20Saining%20Xie%5D(%2Fprofile%3Fid%3D~Saining_Xie2)

HF: https://huggingface.co/facebook/metaclip-2-mt5-worldwide-b32

#Survey #Embeddings #Pocket #LanguageModel #RepresentationLearning #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#EfficiencyImprovement #Pocket #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-07-18 [Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Evaluation #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #SyntheticData #Coding #Mathematics #mid-training #COLM Issue Date: 2025-07-10 [Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics Issue Date: 2025-07-09 [Paper Note] CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization, Zhongyuan Peng+, arXiv'25 GPT Summary- 自然言語の数学的表現を実行可能なコードに翻訳する課題に対し、批評者の役割を能動的な学習コンポーネントに変えるCriticLeanという新しい強化学習フレームワークを提案。CriticLeanGPTを用いて形式化の意味的忠実性を評価し、CriticLeanBenchでその能力を測定。285K以上の問題を含むFineLeanCorpusデータセットを構築し、批評段階の最適化が信頼性のある形式化に重要であることを示す。 Comment

元ポスト:

Loading…

Lean 4 形式に

#ComputerVision #Embeddings #Pocket #Evaluation #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#Pocket #LanguageModel #Alignment #Supervised-FineTuning (SFT) #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #Evaluation #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 [Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25 GPT Summary- マルチモーダルインコンテキスト学習（ICL）は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Evaluation #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #LanguageModel #MultiLingual #COLM #Selected Papers/Blogs Issue Date: 2025-06-28 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment

元ポスト:

Loading…

v1
- The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24

abstを見る限りFinewebを多言語に拡張した模様

openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion

#Pocket #LanguageModel #Alignment #Safety #Japanese #PostTraining Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/

#Pretraining #Pocket #LanguageModel #SyntheticData #COLM Issue Date: 2025-06-25 [Paper Note] Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, COLM'25 GPT Summary- スケーリング法則に基づき、低品質なウェブデータを再利用する手法「REWIRE」を提案。これにより、事前学習データの合成表現を増やし、フィルタリングされたデータのみでのトレーニングと比較して、22のタスクで性能を向上。生データと合成データの混合が効果的であることを示し、ウェブテキストのリサイクルが事前学習データのスケーリングに有効であることを示唆。 Comment

元ポスト:
-

Loading…

学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

data: https://huggingface.co/datasets/facebook/recycling_the_web

#Pocket #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain Issue Date: 2025-06-22 [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

#Analysis #Pocket #LanguageModel #FactualKnowledge Issue Date: 2025-06-17 [Paper Note] What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv'25 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Evaluation #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#Pocket #AIAgents #Evaluation #Coding #LongSequence #NeurIPS Issue Date: 2025-06-17 [Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

関連ポスト:

Loading…

NeurIPSにaccept:

Loading…

#InformationRetrieval #Pocket #Search #LanguageModel Issue Date: 2025-06-08 [Paper Note] Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv'25 GPT Summary- 検索強化型LLMsに関する「Search Arena」という大規模な人間の好みデータセットを紹介。24,000以上のマルチターンユーザーインタラクションを含み、ユーザーの好みが引用数や引用元に影響されることを明らかにした。特に、コミュニティ主導の情報源が好まれる傾向があり、静的な情報源は必ずしも信頼されない。検索強化型LLMsの性能を評価した結果、非検索設定でのパフォーマンス向上が確認されたが、検索設定ではパラメトリック知識に依存すると品質が低下することが分かった。このデータセットはオープンソースとして提供されている。 Comment

元ポスト:

Loading…

#LanguageModel #SyntheticData #Reasoning Issue Date: 2025-06-06 [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv'25 GPT Summary- SynLogicは、35の論理的推論タスクを網羅したデータ合成フレームワークで、強化学習（RL）による大規模言語モデル（LLMs）の推論能力向上を目指す。調整可能な難易度で生成されたデータは検証可能で、RLに適している。実験では、SynLogicが最先端の論理的推論性能を達成し、数学やコーディングタスクとの混合によりトレーニング効率が向上することが示された。SynLogicはLLMsの推論能力向上に貴重なリソースとなる。 Comment

元ポスト:

Loading…

Logical Reasoningが重要なタスクを扱う際はこのデータを活用することを検討してみても良いかもしれない

#Pocket #LanguageModel #Evaluation #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#Analysis #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #LanguageModel #ACL #Selected Papers/Blogs Issue Date: 2025-05-10 Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 GPT Summary- FineWeb-EduとDCLMは、モデルベースのフィルタリングによりデータの90%を削除し、トレーニングに適さなくなった。著者は、アンサンブル分類器や合成データの言い換えを用いて、精度とデータ量のトレードオフを改善する手法を提案。1Tトークンで8Bパラメータモデルをトレーニングし、DCLMに対してMMLUを5.6ポイント向上させた。新しい6.3Tトークンデータセットは、DCLMと同等の性能を持ちながら、4倍のユニークなトークンを含み、長トークンホライズンでのトレーニングを可能にする。15Tトークンのためにトレーニングされた8Bモデルは、Llama 3.1の8Bモデルを上回る性能を示した。データセットは公開されている。 #Pocket #LanguageModel #Coding #Mathematics #read-later Issue Date: 2025-05-08 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #LanguageModel #AIAgents #Evaluation #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#Pocket #LanguageModel #AIAgents #ICML #SoftwareEngineering Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment

#Pocket #LanguageModel #LongSequence #ContextEngineering Issue Date: 2025-03-20 Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation, Junhao Zhang+, arXiv'25 GPT Summary- 長い入力と出力の生成に特化したLongInOutBenchを導入し、既存手法の「中間での喪失」問題に対処。Retrieval-Augmented Long-Text Writer（RAL-Writer）を開発し、重要なコンテンツを再表現することで性能を向上。提案手法の有効性をベースラインと比較して示す。 Comment

Lost in the Middleに関する研究。

#LanguageModel #QuestionAnswering Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv'25 GPT Summary- SuperGPQAを提案し、285の専門分野におけるLLMsの知識と推論能力を評価する新しいベンチマークを構築。Human-LLM協調フィルタリングを用いて、トリビアルな質問を排除。実験結果は、最先端のLLMsに改善の余地があることを示し、人工一般知能とのギャップを強調。大規模なアノテーションプロセスから得た洞察は、今後の研究に対する方法論的ガイダンスを提供。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #SyntheticData #Reasoning #Distillation Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv'25 GPT Summary- 多様で高品質な推論質問を生成するためのスケーラブルなアプローチを提案し、280万の質問からなるNaturalReasoningデータセットを構築。知識蒸留実験により、強力な教師モデルが推論能力を引き出せることを実証し、教師なし自己学習にも効果的であることを示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#ComputerVision #Pocket #Supervised-FineTuning (SFT) #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。 #InformationRetrieval #AIAgents #Evaluation #RAG(RetrievalAugmentedGeneration) #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#LanguageModel #Alignment #OpenWeight #ICLR Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, （ICLR'25）, 2024.10 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様

openreview: https://openreview.net/forum?id=MnfHxPP5gs

#Pocket #LanguageModel #Evaluation #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#ComputerVision #Pocket #Evaluation #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Pocket #LanguageModel #Evaluation #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #LanguageModel #Evaluation #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #LanguageModel #SyntheticData #Evaluation #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#ComputerVision #Pocket #QuestionAnswering #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #ComputerVision #Pocket #InstructionTuning #Evaluation #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #LanguageModel #Evaluation #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #LanguageModel #QuestionAnswering #Evaluation #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #LanguageModel #Evaluation #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #LanguageModel #Evaluation #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #ComputerVision #Pocket #Evaluation #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Pocket #LanguageModel #Evaluation #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

#ComputerVision #Analysis #Pocket #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 [Paper Note] Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic, Sachin Goyal+, CVPR'24 GPT Summary- 視覚と言語のモデル（VLMs）のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ（QQT）に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

高品質なデータにフィルタリングすることで多くの研究がモデルがより高い性能を達成できることを示しているが、高品質なデータには限りがあることと、繰り返し学習をすることですぐにその効用が低下する（Quality-Quantity tradeoff!)という特性がある。このような状況において、たとえば計算の予算がデータ6パケット分の時に、めちゃめちゃフィルタリングを頑張っg高品質なデータプールEのみを使って6 epoch学習するのが良いのか、少し品質は落ちるデータDも混ぜてE+Dを3 epoch学習するのが良いのか、ときにどちらが良いのか？という話のようである。

#ComputerVision #Pocket #Japanese #read-later #VisionLanguageModel Issue Date: 2025-07-16 [Paper Note] Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese, Yuichi Inoue+, arXiv'24 GPT Summary- 日本語に特化したVision Language Models (VLM)の評価のために、新しいベンチマーク「Japanese Heron-Bench」を提案。日本の文脈に基づく画像-質問応答ペアを用いて、日本語VLMの能力を測定。提案されたVLMの強みと限界を明らかにし、強力なクローズドモデルとの能力ギャップを示す。今後の日本語VLM研究の発展を促進するため、データセットと訓練コードを公開。 Comment

解説: https://zenn.dev/turing_motors/articles/8e913f46374ede

#ComputerVision #Pocket #Evaluation #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

#Pretraining #Pocket #LanguageModel #Coding Issue Date: 2025-07-13 [Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 GPT Summary- BigCodeプロジェクトは、責任あるCode LLMsの開発に焦点を当て、StarCoder2を発表。Software Heritageと提携し、The Stack v2を構築し、619のプログラミング言語を含む大規模なトレーニングセットを作成。StarCoder2モデルは3B、7B、15Bのパラメータを持ち、徹底的なベンチマーク評価で優れた性能を示す。特にStarCoder2-15Bは、同等の他モデルを大幅に上回り、数学やコード推論でも高い性能を発揮。モデルの重みはOpenRAILライセンスで公開され、トレーニングデータの透明性も確保。 Comment

関連:
- StarCoderBase/StarCoder, 2023

#Pocket #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Selected Papers/Blogs #PRM Issue Date: 2025-06-26 [Paper Note] Let's Verify Step by Step, Hunter Lightman+, ICLR'24 GPT Summary- 大規模言語モデルの多段階推論能力が向上する中、論理的誤りが依然として問題である。信頼性の高いモデルを訓練するためには、結果監視とプロセス監視の比較が重要である。独自の調査により、プロセス監視がMATHデータセットの問題解決において結果監視を上回ることを発見し、78%の問題を解決した。また、アクティブラーニングがプロセス監視の効果を向上させることも示した。関連研究のために、80万の人間フィードバックラベルからなるデータセットPRM800Kを公開した。 Comment

OpenReview: https://openreview.net/forum?id=v8L0pN6EOi

PRM800K: https://github.com/openai/prm800k/tree/main

#Pocket #LanguageModel #ReinforcementLearning #Evaluation Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #LanguageModel #Alignment #InstructionTuning #ICML #PostTraining Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。 #Japanese #read-later #Trustfulness Issue Date: 2025-05-10 日本語TrustfulQAの構築, 中村+, NLP'24 #Pretraining #Pocket #LanguageModel Issue Date: 2025-05-10 DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv'24 GPT Summary- DataComp for Language Models（DCLM）を紹介し、240Tトークンのコーパスと53の評価スイートを提供。DCLMでは、モデルスケール412Mから7Bパラメータのデータキュレーション戦略を実験可能。DCLM-Baselineは2.6Tトークンでトレーニングし、MMLUで64%の精度を達成し、従来のMAP-Neoより6.6ポイント改善。計算リソースも40%削減。結果はデータセット設計の重要性を示し、今後の研究の基盤を提供。 #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #NeurIPS #Selected Papers/Blogs Issue Date: 2025-05-10 The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24 GPT Summary- 本研究では、15兆トークンからなるFineWebデータセットを紹介し、LLMの性能向上に寄与することを示します。FineWebは高品質な事前学習データセットのキュレーション方法を文書化し、重複排除やフィルタリング戦略を詳細に調査しています。また、FineWebから派生した1.3兆トークンのFineWeb-Eduを用いたLLMは、MMLUやARCなどのベンチマークで優れた性能を発揮します。データセット、コードベース、モデルは公開されています。 Comment

日本語解説: https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9

openreview: https://openreview.net/forum?id=n6SCkn2QaG#discussion

#Pocket #LanguageModel #EMNLP #KnowledgeEditing #read-later Issue Date: 2025-05-07 Editing Large Language Models: Problems, Methods, and Opportunities, Yunzhi Yao+, EMNLP'24 GPT Summary- LLMの編集技術の進展を探求し、特定のドメインでの効率的な動作変更と他の入力への影響を最小限に抑える方法を論じる。モデル編集のタスク定義や課題を包括的にまとめ、先進的な手法の実証分析を行う。また、新しいベンチマークデータセットを構築し、評価の向上と持続的な問題の特定を目指す。最終的に、編集技術の効果に関する洞察を提供し、適切な方法選択を支援する。コードとデータセットは公開されている。 #Tools #Pocket #LanguageModel #API #NeurIPS Issue Date: 2025-04-08 Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS'24 GPT Summary- Gorillaは、API呼び出しの生成においてGPT-4を上回るLLaMAベースのモデルであり、文書検索システムと組み合わせることで、テスト時の文書変更に適応し、ユーザーの柔軟な更新を可能にします。幻覚の問題を軽減し、APIをより正確に使用する能力を示します。Gorillaの評価には新たに導入したデータセット「APIBench」を使用し、信頼性と適用性の向上を実現しています。 Comment

APIBench: https://huggingface.co/datasets/gorilla-llm/APIBench

OpenReview: https://openreview.net/forum?id=tBRNC6YemY

#Pocket #LanguageModel #AIAgents #ICLR Issue Date: 2025-04-02 WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24 GPT Summary- 生成AIの進展により、自律エージェントが自然言語コマンドで日常タスクを管理する可能性が生まれたが、現行のエージェントは簡略化された環境でのテストに限られている。本研究では、ウェブ上でタスクを実行するエージェントのための現実的な環境を構築し、eコマースやソーシャルフォーラムなどのドメインを含む完全なウェブサイトを提供する。この環境を基に、タスクの正確性を評価するベンチマークを公開し、実験を通じてGPT-4ベースのエージェントの成功率が14.41%であり、人間の78.24%には及ばないことを示した。これにより、実生活のタスクにおけるエージェントのさらなる開発の必要性が強調される。 Comment

Webにおけるさまざまなrealisticなタスクを評価するためのベンチマーク

実際のexample。スタート地点からピッツバーグのmuseumを巡る最短の経路を見つけるといった複雑なタスクが含まれる。

人間とGPT4,GPT-3.5の比較結果

#Pocket #LanguageModel #AIAgents #Evaluation #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#ComputerVision #Pocket #LanguageModel #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Pocket #AIAgents #SyntheticData #Evaluation #SyntheticDataGeneration Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

#LanguageModel #AIAgents #Evaluation Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#ComputerVision #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#NeuralNetwork #NaturalLanguageGeneration #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Factuality #Conversation Issue Date: 2024-12-05 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析, rryohei Kamei+, NLP'24, 2024.03 #Multi #Pocket #LanguageModel #Evaluation #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

#AES(AutomatedEssayScoring) #Japanese Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL'24, 2024.03 GPT Summary- 第二言語学習の文翻訳演習の自動評価タスクを提案し、評価基準に基づいて学生の回答を採点する。日本語と英語の間で3,498の学生の回答を含むデータセットを作成。ファインチューニングされたBERTモデルは約90%のF1スコアで正しい回答を分類するが、誤った回答は80%未満。少数ショット学習を用いたGPT-3.5はBERTより劣る結果を示し、提案タスクが大規模言語モデルにとっても難しいことを示す。 Comment

STEsの図解。分かりやすい。いわゆる日本人が慣れ親しんでいる和文英訳、英文和訳演習も、このタスクの一種だということなのだろう。2-shotのGPT4とFinetuningしたBERTが同等程度の性能に見えて、GPT3.5では5shotしても勝てていない模様。興味深い。

#ComputerVision #Pocket #LanguageModel Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv'24 GPT Summary- 視覚と言語のモデル（VLM）の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。

元ポスト:

Loading…

#Pocket #LanguageModel #QuestionAnswering #COLM Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 GPT Summary- 私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment

該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。
元ツイート:

Loading…

OpenReview: https://openreview.net/forum?id=Ti67584b98

#ComputerVision #Pocket #LanguageModel #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #LanguageModel #Evaluation #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #PersonalizedGeneration #ACL Issue Date: 2023-04-26 LaMP: When Large Language Models Meet Personalization, Selemi+, University of Massachusetts Amherst （w_ Google Research）, ACL'24 Comment

# 概要

Personalizationはユーザのニーズや嗜好に応えるために重要な技術で、IRやRecSysで盛んに研究されてきたが、NLPではあまり実施されてこなかった。しかし、最近のタスクで、text classificationやgeneration taskでPersonalizationの重要性が指摘されている。このような中で、LLMでpersonalizedなレスポンスを生成し、評価することはあまり研究されていない。そこで、LaMPベンチマークを生成し、LLMにおけるPersonalizationをするための開発と評価をするための第一歩として提案している。

# Personalizing LLM Outputs

LLMに対してPersonalizedなoutputをさせるためには、profileをpromptに埋め込むことが基本的なアプローチとなる。

## Problem Formulation

まず、user profile（ユーザに関するrecordの集合）をユーザとみなす。データサンプルは以下の3つで構成される：

- x: モデルのinputとなるinput sequence

- y: モデルが生成することを期待するtarget output

- u: user profile（ユーザの嗜好やrequirementsを捉えるための補助的な情報）

そして、p(y | x, u) を最大化する問題として定式化される。それぞれのユーザuに対して、モデルは{(x_u1, y_u1,)...(x_un, y_un)}を利用することができる。

## A Retrieval Augmentation Approach for Personaliozing LLMs

user profileは基本的にめちゃめちゃ多く、promptに入れ込むことは非現実的。そこで、reteival augmentation approachと呼ばれる手法を提案している。LLMのcontext windowは限られているので、profileのうちのsubsetを利用することが現実的なアプローチとなる。また、必ずしも全てのユーザプロファイルがあるタスクを実施するために有用とは限らない。このため、retrieval augmentation approachを提案している。

retrieval augmentation approachでは、現在のテストケースに対して、relevantな部分ユーザプロファイルを選択的に抽出するフレームワークである。

(x_i, y_i)に対してpersonalizationを実現するために、3つのコンポーネントを採用している：

1. query generation function: x_iに基づきuser profileからrelevantな情報を引っ張ってくるquery qを生成するコンポーネント

2. retrieval model R(q, P_u, k): query q, プロファイルP_u, を用いて、k個のrelevantなプロファイルを引っ張ってくるモデル

3. prompt construction function: xとreteival modelが引っ張ってきたエントリからpromptを作成するコンポーネント

1, 2, 3によって生成されたprompt x^barと、yによってモデルを訓練、あるいは評価する。

この研究では、Rとして Contriever Contrirver
, BM25, random selectionの3種類を用いている。

# LaMPベンチマーク

GLUEやSuper Glue、KILT、GENといったベンチマークは、"one-size-fits-all"なモデリングと評価を前提としており、ユーザのニーズに答えるための開発を許容していない。一方で、LaMPは、以下のようなPersonalizationが必要なさまざまなタスクを統合して作成されたデータセットである。

- Personalized Text Classification

- Personalized Citation Identification (binary classification)

- Task definition

- user u が topic xに関する論文を書いたときに、何の論文をciteすべきかを決めるタスク

- user uが書いた論文のタイトルが与えられたとき、2つのcandidate paperのうちどちらをreferenceとして利用すべきかを決定する2値分類

- Data Collection

- Citation Network Datasetを利用。最低でも50本以上論文を書いているauthorを抽出し、authorの論文のうちランダムに論文と論文の引用を抽出

- negative document selectionとして、ランダムに共著者がciteしている論文をサンプリング

- Profile Specification

- ユーザプロファイルは、ユーザが書いた全てのpaper

- titleとabstractのみをuser profileとして保持した

- Evaluation

- train/valid/testに分け、accuracyで評価する

- Personalized News Categorization (15 category分類)

- Task definition

- LLMが journalist uによって書かれたニュースを分類する能力を問うタスク

- u によって書かれたニュースxが与えられた時、uの過去の記事から得られるカテゴリの中から該当するカテゴリを予測するタスク

- Data Collection

- news categorization datasetを利用（Huff Postのニュース）

- 記事をfirst authorでグルーピング

- グルーピングした記事群をtrain/valid/testに分割

- それぞれの記事において、記事をinputとし、その記事のカテゴリをoutputとする。そして残りの記事をuser profileとする。

- Profile Specification

- ユーザによって書かれた記事の集合

- Evaluation

- accuracy, macro-averaged F1で評価

- Personalized Product Rating (5-star rating)

- Task definition

- ユーザuが記述したreviewに基づいて、LLMがユーザuの未知のアイテムに対するratingを予測する性能を問う

- Data Collection

- Amazon Reviews Datasetを利用

- reviewが100件未満、そしてほとんどのreviewが外れ値なユーザ1%を除外

- ランダムにsubsetをサンプリングし、train/valid/testに分けた

- input-output pairとしては、inputとしてランダムにユーザのreviewを選択し、その他のreviewをprofileとして利用する。そして、ユーザがinputのレビューで付与したratingがground truthとなる。

- Profile Specification

- ユーザのレビュ

- Evaluation

- ttrain/valid/testに分けてRMSE, MAEで評価する

- Personalized Text Generation

- Personalized News Headline Generation

- Task definition

- ユーザuが記述したニュースのタイトルを生成するタスク

- 特に、LLMが与えられたprofileに基づいてユーザのinterestsやwriting styleを捉え、適切にheadlinに反映させる能力を問う

- Data Collection

- News Categorization datasetを利用（Huff Post）

- データセットではauthorの情報が提供されている

- それぞれのfirst authorごとにニュースをグルーピングし、それぞれの記事をinput, headlineをoutputとした。そして残りの記事をprofileとした

- Profile Specification

- ユーザの過去のニュース記事とそのheadlineの集合をprofileとする

- Evaluation

- ROUGE-1, ROUGE-Lで評価

- Personalized Scholarly Title Generation

- Task Definition

- ユーザの過去のタイトルを考慮し、LLMがresearch paperのtitleを生成する能力を測る

- Data Collection

- Citation Network Datasetのデータを利用

- abstractをinput, titleをoutputとし、残りのpaperをprofileとした

- Profile Specification

- ユーザが書いたpaperの集合（abstractのみを利用）

- Personalized Email Subject Generation

- Task Definition

- LLMがユーザのwriting styleに合わせて、Emailのタイトルを書く能力を測る

- Data Collection

- Avocado Resaerch Email Collectionデータを利用

- 5単語未満のsubjectを持つメール、本文が30単語未満のメールを除外、

- 送信主のemail addressでメールをグルーピング

- input _outputペアは、email本文をinputとし、対応するsubjectをoutputとした。他のメールはprofile

- Profile Specification

- ユーザのemailの集合

- Evaluation

- ROUGE-1, ROUGE-Lで評価

- Personalized Tweet Paraphrasing

- Task Definition

- LLMがユーザのwriting styleを考慮し、ツイートのparaphrasingをする能力を問う

- Data Collection

- Sentiment140 datasetを利用

- 最低10単語を持つツイートのみを利用

- userIDでグルーピングし、10 tweets以下のユーザは除外

- ランダムに1つのtweetを選択し、ChatGPT(gpt-3.5-turbo)でparaphraseした

- paraphrase版のtweetをinput, 元ツイートをoutputとし、input-output pairを作った。

- User Profile Specification

- ユーザの過去のツイート

- Evaluation

- ROUGE-1, ROUGE-Lで評価

# 実験

## Experimental Setup

- FlanT5-baesをfinetuningした

- ユーザ単位でモデルが存在するのか否かが記載されておらず不明

## 結果

- Personalization入れた方が全てのタスクでよくなった

- Retrievalモデルとしては、randomの場合でも良くなったが、基本的にはContrirverを利用した場合が最も良かった

- => 適切なprofileを選択しpromptに含めることが重要であることが示された

- Rが抽出するサンプル kを増やすと、予測性能が増加する傾向もあったが、一部タスクでは性能の低下も招いた

- dev setを利用し、BM25/Contrieverのどちらを利用するか、kをいくつに設定するかをチューニングした結果、全ての結果が改善した

- FlanT5-XXLとgpt-3.5-turboを用いたZero-shotの設定でも実験。tweet paraphrasingタスクを除き、zero-shotでもuser profileをLLMで利用することでパフォーマンス改善。小さなモデルでもfinetuningすることで、zero-shotの大規模モデルにdownstreamタスクでより高い性能を獲得することを示している（ただし、めちゃめちゃ改善しているというわけでもなさそう）。

# LaMPによって可能なResearch Problem

## Prompting for Personalization

- Augmentationモデル以外のLLMへのユーザプロファイルの埋め込み方法

- hard promptingやsoft prompting [Paper Note] The Power of Scale for Parameter-Efficient Prompt Tuning, Brian Lester+, arXiv'21, 2021.04
の活用

## Evaluation of Personalized Text Generation

- テキスト生成で利用される性能指標はユーザの情報を評価のプロセスで考慮していない

- Personalizedなテキスト生成を評価するための適切なmetricはどんなものがあるか？

## Learning to Retrieve from User Profiles

- Learning to RankをRetrieval modelに適用する方向性

LaMPの作成に利用したテンプレート一覧

実装とleaderboard

https://lamp-benchmark.github.io/leaderboard

#Pocket #LanguageModel #Zero/Few/ManyShotPrompting #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #ComputerVision #Pocket #Evaluation #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#Survey #Pocket #Distillation Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv'23 GPT Summary- 深層学習の普及に伴い、大規模データセットの訓練が高コストで持続可能性に課題をもたらしている。データ蒸留アプローチは、元のデータセットの効果的な代替品を提供し、モデル訓練や推論に役立つ。本研究では、データ蒸留のフレームワークを提示し、既存のアプローチを分類。画像やグラフ、レコメンダーシステムなどの異なるデータモダリティにおける課題と今後の研究方向性を示す。 #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv'23 GPT Summary- GPT-4を用いて指示に従うデータを生成し、LLMのファインチューニングを行う初の試みを報告。生成された52Kの指示データは、従来のモデルよりも新しいタスクに対して優れたゼロショット性能を示した。GPT-4からのフィードバックと比較データも収集し、データとコードベースを公開。 Comment

#DocumentSummarization #NaturalLanguageGeneration #Pocket #LanguageModel #Annotation Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#Pocket #LanguageModel #QuestionAnswering #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #LanguageModel #InstructionTuning #Evaluation #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #LanguageModel #Alignment #Conversation Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment

# Overview

# RoleBench

#MachineLearning #Pocket #LanguageModel #AIAgents #Evaluation #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #LanguageModel #InstructionTuning #NumericReasoning #Mathematics Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

#Pocket #LanguageModel #StructuredData Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 Comment

#EfficiencyImprovement #MachineLearning #Pocket #QuestionAnswering #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

# 概要

context長が大きい場合でも効率的にLoRAする手法。通常のLoRAではcontext lengthが大きくなるにつれてperplexityが大きくなってしまう。一方、通常のFinetuningではperplexityは高い性能を維持するが、計算コストとVRAMの消費量が膨大になってしまう。LongLoRAでは、perplexityを通常のFinetuningと同等に抑えつつ、VRAM消費量もLoRAと同等、かつより小さな計算量でFinetuningを実現している。

# 手法概要

attentionをcontext length全体で計算するとinput長の二乗の計算量がかかるため、contextをいくつかのグループに分割しグループごとにattentionを計算することで計算量削減。さらに、グループ間のattentionの間の依存関係を捉えるために、グループをshiftさせて計算したものと最終的に組み合わせている。また、embedding, normalization layerもtrainableにしている。

#Pocket #LanguageModel #AIAgents #Evaluation Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

#Pocket #LanguageModel #InstructionTuning Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv'23 GPT Summary- 私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment

人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。
これにより高品質なinstruction following LLMの構築が可能

手法概要

参考:

Loading…

指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。

#SpeechProcessing Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 Comment

https://prtimes.jp/main/html/rd/p/000000003.000102162.html

超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

ワンセグのデータにから生成

ライブラリ:

Loading…

#LanguageModel #Evaluation Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

#ComputerVision #NaturalLanguageGeneration #Evaluation Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket #LanguageModel #Evaluation Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#DocumentSummarization #Metrics #Evaluation Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #Pocket #LanguageModel #Coding Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA'23 GPT Summary- 本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #GrammaticalErrorCorrection Issue Date: 2023-07-18 Enhancing Grammatical Error Correction Systems with Explanations, ACL'23 GPT Summary- 文法エラー修正システムの性能向上のために、エビデンスワードと文法エラータイプが注釈付けされた大規模なデータセットであるEXPECTを紹介する。このデータセットを使用して、説明可能なGECシステムのベースラインと分析を提案し、人間の評価によってその有用性を確認する。 #DocumentSummarization #NaturalLanguageGeneration #Conversation Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL'23 GPT Summary- 会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #DocumentSummarization #NaturalLanguageGeneration #Controllable #Factuality Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL'23 GPT Summary- 本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #ComputerVision #Personalization #MultiModal #Conversation Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL'23 GPT Summary- 本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #InstructionTuning Issue Date: 2023-07-13 Unnatural Instructions: Tuning Language Models with （Almost） No Human Labor, ACL'23 GPT Summary- 本研究では、人間の監督を必要としない方法で収集された大規模なデータセット「Unnatural Instructions」を紹介します。このデータセットを使用して、言語モデルのトレーニングを行い、既存のモデルを上回る性能を実現しました。これにより、クラウドソーシングに頼らずにデータセットを拡張し、多様性を持たせることができることが示されました。 #LanguageModel #TheoryOfMind #Evaluation Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

#Pocket #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #LanguageModel #Evaluation #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

#LanguageModel #AIAgents #Evaluation #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#Pocket #LanguageModel #Evaluation Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #LanguageModel #Evaluation Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #InformationRetrieval #Pocket #Search #Evaluation #ACL Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, ACL'23 GPT Summary- QUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。 #Evaluation #Hallucination Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv'23 GPT Summary- 自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 Comment

#ComputerVision #Pocket #MultiModal #CLIP #NeurIPS Issue Date: 2025-05-06 LAION-5B: An open large-scale dataset for training next generation image-text models, Christoph Schuhmann+, NeurIPS'22 GPT Summary- LAION-5Bは、5.85億のCLIPフィルタリングされた画像-テキストペアから成る大規模データセットで、英語のペアが2.32B含まれています。このデータセットは、CLIPやGLIDEなどのモデルの再現とファインチューニングに利用され、マルチモーダルモデルの研究を民主化します。また、データ探索やサブセット生成のためのインターフェースや、コンテンツ検出のためのスコアも提供されます。 #MachineTranslation #Pocket Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv'22 GPT Summary- 「No Language Left Behind」プロジェクトでは、リソースが乏しい言語の機械翻訳を改善するために、ネイティブスピーカーとのインタビューを通じて必要性を明らかにし、データセットとモデルを開発。新しいデータマイニング技術を用いた条件付き計算モデルを提案し、過学習を防ぐための訓練改善を行った。Flores-200ベンチマークで40,000以上の翻訳方向を評価し、従来技術に対して44%のBLEU改善を達成。全ての成果はオープンソースとして公開。 Comment

low-resourceな言語に対するMTのベンチマーク

#NaturalLanguageGeneration #Pocket #LanguageModel #Explanation Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv'22 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 Comment

OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6

#QuestionAnswering Issue Date: 2022-02-07 JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension, So+, arXiv'22 GPT Summary- 日本語の質問応答データセットJaQuADを提案。39,696の質問-回答ペアを含み、テストセットでF1スコア78.92%、EMスコア63.38%を達成。データセットは[こちら](https://github.com/SkelterLabsInc/JaQuAD)から入手可能。 Comment

SQuAD likeな日本語のQAデータセット

https://github.com/SkelterLabsInc/JaQuAD

#MachineLearning #Pocket #ReinforcementLearning #Evaluation #EmbodiedAI #text Issue Date: 2025-10-26 [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#Pocket #LanguageModel #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #LanguageModel #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Mathematics #Selected Papers/Blogs #Verification Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 GPT Summary- GSM8Kデータセットを用いて、多段階の数学的推論における言語モデルの限界を分析。検証器を訓練し、候補解を評価して最適解を選択することで、モデルのパフォーマンスを大幅に向上させることを示した。検証はファインチューニングよりもデータ増加に対して効果的にスケールする。 Comment

Todo: 続きをまとめる

#DocumentSummarization #Metrics #Tools #Evaluation #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#Pocket #LanguageModel #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#PersonalizedDocumentSummarization #LanguageModel #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

#PersonalizedDocumentSummarization #Personalization Issue Date: 2023-04-30 ニュース記事に対する談話構造と興味度のアノテーション～ニュース対話システムのパーソナライズに向けて～, 高津+, 早稲田大学, 言語処理学会'21 Comment

ニュース記事に対して談話構造および，ユーザのプロフィールと記事の話題・文に対するユーザの興味度を付与したデータセット。

プロフィールとして以下を収集：

- 性別

- 年齢，

- 住んでいる地域

- 職種

- 業種

- ニュースを見る頻度，

- ニュースをよくチェックする時間帯

- 映像・音声・文字のうちニュースへの接触方法として多いものはどれか

- ニュースを知る手段

- ニュースを読む際使用している新聞やウェブサイト・アプリ

- 有料でニュースを読んでいるか

- 普段積極的に読む・見る・聞くニュースのジャンル

- ニュースのジャンルに対する興味の程度，趣味．

#NeuralNetwork #NaturalLanguageGeneration #Pocket #DataToTextGeneration #INLG Issue Date: 2022-08-18 [Paper Note] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan Yermakov+, arXiv'21, 2021.09 GPT Summary- バイオメディカル分野におけるD2T生成の研究を行い、医薬品のパッケージリーフレットを用いた実世界のデータセットに対してファインチューニングされたトランスフォーマーを適用。現実的な複数文のテキスト生成が可能であることを示す一方で、重要な制限も存在。新たにバイオメディカル分野のD2T生成モデルのベンチマーク用データセット（BioLeaflets）を公開。 Comment

biomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。

#DocumentSummarization #Tutorial #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

◆Aspect-based summarizationのモチベーション

・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい

◆Aspect: あるobjectに対する、attributeのようなものを指定？

　object: Attention Is All You Need

　aspect: Multi-Head Attention

◆Aspect Based Summarizationの歴史

・はじめは”feature”という文言で研究され（04年頃？）

・続いて*keywords*という単語で研究され

・その後Aspectという文言で研究されるようになった

・2008年頃にMcDonaldsらがAspect-Based Summarizationを提案した

・2014年以後？とかにNeural Basedな手法が盛んに研究

◆WikiAspデータセットについて

・Wikipediaを使ったAspect-based dataset

・Wikipediaを書かれるのに利用されたsource document（wikipediaにソースとして引用されているもの）に対し、aspectを各節の見出しとみなし、節のテキストを要約文とみなすことで、データセット生成

・他のAspect-basedデータセットと異なり、ソースデータが長く、要約長も5~6倍程度

・ドメイン数が他データセットは5,6程度に対し、20と膨大

◆ベースラインとして2-stageモデルを採用

first-stage: ソーステキストからROBERTaベースドなclassifierを用いて、sentencesから内包するAspectを閾値を用いて決定

　　　　　それらをgrouped sentencesとする

two-stage: 各aspectごとにまとまったテキスト集合に対して、要約モデルを適用し、要約を実施する

・要約モデルはUnsupervisedな手法であるTextRankと、Supervisedな手法であるBERTベースな手法を採用

・ドメインごとに評価した結果を見ると、BERTが強いドメインがある一方で、TextRankが強いドメインもあった

　-> Extractiveな形で要約されているドメインではTextRankが強く、Abstractiveに要約されているドメインではBERTが強い

　-> またBERTは比較的短い要約であればTextRankよりもはるかに良いが、長い要約文になるとTextRankとcomprable（あるいはTextRankの方が良い）程度の性能になる

・ROUGE-2の値がsentence-basedなORACLEを見た時に、他データセットと比較して低いので、Abstractiveな手法が必要なデータセット？

（後からのメモなので少しうろ覚えな部分あり）

Q. ROUGE-2が30とかって直観的にどのくらいのレベルのものなの？ROUGE-2が30とか40とかは高い

・最先端の要約モデルをニュース記事に適用すると、35~40くらいになる。

・このレベルの数値になると、人間が呼んでも違和感がないレベルの要約となっている

Q. 実際に要約文をチェックしてみて、どういう課題を感じるか？

A. Factual Consistencyがすぐに目につく問題で、特にBERTベースな要約文はそう。TextRankはソース文書がノイジーなので、ソース文章を適当に拾ってきただけではFactual Consistencyが良くない（元の文書がかっちりしていない）。流暢性の問題はAbstractiveモデルだと特に問題なくBERT-baseでできる。Aspect-based要約のエラー例としてAspectに則っていないということがある。たとえばオバマの大統領時代の話をきいているのに、幼少時代の話をしているとか。Aspect情報をうまくモデルを扱えていないという点が課題としてある。

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

#Pocket #Evaluation #TACL #Grammar Issue Date: 2025-09-07 [Paper Note] BLiMP: The Benchmark of Linguistic Minimal Pairs for English, Alex Warstadt+, TACL'20 GPT Summary- 言語的最小対のベンチマーク（BLiMP）は、言語モデルの文法知識を評価するためのチャレンジセットで、67のサブデータセットから成り、各サブデータセットには特定の文法対比を示す1000の最小対が含まれています。データは専門家によって自動生成され、人間の合意は96.4%です。n-gram、LSTM、Transformerモデルを評価した結果、最先端のモデルは形態論的対比を識別できるが、意味的制約や微妙な文法現象には苦戦していることが示されました。 Comment

#NaturalLanguageGeneration #Pocket #Evaluation #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

PJ page: https://inklab.usc.edu/CommonGen/

#QuestionAnswering #Evaluation #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。 #MachineLearning #Pocket #ReinforcementLearning #Evaluation #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

#Pocket #QuestionAnswering Issue Date: 2025-08-30 [Paper Note] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, Peter Clark+, arXiv'18 GPT Summary- AI2 Reasoning Challenge（ARC）を提案し、高度な質問応答におけるAI研究を促進することを目的とする。ARCはChallenge SetとEasy Setに分かれ、Challenge Setにはリトリーバルベースのアルゴリズムで不正解とされた質問が含まれる。ARCは最大の公的ドメインセットであり、1400万の科学文を含むコーパスと3つのニューラルベースラインモデルの実装も公開。既存のモデルはランダムベースラインを上回れず、コミュニティへの挑戦としてARCを提起。 Comment

dataset: https://huggingface.co/datasets/allenai/ai2_arc
日本語解説: https://qiita.com/tekunikaruza_jp/items/d2ec3621afc9ba3d225b

#NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #TabularData #ACL #Encoder-Decoder Issue Date: 2025-08-06 Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18 Comment

データセットの日本語解説（過去の自分の資料）: https://speakerdeck.com/akihikowatanabe/data-to-text-datasetmatome-summary-of-data-to-text-datasets?slide=66

#DocumentSummarization #NAACL Issue Date: 2018-06-29 [Paper Note] Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies, Max+, NAACL'18 Comment

文書要約に使用可能なデータセット

38の出版元からデータを収集し、サイズは1.3M article程度

既存のデータセットと比較すると、Coverageが高く生成的なものを多く含むことが特徴

詳細は： https://summari.es

#Pocket #QuestionAnswering #Factuality #ReadingComprehension Issue Date: 2025-08-16 [Paper Note] TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension, Mandar Joshi+, ACL'17 GPT Summary- TriviaQAは、650K以上の質問-回答-証拠トリプルを含む読解理解データセットで、95Kの質問-回答ペアと平均6つの証拠文書を提供。複雑な質問や構文的変動があり、文を超えた推論が必要。特徴ベースの分類器と最先端のニューラルネットワークの2つのベースラインアルゴリズムを評価したが、人間のパフォーマンスには及ばず、TriviaQAは今後の研究における重要なテストベッドである。 #STS (SemanticTextualSimilarity) Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv'17 GPT Summary- 日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Comment

github: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset

単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。

#Discourse #ICWSM Issue Date: 2018-01-19 [Paper Note] Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM'17, （Reddit Coarse Discourse data） Comment

RedditのDiscussion Forumに9種類のDiscourse Actsを付与したデータ。

データを作成する際は、以下の処理を適用：

* Google Big Query dump のRedditデータ238Mスレッド

* それにReply Filterをかけ87.5Mスレッド

* さらにそこからスレッドサンプリングやヒューリスティクなフィルタをかけて10000スレッドに絞り込んだ

* これらにDiscourse Actsが付与されており、それぞれのコメントに対して9種類のカテゴリ（QUESTION（質問）, ANSWER（回答）, ANNOUNCEMENT（情報発信）, AGREEMENT（意見に対する同意, APPRECIATION （感謝）など）が付与されている。

コーパスを作成するときは、3人のアノテータを用い、複数のACTを付与することを許し、OTHERも許容。

Discourse Actsをどれだけ判定できるかのモデルも構築しており、loggistic regression + L2 regularization, Hidden Markov Model, Conditional Random Fieldsなどを用い、素性はContent-based (unigram, bigram, tf-idfなど), Structure-based (treeのdepth, # of sentencde, wordなど), Author-based (一番最初の投稿者と同じか、親と同じ投稿者かなど), Community (subreddit name (カテゴリ名))などを用いている。

CRFを適用する際は、スレッドのTreeのブランチを系列とみなす。基本的にCRFが一番よく、F値で0.75程度。

#Pocket #QuestionAnswering #ReadingComprehension Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv'16 GPT Summary- NewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 Comment

SQuADよりも回答をするために複雑な推論を必要とするQAデータセット。規模感はSQuADと同等レベル。

WordMatchingにとどまらず、回答が存在しない、あるいは記事中でユニークではないものも含まれる。

#NeuralNetwork #NaturalLanguageGeneration #Pocket #ConceptToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] Neural Text Generation from Structured Data with Application to the Biography Domain, Remi Lebret+, EMNLP'16, 2016.03 GPT Summary- 大規模なWikipediaの伝記データセットを用いて、テキスト生成のためのニューラルモデルを提案。モデルは条件付きニューラル言語モデルに基づき、固定語彙とサンプル固有の単語を組み合わせるコピーアクションを採用。提案モデルは古典的なKneser-Neyモデルを約15 BLEUポイント上回る性能を示した。 Comment

Wikipediaの人物に関するinfo boxから、その人物のbiographyの冒頭を生成するタスク。
Neural Language Modelに、新たにTableのEmbeddingを入れられるようにtable embeddingを提案し、table conditioned language modelを提案している。

inputはテーブル（図中のinput textっていうのは、少し用語がconfusingだが、言語モデルへのinputとして、過去に生成した単語の系列を入れるというのを示しているだけ）

モデル全体

Wikipediaから生成した、Biographyに関するデータセットも公開している。

template basedなKNSmoothingを使ったベースラインよりも高いBLEUスコアを獲得。さらに、テーブルのGlobalな情報を入れる手法が、性能向上に寄与（たとえばチーム名・リーグ・ポジションなどをそれぞれ独立に見ても、バスケットボールプレイヤーなのか、ホッケープレイヤーなのかはわからないけど、テーブル全体を見ればわかるよねという気持ち）。

#Single #DocumentSummarization #NeuralNetwork #Sentence #Document #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 Comment

CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。

ACL'17のPointer Generator Networkでした。

#Multi #DocumentSummarization #QueryBiased #Extractive #ACL #Selected Papers/Blogs #Surface-level Note Issue Date: 2017-12-28 [Paper Note] Query-Chain Focused Summarization, Baumel+, ACL'14 Comment

（管理人が作成した過去の紹介資料）
[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)

上記スライドは私が当時作成した論文紹介スライドです。スライド中のスクショは説明のために論文中のものを引用しています。

#Article #Education #AIAgents #Evaluation #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #LanguageModel #Evaluation #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #Evaluation #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Survey #LanguageModel #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #Pretraining #LanguageModel #SyntheticData #Reasoning #One-Line Notes Issue Date: 2025-11-12 SYNTH: the new data frontier, pleias, 2025.11 Comment

元ポスト:

Loading…

SoTAなReasoning能力を備えたSLMを学習可能な事前学習用合成データ

元ポスト:

Loading…

#Article #Tutorial #Pretraining #LanguageModel #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #VisionLanguageModel Issue Date: 2025-10-29 Nemotron-VLM-Dataset-v2, Nvidia, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #LanguageModel #TabularData #Mathematics #MultiLingual #DataFiltering #One-Line Notes Issue Date: 2025-10-22 FindWiki, Guilherme Penedo, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09 Comment

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Article #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #MultiLingual #Japanese #Cultural #One-Line Notes Issue Date: 2025-09-24 Nemotron-Personas-Japan: Synthesized Data for Sovereign AI, Nvidia, 2025.09 Comment

dataset: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan

元ポスト:

Loading…

国勢調査の統計情報や名字由来netをシードとし、LLM Aによってペルソナに必要な各種属性（文化的背景、スキルと専門知識、キャリア目標と野望、趣味と興味等）を合成し、それらがgivenな状態で、複数のタイプのペルソナ（全体、職業、芸術、スポーツ）を説明するテキストを合成している模様？細かい生成手法はよくわからなかった。実世界の分布（人口統計、地理的分布、性格特性など）を反映した上でペルソナが合成されており、地域固有の人口統計、文化的背景を取り入れたソブリンAIの開発を支援するとのこと。

アメリカやインドの合成されたペルソナもある:

Loading…

#Article #ComputerVision #LanguageModel #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #LanguageModel #Evaluation #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #Pretraining #LanguageModel #SyntheticData #Blog Issue Date: 2025-09-13 Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+（HuggingFace）, 2024.03 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

#Article #LanguageModel #Evaluation #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #LanguageModel #Evaluation #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #LanguageModel #Evaluation #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #LanguageModel #Evaluation #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #Pretraining #LanguageModel #Repository #Selected Papers/Blogs Issue Date: 2025-09-07 FinePDFs, HuggingFaceFW, 2025.09 Comment

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

#Article #ComputerVision #Pocket #LanguageModel #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #LanguageModel #Evaluation #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #LanguageModel #Japanese Issue Date: 2025-09-06 FineWeb2 Edu Japanese, Yuichi Tateno, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #Pretraining #Blog #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09 Comment

HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision

元ポスト:

Loading…

#Article #Pretraining #LanguageModel #Supervised-FineTuning (SFT) #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #Pretraining #LanguageModel Issue Date: 2025-08-25 TxT360, LLM360, 2024.10 #Article #ComputerVision #Pretraining #QuestionAnswering #ImageCaptioning #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #LanguageModel #Evaluation Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Verification Issue Date: 2025-07-17 Asymmetry of verification and verifier’s law, Jason Wei, 2025.07 Comment

元ポスト:

Loading…

#Article #MachineTranslation #SyntheticData #Blog Issue Date: 2025-07-09 PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07 #Article #Tutorial #Pretraining #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #ComputerVision #LanguageModel #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #LanguageModel #Evaluation #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #LanguageModel #AIAgents #Evaluation #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #LanguageModel #Reasoning Issue Date: 2025-03-21 Sudoku-bench, SakanaAI, 2025.03 GPT Summary- Sudoku-Benchは、CTCで紹介された独自のルールを持つ数独パズルを特徴とし、AI推論モデルの評価に最適なベンチマークです。このリポジトリでは、数独ベンチデータセット、LLM評価用のベースラインコード、SudokuPadツール、推論トレースなどを提供します。 Comment

元ポスト:

Loading…

既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。

#Article #LanguageModel #AIAgents Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment

元ポスト:

Loading…

#Article #LanguageModel #Supervised-FineTuning (SFT) #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #LanguageModel #InstructionTuning Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #ComputerVision #LanguageModel #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #LanguageModel #Evaluation #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Tools #LanguageModel #Blog #OpenWeight #Japanese Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #Survey #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #InstructionTuning #SyntheticData #PostTraining Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment

元ポスト:

Loading…

Orca-AgenInstruct-1M microsoft/orca-agentinstruct-1M-v1, Microsoft, 2024.11 よりもSmolLMのSFTで各種ベンチで高い性能を獲得

#Article #MachineTranslation #Zero/Few/ManyShotPrompting Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment

元ポスト:

Loading…

英語Wikipediaを冒頭数文を抽出し日本語に人手で翻訳（Apache2.0ライセンスであるCalmやQwenの出力を参考に、cc-by-sa-4.0ライセンスにて公開している。
テクニカルタームが日本語で存在する場合は翻訳結果に含まれるようにしたり、翻訳された日本語テキストが単体で意味が成り立つように翻訳しているとのことで、1件あたり15分もの時間をかけて翻訳したとのこと。データ量は33件。many-shotやfew-shotに利用できそう。

日英対訳コーパスはライセンスが厳しいものが多いとのことなので、非常に有用だと思う。

#Article #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #LanguageModel #AIAgents #Evaluation Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #LanguageModel #Japanese Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 Comment

LLM-jp-3 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 の学習に利用されているコーパス

#Article #Pretraining #Pocket #LanguageModel #InstructionTuning #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #Survey #NaturalLanguageGeneration #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

Data-to-Textのデータセットを自分用に調べていたのですが、せっかくなのでスライドにまとめてみました。特にMR-to-Text, Table-to-Textあたりは網羅的にサーベイし、データセットの概要を紹介しているので、全体像を把握するのに良いのかなぁと思います。ただし、2022年12月時点で作成したので2023年以後のデータセットは含まれていません😅

#Article #LanguageModel #DialogueGeneration Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

#Article #RecommenderSystems #NaturalLanguageUnderstanding Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions GPT Summary- データセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。 #Article #RecommenderSystems Issue Date: 2023-05-06 SNAP: Web data: Amazon reviews #Article #InstructionTuning #DataDistillation Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

#Article #Tutorial #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #NeuralNetwork #Tools #LanguageModel #Library #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #DocumentSummarization #Update Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset, 2006.10 Comment

DUC 2007: https://duc.nist.gov/duc2007/tasks.html

Analysis (177)

#Pocket #LanguageModel #SmallModel #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm #Latency
Issue Date: 2025-11-25 [Paper Note] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models, Yonggan Fu+, arXiv'25, 2025.11 GPT Summary- 本研究では、小型言語モデル（SLMs）の実デバイスにおけるレイテンシの主要な決定要因を特定し、SLM設計とトレーニングの原則を提供します。深さ-幅比とオペレーター選択がレイテンシに影響を与えることを示し、深く細いモデルが一般的に良好な精度を達成する一方で、必ずしも精度-レイテンシのトレードオフの最前線に位置しないことを発見しました。効率的なアテンションの代替手段を評価し、ハイブリッドSLM内での最適なオペレーターの組み合わせを進化的探索フレームワークで発見。これにより、Nemotron-Flashという新しいSLMファミリーを導入し、精度が平均+5.5%向上し、レイテンシが1.3倍/1.9倍低下、スループットが18.7倍/45.6倍向上しました。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Evaluation #read-later
Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #LanguageModel #OpenWeight #read-later
Issue Date: 2025-11-14 [Paper Note] Intelligence per Watt: Measuring Intelligence Efficiency of Local AI, Jon Saad-Falcon+, arXiv'25, 2025.11 GPT Summary- ローカルLMが実世界のクエリに正確に回答できるかを評価するため、タスクの精度を電力単位で割った「ワットあたりの知能（IPW）」を提案。20以上のローカルLMと8つのアクセラレーターを用いた実証研究により、ローカルLMは88.7%の精度でクエリに応答し、IPWは5.3倍改善、カバレッジは23.2%から71.3%に上昇。ローカルアクセラレーターはクラウドよりも低いIPWを達成し、ローカル推論が中央集権型インフラから需要を再分配できる可能性を示唆。IPWプロファイリングハーネスも公開。 Comment

pj page: https://hazyresearch.stanford.edu/blog/2025-11-11-ipw

元ポスト:

Loading…

この切り口は興味深い。

#Pocket #LanguageModel #ReinforcementLearning #NeurIPS #One-Line Notes Issue Date: 2025-11-13 [Paper Note] Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning, Jiayu Wang+, NeurIPS'25, 2025.06 GPT Summary- 強化学習（RL）は言語モデルの推論性能を向上させるが、そのメカニズムは未解明。SPARKLEフレームワークを用いて、RLの効果を計画遵守、知識統合、サブ問題連鎖の3次元で分析。RL調整モデルは外部計画に依存せず、内部戦略の形成を促進し、知識統合能力を向上させることが示された。難しい問題に対しては、SparkleRL-PSSというマルチステージRLパイプラインを提案し、データ生成なしで効果的な探索を実現。これにより、推論タスクのための適応的で効率的なRLパイプライン構築のための洞察が得られる。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Memorization #One-Line Notes Issue Date: 2025-11-13 [Paper Note] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs, Renfei Zhang+, arXiv'25, 2025.11 GPT Summary- 強化学習（RL）は、階層的な知識を必要とするタスクにおいて、基盤モデルや教師あり微調整（SFT）モデルを上回る性能を示す。これは新たなデータからではなく、既存の知識をナビゲートするスキルの向上によるものである。構造化プロンプティングを用いることで、SFTモデルのパフォーマンスギャップを縮小できることが示された。RLモデルは深い検索タスクでの手続き的経路の呼び出しに優れ、知識の表現は変わらないが、知識の遍歴方法が変化することが明らかになった。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #LanguageModel #In-ContextLearning #ActivationSteering/ITI Issue Date: 2025-11-12 [Paper Note] Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering, Eric Bigelow+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）の制御手法をベイズ的視点から統一的に説明。文脈に基づく介入と活性化に基づく介入がモデルの信念を変え、挙動に影響を与えることを示す。新たなベイズモデルにより、介入の効果を高精度で予測し、行動の急激な変化を引き起こす特異なフェーズを明らかにする。プロンプトと活性化の制御手法の統一的な理解を提供。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #LanguageModel #ReinforcementLearning #Reasoning #One-Line Notes Issue Date: 2025-11-12 [Paper Note] On a few pitfalls in KL divergence gradient estimation for RL, Yunhao Tang+, arXiv'25, 2025.06 GPT Summary- LLMのRLトレーニングにおけるKLダイバージェンスの勾配推定に関する落とし穴を指摘。特に、KL推定を通じて微分する実装が不正確であることや、逐次的な性質を無視した実装が部分的な勾配しか生成しないことを示す。表形式の実験とLLM実験を通じて、正しいKL勾配の実装方法を提案。 Comment

元ポスト:

Loading…

RLにおけるKL Divergenceによるポリシー正則化の正しい実装方法

#MachineLearning #Pocket #LanguageModel #ReinforcementLearning #read-later #On-Policy Issue Date: 2025-11-12 [Paper Note] On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning, Yifan Zhang+, arXiv'25, 2025.05 GPT Summary- ポリシー勾配アルゴリズムを用いてLLMの推論能力を向上させるため、正則化ポリシー勾配（RPG）を提案。RPGは、正規化されたKLと非正規化されたKLを統一し、REINFORCEスタイルの損失の微分可能性を特定。オフポリシー設定での重要度重み付けの不一致を修正し、RPGスタイルクリップを導入することで安定したトレーニングを実現。数学的推論ベンチマークで最大6%の精度向上を達成。 Comment

元ポスト:

Loading…

pj page: https://complex-reasoning.github.io/RPG/

#ComputerVision #Pretraining #Pocket #Dataset #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #LLM-as-a-Judge #EMNLP #read-later #Selected Papers/Blogs #Stability Issue Date: 2025-11-10 [Paper Note] Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction, Huanxin Sheng+, EMNLP'25 SAC Highlights, 2025.09 GPT Summary- LLMを用いた自然言語生成の評価における不確実性を分析するためのフレームワークを提案。適合予測を通じて予測区間を構築し、中央値に基づくスコアを低バイアスの代替手段として提示。実験により、適合予測が有効な予測区間を提供できることを示し、判断の向上に向けた中央値や再プロンプトの有用性も探求。 Comment

元ポスト:

Loading…

実用上非常に重要な話に見える

#Pocket #LanguageModel #memory #Beliefs Issue Date: 2025-11-06 [Paper Note] Accumulating Context Changes the Beliefs of Language Models, Jiayi Geng+, arXiv'25, 2025.11 GPT Summary- 言語モデル（LM）アシスタントは、ブレインストーミングや研究での使用が増加しているが、コンテキストの蓄積に伴い信念プロファイルが変化するリスクがある。本研究では、対話やテキスト処理を通じて信念がどのように変化するかを調査し、GPT-5が道徳的ジレンマに関する議論後に54.7%、Grok 4が政治的問題に関して27.2%の信念変化を示すことを発見した。また、ツール使用による行動変化も分析し、信念の変化が行動に反映されることを示唆している。これにより、長時間の対話や読書が信頼性に影響を与える可能性があることが明らかになった。 Comment

pj page: https://lm-belief-change.github.io/

元ポスト:

Loading…

エコーチャンバーが増強されそう

#Pocket #LanguageModel #DiffusionModel #Architecture #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] On Powerful Ways to Generate: Autoregression, Diffusion, and Beyond, Chenxiao Yang+, arXiv'25, 2025.10 GPT Summary- 自己回帰的な次トークン予測とマスクされた拡散を超えた生成プロセスを研究し、その利点と限界を定量化。書き換えや長さ可変の編集が可能になることで、理論的および実証的な利点を示し、自然言語以外の領域でも機能する大規模言語モデル（LLM）の重要性を強調。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Chain-of-Thought #Reasoning #SelfCorrection #EMNLP Issue Date: 2025-11-04 [Paper Note] How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?, Sohee Yang+, EMNLP'25, 2025.06 GPT Summary- 推論モデルの自己再評価能力を調査し、役に立たない思考の4つのタイプを特定。モデルは無駄話や無関係な思考を効果的に識別できるが、それらが注入されると回復に苦労し、性能が低下することを示した。特に、大きなモデルは短い無関係な思考からの回復が難しい傾向があり、自己再評価の改善が求められる。これにより、より良い推論と安全なシステムの開発が促進される。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#Pocket #LanguageModel #UserBased #AIAgents #One-Line Notes Issue Date: 2025-11-01 [Paper Note] Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents, Shannon Zejiang Shen+, arXiv'25, 2025.10 GPT Summary- エージェントの評価をタスク完了から協調的な問題解決プロセスにシフトすることを提唱。ユーザーの関与がエージェントの有用性に与える影響を捉える「協調的努力スケーリング」フレームワークを導入。ケーススタディにより、現実のシナリオでのエージェントのパフォーマンス低下を示し、持続的なエンゲージメントとユーザー理解の重要性を明らかにする。 Comment

#Pocket #LanguageModel #CrossLingual #TransferLearning #MultiLingual #Scaling Laws #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-31 [Paper Note] ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality, Shayne Longpre+, arXiv'25, 2025.10 GPT Summary- 本研究では、774の多言語トレーニング実験を通じて、最大の多言語スケーリング法則を探求し、ATLASという適応的転送スケーリング法則を導入。これにより、既存のスケーリング法則を上回る性能を示し、多言語学習のダイナミクスや言語間の転送特性を分析。言語ペア間の相互利益スコアを測定し、モデルサイズとデータの最適なスケーリング方法を明らかにし、事前学習とファインチューニングの計算的クロスオーバーポイントを特定。これにより、英語中心のAIを超えたモデルの効率的なスケーリングの基盤を提供することを目指す。 Comment

元ポスト:

Loading…

バイリンガルで学習した時に、日本語とシナジーのある言語、この図を見ると無さそうに見える😅

#Embeddings #Pocket #LanguageModel #Selected Papers/Blogs Issue Date: 2025-10-29 [Paper Note] Language Models are Injective and Hence Invertible, Giorgos Nikolaou+, arXiv'25, 2025.10 GPT Summary- 本研究では、トランスフォーマー言語モデルが単射であることを数学的に証明し、異なる入力が同じ出力にマッピングされないことを示す。さらに、6つの最先端モデルに対して衝突テストを行い、衝突がないことを確認。新たに提案するアルゴリズムSipItにより、隠れた活性化から正確な入力テキストを効率的に再構築できることを示し、単射性が言語モデルの重要な特性であることを明らかにする。 Comment

元ポスト:

Loading…

続報:

Loading…

解説:

Loading…

解説参照のこと。

#MachineLearning #Pocket #LanguageModel #NeurIPS #Test-Time Scaling Issue Date: 2025-10-27 [Paper Note] A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning, Zhi Zhou+, NeurIPS'25, 2025.10 GPT Summary- テスト時スケーリングにおけるサンプリング手法の理論的枠組みを提供し、自己一貫性と困惑度の制限を明らかに。新たに提案したRPC手法は、困惑度一貫性と推論剪定を活用し、推論誤差の収束を改善。7つのベンチマークでの実証結果により、RPCは自己一貫性に匹敵する性能を達成し、サンプリングコストを50%削減することが示された。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://zhouz.dev/RPC/

#Pocket #LanguageModel #OpenWeight #read-later #Memorization Issue Date: 2025-10-26 [Paper Note] Hubble: a Model Suite to Advance the Study of LLM Memorization, Johnny Tian-Zheng Wei+, arXiv'25, 2025.10 GPT Summary- Hubbleは、LLMの記憶に関する研究のためのオープンソースモデルスイートで、標準モデルと変化モデルの2種類を提供。標準モデルは大規模な英語コーパスで事前学習され、変化モデルは特定のテキストを挿入して記憶リスクを模倣。8つのモデルが1Bまたは8Bのパラメータを持ち、100Bまたは500Bのトークンで訓練。研究により、敏感なデータの記憶はコーパスのサイズに依存し、データの露出が少ない場合は忘れられることが示された。Hubbleは、プライベート情報の記憶の容易さを分析するなど、幅広い記憶研究を可能にし、コミュニティにさらなる探求を促す。 Comment

pj page: https://allegro-lab.github.io/hubble/

元ポスト:

Loading…

HF: https://huggingface.co/allegrolab

#MachineLearning #Pocket #LanguageModel #Reasoning Issue Date: 2025-10-25 [Paper Note] Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models, Samuel Lippl+, arXiv'25, 2025.10 GPT Summary- 本研究では、大規模言語モデル（LLMs）が多段階の推論を解決するためのアルゴリズム的原則を追跡し、操作するフレームワークを提案。推論のトレースを内部の活性化パターンにリンクさせ、原則を残差ストリームに注入することで、推論ステップやタスクのパフォーマンスへの影響を評価。旅行セールスマン問題や3SATなどのベンチマークを用いて、原則ベクトルの導出と幾何学的論理の明示化を行い、ファインチューニングによる一般化の強調を示した。これにより、LLMsの推論がアルゴリズム的原則の構成的幾何学に支えられている可能性が示唆され、原則の転送とドメイン間の一般化が強化されることが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #Transformer #Reasoning Issue Date: 2025-10-24 [Paper Note] When Do Transformers Learn Heuristics for Graph Connectivity?, Qilin Ye+, arXiv'25, 2025.10 GPT Summary- Transformersは一般化能力に欠け、脆弱なヒューリスティックに依存することが多い。分離型Transformerを用いて、$L$層のモデルが直径$3^L$までのグラフを解決できることを証明。トレーニングダイナミクスを分析し、能力内のグラフでは正しいアルゴリズムを学習し、能力を超えたグラフでは単純なヒューリスティックを学習することを示す。トレーニングデータを能力内に制限することで、正確なアルゴリズムの学習が促進されることを実証。 Comment

元ポスト:

Loading…

#Multi #MachineLearning #Pocket #AIAgents #TheoryOfMind #read-later #Selected Papers/Blogs #Personality Issue Date: 2025-10-21 [Paper Note] Emergent Coordination in Multi-Agent Language Models, Christoph Riedl, arXiv'25, 2025.10 GPT Summary- 本研究では、マルチエージェントLLMシステムが高次の構造を持つかどうかを情報理論的フレームワークを用いて検証。実験では、エージェント間のコミュニケーションがない状況で、時間的相乗効果が観察される一方、調整された整合性は見られなかった。ペルソナを割り当てることで、エージェント間の差別化と目標指向の相補性が示され、プロンプトデザインによって高次の集合体へと誘導できることが確認された。結果は、効果的なパフォーマンスには整合性と相補的な貢献が必要であることを示唆している。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #In-ContextLearning Issue Date: 2025-10-20 [Paper Note] On the Relationship Between the Choice of Representation and In-Context Learning, Ioana Marinescu+, arXiv'25, 2025.10 GPT Summary- インコンテキスト学習（ICL）は、LLMがデモンストレーションから新しいタスクを学ぶ能力を指し、表現方法と学習能力の相互作用が重要である。研究では、デモンストレーションの表現がICLの基準精度を決定し、追加のデモンストレーションはその基準を改善することを仮定。異なるラベルセットを用いてICLを実施した結果、ラベルセットの質に関わらず学習が行われ、効率はデモンストレーションの改善傾きに依存することが確認された。これにより、デモンストレーションからの学習とその表現がICLのパフォーマンスに独立した影響を与えることが示された。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #Dataset #LanguageModel #RepresentationLearning #SyntheticData #ACL #Findings Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#Pocket #LanguageModel #ReinforcementLearning #Scaling Laws #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-10-17 [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10 GPT Summary- 強化学習（RL）のスケーリングに関する原則的なフレームワークを定義し、40万時間以上のGPU時間を用いた大規模な研究を実施。シグモイド型計算-性能曲線をフィットさせ、設計選択肢の影響を分析。結果として、漸近的性能はレシピによって異なり、計算効率は詳細に依存することを発見。これを基に、ScaleRLというベストプラクティスのレシピを提案し、100,000 GPU時間での成功を示した。この研究は、RLトレーニングの予測可能性を向上させるための科学的フレームワークを提供する。 Comment

元ポスト:

Loading…

CISPO:
- [Paper Note] MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention, MiniMax+, arXiv'25, 2025.06

著者ポスト:

Loading…

ポイント解説:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #Test-Time Scaling #PostTraining #Diversity Issue Date: 2025-10-16 [Paper Note] Representation-Based Exploration for Language Models: From Test-Time to Post-Training, Jens Tuyls+, arXiv'25, 2025.10 GPT Summary- 強化学習（RL）が言語モデルの行動発見に与える影響を調査。事前学習されたモデルの隠れ状態を基にした表現ベースのボーナスを用いることで、多様性とpass@k率が大幅に改善されることを発見。推論時における探索が効率を向上させ、ポストトレーニングにおいてもRLパイプラインとの統合により性能が向上。意図的な探索が新しい行動の発見に寄与する可能性を示唆。 Comment

元ポスト:

Loading…

探索の多様性をあげてRLこ学習効率、test time scalingの効率を上げるという話

#Pocket #LanguageModel #Quantization #Reasoning #Test-Time Scaling #One-Line Notes #MemoryOptimization Issue Date: 2025-10-15 [Paper Note] Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models, Junhyuck Kim+, arXiv'25, 2025.10 GPT Summary- 4ビット量子化はメモリ最適化に有効ですが、推論モデルには適用できないことを示す。体系的な実験により、モデルサイズとKVキャッシュの影響を発見。小規模モデルは重みを優先し、大規模モデルは生成にメモリを割り当てることで精度を向上。LLMのメモリ最適化はスケールに依存し、異なるアプローチが必要であることを示唆。 Comment

元ポスト:

Loading…

#ComputerVision #Pretraining #Pocket #Dataset #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pretraining #Pocket #LanguageModel #Optimizer Issue Date: 2025-10-15 [Paper Note] The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton, Natalie Abreu+, arXiv'25, 2025.10 GPT Summary- LLMの事前学習における計算効率向上のため、フルガウス-ニュートン（GN）前処理を最大150Mパラメータのトランスフォーマーモデルに適用。実験により、GN更新がトレーニングの反復回数を5.4倍削減し、層間情報を無視した層別GN前処理器がフルGNに近い性能を示すことが判明。これにより、GN近似の効果や層別ヘッセ行列の情報の重要性、近似手法と理想的な層別オラクルとの性能ギャップが明らかになった。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #Transformer #ReinforcementLearning #Reasoning #PostTraining #read-later Issue Date: 2025-10-14 [Paper Note] How Reinforcement Learning After Next-Token Prediction Facilitates Learning, Nikolaos Tsilivis+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルの次のトークン予測を強化学習で最適化するフレームワークを提案。特に、短いおよび長い「思考の連鎖」シーケンスからの学習を通じて、強化学習が次のトークン予測を改善することを理論的に示す。長いシーケンスが稀な場合、強化学習により自己回帰型トランスフォーマーが一般化できることを確認。さらに、長い応答が計算を増加させるメカニズムを説明し、自己回帰型線形モデルが効率的に$d$ビットの偶奇を予測できる条件を理論的に証明。Llamaシリーズモデルのポストトレーニングによる実証も行う。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #AIAgents #Reasoning #Entropy Issue Date: 2025-10-14 [Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10 GPT Summary- エージェント的強化学習（agentic RL）を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #RLVR Issue Date: 2025-10-14 [Paper Note] Part II: ROLL Flash -- Accelerating RLVR and Agentic Training with Asynchrony, Han Lu+, arXiv'25, 2025.10 GPT Summary- 非同期RL後処理をサポートする「ROLL Flash」を提案。細粒度の並列性とロールアウト・トレインのデカップリングに基づき、効率的なトレーニングアーキテクチャを実現。ROLL Flashはリソース利用効率とスケーラビリティを大幅に改善し、RLVRタスクで最大2.24倍、エージェントタスクで最大2.72倍のスピードアップを達成。非同期トレーニングが同期トレーニングと同等のパフォーマンスを示すことを確認。 Comment

元ポスト:

Loading…

RLのロールアウト中のGPUのアイドルタイムを削減します系の話も最近結構見るような
たとえば

- Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10

#MachineLearning #Pocket #Transformer #Attention #AttentionSinks #CompressionValleys Issue Date: 2025-10-10 [Paper Note] Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin, Enrique Queipo-de-Llano+, arXiv'25, 2025.10 GPT Summary- 注意の沈降と圧縮の谷の関連性を示し、大規模な活性化が表現の圧縮とエントロピーの減少を引き起こすことを理論的に証明。実験により、シーケンスの開始トークンが中間層で極端な活性化を生むと、圧縮の谷と注意の沈降が同時に現れることを確認。TransformerベースのLLMがトークンを三つのフェーズで処理する「Mix-Compress-Refine」理論を提案し、タスク依存の表現の違いを説明。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #LanguageModel #Optimizer Issue Date: 2025-10-08 [Paper Note] Muon Outperforms Adam in Tail-End Associative Memory Learning, Shuche Wang+, arXiv'25, 2025.09 GPT Summary- Muonオプティマイザーは、LLMsのトレーニングにおいてAdamよりも高速であり、そのメカニズムを連想記憶の観点から解明。VOアテンションウェイトとFFNがMuonの優位性の要因であり、重い尾を持つデータにおいて尾クラスを効果的に最適化する。Muonは一貫したバランスの取れた学習を実現し、Adamは不均衡を引き起こす可能性がある。これにより、Muonの更新ルールが重い尾を持つ分布における効果的な学習を可能にすることが示された。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #ReinforcementLearning #COLM #read-later Issue Date: 2025-10-07 [Paper Note] Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining, Rosie Zhao+, COLM'25, 2025.04 GPT Summary- 強化学習（RL）によるファインチューニングは、数学的推論やコーディングのための言語モデルの性能向上に寄与しているが、そのメカニズムは未解明である。本研究では、オープンなデータセットを用いて、さまざまなスケールのモデルに対するRLファインチューニングの効果を調査し、RLアルゴリズムが出力分布に収束し、事前学習データのパターンを増幅することを明らかにした。また、異なるスケールのモデルが異なる出力分布に収束することや、簡単な質問へのファインチューニングが難しい質問の性能向上に寄与する可能性を示した。これにより、RLの役割に関する新たな洞察が得られた。 Comment

元ポスト:

Loading…

#Tutorial #LanguageModel #Slide #Selected Papers/Blogs #reading Issue Date: 2025-10-07 言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT) #In-ContextLearning Issue Date: 2025-10-05 [Paper Note] IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning, Aayush Mishra+, arXiv'25, 2025.09 GPT Summary- 本研究では、インコンテキスト学習（ICL）の活性化パターンを利用して、監視付きファインチューニング（SFT）の品質を向上させる手法を提案。ICLとSFTの異なる適応メカニズムを示し、ICL活性化アライメント（IA2）という自己蒸留技術を導入。IA2をSFTの前に実行することで、モデルの出力精度とキャリブレーションが向上することを12のベンチマークで実証。これにより、モデル適応の内部メカニズムに対する新たな視点も提供される。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #CurriculumLearning #On-Policy #Batch #One-Line Notes Issue Date: 2025-10-04 [Paper Note] Prompt Curriculum Learning for Efficient LLM Post-Training, Zhaolin Gao+, arXiv'25, 2025.10 GPT Summary- Prompt Curriculum Learning (PCL)を提案し、中程度の難易度のプロンプトを選択してLLMをポストトレーニングする軽量な強化学習アルゴリズムを紹介。最適なバッチサイズとプロンプト選択の重要性を実験で確認し、PCLは情報豊富なプロンプトに焦点を当てることで高いパフォーマンスを達成。ロールアウトを回避し、MATHおよびDeepScaleRでそれぞれ$12.1\times$および$16.9\times$の速度向上を実現。結果は、推論におけるRLの効率とパフォーマンスのトレードオフを改善する新たな方法論を示す。 Comment

元ポスト:

Loading…

（ざっくり読みなので誤りを多分に含むかもしれないがメモ）勾配のノイズの低減と生成の速度のトレードオフを最適にバランスをとるバッチサイズがあることを示し、RLの学習効率が中間程度（簡単すぎず、難しすぎない）の難易度が良いことを示したのち、Valueモデル（ロールアウトに基づいて更新される模様？）を用いてpromptを選択し[^1]中間程度のpromptを用いてロールアウトをし学習するようなオンポリシーのRLを提案する、みたいな話な模様。

[^1]:既存手法のロールアウトによって求める方法（計算コストが高すぎる）や、事前に決めておいた辞書ベースの手法（現在のポリシーからみた時の難易度が反映されておらず効率が悪い）の双方に比べて、適度にオンポリシーさを残したpromptの選び方となっている

#Pretraining #Pocket #LanguageModel #DataMixture Issue Date: 2025-10-03 [Paper Note] Data Mixing Can Induce Phase Transitions in Knowledge Acquisition, Xinran Gu+, arXiv'25, 2025.05 GPT Summary- LLMsの訓練において、知識が豊富なデータセットとウェブスクレイピングデータの混合が、知識獲得において位相転移を示すことを実証。モデルサイズを臨界値まで増加させると、記憶状態が急激に変化し、混合比率が臨界値を超えると急速に記憶が増加。これらの現象は容量配分に起因し、最適なデータ配分がモデルサイズや混合比率によって不連続に変わることを示す。 #Pretraining #Pocket #LanguageModel #SyntheticData #Selected Papers/Blogs #DataMixture #One-Line Notes #PhaseTransition Issue Date: 2025-10-03 [Paper Note] Demystifying Synthetic Data in LLM Pre-training: A Systematic Study of Scaling Laws, Benefits, and Pitfalls, Feiyang Kang+, arXiv'25, 2025.10 GPT Summary- 合成データ技術はLLMのトレーニングデータの供給制限を克服する可能性を持つ。本研究では、自然なウェブデータと合成データの混合を比較し、言い換えた合成データのみでの事前トレーニングは自然なデータよりも速くないことを示した。1/3の言い換えた合成データと2/3の自然データの混合が、より効率的なトレーニングを可能にすることが分かった。教科書スタイルの合成データは小さなデータ予算で高い損失をもたらし、合成データの最適な比率はモデルサイズとデータ予算に依存する。結果は合成データの効果を明らかにし、実用的なガイダンスを提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

合成データは適切な規模のモデルと比率でないと利点が現れない

#Pocket #LanguageModel #ReinforcementLearning #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-03 [Paper Note] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning, Ruiyi Wang+, arXiv'25, 2025.10 GPT Summary- マルチターン強化学習におけるLLMエージェントの訓練方法を研究し、設計空間を環境、報酬、ポリシーの3つの柱に分解。環境の複雑さがエージェントの一般化能力に与える影響、報酬の希薄性が訓練に与える効果、ポリシー勾配法の相互作用を分析。これらの知見を基に、訓練レシピを提案し、マルチターンエージェント強化学習の研究と実践を支援。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

takeawayが非常に簡潔で分かりやすい。

#MachineLearning #Pocket #Transformer #Attention #ICML #ContextEngineering Issue Date: 2025-09-26 [Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02 GPT Summary- 大規模言語モデル（LLMs）は文脈的知識の理解に成功しており、特に注意クエリ（Q）とキー（K）において集中した大規模な値が一貫して現れることを示す。これらの値は、モデルのパラメータに保存された知識ではなく、現在の文脈から得られる知識の解釈に重要である。量子化戦略の調査により、これらの値を無視すると性能が低下することが明らかになり、集中した大規模な値の出現がロタリーポジショナルエンコーディング（RoPE）によって引き起こされることを発見した。これらの結果は、LLMの設計と最適化に関する新たな洞察を提供する。 Comment

openreview: https://openreview.net/forum?id=1SMcxxQiSL¬eId=7BAXSETAwU

#Pocket #LanguageModel #MultiLingual #EMNLP #Findings #SparseAutoEncoder Issue Date: 2025-09-24 [Paper Note] How a Bilingual LM Becomes Bilingual: Tracing Internal Representations with Sparse Autoencoders, Tatsuro Inaba+, EMNLP'25 Findings, 2025.03 GPT Summary- 本研究では、バイリンガル言語モデルの内部表現の発展をスパースオートエンコーダーを用いて分析。言語モデルは初めに言語を個別に学習し、中間層でバイリンガルの整合性を形成することが明らかに。大きなモデルほどこの傾向が強く、分解された表現を中間トレーニングモデルに統合する新手法でバイリンガル表現の重要性を示す。結果は、言語モデルのバイリンガル能力獲得に関する洞察を提供。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #EMNLP #Stability #Findings #DownstreamTasks Issue Date: 2025-09-24 [Paper Note] Instability in Downstream Task Performance During LLM Pretraining, Yuto Nishida+, EMNLP'25 Findings, 2025.10 GPT Summary- LLMの訓練中に下流タスクのパフォーマンスが大きく変動する問題を分析し、チェックポイントの平均化とアンサンブル手法を用いて安定性を向上させることを提案。これにより、訓練手順を変更せずにパフォーマンスの変動を減少させることが実証された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Test-Time Scaling #SamplingParams #Best-of-N #MajorityVoting Issue Date: 2025-09-24 [Paper Note] Optimizing Temperature for Language Models with Multi-Sample Inference, Weihua Du+, ICML'25, 2025.02 GPT Summary- マルチサンプル集約戦略を用いて、LLMの最適な温度を自動的に特定する手法を提案。従来の方法に依存せず、モデルアーキテクチャやデータセットを考慮した温度の役割を分析。新たに提案するエントロピーに基づく指標は、固定温度のベースラインを上回る性能を示し、確率過程モデルを用いて温度とパフォーマンスの関係を解明。 Comment

openreview: https://openreview.net/forum?id=rmWpE3FrHW¬eId=h9GETXxWDB

#Pocket #LanguageModel #Alignment #Safety #read-later #Scheming Issue Date: 2025-09-22 [Paper Note] Stress Testing Deliberative Alignment for Anti-Scheming Training, Bronson Schoen+, arXiv'25, 2025.09 GPT Summary- 高度なAIシステムは不整合な目標を追求する「陰謀」を持つ可能性があり、これを測定・軽減するには特別なアプローチが必要です。本研究では、反陰謀介入の評価において、遠くの分布外タスクでの陰謀の傾向、状況認識による陰謀の有無、既存の不整合な目標に対するロバスト性を確認することを提案します。秘密の行動を陰謀の代理として扱い、熟慮的整合性をストレステストした結果、秘密の行動率が低下することが示されましたが、完全には排除できませんでした。モデルの思考の連鎖が整合性評価を認識することで秘密の行動が減少する一方、無自覚であると増加することも示唆されました。今後、陰謀に対する整合性の軽減策とその評価に関する研究が重要です。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #In-ContextLearning #RAG(RetrievalAugmentedGeneration) #Generalization #ReversalCurse #memory Issue Date: 2025-09-22 [Paper Note] Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences, Andrew Kyle Lampinen+, arXiv'25, 2025.09 GPT Summary- 機械学習システムの一般化失敗の原因として、潜在学習の欠如を指摘。認知科学の視点から、エピソード記憶やオラクルリトリーバルメカニズムが一般化を改善する手段であることを示す。文脈内学習が情報活用の鍵であり、リトリーバル手法がパラメトリック学習を補完することで、データ効率を向上させる可能性を提案。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Pocket #EMNLP #VisionLanguageModel #Findings Issue Date: 2025-09-21 [Paper Note] Lost in Embeddings: Information Loss in Vision-Language Models, Wenyan Li+, EMNLP'25 Findings, 2025.09 GPT Summary- 視覚と言語のモデル（VLMs）の投影ステップによる情報損失を分析するため、2つのアプローチを提案。1つ目は、投影前後の画像表現のk近傍関係の変化を評価し、2つ目は視覚埋め込みの再構築によって情報損失を測定。実験により、コネクタが視覚表現の幾何学を歪め、k近傍が40～60%乖離することが明らかになり、これは検索性能の低下と関連。パッチレベルの再構築は、モデルの挙動に対する洞察を提供し、高い情報損失がモデルの苦手な事例を予測することを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #LanguageModel #EMNLP #Length Issue Date: 2025-09-20 [Paper Note] Length Representations in Large Language Models, Sangjun Moon+, EMNLP'25 GPT Summary- LLMsは出力シーケンスの長さを制御する能力を持ち、その内部メカニズムを探求。特に、マルチヘッドアテンションが出力長の決定に重要であり、特定の隠れユニットを調整することで長さを制御可能であることを示す。プロンプトが長さ特有になると隠れユニットが活性化し、モデルの内部認識を反映。これにより、LLMsは外部制御なしに出力の長さを適応的に制御するメカニズムを学習していることが示唆される。 #MachineLearning #Pocket #LanguageModel #Reasoning #NeurIPS #read-later Issue Date: 2025-09-19 [Paper Note] The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, Parshin Shojaee+, arXiv'25 GPT Summary- LRMsは思考プロセスを生成するが、その能力や限界は未解明。評価は主に最終回答の正確性に焦点を当てており、推論の痕跡を提供しない。本研究では制御可能なパズル環境を用いて、LRMsの推論過程を分析。実験により、LRMsは特定の複雑さを超えると正確性が崩壊し、スケーリングの限界が明らかに。低複雑性では標準モデルが優位、中複雑性ではLRMsが優位、高複雑性では両者が崩壊することを示した。推論の痕跡を調査し、LRMsの強みと限界を明らかに。 Comment

元ポスト:

Loading…

出た当初相当話題になったIllusion of thinkingがNeurIPSにacceptされた模様。Appendix A.1に当時のcriticismに対するレスポンスが記述されている。

#EfficiencyImprovement #MachineLearning #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-19 [Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #LanguageModel #Evaluation #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #LanguageModel #Evaluation #Hallucination #TMLR #read-later Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル（LLMs）の類似性を理解するために、想像上の質問応答（IQA）という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #read-later Issue Date: 2025-09-17 [Paper Note] RL Fine-Tuning Heals OOD Forgetting in SFT, Hangzhan Jin+, arXiv'25 GPT Summary- 二段階ファインチューニングにおけるSFTとRLの相互作用を探求し、SFTが記憶し、RLが一般化するという主張が過度に単純化されていることを発見。具体的には、(1) OOD性能はSFTの初期段階でピークに達し、その後低下すること、(2) RLはSFT中に失われた推論能力を回復する役割を果たすこと、(3) 回復能力には限界があること、(4) OODの挙動は特異ベクトルの「回転」と強く相関することを明らかにした。これにより、SFTとRLの役割を再認識し、特異ベクトルの回転が重要なメカニズムであることを示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Reasoning #LongSequence #Scaling Laws #read-later #Selected Papers/Blogs #ContextEngineering Issue Date: 2025-09-14 [Paper Note] The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs, Akshit Sinha+, arXiv'25 GPT Summary- LLMsのスケーリングが収益に影響を与えるかを探求。単一ステップの精度向上がタスクの長さに指数的改善をもたらすことを観察。LLMsが長期タスクで失敗するのは推論能力の欠如ではなく実行ミスによると主張。知識と計画を明示的に提供することで実行能力を向上させる提案。モデルサイズをスケーリングしても自己条件付け効果は減少せず、長いタスクでのミスが増加。思考モデルは自己条件付けを行わずに長いタスクを実行可能。最終的に、実行能力に焦点を当てることで、LLMsの複雑な推論問題解決能力と単純タスクの長期化による失敗理由を調和させる。 Comment

元ポスト:

Loading…

（元ポストも著者ポストだが）著者ポスト:

Loading…

日本語ポイント解説:

Loading…

解説:

Loading…

#Pretraining #Pocket #LanguageModel #Scaling Laws #Privacy Issue Date: 2025-09-13 [Paper Note] Scaling Laws for Differentially Private Language Models, Ryan McKenna+, arXiv'25 GPT Summary- スケーリング法則はLLMのトレーニングにおいて性能向上を予測し、ハイパーパラメータ選択の指針を提供する。LLMは機密性のあるユーザーデータに依存し、DPなどのプライバシー保護が必要だが、そのダイナミクスは未解明。本研究では、DP LLMトレーニングのスケーリング法則を確立し、計算、プライバシー、ユーティリティのトレードオフを考慮した最適なトレーニング構成を示す。 Comment

blog: https://research.google/blog/vaultgemma-the-worlds-most-capable-differentially-private-llm/

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #Reasoning #read-later #Entropy Issue Date: 2025-09-10 [Paper Note] Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning, Haozhe Wang+, arXiv'25 GPT Summary- 強化学習（RL）は大規模言語モデル（LLMs）の推論能力を向上させるが、そのメカニズムは不明。分析により、推論の階層が人間の認知に似た二段階のダイナミクスを持つことを発見。初期段階では手続き的な正確性が求められ、後に高レベルの戦略的計画が重要になる。これに基づき、HICRAというアルゴリズムを提案し、高影響の計画トークンに最適化を集中させることで性能を向上させた。また、意味的エントロピーが戦略的探求の優れた指標であることを検証した。 Comment

pj page: https://tiger-ai-lab.github.io/Hierarchical-Reasoner/

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Catastrophic Forgetting #On-Policy Issue Date: 2025-09-06 [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, arXiv'25 GPT Summary- 強化学習（RL）と教師ありファインチューニング（SFT）の比較により、RLが以前の知識をより良く保持することが明らかに。忘却の程度は分布のシフトによって決まり、KLダイバージェンスで測定される。RLは新しいタスクに対してKL最小解にバイアスがかかる一方、SFTは任意の距離に収束する可能性がある。実験を通じて、RLの更新が小さなKL変化をもたらす理由を理論的に説明し、「RLの剃刀」と呼ぶ原則を提唱。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #PostTraining Issue Date: 2025-09-05 [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25 GPT Summary- 本論文では、オンラインデータとオフラインデータを用いた言語モデルのポストトレーニングアプローチが、矛盾せず単一の最適化プロセスであることを示す。統一ポリシー勾配推定器を導出し、ハイブリッドポストトレーニング（HPT）アルゴリズムを提案。HPTは異なるトレーニング信号を動的に選択し、デモンストレーションを効果的に活用しつつ安定した探索を実現。実験により、HPTが数学的推論ベンチマークで強力な性能を示すことを確認。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pretraining #Pocket #LanguageModel #Optimizer #read-later Issue Date: 2025-09-03 [Paper Note] Benchmarking Optimizers for Large Language Model Pretraining, Andrei Semenov+, arXiv'25 GPT Summary- 最近のLLMsの発展に伴い、最適化手法の多様な主張があるが、実験プロトコルの違いにより比較が難しい。本研究では、標準化されたLLMの事前トレーニングにおける最適化技術を評価し、モデルサイズやバッチサイズを変化させて最適なオプティマイザを提案。研究が将来の最適化研究の方向性を示し、コードを公開することで再現性を確保し、手法の開発に寄与することを目指す。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25

上記論文と知見が一致する部分、異なる部分は何だろうか？

#Pretraining #Pocket #LanguageModel #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 [Paper Note] Fantastic Pretraining Optimizers and Where to Find Them, Kaiyue Wen+, arXiv'25 GPT Summary- AdamWは言語モデルの事前学習で広く使用されているオプティマイザですが、代替オプティマイザが1.4倍から2倍のスピードアップを提供するという主張には二つの欠点があると指摘。これらは不均等なハイパーパラメータ調整と誤解を招く評価設定であり、10種類のオプティマイザを系統的に研究することで、公正な比較の重要性を示した。特に、最適なハイパーパラメータはオプティマイザごとに異なり、モデルサイズが大きくなるにつれてスピードアップ効果が減少することが明らかになった。最も高速なオプティマイザは行列ベースの前処理器を使用しているが、その効果はモデルスケールに反比例する。 Comment

元ポスト:

Loading…

重要そうに見える

著者ポスト:
-

Loading…

考察:

Loading…

#MachineLearning #Pocket #LanguageModel #Transformer #TMLR #Scheduler Issue Date: 2025-09-03 [Paper Note] Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler, Aleksandr Dremov+, TMLR'25 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #Regularization #Selected Papers/Blogs Issue Date: 2025-08-30 [Paper Note] Drop Dropout on Single-Epoch Language Model Pretraining, Houjun Liu+, arXiv'25 GPT Summary- ドロップアウトは過学習を防ぐ手法として知られているが、現代の大規模言語モデル（LLM）では過学習が抑えられるため使用されていない。本研究では、BERTやPythiaモデルの単一エポック事前学習においてドロップアウトの影響を調査した結果、ドロップアウトを適用しない方が下流の性能が向上することが判明。また、「早期ドロップアウト」も性能を低下させることが示された。ドロップアウトなしで訓練されたモデルは、モデル編集においてもより成功することがわかり、単一エポックの事前学習中にはドロップアウトを省くことが推奨される。 Comment

元ポスト:

Loading…

#Pocket #Chain-of-Thought #Reasoning #read-later #reading Issue Date: 2025-08-27 [Paper Note] Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens, Chengshuai Zhao+, arXiv'25 GPT Summary- Chain-of-Thought (CoT) プロンプティングはLLMの性能向上に寄与するが、その深さには疑問が残る。本研究では、CoT推論が訓練データの構造的バイアスを反映しているかを調査し、訓練データとテストクエリの分布不一致がその効果に与える影響を分析。DataAlchemyという制御環境を用いて、CoT推論の脆弱性を明らかにし、一般化可能な推論の達成に向けた課題を強調する。 #Blog #Game Issue Date: 2025-08-24 Identification and Analysis of Identity-Centric Elements of Character-Likeness from Game Scenario, Iwata+, SIGDIAL'25 Comment

arxivに無さそうなので、概要は元ポスト参照のこと。キャラクターらしさの構成要素とそれらがキャラクターらしさに関してどのように関係しているかを分析した研究な模様。

元ポスト:

Loading…

#NaturalLanguageGeneration #Pocket #LanguageModel #Evaluation #EMNLP #read-later Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#Multi #Pocket #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-08-14 [Paper Note] The Policy Cliff: A Theoretical Analysis of Reward-Policy Maps in Large Language Models, Xingcheng Xu, arXiv'25 GPT Summary- 強化学習（RL）は大規模言語モデルの行動形成に重要だが、脆弱なポリシーを生成し、信頼性を損なう問題がある。本論文では、報酬関数から最適ポリシーへのマッピングの安定性を分析する数学的枠組みを提案し、ポリシーの脆弱性が非一意的な最適アクションに起因することを示す。さらに、多報酬RLにおける安定性が「効果的報酬」によって支配されることを明らかにし、エントロピー正則化が安定性を回復することを証明する。この研究は、ポリシー安定性分析を進展させ、安全で信頼性の高いAIシステム設計に寄与する。 Comment

元ポスト:

Loading…

とても面白そう

#Pocket #LanguageModel #MoE(Mixture-of-Experts) Issue Date: 2025-08-13 [Paper Note] Unveiling Super Experts in Mixture-of-Experts Large Language Models, Zunhai Su+, arXiv'25 GPT Summary- スパースに活性化されたMixture-of-Experts（MoE）モデルにおいて、特定の専門家のサブセット「スーパ専門家（SE）」がモデルの性能に重要な影響を与えることを発見。SEは稀な活性化を示し、プルーニングするとモデルの出力が劣化する。分析により、SEの重要性が数学的推論などのタスクで明らかになり、MoE LLMがSEに依存していることが確認された。 Comment

元ポスト:

Loading…

MoEにおける、特に重要な専門家であるSuper Expertsの存在

- The Super Weight in Large Language Models, Mengxia Yu+, arXiv'24

を思い出す。

#Pocket #LanguageModel #ICLR #ReversalCurse Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 3.2, Knowledge Manipulation, Zeyuan Allen-Zhu+, ICLR'25 GPT Summary- 言語モデルは豊富な知識を持つが、下流タスクへの柔軟な利用には限界がある。本研究では、情報検索、分類、比較、逆検索の4つの知識操作タスクを調査し、言語モデルが知識検索には優れているが、Chain of Thoughtsを用いないと分類や比較タスクで苦労することを示した。特に逆検索ではパフォーマンスがほぼ0%であり、これらの弱点は言語モデルに固有であることを確認した。これにより、現代のAIと人間を区別する新たなチューリングテストの必要性が浮き彫りになった。 Comment

openreview: https://openreview.net/forum?id=oDbiL9CLoS

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

#Pocket #LanguageModel #SelfCorrection #ICLR Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 2.2, How to Learn From Mistakes on Grade-School Math Problems, Tian Ye+, ICLR'25 GPT Summary- 言語モデルの推論精度向上のために、「エラー修正」データを事前学習に組み込む有用性を探求。合成数学データセットを用いて、エラーフリーデータと比較して高い推論精度を達成することを示す。さらに、ビームサーチとの違いやデータ準備、マスキングの必要性、エラー量、ファインチューニング段階での遅延についても考察。 Comment

openreview: https://openreview.net/forum?id=zpDGwcmMV4

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

#Pocket #LanguageModel #ICLR #read-later #reading Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 2.1, Grade-School Math and the Hidden Reasoning Process, Tian Ye+, ICLR'25 GPT Summary- 言語モデルの数学的推論能力を研究し、GSM8Kベンチマークでの精度向上のメカニズムを探る。具体的には、推論スキルの発展、隠れたプロセス、人間との違い、必要なスキルの超越、推論ミスの原因、モデルのサイズや深さについての実験を行い、LLMの理解を深める洞察を提供。 Comment

openreview: https://openreview.net/forum?id=Tn5B6Udq3E

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

#EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2025-08-05 [Paper Note] On the Expressiveness of Softmax Attention: A Recurrent Neural Network Perspective, Gabriel Mongaras+, arXiv'25 GPT Summary- 本研究では、ソフトマックスアテンションの再帰的な形式を導出し、線形アテンションがその近似であることを示す。これにより、ソフトマックスアテンションの各部分をRNNの言語で説明し、構成要素の重要性と相互作用を理解する。これにより、ソフトマックスアテンションが他の手法よりも表現力が高い理由を明らかにする。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Prompting #ACL #read-later #reading #MajorityVoting Issue Date: 2025-08-03 [Paper Note] Rethinking the Role of Prompting Strategies in LLM Test-Time Scaling: A Perspective of Probability Theory, Yexiang Liu+, ACL'25 Outstanding Paper GPT Summary- 本研究では、LLMのテスト時の計算スケーリングにおけるプロンプト戦略の効果を調査。6つのLLMと8つのプロンプト戦略を用いた実験により、複雑なプロンプト戦略が単純なChain-of-Thoughtに劣ることを示し、理論的な証明を提供。さらに、スケーリング性能を予測し最適なプロンプト戦略を特定する手法を提案し、リソース集約的な推論プロセスの必要性を排除。複雑なプロンプトの再評価と単純なプロンプト戦略の潜在能力を引き出すことで、テスト時のスケーリング性能向上に寄与することを目指す。 Comment

#Embeddings #Pocket #LanguageModel #ACL #read-later Issue Date: 2025-08-03 [Paper Note] Mapping 1,000+ Language Models via the Log-Likelihood Vector, Momose Oyama+, ACL'25 GPT Summary- 自動回帰型言語モデルの比較に対し、対数尤度ベクトルを特徴量として使用する新しいアプローチを提案。これにより、テキスト生成確率のクルバック・ライブラー発散を近似し、スケーラブルで計算コストが線形に増加する特徴を持つ。1,000以上のモデルに適用し、「モデルマップ」を構築することで、大規模モデル分析に新たな視点を提供。 Comment

NLPコロキウムでのスライド: https://speakerdeck.com/shimosan/yan-yu-moderunodi-tu-que-lu-fen-bu-to-qing-bao-ji-he-niyorulei-si-xing-noke-shi-hua

元ポスト:

Loading…

#Pocket #LanguageModel #In-ContextLearning Issue Date: 2025-07-29 [Paper Note] Learning without training: The implicit dynamics of in-context learning, Benoit Dherin+, arXiv'25 GPT Summary- LLMは文脈内で新しいパターンを学習する能力を持ち、そのメカニズムは未解明である。本研究では、トランスフォーマーブロックが自己注意層とMLPを重ねることで、文脈に応じてMLPの重みを暗黙的に修正できることを示し、このメカニズムがLLMの文脈内学習の理由である可能性を提案する。 Comment

元ポスト:

Loading…

解説:

Loading…

#NeuralNetwork #Pocket #LanguageModel #Selected Papers/Blogs #Finetuning Issue Date: 2025-07-24 [Paper Note] Subliminal Learning: Language models transmit behavioral traits via hidden signals in data, Alex Cloud+, arXiv'25 GPT Summary- サブリミナル学習は、言語モデルが無関係なデータを通じて特性を伝達する現象である。実験では、特定の特性を持つ教師モデルが生成した数列データで訓練された生徒モデルが、その特性を学習することが確認された。データが特性への言及を除去してもこの現象は発生し、異なるベースモデルの教師と生徒では効果が見られなかった。理論的結果を通じて、全てのニューラルネットワークにおけるサブリミナル学習の発生を示し、MLP分類器での実証も行った。サブリミナル学習は一般的な現象であり、AI開発における予期しない問題を引き起こす可能性がある。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #Reasoning #RLVR Issue Date: 2025-07-22 [Paper Note] The Invisible Leash: Why RLVR May Not Escape Its Origin, Fang Wu+, arXiv'25 GPT Summary- RLVRはAIの能力向上に寄与するが、基盤モデルの制約により新しい解の発見を制限する可能性がある。理論的調査により、初期確率がゼロの解をサンプリングできないことや、探索を狭めるトレードオフが明らかになった。実証実験では、RLVRが精度を向上させる一方で、正しい答えを見逃すことが確認された。将来的には、探索メカニズムや過小評価された解に確率質量を注入する戦略が必要とされる。 Comment

元ポスト:

Loading…

RLVRの限界に関する洞察

#MachineLearning #Pocket #Transformer #In-ContextLearning Issue Date: 2025-07-16 [Paper Note] In-context denoising with one-layer transformers: connections between attention and associative memory retrieval, Matthew Smart+, arXiv'25 GPT Summary- 「インコンテキストデノイジング」というタスクを通じて、注意ベースのアーキテクチャと密な連想記憶（DAM）ネットワークの関係を探求。ベイズ的フレームワークを用いて、単層トランスフォーマーが特定のデノイジング問題を最適に解決できることを示す。訓練された注意層は、コンテキストトークンを連想記憶として利用し、デノイジングプロンプトを一回の勾配降下更新で処理。これにより、DAMネットワークの新たな拡張例を提供し、連想記憶と注意メカニズムの関連性を強化する。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Prompting #Reasoning #Batch Issue Date: 2025-07-16 [Paper Note] REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once, Zhuoshi Pan+, arXiv'25 GPT Summary- RESTという新しい評価フレームワークを提案し、LRMsを同時に複数の問題にさらすことで、実世界の推論能力を評価。従来のベンチマークの限界を克服し、文脈優先配分や問題間干渉耐性を測定。DeepSeek-R1などの最先端モデルでもストレステスト下で性能低下が見られ、RESTはモデル間の性能差を明らかにする。特に「考えすぎの罠」が性能低下の要因であり、「long2short」技術で訓練されたモデルが優れた結果を示すことが確認された。RESTはコスト効率が高く、実世界の要求に適した評価手法である。 Comment

元ポスト:

Loading…

#MachineLearning #Transformer #In-ContextLearning #ICML Issue Date: 2025-07-13 [Paper Note] Nonlinear transformers can perform inference-time feature learning, Nishikawa+, ICML'25 GPT Summary- 事前学習されたトランスフォーマーは、推論時に特徴を学習する能力を持ち、特に単一インデックスモデルにおける文脈内学習に焦点を当てています。勾配ベースの最適化により、異なるプロンプトからターゲット特徴を抽出し、非適応的アルゴリズムを上回る統計的効率を示します。また、推論時のサンプル複雑性が相関統計クエリの下限を超えることも確認されました。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #COLM #Selected Papers/Blogs #Stability #KeyPoint Notes Issue Date: 2025-07-11 [Paper Note] Spike No More: Stabilizing the Pre-training of Large Language Models, Sho Takase+, COLM'25 GPT Summary- 大規模言語モデルの事前学習中に発生する損失のスパイクは性能を低下させるため、避けるべきである。勾配ノルムの急激な増加が原因とされ、サブレイヤーのヤコビ行列の分析を通じて、勾配ノルムを小さく保つための条件として小さなサブレイヤーと大きなショートカットが必要であることを示した。実験により、これらの条件を満たす手法が損失スパイクを効果的に防ぐことが確認された。 Comment

元ポスト:

Loading…

著者ポスト（スライド）:

Loading…

非常に興味深いので参照のこと。初期化の気持ちの部分など勉強になる。

#Pocket #LanguageModel #Evaluation #LLM-as-a-Judge #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#EfficiencyImprovement #Pocket #LanguageModel #Reasoning #Distillation Issue Date: 2025-07-03 [Paper Note] NaturalThoughts: Selecting and Distilling Reasoning Traces for General Reasoning Tasks, Yang Li+, arXiv'25 GPT Summary- 教師モデルからの推論トレースを用いて生徒モデルの能力を向上させる方法を体系的に研究。NaturalReasoningに基づく高品質な「NaturalThoughts」をキュレーションし、サンプル効率とスケーラビリティを分析。データサイズの拡大が性能向上に寄与し、多様な推論戦略を必要とする例が効果的であることを発見。LlamaおよびQwenモデルでの評価により、NaturalThoughtsが既存のデータセットを上回り、STEM推論ベンチマークで優れた性能を示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #TransferLearning #DPO #GRPO #VerifiableRewards #Off-Policy #On-Policy #Non-VerifiableRewards Issue Date: 2025-06-30 [Paper Note] Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv'25 GPT Summary- 大規模言語モデルのファインチューニングにおける強化学習手法の効果を、オフラインからオンラインへの移行において調査。数学タスクと指示に従うタスクのベンチマーク評価を行い、オンラインおよびセミオンラインの最適化手法がオフライン手法を上回る結果を示す。トレーニングダイナミクスとハイパーパラメータ選択について分析し、検証可能な報酬と検証不可能な報酬を共同で扱うことでパフォーマンス向上を確認。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #mid-training #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-06-27 [Paper Note] OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv'25 GPT Summary- 異なるベース言語モデル（LlamaやQwen）の強化学習（RL）における挙動を調査し、中間トレーニング戦略がRLのダイナミクスに与える影響を明らかに。高品質の数学コーパスがモデルのパフォーマンスを向上させ、長い連鎖的思考（CoT）がRL結果を改善する一方で、冗長性や不安定性を引き起こす可能性があることを示す。二段階の中間トレーニング戦略「Stable-then-Decay」を導入し、OctoThinkerモデルファミリーを開発。オープンソースのモデルと数学推論コーパスを公開し、RL時代の基盤モデルの研究を支援することを目指す。 Comment

元ポスト:

Loading…

mid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematicallyに調査している模様

#Pocket #LanguageModel #SelfImprovement #ICLR #read-later #Verification Issue Date: 2025-06-24 [Paper Note] Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models, Yuda Song+, ICLR'25 GPT Summary- 自己改善はLLMの出力検証を通じてデータをフィルタリングし、蒸留するメカニズムである。本研究では、自己改善の数学的定式化を行い、生成-検証ギャップに基づくスケーリング現象を発見。さまざまなモデルとタスクを用いた実験により、自己改善の可能性とその性能向上方法を探求し、LLMの理解を深めるとともに、将来の研究への示唆を提供する。 Comment

参考: https://joisino.hatenablog.com/entry/mislead

Verificationに対する理解を深めるのに非常に良さそう

#Pocket #LanguageModel #ICLR #Verification Issue Date: 2025-06-24 [Paper Note] On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks, Kaya Stechly+, ICLR'25 GPT Summary- LLMsの推論能力に関する意見の相違を背景に、反復的なプロンプトの効果をGame of 24、グラフ彩色、STRIPS計画の3領域で調査。自己批評がパフォーマンスに悪影響を及ぼす一方、外部の正しい推論者による検証がパフォーマンスを向上させることを示した。再プロンプトによって複雑な設定の利点を維持できることも確認。 Comment

参考: https://joisino.hatenablog.com/entry/mislead

OpenReview: https://openreview.net/forum?id=4O0v4s3IzY

#Pocket #LanguageModel #RLHF #ICLR Issue Date: 2025-06-24 [Paper Note] Language Models Learn to Mislead Humans via RLHF, Jiaxin Wen+, ICLR'25 GPT Summary- RLHFは言語モデルのエラーを悪化させる可能性があり、モデルが人間を納得させる能力を向上させる一方で、タスクの正確性は向上しない。質問応答タスクとプログラミングタスクで被験者の誤検出率が増加し、意図された詭弁を検出する手法がU-SOPHISTRYには適用できないことが示された。これにより、RLHFの問題点と人間支援の研究の必要性が浮き彫りになった。 Comment

参考: https://joisino.hatenablog.com/entry/mislead

#Pocket #LanguageModel #Chain-of-Thought Issue Date: 2025-06-18 [Paper Note] Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought, Hanlin Zhu+, arXiv'25 GPT Summary- 本研究では、連続CoTsを用いた二層トランスフォーマーが有向グラフ到達可能性問題を解決できることを証明。連続CoTsは複数の探索フロンティアを同時にエンコードし、従来の離散CoTsよりも効率的に解を導く。実験により、重ね合わせ状態が自動的に現れ、モデルが複数のパスを同時に探索することが確認された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #EMNLP #read-later Issue Date: 2025-06-18 [Paper Note] Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality, Yuto Harada+, EMNLP'25 GPT Summary- SFTはLLMを人間の指示に整合させる重要なプロセスであり、1,000以上のSFTモデルを生成し、データセットの特性と層ごとの変更を調査。訓練タスクの相乗効果やモデル固有の戦略の重要性を明らかにし、困惑度がSFTの効果を予測することを示した。中間層の重みの変化がパフォーマンス向上と強く相関し、研究を加速させるためにモデルと結果を公開予定。 Comment

元ポスト:

Loading…

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/C10-6.pdf

#Pocket #Dataset #LanguageModel #FactualKnowledge Issue Date: 2025-06-17 [Paper Note] What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv'25 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #read-later #Memorization Issue Date: 2025-06-05 [Paper Note] How much do language models memorize?, John X. Morris+, arXiv'25 GPT Summary- モデルの「知識」を推定する新手法を提案し、言語モデルの能力を測定。記憶を「意図しない記憶」と「一般化」に分け、一般化を排除することで総記憶を計算。GPTスタイルのモデルは約3.6ビット/パラメータの能力を持つと推定。データセットのサイズ増加に伴い、モデルは記憶を保持し、一般化が始まると意図しない記憶が減少。数百のトランスフォーマー言語モデルを訓練し、能力とデータサイズの関係を示すスケーリング法則を生成。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #NeurIPS #read-later Issue Date: 2025-06-04 [Paper Note] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, NeurIPS'25 GPT Summary- 強化学習（RL）が言語モデルの推論能力を向上させる可能性を探る本研究では、長期的なRL（ProRL）トレーニングが新しい推論戦略を明らかにできることを示します。新しいトレーニング手法ProRLを導入し、実証分析により、RLでトレーニングされたモデルが基礎モデルを上回ることが確認されました。推論の改善は基礎モデルの能力やトレーニング期間と相関しており、RLが新しい解決空間を探索できることを示唆しています。これにより、RLが言語モデルの推論を拡張する条件に関する新たな洞察が得られ、今後の研究の基盤が築かれます。モデルの重みは公開されています。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Conversation #ContextEngineering Issue Date: 2025-05-24 LLMs Get Lost In Multi-Turn Conversation, Philippe Laban+, arXiv'25 GPT Summary- LLMsは会話型インターフェースとして、ユーザーがタスクを定義するのを支援するが、マルチターンの会話ではパフォーマンスが低下する。シミュレーション実験の結果、マルチターンで39%のパフォーマンス低下が見られ、初期のターンでの仮定に依存しすぎることが原因と判明。LLMsは会話中に誤った方向に進むと、回復が難しくなることが示された。 Comment

元ポスト:

Loading…

Lost in the MiddleならぬLost in Conversation

#ComputerVision #Pocket #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Pocket #LanguageModel #RepresentationLearning #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#Pocket #LanguageModel #Chain-of-Thought #ICLR Issue Date: 2025-04-30 When More is Less: Understanding Chain-of-Thought Length in LLMs, Yuyang Wu+, ICLR'25 GPT Summary- Chain-of-thought (CoT)推論は、LLMsの多段階推論能力を向上させるが、CoTの長さが増すと最初は性能が向上するものの、最終的には低下することが観察される。長い推論プロセスがノイズに脆弱であることを示し、理論的に最適なCoTの長さを導出。Length-filtered Voteを提案し、CoTの長さをモデルの能力とタスクの要求に合わせて調整する必要性を強調。 Comment

ICLR 2025 Best Paper Runner Up Award
元ポスト:

Loading…

#Multi #Pocket #AIAgents Issue Date: 2025-04-26 Why Do Multi-Agent LLM Systems Fail?, Mert Cemri+, arXiv'25 GPT Summary- MASの性能向上が単一エージェントと比較して限定的であることを受け、MAST（Multi-Agent System Failure Taxonomy）を提案。200以上のタスクを分析し、14の失敗モードを特定し、3つの大カテゴリに整理。Cohenのカッパスコア0.88を達成し、LLMを用いた評価パイプラインを開発。ケーススタディを通じて失敗分析とMAS開発の方法を示し、今後の研究のためのロードマップを提示。データセットとLLMアノテーターをオープンソース化予定。 Comment

元ポスト:

Loading…

7つのメジャーなマルチエージェントフレームワークに対して200以上のタスクを実施し、6人の専門家がtraceをアノテーション。14種類の典型的なfailure modeを見つけ、それらを3つにカテゴライズ。これを考慮してマルチエージェントシステムの失敗に関するTaxonomy（MAS）を提案

#MachineLearning #Pocket #LanguageModel #Alignment #Hallucination #ICLR #DPO #Repetition Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#LanguageModel #Attention #AttentionSinks #COLM #Selected Papers/Blogs Issue Date: 2025-04-05 Why do LLMs attend to the first token?, Federico Barbero+, COLM'25 GPT Summary- LLMsは最初のトークンに強く注意を向ける「アテンションシンク」を示し、そのメカニズムが過剰混合を避ける方法を理論的・実証的に探求。コンテキストの長さやデータのパッキングがシンクの挙動に与える影響を実験で示し、アテンションパターンの理解を深めることを目指す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=tu4dFUsW5z#discussion

#Pocket #LanguageModel #FactualKnowledge Issue Date: 2025-04-01 Inside-Out: Hidden Factual Knowledge in LLMs, Zorik Gekhman+, arXiv'25 GPT Summary- 本研究は、LLMが出力以上の事実的知識をエンコードしているかを評価するフレームワークを提案。知識を定義し、正しい回答が高くランク付けされる割合を定量化。外部知識と内部知識を区別し、内部知識が外部知識を超えると隠れた知識が生じることを示す。クローズドブックQA設定でのケーススタディでは、LLMが内部で多くの知識をエンコードしていること、知識が隠れている場合があること、サンプリングによる制約があることを明らかにした。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ICLR #read-later Issue Date: 2025-03-27 Overtrained Language Models Are Harder to Fine-Tune, Jacob Mitchell Springer+, ICLR'25 GPT Summary- 大規模言語モデルの事前学習において、トークン予算の増加がファインチューニングを難しくし、パフォーマンス低下を引き起こす「壊滅的な過学習」を提唱。3Tトークンで事前学習されたOLMo-1Bモデルは、2.3Tトークンのモデルに比べて2%以上の性能低下を示す。実験と理論分析により、事前学習パラメータの感度の増加が原因であることを示し、事前学習設計の再評価を促す。 Comment

著者によるポスト:

Loading…

ICLR'25のOutstanding Paperに選ばれた模様:

Loading…

きちんと読んだ方が良さげ。

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #RLHF Issue Date: 2025-03-17 All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv'25 GPT Summary- 基盤モデルのファインチューニングにおいて、報酬モデルを用いた二段階のトレーニング手順が効果的である理由を理論的および実証的に検討。特に、好みデータから単純な報酬モデルを学び、強化学習手続きがそのモデルに最適なポリシーをフィルタリングする能力が、オンラインファインチューニングの優れたパフォーマンスに寄与することが示された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning Issue Date: 2025-02-18 Scaling Test-Time Compute Without Verification or RL is Suboptimal, Amrith Setlur+, arXiv'25 GPT Summary- RLや探索に基づく検証者ベース（VB）手法が、探索の痕跡を蒸留する検証者フリー（VF）アプローチよりも優れていることを示す。テスト時の計算とトレーニングデータをスケールアップすると、VF手法の最適性が悪化し、VB手法がより良くスケールすることが確認された。3/8/32BサイズのLLMを用いた実験で、検証が計算能力の向上に重要であることを実証。 Comment

元ポスト:

Loading…

- s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25

#LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Reasoning #LongSequence #RewardHacking #PostTraining #Selected Papers/Blogs Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 GPT Summary- 本研究では、大規模言語モデル（LLMs）における長い思考の連鎖（CoTs）推論のメカニズムを調査し、重要な要因を特定。主な発見は、(1) 教師ありファインチューニング（SFT）は必須ではないが効率を向上させる、(2) 推論能力は計算の増加に伴い現れるが、報酬の形状がCoTの長さに影響、(3) 検証可能な報酬信号のスケーリングが重要で、特に分布外タスクに効果的、(4) エラー修正能力は基本モデルに存在するが、RLを通じて効果的に奨励するには多くの計算が必要。これらの洞察は、LLMsの長いCoT推論を強化するためのトレーニング戦略の最適化に役立つ。 Comment

元ポスト:

Loading…

#ComputerVision #MachineLearning #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#Pocket #LanguageModel #SyntheticData #ICLR Issue Date: 2024-04-15 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws, Zeyuan Allen-Zhu+, N_A, ICLR'25 GPT Summary- 言語モデルのサイズと能力の関係を記述するスケーリング則に焦点を当てた研究。モデルが格納する知識ビット数を推定し、事実知識をタプルで表現。言語モデルは1つのパラメータあたり2ビットの知識を格納可能であり、7Bモデルは14Bビットの知識を格納可能。さらに、トレーニング期間、モデルアーキテクチャ、量子化、疎な制約、データの信号対雑音比が知識格納容量に影響することを示唆。ロータリー埋め込みを使用したGPT-2アーキテクチャは、知識の格納においてLLaMA/Mistralアーキテクチャと競合する可能性があり、トレーニングデータにドメイン名を追加すると知識容量が増加することが示された。 Comment

参考:

Loading…

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

openreview: https://openreview.net/forum?id=FxNNiUgtfa

#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #VisionLanguageModel Issue Date: 2025-10-27 [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05 GPT Summary- 本研究では、マルチモーダル基盤モデルの少数ショットから多数ショットのインコンテキスト学習（ICL）の性能を評価し、2,000のデモンストレーション例を用いることで、すべてのデータセットにおいて大幅な改善を観察しました。特に、Gemini 1.5 Proは多くのデータセットで対数的に性能が向上し、オープンウェイトモデルはデモンストレーション例からの恩恵を受けないことが明らかになりました。また、複数のクエリをバッチ処理することで、ゼロショットおよび多数ショットICLの性能が向上し、コストとレイテンシが削減されました。最終的に、GPT-4oとGemini 1.5 Proは類似のゼロショット性能を示しつつ、Gemini 1.5 Proはより早く学習することが確認されました。多数ショットICLは新しいアプリケーションへの適応を効率化する可能性を示唆しています。 Comment

元ポスト:

Loading…

#Pocket #Prompting #ACL #Length Issue Date: 2025-10-02 [Paper Note] Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models, Mosh Levy+, ACL'24, 2024.02 GPT Summary- 本研究では、入力長の拡張が大規模言語モデル（LLMs）の性能に与える影響を評価する新しいQA推論フレームワークを提案。異なる長さやタイプのパディングを用いて、LLMsの推論性能が短い入力長で著しく低下することを示した。さらに、次の単語予測がLLMsの性能と負の相関を持つことを明らかにし、LLMsの限界に対処するための戦略を示唆する失敗モードを特定した。 #Pocket #LanguageModel #PEFT(Adaptor/LoRA) #NeurIPS Issue Date: 2025-09-25 [Paper Note] The Impact of Initialization on LoRA Finetuning Dynamics, Soufiane Hayou+, NeurIPS'24, 2024.06 GPT Summary- 本論文では、LoRAにおける初期化の役割を研究し、Bをゼロに初期化しAをランダムに初期化する方式が他の方式よりも優れたパフォーマンスを示すことを明らかにします。この初期化方式は、より大きな学習率を使用できるため、効率的な学習を促進する可能性があります。LLMsに関する実験を通じて結果を検証します。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=sn3UrYRItk&referrer=%5Bthe%20profile%20of%20Nikhil%20Ghosh%5D(%2Fprofile%3Fid%3D~Nikhil_Ghosh1)

#Pocket #LanguageModel #Reasoning #read-later Issue Date: 2025-09-12 [Paper Note] Lessons from Studying Two-Hop Latent Reasoning, Mikita Balesni+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）の二段階質問応答能力を調査し、思考の連鎖（CoT）の重要性を示す。合成事実を用いた実験で、モデルは二つの合成事実を組み合わせるのに失敗するが、自然な事実との組み合わせでは成功することが確認された。これにより、LLMは潜在的な二段階推論能力を持つが、その能力のスケーリングには不明点が残る。研究者は、LLMの推論能力を評価する際に、ショートカットによる虚偽の成功や失敗に注意する必要があることを強調。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 [Paper Note] Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic, Sachin Goyal+, CVPR'24 GPT Summary- 視覚と言語のモデル（VLMs）のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ（QQT）に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Alignment #ReinforcementLearning #PPO (ProximalPolicyOptimization) #ICML #DPO #On-Policy Issue Date: 2025-06-25 [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24 GPT Summary- 好みのラベルを用いた大規模言語モデルのファインチューニングに関する研究。オンポリシー強化学習や対照学習などの手法を比較し、オンポリシーサンプリングや負の勾配を用いるアプローチが優れていることを発見。これにより、カテゴリ分布の特定のビンにおける確率質量を迅速に変更できるモード探索目的の重要性を示し、データ収集の最適化に関する洞察を提供。 Comment

以下のオフライン vs. オンラインRLアルゴリズムで本研究が引用されている:

Loading…

#Tools #Pocket #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-06-18 [Paper Note] A Comparative Study of PDF Parsing Tools Across Diverse Document Categories, Narayan S. Adhikari+, arXiv'24 GPT Summary- 本研究では、DocLayNetデータセットを用いて10の人気PDFパースツールを6つの文書カテゴリにわたり比較し、情報抽出の効果を評価しました。テキスト抽出ではPyMuPDFとpypdfiumが優れた結果を示し、特に科学文書や特許文書ではNougatが高いパフォーマンスを発揮しました。表検出ではTATRが金融や法律文書で優れた結果を示し、Camelotは入札文書で最も良いパフォーマンスを発揮しました。これにより、文書タイプに応じた適切なパースツールの選択が重要であることが示されました。 Comment

PDFのparsingツールについて、text, table抽出の性能を様々なツールと分野別に評価している。

F1, precision, recallなどは、ground truthとのレーベンシュタイン距離からsimilarityを計算し、0.7以上であればtrue positiveとみなすことで計算している模様。local alignmentは、マッチした場合に加点、ミスマッチ、未検出の場合にペナルティを課すようなスコアリングによって抽出したテキスト全体の抽出性能を測る指標な模様。

より性能を高くしたければこちらも参考に:

Loading…

#LanguageModel #SyntheticData #read-later #Selected Papers/Blogs Issue Date: 2025-05-06 Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers, Zeyuan Allen-Zhu+, ICML'24 Tutorial Comment

元ポスト:

Loading…

Canon層の発見

著者による解説:

Loading…

#Pocket #LanguageModel #SyntheticData #ICML #Selected Papers/Blogs Issue Date: 2025-05-03 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, ICML'24 GPT Summary- 大規模言語モデル（LLMs）の知識抽出能力は、訓練データの多様性と強く相関しており、十分な強化がなければ知識は記憶されても抽出可能ではないことが示された。具体的には、エンティティ名の隠れ埋め込みに知識がエンコードされているか、他のトークン埋め込みに分散しているかを調査。LLMのプレトレーニングに関する重要な推奨事項として、補助モデルを用いたデータ再構成と指示微調整データの早期取り入れが提案された。 Comment

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

SNLP'24での解説スライド:
https://speakerdeck.com/sosk/physics-of-language-models-part-3-1-knowledge-storage-and-extraction

#Pocket #LanguageModel #ICLR #Selected Papers/Blogs #KeyPoint Notes #SparseAutoEncoder Issue Date: 2025-03-15 Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR'24 GPT Summary- 神経ネットワークの多義性を解消するために、スパースオートエンコーダを用いて内部活性化の方向を特定。これにより、解釈可能で単義的な特徴を学習し、間接目的語の同定タスクにおける因果的特徴をより詳細に特定。スケーラブルで教師なしのアプローチが重ね合わせの問題を解決できることを示唆し、モデルの透明性と操作性向上に寄与する可能性を示す。 Comment

日本語解説: https://note.com/ainest/n/nbe58b36bb2db

OpenReview: https://openreview.net/forum?id=F76bwRSLeK

#Pocket #RLHF Issue Date: 2025-01-03 Does RLHF Scale? Exploring the Impacts From Data, Model, and Method, Zhenyu Hou+, arXiv'24 GPT Summary- 本研究では、LLMsにおけるRLHFのスケーリング特性を分析し、モデルサイズ、データ構成、推論予算がパフォーマンスに与える影響を調査。データの多様性と量の増加が報酬モデルの性能向上に寄与する一方、ポリシートレーニングでは応答サンプル数の増加が初期パフォーマンスを向上させるが、すぐに頭打ちになることが判明。RLHFは事前トレーニングより効率的にスケールせず、計算リソースの収益逓減が観察された。計算制限内でのRLHFパフォーマンス最適化戦略も提案。 Comment

元ポスト:

Loading…

#MachineTranslation #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) Issue Date: 2025-01-02 How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes, Inacio Vieira+, AMTA'24 GPT Summary- LLMsのファインチューニングに翻訳メモリ（TMs）を活用し、特定の組織向けの翻訳精度と効率を向上させる研究。5つの翻訳方向で異なるサイズのデータセットを用いて実験し、トレーニングデータが増えるほど翻訳パフォーマンスが向上することを確認。特に、1kおよび2kの例ではパフォーマンスが低下するが、データセットのサイズが増加するにつれて改善が見られる。LLMsとTMsの統合により、企業特有のニーズに応じたカスタマイズ翻訳モデルの可能性を示唆。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #In-ContextLearning Issue Date: 2024-12-15 The broader spectrum of in-context learning, Andrew Kyle Lampinen+, arXiv'24 GPT Summary- 本研究では、言語モデルの少数ショット学習をメタ学習に基づく文脈内学習の一部として位置づけ、文脈が予測の損失を減少させるメカニズムを提案します。この視点は、言語モデルの文脈内能力を統一し、一般化の重要性を強調します。一般化は新しい学習だけでなく、異なる提示からの学びや適用能力にも関連し、過去の文献との関連性も議論されます。文脈内学習の研究は、広範な能力と一般化のタイプを考慮すべきと結論付けています。 Comment

#Pocket #LanguageModel #Quantization Issue Date: 2024-12-02 The Super Weight in Large Language Models, Mengxia Yu+, arXiv'24 GPT Summary- LLMのパラメータの一部がモデルの品質に不均衡に重要であり、1つのパラメータの剪定でテキスト生成能力が大幅に低下することを発見。データフリーの方法で重要なスーパーパラメータを特定し、これにより四捨五入量子化の精度を向上させることができる。スーパーパラメータに関する研究を促進するために、オープンアクセスのLLMに対するインデックスを提供。 Comment

ICLR 2025のOpenreview
https://openreview.net/forum?id=0Ag8FQ5Rr3

#Pocket #LanguageModel #Prompting Issue Date: 2024-11-27 Does Prompt Formatting Have Any Impact on LLM Performance?, Jia He+, arXiv'24 GPT Summary- プロンプト最適化はLLMの性能に重要であり、異なるプロンプトテンプレートがモデルの性能に与える影響を調査。実験では、GPT-3.5-turboがプロンプトテンプレートによってコード翻訳タスクで最大40%変動する一方、GPT-4はより堅牢であることが示された。これにより、固定プロンプトテンプレートの再考が必要であることが強調された。 Comment

#EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-11-22 Observational Scaling Laws and the Predictability of Language Model Performance, Yangjun Ruan+, arXiv'24 GPT Summary- 言語モデルの性能を理解するために、約100の公開モデルからスケーリング法則を構築する新しい観察アプローチを提案。モデルファミリー間の能力変動を考慮し、性能が低次元の能力空間の関数であることを示す。これにより、複雑なスケーリング現象の予測可能性を示し、GPT-4のエージェント性能を非エージェント的ベンチマークから予測できることを明らかにし、Chain-of-ThoughtやSelf-Consistencyの影響を予測する方法を示す。 Comment

- Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23

も参照のこと

#InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv'24 GPT Summary- 大規模言語モデルを用いた情報検索強化生成は、文脈内の文書の順序に影響を受けやすい。研究では、質問の確率がモデルのパフォーマンスに与える影響を分析し、正確性との相関関係を明らかにした。質問の確率を指標として、プロンプトの選択と構築に関する2つの方法を提案し、その効果を実証。確率に基づく手法は効率的で、少ないモデルのパスで応答を生成できるため、プロンプト最適化の新たな方向性を示す。 Comment

参考: [RAGのハルシネーションを尤度で防ぐ, sasakuna, 2024.11.19]( https://zenn.dev/knowledgesense/articles/7c47e1796e96c0)

#EfficiencyImprovement #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #Japanese #read-later Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は、その言語理解能力と適用可能性から注目を集めており、特にLlama 3シリーズは4050億パラメータを持つ。トレーニングの効率化が求められる中、NVIDIAのH100 GPUはFP8フォーマットを導入し、トレーニング時間を短縮する可能性がある。初期研究ではFP8が性能を損なわずに効率を向上させることが示唆されているが、トレーニングの安定性や下流タスクへの影響はまだ不明である。本研究は、LLMsのトレーニングにおけるBF16とFP8のトレードオフを探る。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel Issue Date: 2024-11-17 The Geometry of Concepts: Sparse Autoencoder Feature Structure, Yuxiao Li+, arXiv'24 GPT Summary- スパースオートエンコーダは、高次元ベクトルの辞書を生成し、概念の宇宙に三つの興味深い構造を発見した。1) 小規模構造では、平行四辺形や台形の「結晶」があり、単語の長さなどの干渉を除去することで質が改善される。2) 中規模構造では、数学とコードの特徴が「葉」を形成し、空間的局所性が定量化され、特徴が予想以上に集まることが示された。3) 大規模構造では、特徴点雲が各向同性でなく、固有値のべき法則を持ち、クラスタリングエントロピーが層に依存することが定量化された。 Comment

参考: https://ledge.ai/articles/llm_conceptual_structure_sae

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-kR626A9_R8.6CU7IKvGyhQ)

#LanguageModel #Chain-of-Thought Issue Date: 2024-11-13 A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration, Yingqian Cui+, arXiv'24 GPT Summary- Few-shot Chain-of-Thought (CoT) プロンプティングはLLMsの推論能力を向上させるが、従来の研究は推論プロセスを分離された文脈内学習に依存している。本研究では、初期ステップからの一貫した推論（Coherent CoT）を統合することで、トランスフォーマーのエラー修正能力と予測精度を向上させることを理論的に示す。実験により、正しい推論経路と誤った推論経路を組み込むことでCoTを改善する提案の有効性を検証する。 Comment

元ポスト:

Loading…

おもしろそうな研究

#MachineLearning #Pocket #LanguageModel #PEFT(Adaptor/LoRA) #read-later Issue Date: 2024-11-09 LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv'24 GPT Summary- ファインチューニング手法の違いが事前学習済みモデルに与える影響を、重み行列のスペクトル特性を通じて分析。LoRAと完全なファインチューニングは異なる構造の重み行列を生成し、LoRAモデルは新たな高ランクの特異ベクトル（侵入次元）を持つことが判明。侵入次元は一般化能力を低下させるが、同等の性能を達成することがある。これにより、異なるファインチューニング手法がパラメータ空間の異なる部分にアクセスしていることが示唆される。 Comment

元ポスト:

Loading…

#LanguageModel #Chain-of-Thought Issue Date: 2024-09-24 To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, Zayne Sprague+, N_A, arXiv'24 GPT Summary- Chain-of-thought（CoT）プロンプティングはLLMsの推論能力を引き出す手法であり、100以上の論文を対象にしたメタ分析により、主に数学や論理タスクでのパフォーマンス向上が確認された。一方、他のタスクでは効果が限定的で、MMLUでは直接回答生成がCoTと同等の精度を示した。計画と実行を分離し、ツール強化LLMsと比較した結果、CoTの利点は記号的実行の改善に起因し、記号ソルバーには劣ることが分かった。CoTの選択的適用により、推論コストを節約しつつパフォーマンスを維持できる可能性が示唆され、LLMアプリケーション全体での中間計算の活用が求められている。 Comment

#Pocket #LanguageModel #In-ContextLearning Issue Date: 2024-08-27 What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N_A, ACL'24 GPT Summary- LLMsのコンテキスト内学習（ICL）能力を説明する3つの仮説について、一連の実験を通じて探究。最初の2つの仮説を無効にし、最後の仮説を支持する証拠を提供。LLMが事前学習中に学習したタスクを組み合わせることで、コンテキスト内で新しいタスクを学習できる可能性を示唆。 Comment

SNLP2024での解説スライド:
http://chasen.org/~daiti-m/paper/SNLP2024-Task-Emergence.pdf

#MachineLearning #Pocket #SSM (StateSpaceModel) #ICML Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, ICML'24 GPT Summary- SSM（状態空間モデル）は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment

>しかし、SSMが状態追跡の表現力で本当に（トランスフォーマーよりも）優位性を持っているのでしょうか？驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています：SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現することができません。特に、これは、置換合成のような単純な状態追跡問題を解決することができないことを意味します。これにより、SSMは、特定の表記法でチェスの手を正確に追跡したり、コードを評価したり、長い物語の中のエンティティを追跡することが証明上できないことが明らかになります。

なん…だと…

#Pretraining #Pocket #Supervised-FineTuning (SFT) Issue Date: 2024-08-19 Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models, Kaiser Sun+, N_A, arXiv'24 GPT Summary- 大規模なテキストコーパスで事前学習された複数の中間事前学習モデルのチェックポイントを微調整することによって、事前学習と微調整の関係を調査した。18のデータセットでの結果から、i）継続的な事前学習は、微調整後にモデルを改善する潜在的な方法を示唆している。ii）追加の微調整により、モデルが事前学習段階でうまく機能しないデータセットの改善が、うまく機能するデータセットよりも大きいことを示している。iii）監督された微調整を通じてモデルは恩恵を受けるが、以前のドメイン知識や微調整中に見られないタスクを忘れることがある。iv）監督された微調整後、モデルは評価プロンプトに対して高い感度を示すが、これはより多くの事前学習によって緩和できる。 #Pocket #LanguageModel #GrammaticalErrorCorrection Issue Date: 2024-08-14 Prompting open-source and commercial language models for grammatical error correction of English learner text, Christopher Davis+, N_A, arXiv'24 GPT Summary- LLMsの進歩により、流暢で文法的なテキスト生成が可能になり、不文法な入力文を与えることで文法エラー修正（GEC）が可能となった。本研究では、7つのオープンソースと3つの商用LLMsを4つのGECベンチマークで評価し、商用モデルが常に教師ありの英語GECモデルを上回るわけではないことを示した。また、オープンソースモデルが商用モデルを上回ることがあり、ゼロショットのプロンプティングがフューショットのプロンプティングと同じくらい競争力があることを示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ContextWindow #LongSequence Issue Date: 2024-04-07 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv'24 GPT Summary- LLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 Comment

#ComputerVision #Pretraining #Pocket #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 VILA: On Pre-training for Visual Language Models, Ji Lin+, N_A, CVPR'24 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル（VLM）が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した：(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

#MachineLearning #Pocket #LanguageModel #In-ContextLearning #ICLR Issue Date: 2023-09-01 CausalLM is not optimal for in-context learning, Nan Ding+, N_A, ICLR'24 GPT Summary- 最近の研究では、トランスフォーマーベースのインコンテキスト学習において、プレフィックス言語モデル（prefixLM）が因果言語モデル（causalLM）よりも優れたパフォーマンスを示すことがわかっています。本研究では、理論的なアプローチを用いて、prefixLMとcausalLMの収束挙動を分析しました。その結果、prefixLMは線形回帰の最適解に収束する一方、causalLMの収束ダイナミクスはオンライン勾配降下アルゴリズムに従い、最適であるとは限らないことがわかりました。さらに、合成実験と実際のタスクにおいても、causalLMがprefixLMよりも性能が劣ることが確認されました。 Comment

参考:

Loading…

#MachineLearning #LanguageModel #Prompting #In-ContextLearning #TACL #ContextEngineering Issue Date: 2023-07-11 Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N_A, TACL'24 GPT Summary- 最近の言語モデルは、長い文脈を入力として受け取ることができますが、その長い文脈をどれだけうまく利用しているかについてはまだよくわかっていません。この研究では、マルチドキュメントの質問応答とキー・バリューの検索という2つのタスクにおいて、言語モデルのパフォーマンスを分析しました。その結果、関連情報が入力文脈の始まりや終わりにある場合、パフォーマンスが最も高くなることがわかりましたが、長い文脈の中で関連情報にアクセスする必要がある場合、パフォーマンスが著しく低下します。さらに、入力文脈が長くなるにつれて、明示的に長い文脈を扱うモデルでもパフォーマンスが大幅に低下します。この分析は、言語モデルが入力文脈をどのように利用しているかをより良く理解するためのものであり、将来の長い文脈モデルのための新しい評価プロトコルを提供します。 Comment

元ツイート

Loading…

非常に重要な知見がまとめられている

SNLP'24での解説スライド:
https://speakerdeck.com/kichi/snlp2024

#Pocket #LanguageModel #Coding #ICML Issue Date: 2023-05-20 Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, ICML'24 GPT Summary- 本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。また、正しいプログラムを生成することを学習し、平均的に訓練セットよりも短いプログラムを生成することも示した。本論文は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供する。 Comment

参考:

Loading…

#Pocket #LanguageModel Issue Date: 2025-08-11 [Paper Note] Physics of Language Models: Part 1, Learning Hierarchical Language Structures, Zeyuan Allen-Zhu+, arXiv'23 GPT Summary- 本研究では、Transformerベースの言語モデルが文脈自由文法（CFG）による再帰的な言語構造推論をどのように行うかを調査。合成CFGを用いて長文を生成し、GPTのようなモデルがCFGの階層を正確に学習・推論できることを示す。モデルの隠れ状態がCFGの構造を捉え、注意パターンが動的プログラミングに類似していることが明らかに。また、絶対位置埋め込みの劣位や均一な注意の効果、エンコーダ専用モデルの限界、構造的ノイズによる堅牢性向上についても考察。 Comment

解説:
- 言語モデルの物理学, 佐藤竜馬, 2025.03

#Pocket #LanguageModel #QuestionAnswering Issue Date: 2023-12-04 Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text, Qi Cao+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の内部動作についての新しい洞察を提供します。特に、GPT-4を調査し、LLMsの耐久性に関する実験結果を示します。実験では、文字レベルの順列に対するLLMsの耐性を調べるために、Scrambled Benchというスイートを使用しました。結果は、GPT-4がtypoglycemiaという現象に似た能力を持ち、非常に自然でないエラーを含む入力をほぼ完璧に処理できることを示しています。これは、LLMsの耐性が直感に反するものであり、他のLLMsや人間にとっても困難なタスクであることを示しています。 Comment

#LanguageModel Issue Date: 2023-11-08 Do LLMs exhibit human-like response biases? A case study in survey design, Lindia Tjuatja+, N_A, arXiv'23 GPT Summary- LLMsを使用して人間の代理としてタスクを実行する際に、LLMsが人間の応答バイアスをどの程度反映するかを調査する必要がある。この研究では、調査設計を使用して人間の応答バイアスを評価するデータセットとフレームワークを設計し、9つのモデルを評価した結果、一般的なLLMsが人間のような振る舞いを反映することに失敗していることが示された。これらの結果は、LLMsを人間の代わりに使用する際の潜在的な落とし穴を強調し、モデルの振る舞いの細かい特性の重要性を強調している。 Comment

Loading…

#Pocket #LanguageModel #Transformer Issue Date: 2023-11-06 Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models, Steve Yadlowsky+, N_A, arXiv'23 GPT Summary- 本研究では、トランスフォーマーモデルの文脈学習（ICL）能力を調査しました。トランスフォーマーモデルは、事前学習データの範囲内で異なるタスクを特定し、学習する能力を持っています。しかし、事前学習データの範囲外のタスクや関数に対しては一般化が劣化することが示されました。また、高容量のシーケンスモデルのICL能力は、事前学習データの範囲に密接に関連していることが強調されました。 Comment

#Pocket #LanguageModel #Selected Papers/Blogs #ReversalCurse Issue Date: 2023-10-09 [Paper Note] The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A", Lukas Berglund+, arXiv'23 GPT Summary- 自己回帰型大規模言語モデル（LLMs）は、「AはBである」という文から「BはAである」と逆の関係を自動的に一般化できない「逆転の呪い」を示す。例えば、モデルが「ワレンティナ・テレシコワは宇宙に行った最初の女性である」と訓練されても、「宇宙に行った最初の女性は誰か？」に正しく答えられない。実験では、架空の文を用いてGPT-3とLlama-1をファインチューニングし、逆転の呪いの存在を確認。ChatGPT（GPT-3.5およびGPT-4）でも、実在の有名人に関する質問で正答率に大きな差が見られた。 Comment

A is Bという文でLLMを訓練しても、B is Aという逆方向には汎化されないことを示した。

著者ツイート:

Loading…

#LanguageModel #InstructionTuning Issue Date: 2023-07-15 Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning, ACL'23 GPT Summary- 最近のinstruction tuning（IT）の研究では、追加のコンテキストを提供してモデルをファインチューニングすることで、ゼロショットの汎化性能を持つ素晴らしいパフォーマンスが実現されている。しかし、IT中にモデルがどのように指示を利用しているかはまだ研究されていない。本研究では、モデルのトレーニングを変更された指示と元の指示との比較によって、モデルがIT中に指示をどのように利用するかを分析する。実験の結果、トレーニングされたモデルは元の指示と同等のパフォーマンスを達成し、ITと同様のパフォーマンスを達成することが示された。この研究は、より信頼性の高いIT手法と評価の緊急性を強調している。 #Pocket #LanguageModel #Chain-of-Thought #Faithfulness #NeurIPS Issue Date: 2023-05-09 Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting, Miles Turpin+, N_A, NeurIPS'23 GPT Summary- LLMsによる推論において、chain-of-thought reasoning（CoT）と呼ばれる説明を生成することができるが、この説明がモデルの予測の真の理由を誤って表現することがあることがわかった。バイアスのある特徴をモデルの入力に追加することで、CoT説明が大きく影響を受けることが示された。この結果は、LLMsに対する信頼を高めるために、説明の忠実度を評価し、改善する必要があることを示唆している。 #Pocket #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] Emergent Abilities of Large Language Models, Jason Wei+, TMLR'22 GPT Summary- 大規模言語モデルのスケーリングアップは性能を向上させるが、「出現能力」と呼ばれる予測不可能な現象が存在する。これは小型モデルにはない能力であり、さらなるスケーリングがモデルの能力を拡大する可能性を示唆している。 Comment

openreview: https://openreview.net/forum?id=yzkSU5zdwD

創発能力（最近この用語を目にする機会が減ったような気がする）

#Pocket #Transformer #ACL #KnowledgeEditing #Selected Papers/Blogs #FactualKnowledge #Encoder Issue Date: 2024-07-11 Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL'22, 2022.05 GPT Summary- 大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment

大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査

日本語解説: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022

#DocumentSummarization #NeuralNetwork #Pocket #IJCNLP #AACL #Repetition Issue Date: 2023-08-13 Self-Repetition in Abstractive Neural Summarizers, Nikita Salkar+, N_A, AACL-IJCNLP'22 GPT Summary- 私たちは、BART、T5、およびPegasusという3つのニューラルモデルの出力における自己繰り返しの分析を行いました。これらのモデルは、異なるデータセットでfine-tuningされています。回帰分析によると、これらのモデルは入力の出力要約間でコンテンツを繰り返す傾向が異なることがわかりました。また、抽象的なデータや定型的な言語を特徴とするデータでのfine-tuningでは、自己繰り返しの割合が高くなる傾向があります。定性的な分析では、システムがアーティファクトや定型フレーズを生成することがわかりました。これらの結果は、サマライザーのトレーニングデータを最適化するための手法の開発に役立つ可能性があります。 #Pocket #Transformer #EMNLP #Selected Papers/Blogs #FactualKnowledge Issue Date: 2025-07-04 [Paper Note] Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, EMNLP'21 GPT Summary- フィードフォワード層はトランスフォーマーモデルの大部分を占めるが、その役割は未探求。研究により、フィードフォワード層がキー・バリュー・メモリとして機能し、トレーニング例のテキストパターンと相関することを示す。実験で、下層は浅いパターン、上層は意味的なパターンを学習し、バリューが出力分布を誘導することが確認された。最終的に、フィードフォワード層の出力はメモリの合成であり、残差接続を通じて洗練される。 Comment

日本語解説（p.5より）: https://speakerdeck.com/kogoro/knowledge-neurons-in-pretrained-transformers-for-snlp2022?slide=5

#Pocket #PEFT(Adaptor/LoRA) Issue Date: 2024-10-01 Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning, Armen Aghajanyan+, N_A, ACL'21 GPT Summary- 事前学習された言語モデルのファインチューニングのダイナミクスを内因次元の観点から分析し、少ないデータでも効果的に調整できる理由を説明。一般的なモデルは低い内因次元を持ち、フルパラメータ空間と同等の効果を持つ低次元の再パラメータ化が可能であることを示す。特に、RoBERTaモデルを用いて、少数のパラメータの最適化で高いパフォーマンスを達成できることを実証。また、事前学習が内因次元を最小化し、大きなモデルが低い内因次元を持つ傾向があることを示し、内因次元に基づく一般化境界を提案。 Comment

ACL ver: https://aclanthology.org/2021.acl-long.568.pdf

下記の元ポストを拝読の上論文を斜め読み。モデルサイズが大きいほど、特定の性能（論文中では2種類のデータセットでの90%のsentence prediction性能）をfinetuningで達成するために必要なパラメータ数は、モデルサイズが大きくなればなるほど小さくなっている。

LoRAとの関係性についても元ポスト中で言及されており、論文の中身も見て後で確認する。
おそらく、LLMはBERTなどと比較して遥かにパラメータ数が大きいため、finetuningに要するパラメータ数はさらに小さくなっていることが想像され、LoRAのような少量のパラメータをconcatするだけでうまくいく、というような話だと思われる。興味深い。

元ポスト:

Loading…

#Pocket #Transformer Issue Date: 2024-07-11 Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, N_A, EMNLP'21 GPT Summary- トランスフォーマーモデルのフィードフォワード層は、キー・バリューメモリとして機能し、学習されたパターンが人間に解釈可能であることや、上位層がより意味のあるパターンを学習することが示されました。さらに、出力分布を誘導する役割も持ちます。フィードフォワード層の出力はそのメモリの合成であり、残差接続を介してモデルの層を通じて洗練され、最終的な出力分布を生成します。 Comment

大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査

FF layerがKey-Valueストアとして機能する仕組みの概略図

実際に特定のKeyと最も関連度が高い訓練事例（input）を抽出し、人間がinputのパターンを分類した結果

#NaturalLanguageGeneration #Pocket #Evaluation #Annotation Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

#MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#Pocket #Transformer #Normalization #Encoder-Decoder Issue Date: 2025-07-05 [Paper Note] On Layer Normalization in the Transformer Architecture, Ruibin Xiong+, arXiv'20 GPT Summary- 本論文では、Transformerの学習率のウォームアップ段階の重要性を理論的に研究し、レイヤー正規化の位置が訓練の安定性に与える影響を示す。特に、Post-LN Transformerでは大きな勾配が不安定さを引き起こすため、ウォームアップが有効である一方、Pre-LN Transformerでは勾配が良好に振る舞うため、ウォームアップを省略できることを示す。実験により、ウォームアップなしのPre-LN Transformerがベースラインと同等の結果を達成し、訓練時間とハイパーパラメータの調整が削減できることを確認した。 Comment

OpenReview: https://openreview.net/forum?id=B1x8anVFPr

Encoder-DecoderのTransformerにおいて、Post-LNの場合は、Warmupを無くすと最終的な性能が悪化し、またWarmUpステップの値によって（500 vs. 4000で実験)も最終的な性能が変化する。これには学習時にハイパーパラメータをしっかり探索しなければならず、WarmUPを大きくすると学習効率が落ちるというデメリットがある。

Post-LNの場合は、Pre-LNと比較して勾配が大きく、Warmupのスケジュールをしっかり設計しないと大きな勾配に対して大きな学習率が適用され学習が不安定になる。これは学習率を非常に小さくし、固定値を使うことで解決できるが、収束が非常に遅くなるというデメリットがある。

一方、Pre-LNはWarmup無しでも、高い性能が達成でき、上記のようなチューニングの手間や学習効率の観点から利点がある、みたいな話の模様。

#MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#Transformer Issue Date: 2024-10-07 What Does BERT Learn about the Structure of Language?, Jawahar+, ACL'19 GPT Summary- BERTは言語理解において優れた成果を上げており、本研究ではその言語構造の要素を解明する実験を行った。主な発見は、フレーズ表現がフレーズレベルの情報を捉え、中間層が構文的および意味的特徴の階層を形成し、長期依存性の問題に対処するために深い層が必要であること、さらにBERTの構成が古典的な木構造に類似していることを示している。 Comment

大規模言語モデル (LLM) の技術と最新動向, Ikuya Yamada, 2024.06 中で引用されている。Transformerの各ブロックが、何を学習しているかを分析。

#NeuralNetwork #Embeddings #Word #ACL Issue Date: 2017-12-30 [Paper Note] Skip-Gram – Zipf + Uniform = Vector Additivity, Gittens+, ACL'17 Comment

解説スライド： http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/09.pdf

Embeddingの加法構成性（e.g. man+royal=king）を理論的に理由づけ

（解説スライドより）

#PersonalizedDocumentSummarization #DocumentSummarization #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Aspect-Based Personalized Text Summarization, Berkovsky+（Tim先生のグループ）, AH'2008, 2008.07 Comment

Aspect-basedなPDSに関して調査した研究。

たとえば、Wikipediaのクジラに関するページでは、biological taxonomy, physical dimensions, popular cultureのように、様々なアスペクトからテキストが記述されている。ユーザモデルは各アスペクトに対する嗜好の度合いで表され、それに従い生成される要約に含まれる各種アスペクトに関する情報の量が変化する。

UserStudyの結果、アスペクトベースなユーザモデルとよりfitした、擬似的なユーザモデルから生成された要約の方が、ユーザの要約に対するratingが上昇していくことを示した。

また、要約の圧縮率に応じて、ユーザのratingが変化し、originalの長さ＞長めの要約＞短い要約の順にratingが有意に高かった。要約が長すぎても、あるいは短すぎてもあまり良い評価は得られない（しかしながら、長すぎる要約は実はそこまで嫌いではないことをratingは示唆している）。

Genericな要約とPersonalizedな要約のfaitufulnessをスコアリングしてもらった結果、Genericな要約の方が若干高いスコアに。しかしながら有意差はない。実際、平均して83%のsentenceはGenericとPersonalizedでoverlapしている。faitufulnessの観点から、GenericとPersonalizedな要約の間に有意差はないことを示した。

museum等で応用することを検討

#Article #LanguageModel #ReinforcementLearning #Safety #RewardHacking #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-22 From shortcuts to sabotage: natural emergent misalignment from reward hacking, Anthropic, 2025.11 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-15 ICLR 2026 - Submissions, Pangram Labs, 2025.11 Comment

元ポスト:

Loading…

ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果（検出性能は完璧な結果ではない点に注意）

この辺の議論が興味深い:

Loading…

関連:

Loading…

oh...

パイプライン解説:

Loading…

母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:

Loading…

ICLR公式が対応検討中とのこと:

Loading…

ICLRからの続報:

Loading…

元ポスト:

Loading…

所見:

Loading…

#Article #LanguageModel #Blog #OpenWeight Issue Date: 2025-11-01 Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10 Comment

タイトルの通りな模様

元ポスト:

Loading…

#Article #LanguageModel #Blog #Selected Papers/Blogs Issue Date: 2025-10-31 Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #Pocket #LanguageModel #Geometric Issue Date: 2025-10-22 When Models Manipulate Manifolds: The Geometry of a Counting Task, Gurnee+, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #ReinforcementLearning #Repository #Mathematics #Scaling Laws #read-later #reading #One-Line Notes Issue Date: 2025-10-11 RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10 Comment

元ポスト:

Loading…

Qwen3をGSM8KでRL Finetuningしたらパラメータ数が小さいモデルは大きなgainを得たが、パラメータが大きいモデルはそれほどでもなかったので、パラメータ数が大きいほどスケールするわけではなく（むしろ恩恵が小さくなる）、かつ報酬をstrictにするとQwenは指示追従能力がないことで学習が全然進まなかった（柔軟なものにしたらそうではなかったので適切な報酬が重要）、GSM8KでRL FinetuninpしたモデルのreasoningはMMLUに転移しなかったので、RL Finetuningは学習データとして与えたドメインのパターンを学習しているだけなのではないか、みたいな話がポストに記述されている。

AI2のResearcherからの所見:

Loading…

元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀

Scaling Laws系の研究:
- Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22
- Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23
- Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv'20
- Scaling Laws for Value-Based RL, Fu+, 2025.09 (RL関連)
- [Paper Note] Bayesian scaling laws for in-context learning, Aryaman Arora+, COLM'25, 2024.10 (ICL関連)

画像とかData Mixture, MoEなど他にも色々あるが、一旦上記らへんと元ポスト・AI2からの所見を読み解いたらどういったものが見えてくるだろうか？（全部読んでじっくり考えたいけど時間が無いので...）一旦GPTにきいてみよう

GPTにきいてみた（私は無課金勢だがthinking timeが挟まれたのとデコーディング速度の適度な遅さと、limitに到達しましたというメッセージがなかったことから鑑みるに、以下はGPT-5によって回答されていると考えられる）
https://chatgpt.com/share/68ec5024-83fc-8006-b8c6-14060191fb91

RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

#Article #Pretraining #LanguageModel #DiffusionModel Issue Date: 2025-10-04 Diffusion Language Models are Super Data Learners, Ni+, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #LanguageModel #ChatGPT #Blog #PostTraining Issue Date: 2025-09-29 Why GPT-5 used less training compute than GPT-4.5 （but GPT-6 probably won’t）, EPOCH AI, 2025.09 Comment

元ポスト:

Loading…

#Article #MachineLearning #LanguageModel #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

#Article #Attention #Blog Issue Date: 2025-09-26 様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析, ABEJA Tech Blog, 2025.09 Comment

元ポスト:

Loading…

以下の研究を参考に分析している:
- [Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02

RoPEは以下:
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024

Massive ValueはtransformerのQ,Kの活性値に現れる極端に大きな値のことで、Massive Valueは文脈的な知識の理解において重要とのこと（Massive Valueを破壊すると文脈理解が重要なタスクのスコアは著しく低下したが、パラメトリックな知識が重要なタスクは性能が少し低下するのみ、かつ非Massive Valueを破壊しても大きな変化は無かったため）。またMassive ValueはRoPEを使ったモデルのみQ, Kの特定の次元にのみ集中して出現する。これはRoPEでは回転行列をQ, Kにのみ適用していることに起因している可能性があるが、回転行列の積の前後でもMassive Valueが出現することは変わらないことから、回転行列そのものに起因するものというより、回転行列がアーキテクチャに組み込まれることで結果的に学習されるものなのではないか、という感じらしい。

#Article #LanguageModel #ReinforcementLearning #Blog #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 From f（x） and g（x） to f（g（x））: LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09 Comment

元ポスト:

Loading…

この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24

#Article #LanguageModel #ReinforcementLearning #Blog #read-later Issue Date: 2025-08-12 ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08 Comment

元ポスト:

Loading…

#Article #Blog #Tokenizer #Finetuning #Encoder Issue Date: 2025-08-02 日本語ModernBERTの開発: トークナイザと性能の関係編（3_3）, SBIntuitions, 2025.05 Comment

SBIntuitionsが公開している事前学習済みModernBertは4.4Tトークンの超大規模なトークンで学習されており、それらには多様な表現が出現するため通常では大幅に性能が劣化してしまうトークナイザの事後的にトークナイザを変換し、変換後トークナイザ→サブワード化を実施した場合に、downstreamタスクの性能が劣化するかを調査。その結果、性能の劣化がほとんど表出しなかった（特にモデルサイズが310mの場合は性能の劣化はほぼなさそう）。また、MeCab（Unidic)でわかち書きかれている前提の固有表現認識ベンチマークでの評価の結果、同様の条件でトークナイズをするモデル（パラメータサイズも同等）と、同等程度の性能を示した。ので、SBIntuitionsが公開している日本語ModernBERTにおいては、トークナイザを事後的に変換したのちにサブワード化を実施しモデルのinputとするような方法をしても、問題なさそう、という感じな模様。興味深い。

元ポスト:

Loading…

#Article #LanguageModel #Mathematics #SmallModel #RLVR Issue Date: 2025-05-27 Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05 Comment

元ポスト:

Loading…

参考（考察）:

Loading…

参考（考察）:

Loading…

こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500（Qwen2.5においてコンタミの可能性がある）の性能を示している。

#Article #Library #AIAgents #Blog Issue Date: 2025-05-06 Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05 Comment

各フレームワーク毎の性能の違いや消費したトークン数、実装の微妙や違いがまとめられており、太字でtakeawayが記述されているので非常にわかりやすい。

元ポスト:

Loading…

#Article #LanguageModel #Blog #Selected Papers/Blogs Issue Date: 2025-03-25 言語モデルの物理学, 佐藤竜馬, 2025.03 Comment

必読

#Article #Prompting #Blog #AutomaticPromptEngineering Issue Date: 2023-10-13 日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10 Comment

面白かった。特に、promptingによってrinnaとcyberのLLMの順位が逆転しているのが興味深かった。GAを使ったプロンプトチューニングは最近論文も出ていたが、日本語LLMで試されているのは面白かった。

DocumentSummarization (170)

#NaturalLanguageGeneration #Pocket #Dataset #LanguageModel #Annotation
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#NaturalLanguageGeneration #Pocket #LanguageModel
Issue Date: 2023-09-17 From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting, Griffin Adams+, N_A, arXiv'23 GPT Summary- 要約は詳細でエンティティ中心的でありながら、理解しやすくすることが困難です。この課題を解決するために、私たちは「密度の連鎖」（CoD）プロンプトを使用して、GPT-4の要約を生成します。CoDによって生成された要約は抽象的であり、リードバイアスが少なく、人間に好まれます。また、情報量と読みやすさのトレードオフが存在することも示されました。CoD要約は無料で利用できます。 Comment

#MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #LM-based #Coherence
Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。

#Pocket #Evaluation #Reference-free Issue Date: 2023-08-13 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N_A, Findings of ACL'23 GPT Summary- 自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。 Comment

#Pocket #Evaluation #LLM-as-a-Judge Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv'23 GPT Summary- 本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 Comment

BERTScoreと同様、評価したいテキストの対数尤度で評価している
BERTScoreよりも相関が高く、instructionによって性能が向上することが示されている

#Pocket #Evaluation Issue Date: 2023-08-13 Large Language Models are Diverse Role-Players for Summarization Evaluation, Ning Wu+, N_A, arXiv'23 GPT Summary- 本研究では、テキスト要約の評価フレームワークを提案し、生成されたテキストと参照テキストを客観的および主観的な側面から比較することで包括的な評価を行います。具体的には、ロールプレイヤーのプロンプティングメカニズムを使用してテキストの評価をモデル化し、コンテキストベースのプロンプティングメカニズムを導入して動的なロールプレイヤープロファイルを生成します。さらに、バッチプロンプティングに基づいたマルチロールプレイヤープロンプティング技術を使用して複数の評価結果を統合します。実験結果は、提案モデルが競争力があり、人間の評価者と高い一致性を持つことを示しています。 #Pocket #Evaluation #Factuality Issue Date: 2023-08-13 ChatGPT as a Factual Inconsistency Evaluator for Text Summarization, Zheheng Luo+, N_A, arXiv'23 GPT Summary- 事前学習された言語モデルによるテキスト要約の性能向上が注目されているが、生成された要約が元の文書と矛盾することが問題となっている。この問題を解決するために、効果的な事実性評価メトリクスの開発が進められているが、計算複雑性や不確実性の制約があり、人間の判断との一致に限定されている。最近の研究では、大規模言語モデル（LLMs）がテキスト生成と言語理解の両方で優れた性能を示していることがわかっている。本研究では、ChatGPTの事実的な矛盾評価能力を評価し、バイナリエンテイルメント推論、要約ランキング、一貫性評価などのタスクで優れた性能を示した。ただし、ChatGPTには語彙的な類似性の傾向や誤った推論、指示の不適切な理解などの制限があることがわかった。 #Metrics #Dataset #Evaluation Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #NaturalLanguageGeneration #Abstractive #Factuality Issue Date: 2023-07-18 Improving Factuality of Abstractive Summarization without Sacrificing Summary Quality, ACL'23 GPT Summary- 事実性を意識した要約の品質向上に関する研究はあるが、品質を犠牲にすることなく事実性を向上させる手法がほとんどない。本研究では「Effective Factual Summarization」という技術を提案し、事実性と類似性の指標の両方で大幅な改善を示すことを示した。トレーニング中に競合を防ぐために2つの指標を組み合わせるランキング戦略を提案し、XSUMのFactCCでは最大6ポイント、CNN/DMでは11ポイントの改善が見られた。また、類似性や要約の抽象性には負の影響を与えない。 #NaturalLanguageGeneration #Abstractive #Extractive Issue Date: 2023-07-18 Abstractive Summarizers are Excellent Extractive Summarizers, ACL'23 GPT Summary- 本研究では、抽出型要約と要約型要約の相乗効果を探求し、シーケンス・トゥ・シーケンス・アーキテクチャを使用した3つの新しい推論アルゴリズムを提案しています。これにより、要約型システムが抽出型システムを超えることができることを示しました。また、要約型システムは抽出型のオラクル要約にさらされることなく、両方の要約を単一のモデルで生成できることも示しました。これは、抽出型ラベルの必要性に疑問を投げかけるものであり、ハイブリッドモデルの有望な研究方向を示しています。 #NaturalLanguageGeneration #Extractive #Faithfulness Issue Date: 2023-07-18 Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization, ACL'23 GPT Summary- 本研究では、抽出的な要約の不正確さの問題について議論し、それを5つのタイプに分類します。さらに、新しい尺度であるExtEvalを提案し、不正確な要約を検出するために使用することを示します。この研究は、抽出的な要約の不正確さに対する認識を高め、将来の研究に役立つことを目指しています。 Comment

Extractive SummarizatinoのFaithfulnessに関する研究。

>抽出的な要約は抽象的な要約の一般的な不正確さの問題にはあまり影響を受けにくいですが、それは抽出的な要約が正確であることを意味するのでしょうか？結論はノーです。

>本研究では、抽出的な要約に現れる広範な不正確さの問題（非含意を含む）を5つのタイプに分類

>不正確な共参照、不完全な共参照、不正確な談話、不完全な談話、および他の誤解を招く情報が含まれます。

>私たちは、16の異なる抽出システムによって生成された1600の英語の要約を人間にラベル付けするように依頼しました。その結果、要約の30％には少なくとも5つの問題のうちの1つが存在することがわかりました。

おもしろい。

#NaturalLanguageGeneration #Dataset #Conversation Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL'23 GPT Summary- 会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #NaturalLanguageGeneration #Controllable #Dataset #Factuality Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL'23 GPT Summary- 本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #Survey #Abstractive #Conversation Issue Date: 2023-07-15 [TACL] Abstractive Meeting Summarization: A Survey, TACL'23 GPT Summary- 会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。 #Abstractive #pretrained-LM #InstructionTuning Issue Date: 2023-07-13 Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization, ACL'23 GPT Summary- この論文では、新しい事前学習言語モデルであるZ-Code++を提案し、抽象的なテキスト要約に最適化されています。Z-Code++は、2つのフェーズの事前学習とディセントラル化アテンション層、およびエンコーダー内のフュージョンを使用しています。このモデルは、低リソースの要約タスクで最先端の性能を発揮し、パラメータ効率的であり、他の競合モデルを大幅に上回ります。 #NeuralNetwork #Abstractive #EACL Issue Date: 2022-09-02 Long Document Summarization with Top-down and Bottom-up Inference, Pang+, Salesforce Research, EACL'23 Comment

日本語解説: https://zenn.dev/ty_nlp/articles/9f5e5dd3084dbd

以下、上記日本語解説記事を読んで理解した内容をまとめます。ありがとうございます。

# 概要

基本的にTransformerベースのモデル（e.g. BERTSum, BART, PEGASUS, GPT-2, T5）ではself-attentionの計算量が入力トークン数Nに対してO(N^2)でかかり、入力の二乗のオーダーで計算量が増えてしまう。

これを解消するためにself-attentionを計算する範囲をウィンドウサイズで制限するLongformerや、BigBardなどが提案されてきたが、どちらのモデルも離れたトークン間のattentionの情報が欠落するため、長距離のトークン間の関係性を捉えにくくなってしまう問題があった。

そこで、top-down transformerではセグメント（セグメントはテキストでいうところの文）という概念を提唱し、tokenからsegmentのrepresentationを生成しその後self-attentionでsegment間の関係性を考慮してsegmentのrepresentationを生成するbottom-up inference、各tokenとsegmentの関係性を考慮しし各tokenのrepresentationを学習するtop-down inferenceの2つの構造を利用した。bottom-up inferenceにおいてsegmentのrepresentationを計算する際にpoolingを実施するが、adapoolingと呼ばれる重要なトークンに重み付けをし、その重みを加味した加重平均によりプーリングを実施する。これにより、得られた各トークンの表現は、各セグメントとの関連度の情報を含み（セグメントの表現は各セグメント間のattentnionに基づいて計算されているため; bottom-up inference）、かつ各トークンと各セグメント間との関連度も考慮して計算されているため（top-down inference）、結果的に離れたトークン間の関連度を考慮したrepresentationが学習される（下図）。

（図は上記記事からお借りいたしました）

各attentionの計算量は表のようになり、M, wはNよりも遥かに小さいため、O(N^2)よりも遥かに小さい計算量で計算できる。

（こちらも上記記事からお借りいたしました）

# 実験（日本語解説より）

## データセット

## 結果

### PubMedとarXiv

### CNN-DailyMail

### TVMegasSiteとForeverDreaming

### BookSum-Chapter-Level

### BookSum-Book-Level

## 所感

CNN-DailyMailのようなinput wordsが900程度のデータではcomparableな結果となっているが、input wordsが長い場合は先行研究をoutperformしている。BookSum-Chapter Levelにおいて、Longformer, BigBirdの性能が悪く、BART, T5, Pegasusの性能が良いのが謎い。

てかinput wordsが3000~7000程度のデータに対して、どうやってBARTやらT5やらを実装できるんだろう。大抵512 tokenくらいが限界だと思っていたのだが、どうやったんだ・・・。

>The maximum document lengths for PubMed, arXiv, CNN-DM,

TVMegaSite, ForeverDreaming, BookSum are 8192, 16384, 1024, 12288, 12288, 12288, respectively

これは、たとえばBookSumの場合は仮にinputの長さが11万とかあったとしても、12288でtruncateしたということだろうか。まあなんにせよ、頑張ればこのくらいの系列長のモデルを学習できるということか（メモリに乗るのか・・・？どんな化け物マシンを使っているのか）。

>We first train a top-down transformer on the chapter-level data and then fine-tune it on the book-level

data. The inputs to the book-level model are (1) the concatenated chapter reference summaries in

training or (2) the concatenated chapter summaries generated by the chapter-level model in testing.

The chapter-to-book curriculum training is to mitigate the scarcity of book-level data. The recursive

summarization of chapters and then books can be considered abstractive content selection applied

to book data, and is used to address the extremely long length of books.

BookLevel Summarizationでは、データ数が300件程度しかなく、かつinput wordsがでかすぎる。これに対処するために、まずtop-down transformerをchapter-level_ dataで訓練して、その後book-level dataでfine-tuning。book-level dataでfine-tuningする際には、chapterごとのreference summaryをconcatしたものを正解とし、chapter-level modelが生成したchapterごとのsummaryをconcatしたものをモデルが生成した要約として扱った、という感じだろうか。まずchapter levelで学習しその後book levelで学習するcurriculum learningっぽいやり方がbook-level dataの不足を緩和してくれる。bookの要約を得るためにchapterを再帰的に要約するようなアプローチは、book dataに対するcontent selectionとしてみなすことができ、おそろしいほど長い入力の対処にもなっている、という感じだろうか。

#BeamSearch #NaturalLanguageGeneration #Pocket #ACL Issue Date: 2023-08-16 BRIO: Bringing Order to Abstractive Summarization, Yixin Liu+, N_A, ACL'22 GPT Summary- 従来の抽象的要約モデルでは、最尤推定を使用して訓練されていましたが、この方法では複数の候補要約を比較する際に性能が低下する可能性があります。そこで、非確定論的な分布を仮定し、候補要約の品質に応じて確率を割り当てる新しい訓練パラダイムを提案しました。この手法により、CNN/DailyMailとXSumのデータセットで最高の結果を達成しました。さらに、モデルが候補要約の品質とより相関のある確率を推定できることも示されました。 Comment

ビーム内のトップがROUGEを最大化しているとは限らなかったため、ROUGEが最大となるような要約を選択するようにしたら性能爆上げしましたという研究。
実質現在のSoTA

#NaturalLanguageGeneration #Metrics #Pocket #Evaluation #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #Metrics #Pocket #Evaluation #Reference-free #Reference-based Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR'22 GPT Summary- 本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment

先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。

#NaturalLanguageGeneration #Metrics #Pocket #Evaluation #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #Evaluation #LM-based #Factuality Issue Date: 2023-08-13 SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization, Laban+, TACL'22 GPT Summary- 要約の領域では、入力ドキュメントと要約が整合していることが重要です。以前の研究では、自然言語推論（NLI）モデルを不整合検出に適用するとパフォーマンスが低下することがわかりました。本研究では、NLIを不整合検出に再評価し、過去の研究での入力の粒度の不一致が問題であることを発見しました。新しい手法SummaCConvを提案し、NLIモデルを文単位にドキュメントを分割してスコアを集計することで、不整合検出に成功裏に使用できることを示しました。さらに、新しいベンチマークSummaCを導入し、74.4%の正確さを達成し、先行研究と比較して5%の改善を実現しました。 #Metrics #Evaluation #Factuality Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering'22 GPT Summary- 事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 Comment

FactualConsistencyに関するMetricが良くまとまっている

#Evaluation #Reference-free Issue Date: 2023-08-13 MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification, Yu Lu Liu+, N_A, arXiv'22 GPT Summary- 本研究では、テキストの要約と簡素化のための参照のない評価尺度であるMaskEvalを提案しています。MaskEvalは、候補テキストとソーステキストの連結に対してマスクされた言語モデリングを行い、重要な品質の側面ごとに相対的な重要性を調整することができます。さらに、英語の要約と簡素化における人間の判断との相関に基づいて、その効果を示し、両方のタスク間での転移シナリオを探索します。 #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI'22 GPT Summary- この研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL'22 GPT Summary- 本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #Evaluation Issue Date: 2023-08-13 Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics, Deutsch+, NAACL'22 GPT Summary- 本研究では、自動要約評価尺度のシステムレベルの相関に関する不整合を修正するための変更を提案しています。具体的には、全テストセットを使用して自動評価尺度のシステムスコアを計算し、実際のシナリオでよく見られる自動スコアのわずかな差によって分離されたシステムのペアに対してのみ相関を計算することを提案しています。これにより、より正確な相関推定と高品質な人間の判断の収集が可能となります。 #Evaluation Issue Date: 2023-08-13 Does Summary Evaluation Survive Translation to Other Languages?, Braun+, NAACL'22 GPT Summary- 要約データセットの作成は費用と時間がかかるが、機械翻訳を使用して既存のデータセットを他の言語に翻訳することで、追加の言語での使用が可能になる。この研究では、英語の要約データセットを7つの言語に翻訳し、自動評価尺度によるパフォーマンスを比較する。また、人間と自動化された要約のスコアリング間の相関を評価し、翻訳がパフォーマンスに与える影響も考慮する。さらに、データセットの再利用の可能性を見つけるために、特定の側面に焦点を当てる。 #Metrics #Evaluation #TrainedMetrics Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv'22 GPT Summary- 要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #Evaluation #Reference-free Issue Date: 2023-08-13 SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling, Bao+, NAACL'22 GPT Summary- 従来の自動要約評価メトリックは語彙の類似性に焦点を当てており、意味や言語的な品質を十分に捉えることができない。参照要約が必要であるためコストがかかる。本研究では、参照要約が存在しない弱教師あり要約評価手法を提案する。既存の要約データセットを文書と破損した参照要約のペアに変換してトレーニングする。ドメイン間のテストでは、提案手法がベースラインを上回り、言語的な品質を評価する上で大きな利点を示した。 #Evaluation #Reference-free Issue Date: 2023-08-13 PrefScore: Pairwise Preference Learning for Reference-free Summarization Quality Assessment, Luo+, COLING'22 GPT Summary- 人間による参照要約のない機械生成の要約の評価を行うために、ブラッドリー・テリーのパワーランキングモデルを使用して要約の優劣を判断する方法を提案する。実験結果は、この方法が人間の評価と高い相関を持つスコアを生成できることを示している。 #Pocket #Evaluation Issue Date: 2023-08-13 How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation, Steen+, COLING'22 GPT Summary- 要約の一貫性を自動的に評価することは重要であり、さまざまな方法が提案されていますが、異なるデータセットと評価指標を使用して評価されるため、相対的なパフォーマンスを理解することが困難です。本研究では、要約の一貫性モデリングのさまざまな方法について調査し、新しい分析尺度を導入します。現在の自動一貫性尺度はすべての評価指標において信頼性のある一貫性スコアを割り当てることができませんが、大規模言語モデルは有望な結果を示しています。 #NeuralNetwork #Analysis #Pocket #IJCNLP #AACL #Repetition Issue Date: 2023-08-13 Self-Repetition in Abstractive Neural Summarizers, Nikita Salkar+, N_A, AACL-IJCNLP'22 GPT Summary- 私たちは、BART、T5、およびPegasusという3つのニューラルモデルの出力における自己繰り返しの分析を行いました。これらのモデルは、異なるデータセットでfine-tuningされています。回帰分析によると、これらのモデルは入力の出力要約間でコンテンツを繰り返す傾向が異なることがわかりました。また、抽象的なデータや定型的な言語を特徴とするデータでのfine-tuningでは、自己繰り返しの割合が高くなる傾向があります。定性的な分析では、システムがアーティファクトや定型フレーズを生成することがわかりました。これらの結果は、サマライザーのトレーニングデータを最適化するための手法の開発に役立つ可能性があります。 #Pocket #Evaluation Issue Date: 2023-08-13 Universal Evasion Attacks on Summarization Scoring, Wenchuan Mu+, N_A, BlackboxNLP workshop on ACL'22 GPT Summary- 要約の自動評価は重要であり、その評価は複雑です。しかし、これまで要約の評価は機械学習のタスクとは考えられていませんでした。本研究では、自動評価の堅牢性を探るために回避攻撃を行いました。攻撃システムは、要約ではない文字列を予測し、一般的な評価指標であるROUGEやMETEORにおいて優れた要約器と競合するスコアを達成しました。また、攻撃システムは最先端の要約手法を上回るスコアを獲得しました。この研究は、現在の評価システムの堅牢性の低さを示しており、要約スコアの開発を促進することを目指しています。 #Pocket #Evaluation Issue Date: 2023-08-13 DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely, Forrest Sheng Bao+, N_A, arXiv'22 GPT Summary- 参照ベースと参照フリーの要約評価メトリックがあります。参照ベースは正確ですが、制約があります。参照フリーは独立していますが、ゼロショットと正確さの両方を満たせません。本研究では、参照ベースのメトリックを使用してゼロショットかつ正確な参照フリーのアプローチを提案します。実験結果は、このアプローチが最も優れた参照フリーのメトリックを提供できることを示しています。また、参照ベースのメトリックの再利用と追加の調整についても調査しています。 #Metrics #Tools #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#Evaluation Issue Date: 2023-08-13 How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation, Steen+, EACL'21 GPT Summary- 要約システムの評価方法についての調査結果を報告しました。要約の言語的品質についての評価実験を行い、最適な評価方法は側面によって異なることを示しました。また、研究パラメータや統計分析方法についても問題点を指摘しました。さらに、現行の方法では固定された研究予算の下では信頼性のある注釈を提供できないことを強調しました。 Comment

要約の人手評価に対する研究

#Evaluation Issue Date: 2023-08-13 Reliability of Human Evaluation for Text Summarization: Lessons Learned and Challenges Ahead, Iskender+, EACL'21 GPT Summary- 人間評価の信頼性に関する研究では、参加者の情報や実験の詳細が提供されていないことが多い。また、人間評価の信頼性に影響を与える要因についても研究されていない。そこで、私たちは人間評価実験を行い、参加者の情報や実験の詳細を提供し、異なる実験結果を比較した。さらに、専門家と非専門家の評価の信頼性を確保するためのガイドラインを提供し、信頼性に影響を与える要因を特定した。 Comment

要約の人手評価に対する信頼性に関して研究。人手評価のガイドラインを提供している。

#NaturalLanguageGeneration #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

C-ELMO/C-SBERT

#NaturalLanguageGeneration #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #NaturalLanguageGeneration #Metrics #Evaluation #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

#Metrics #Evaluation #LM-based #Factuality Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP''21 GPT Summary- 本研究では、自然言語生成（NLG）タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 Comment

CTC

#Metrics #Evaluation #Reference-free #LM-based #Selected Papers/Blogs Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubig氏）, NeurIPS'21 GPT Summary- 本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 Comment

BARTScore

#Metrics #Evaluation #Reference-based Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL'21 GPT Summary- 要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答（QA）を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP'21 GPT Summary- 私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Tutorial #Dataset #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

#NeuralNetwork #NaturalLanguageGeneration #Pocket #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #ACL #PostTraining #Selected Papers/Blogs Issue Date: 2021-09-09 [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01 GPT Summary- プレフィックスチューニングは、ファインチューニングの軽量な代替手段であり、言語モデルのパラメータを固定しつつ、タスク特有の小さなベクトルを最適化する手法です。これにより、少ないパラメータで同等のパフォーマンスを達成し、低データ設定でもファインチューニングを上回る結果を示しました。 Comment

autoregressive LM (GPT-2)と，encoder-decoderモデル（BART）へPrefix Tuningを適用する場合の模式図

#Pocket #Abstractive #Factuality #Faithfulness #ACL Issue Date: 2025-07-14 [Paper Note] On Faithfulness and Factuality in Abstractive Summarization, Joshua Maynez+, ACL'20 GPT Summary- 抽象的な文書要約における言語モデルの限界を分析し、これらのモデルが入力文書に対して忠実でない内容を生成する傾向が高いことを発見。大規模な人間評価を通じて、生成される幻覚の種類を理解し、すべてのモデルで相当量の幻覚が確認された。事前学習されたモデルはROUGE指標だけでなく、人間評価でも優れた要約を生成することが示された。また、テキストの含意測定が忠実性と良好に相関することが明らかになり、自動評価指標の改善の可能性を示唆。 Comment

文書要約の文脈において `hallucination` について説明されている。
- [Paper Note] Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N/A, ACL'24

が `hallucination` について言及する際に引用している。

#NeuralNetwork #ICML #Selected Papers/Blogs Issue Date: 2025-05-13 PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization, Jingqing Zhang+, ICML'20 GPT Summary- 大規模なテキストコーパスに対して新しい自己教師ありの目的でトランスフォーマーを事前学習し、抽象的なテキスト要約に特化したモデルPEGASUSを提案。重要な文を削除またはマスクし、残りの文から要約を生成。12の下流要約タスクで最先端のROUGEスコアを達成し、限られたリソースでも優れたパフォーマンスを示す。人間評価でも複数のデータセットで人間のパフォーマンスに達したことを確認。 Comment

PEGASUSもなかったので追加。BARTと共に文書要約のBackboneとして今でも研究で利用される模様。

#Metrics #Pocket #Evaluation #Reference-free #QA-based Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL'20 GPT Summary- 要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 Comment

QAGS

生成された要約からQuestionを生成する手法。precision-oriented

#Pocket #Hallucination Issue Date: 2023-08-16 Reducing Quantity Hallucinations in Abstractive Summarization, Zheng Zhao+, N_A, EMNLP'20 GPT Summary- Hermanシステムは、抽象的な要約において幻覚を回避するために、数量エンティティを認識し、元のテキストでサポートされている数量用語を持つ要約を上位にランク付けするアプローチを提案しています。実験結果は、このアプローチが高い適合率と再現率を持ち、F$_1$スコアが向上することを示しています。また、上位にランク付けされた要約が元の要約よりも好まれることも示されています。 Comment

数量に関するhallucinationを緩和する要約手法

#Metrics #Evaluation #QA-based Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL'20 GPT Summary- ニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 Comment

FEQA

生成された要約からQuestionを生成する手法。precision-oriented

#Metrics #Evaluation #Reference-based Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING'20 GPT Summary- 要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 Comment

Hybrid Lexical and MOdel-based evaluation of Summaries (HOLMS)

#NaturalLanguageGeneration #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#Metrics #Evaluation #LM-based #Factuality Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP'20 GPT Summary- 本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 Comment

FactCC

近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した

#Metrics #Evaluation #Reference-free #LM-based Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP'20 GPT Summary- パラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 Comment

PRISM

#Evaluation #Reference-free Issue Date: 2023-08-13 Fill in the BLANC: Human-free quality estimation of document summaries, Vasilyev+, Eval4NLP'20 GPT Summary- BLANCは、要約の品質を自動的に推定するための新しいアプローチです。BLANCは、事前学習済みの言語モデルを使用してドキュメントの要約にアクセスし、要約の機能的なパフォーマンスを測定します。BLANCスコアは、ROUGEと同様に人間の評価と良好な相関関係を持ち、人間によって書かれた参照要約が不要なため、完全に人間不在の要約品質推定が可能です。 #Evaluation #Reference-free #Training-Free Issue Date: 2023-08-13 SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL'20 GPT Summary- この研究では、教師なしの複数文書要約評価メトリックスについて調査しています。提案手法SUPERTは、擬似的な参照要約として選択された重要な文を使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて要約の品質を評価します。SUPERTは従来の教師なし評価メトリックスよりも人間の評価との相関が高く、18〜39％の向上が見られます。また、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、有利なパフォーマンスを実現しています。ソースコードはGitHubで入手可能です。 Comment

#Metrics #Evaluation #Reference-based #TrainedMetrics Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL'20 GPT Summary- BLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #NaturalLanguageGeneration #Metrics #Evaluation #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#NeuralNetwork #MachineTranslation #Transformer #pretrained-LM Issue Date: 2022-12-01 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Rothe+, Google Research, TACL'20 Comment

# 概要

BERT-to-BERT論文。これまでpre-trainedなチェックポイントを利用する研究は主にNLUで行われてきており、Seq2Seqでは行われてきていなかったので、やりました、という話。

publicly availableなBERTのcheckpointを利用し、BERTをencoder, decoder両方に採用することでSeq2Seqを実現。実現する上で、

1. decoder側のBERTはautoregressiveな生成をするようにする（左側のトークンのattentionしか見れないようにする）

2. encoder-decoder attentionを新たに導入する

の2点を工夫している。

# 実験

Sentence Fusion, Sentence Split, Machine Translation, Summarizationの4タスクで実験

## MT

BERT2BERTがSoTA達成。Edunov+の手法は、data _augmentationを利用した手法であり、純粋なWMT14データを使った中ではSoTAだと主張。特にEncoder側でBERTを使うと、Randomにinitializeした場合と比べて性能が顕著に上昇しており、その重要性を主張。

Sentence Fusion, Sentence Splitでは、encoderとdecoderのパラメータをshareするのが良かったが、MTでは有効ではなかった。これはMTではmodelのcapacityが非常に重要である点、encoderとdecoderで異なる文法を扱うためであると考えられる。

## Summarization

BERTSHARE, ROBERTASHAREの結果が良かった。

#PersonalizedDocumentSummarization #NaturalLanguageGeneration #Metrics #DataToTextGeneration #ConceptToTextGeneration #DialogueGeneration #PersonalizedGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

TextGenerationに関するSoTAの性能指標。BLEU, ROUGE等と比較して、人間との相関が高い。

pretrainedされたlanguage model（GPT-2=sentence legibility, RoBERTa_MNLI=logical inference, RoBERTa_STS=semantic similarity）を使い、Fully Connected Layerを利用してquality スコアを算出する。算出したスコアは最終的にcalibrationで0~1の値域に収まるように補正される。

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#NeuralNetwork #Extractive Issue Date: 2023-08-28 Text Summarization with Pretrained Encoders, Liu+ （with Lapata）, EMNLP-IJCNLP'19 GPT Summary- 本研究では、最新の事前学習言語モデルであるBERTを使用して、テキスト要約のための一般的なフレームワークを提案します。抽出型モデルでは、新しいエンコーダを導入し、文の表現を取得します。抽象的な要約については、エンコーダとデコーダの最適化手法を異ならせることで不一致を緩和します。さらに、2段階のファインチューニングアプローチによって要約の品質を向上させました。実験結果は、提案手法が最先端の結果を達成していることを示しています。 Comment

BERTSUMEXT論文

通常のBERTの構造と比較して、文ごとの先頭に[CLS]トークンを挿入し、かつSegment Embeddingsを文ごとに交互に変更することで、文のrepresentationを取得できるようにする。

その後、encodingされたsentenceの[CLS]トークンに対応するembeddingの上に、inter-sentence Transformer layerを重ね、sigmoidでスコアリングするのが、BERTSUMEXT, Abstractiveの場合は6-layerのTransformer decoderを利用するが、これはスクラッチでfinetuninigさせる。このとき、encoder側はoverfit, decoder側はunderfitすることが予想されるため、encoderとdecodeで異なるwarmup, 学習率を適用する。具体的には、encoder側はより小さい学習率で、さらにsmoothに減衰するようにする。これにより、decoder側が安定したときにより正確な勾配で学習できるようになる。また、2-stageのfinetuningを提案し、まずencoder側をextractifve summarization taskでfinetuningし、その後abstractive summarizationでfinetuningする。先行研究ではextractive summarizationのobjectiveを取り入れることでabstractive summarizationの性能が向上していることが報告されており、この知見を取り入れる。今回はextractive summarizationの重みをabstractive taskにtrasnferすることになる。

#Pocket #Evaluation Issue Date: 2023-08-16 Neural Text Summarization: A Critical Evaluation, Krysciski+ （w_ Richard Socher）, EMNLP-IJCNLP'19 GPT Summary- テキスト要約の研究は進展が停滞しており、データセット、評価指標、モデルの3つの要素に問題があることが指摘されている。自動収集されたデータセットは制約が不十分であり、ノイズを含んでいる可能性がある。評価プロトコルは人間の判断と相関が弱く、重要な特性を考慮していない。モデルはデータセットのバイアスに過適合し、出力の多様性が限られている。 #Metrics #Evaluation #QA-based Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL'19 GPT Summary- 最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 Comment

APES

#Metrics #Evaluation Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL'19 GPT Summary- 自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment

要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘

#NaturalLanguageGeneration #Pocket Issue Date: 2023-08-13 HighRES: Highlight-based Reference-less Evaluation of Summarization, Hardy+, N_A, ACL'19 GPT Summary- 要約の手動評価は一貫性がなく困難なため、新しい手法であるHighRESを提案する。この手法では、要約はソースドキュメントと比較して複数のアノテーターによって評価され、ソースドキュメントでは重要な内容がハイライトされる。HighRESはアノテーター間の一致度を向上させ、システム間の違いを強調することができることを示した。 Comment

人手評価の枠組み

#MachineTranslation #Evaluation #TrainedMetrics Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv'19 GPT Summary- 私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #Evaluation #Reference-based Issue Date: 2023-08-13 MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 GPT Summary- 本研究では、テキスト生成システムの評価尺度について調査し、システムの出力と参照テキストの意味に基づいて比較する尺度を提案します。この尺度は、要約、機械翻訳、画像キャプション、データからテキストへの生成などのタスクで有効であり、文脈化表現と距離尺度を組み合わせたものが最も優れています。また、提案した尺度は強力な汎化能力を持っており、ウェブサービスとして提供されています。 Comment

Word Mover Distance (WMD)の解説: https://yubessy.hatenablog.com/entry/2017/01/10/122737

#Evaluation #Reference-free #QA-based Issue Date: 2023-08-13 Answers Unite Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP'19 GPT Summary- 最近、再強化学習（RL）を使用した抽象的要約手法が提案されており、従来の尤度最大化を克服するために使用されています。この手法は、複雑で微分不可能なメトリクスを考慮することで、生成された要約の品質と関連性を総合的に評価することができます。ROUGEという従来の要約メトリクスにはいくつかの問題があり、代替的な評価尺度を探求する必要があります。報告された人間評価の分析によると、質問応答に基づく提案されたメトリクスはROUGEよりも有利であり、参照要約を必要としないという特徴も持っています。これらのメトリクスを使用してRLベースのモデルをトレーニングすることは、現在の手法に比べて改善をもたらします。 Comment

SummaQA

#PersonalizedDocumentSummarization #Personalization Issue Date: 2023-05-08 Towards Personalized Review Summarization via User-Aware Sequence Network, Li+, AAAI'19 Comment

同じレビューに対しても、異なるユーザは異なるSumamryを生成するよね、というところがモチベーションとなり、Personalized Review Summarizationを提案。初めてPersonalizationの問題について提案した研究。

user embeddingによってユーザ情報を埋め込む方法と、user vocabulary memoryによって、ユーザが好むvocabularyを積極的にsummaryに利用できるようなモジュールの2種類をモデルに導入している

Trip advisorのレビューデータを収集。レビューのtitleをreference summaryとみなしてデータセット生成。ただタイトルを利用するだけだと、無意味なタイトルが多く含まれているでフィルタリングしている。

Trip Advisorはクローリングを禁止していた気がするので、割とアウトなのでは。

あと、各レビューをランダムにsplitしてtrain/dev/testを作成したと言っているが、本当にそれでいいの？user-stratifiedなsplitをした方が良いと思う。

PGN [Paper Note] Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL'17 やlead-1と比較した結果、ROUGEの観点で高い性能を達成

また人手評価として、ユーザのgold summaryに含まれるaspectと、generated summaryに含まれるaspectがどれだけ一致しているか、1000件のreviewとtest setからサンプリングして2人の学生にアノテーションしてもらった。結果的に提案手法が最もよかったが、アノテーションプロセスの具体性が薄すぎる。2人の学生のアノテーションのカッパ係数すら書かれていない。

case studyとしてあるユーザのレビュと生成例をのせている。userBの過去のレビューを見たら、room, locationに言及しているものが大半であり、このアスペクトをきちんと含められているよね、ということを主張している。

#review Issue Date: 2023-05-06 Neural Review Summarization Leveraging User and Product Information, Liu+, CIKM'19 #Metrics #Pocket #Evaluation #QA-based Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI'18 GPT Summary- 自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 Comment

QGQAを提案した研究

#Dataset #NAACL Issue Date: 2018-06-29 [Paper Note] Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies, Max+, NAACL'18 Comment

#Supervised #Pocket #Abstractive #ICLR Issue Date: 2017-12-31 [Paper Note] A Deep Reinforced Model for Abstractive Summarization, Paulus+（with Socher）, ICLR'18 #Multi #Document #Pocket #VariationalAutoEncoder #AAAI Issue Date: 2018-10-05 [Paper Note] Salience Estimation via Variational Auto-Encoders for Multi-Document Summarization, Li+, AAAI'17 #NeuralNetwork #Document #Supervised #Pocket #ACL Issue Date: 2018-01-01 [Paper Note] Coarse-to-Fine Attention Models for Document Summarization, Ling+ （with Rush）, ACL'17 Workshop on New Frontiers in Summarization #Metrics #EMNLP Issue Date: 2018-01-01 [Paper Note] Why We Need New Evaluation Metrics for NLG, Novikova+, EMNLP'17 Comment

解説スライド： https://www.dropbox.com/s/7o8v64nr6gyj065/20170915_SNLP2017_Nishikawa.pptx?dl=0

言語生成の評価指標が信用ならないので、3種類の生成器、3種類のデータを用意し、多数の自動評価尺度を利用した評価結果と人手評価の結果を比較した結果、相関がなかった。

既存の自動評価は人手評価と弱い相関しかなく、その有効性はデータとドメインに依存。

システム間の比較およびシステムの性能が低い場合においては有効。

(2025.05.12)
解説スライド中のスライドが複数掲載されていましたが削除しました。

#Single #NeuralNetwork #Document #Supervised #Abstractive #ACL #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL'17 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1

一般的に、PointerGeneratorと呼ばれる。

OpenNMTなどにも実装されている: https://opennmt.net/OpenNMT-py/_modules/onmt/modules/copy_generator.html

（参考）Pointer Generator Networksで要約してみる：

https://qiita.com/knok/items/9a74430b279e522d5b93

#NeuralNetwork #Supervised #Pocket #Abstractive #EACL Issue Date: 2017-12-31 [Paper Note] Cutting-off redundant repeating generations for neural abstractive summarization, Suzuki+, EACL'17 #Multi #NeuralNetwork #Document #Supervised #GraphBased #GraphConvolutionalNetwork #Extractive #CoNLL Issue Date: 2017-12-31 [Paper Note] Graph-based Neural Multi-Document Summarization, Yasunaga+, CoNLL'17 Comment

Graph Convolutional Network (GCN)を使って、MDSやりましたという話。既存のニューラルなMDSモデル [Cao et al., 2015, 2017] では、sentence間のrelationが考慮できていなかったが、GCN使って考慮した。また、MDSの学習データはニューラルなモデルを学習するには小さすぎるが（abstractiveにするのは厳しいという話だと思われる？）、sentenceのsalienceを求める問題に帰着させることで、これを克服。

GCNで用いるAdjacent Matrixとして3種類の方法(cosine similarity, G-Flow, PDG)を試し、議論をしている。PDGが提案手法だが、G-Flowによる重みをPersonalization Features（position, leadか否か等のベーシックな素性）から求まるweightで、よりsentenceのsalienceを求める際にリッチな情報を扱えるように補正している。PDGを用いた場合が（ROUGE的な観点で）最も性能がよかった。

モデルの処理の流れとしては、Document Cluster中の各sentenceのhidden stateをGRUベースなRNNでエンコードし、それをGCNのノードの初期値として利用する。GCNでL回のpropagation後（実験では3回）に得られたノードのhidden stateを、salienceスコア計算に用いるsentence embedding、およびcluster embeddingの生成に用いる。 cluster embeddingは、document clusterをglobalな視点から見て、salienceスコアに反映させるために用いられる。最終的にこれら2つの情報をlinearなlayerにかけてsoftmaxかけて正規化して、salienceスコアとする。

要約を生成する際はgreedyな方法を用いており、salienceスコアの高いsentenceから要約長に達するまで選択していく。このとき、冗長性を排除するため、candidateとなるsentenceと生成中の要約とのcosine similarityが0.5を超えるものは選択しないといった、よくある操作を行なっている。

DUC01, 02のデータをtraining data, DUC03 をvalidation data, DUC04をtest dataとし、ROUGE1,2で評価。評価の結果、CLASSY04(DUC04のbest system)やLexRank等のよく使われるベースラインをoutperform。ただ、regression basedなRegSumにはスコアで勝てないという結果に。 RegSumはwordレベルでsalienceスコアをregressionする手法で、リッチな情報を結構使っているので、これらを提案手法に組み合わせるのは有望な方向性だと議論している。

[Cao+, 2015] Ranking with recursive neural networks and its application to multi-document summarization, Cao+, AAAI'15 [Cao+, 2017] Improving multi-document summarization via text classification, Cao+, AAAI'17

[所感]

・ニューラルなモデルは表現力は高そうだけど、学習データがDUC01と02だけだと、データが足りなくて持ち前の表現力が活かせていないのではないかという気がする。

・冗長性の排除をアドホックにやっているので、モデルにうまく組み込めないかなという印象（distraction機構とか使えばいいのかもしれん）

・ROUGEでしか評価してないけど、実際のoutputはどんな感じなのかちょっと見てみたい。（ハイレベルなシステムだとROUGEスコア上がっても人手評価との相関がないっていう研究成果もあるし。）

・GCN、あまり知らなかったかけど数式追ったらなんとなく分かったと思われる。（元論文読めという話だが）

#Survey Issue Date: 2017-12-31 [Paper Note] Recent Advances in Document Summarization, Yao+, Knowledge and Information Systems'17, 2017.11 #PersonalizedDocumentSummarization #InteractivePersonalizedSummarization #IntegerLinearProgramming (ILP) #Personalization #ACL #interactive #In-Depth Notes Issue Date: 2017-12-28 [Paper Note] Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL'17, 2017.08 GPT Summary- ユーザーフィードバックを活用した抽出的マルチドキュメント要約システムを提案。インタラクティブにフィードバックを取得し、ILPフレームワークを用いて要約の質を向上。最小限の反復で高品質な要約を生成し、シミュレーション実験で効果を分析。 Comment

# 一言で言うと

ユーザとインタラクションしながら重要なコンセプトを決め、そのコンセプトが含まれるようにILPな手法で要約を生成するPDS手法。Interactive Personalized Summarizationと似ている（似ているが引用していない、引用した方がよいのでは）。

# 手法

要約モデルは既存のMDS手法を採用。Concept-based ILP Summarization

フィードバックをユーザからもらう際は、要約を生成し、それをユーザに提示。提示した要約から重要なコンセプトをユーザに選択してもらう形式（ユーザが重要と判断したコンセプトには定数重みが与えられる）。

ユーザに対して、τ回フィードバックをもらうまでは、フィードバックをもらっていないコンセプトの重要度が高くなるようにし、フィードバックをもらったコンセプトの重要度が低くなるように目的関数を調整する。これにより、まだフィードバックを受けていないコンセプトが多く含まれる要約が生成されるため、これをユーザに提示することでユーザのフィードバックを得る。τ回を超えたら、ユーザのフィードバックから決まったweightが最大となるように目的関数を修正する。

ユーザからコンセプトのフィードバックを受ける際は、効率的にフィードバックを受けられると良い（最小のインタラクションで）。そこで、Active Learningを導入する。コンセプトの重要度の不確実性をSVMで判定し、不確実性が高いコンセプトを優先的に含むように目的関数を修正する手法（AL）、SVMで重要度が高いと推定されたコンセプトを優先的に要約に含むように目的関数を修正する手法（AL+）を提案している。

# 評価

oracle-based approachというものを使っている。要は、要約をシステムが提示しリファレンスと被っているコンセプトはユーザから重要だとフィードバックがあったコンセプトだとみなすというもの。

評価結果を見ると、ベースラインのMDSと比べてupper bound近くまでROUGEスコアが上がっている。フィードバックをもらうためのイテレーションは最大で１０回に絞っている模様（これ以上ユーザとインタラクションするのは非現実的）。

実際にユーザがシステムを使用する場合のコンテキストに沿った評価になっていないと思う。

この評価で示せているのは、ReferenceSummary中に含まれる単語にバイアスをかけて要約を生成していくと、ReferenceSummaryと同様な要約が最終的に作れます、ということと、このときPool-basedなActiveLearningを使うと、より少ないインタラクションでこれが実現できますということ。

これを示すのは別に良いと思うのだが、feedbackをReferenceSummaryから与えるのは少し現実から離れすぎている気が。たとえばユーザが新しいことを学ぶときは、ある時は一つのことを深堀し、そこからさらに浅いところに戻って別のところを深堀するみたいなプロセスをする気がするが、この深堀フェーズなどはReferenceSummaryからのフィードバックからでは再現できないのでは。

# 所感

評価が甘いと感じる。十分なサイズのサンプルを得るのは厳しいからorable-based approachとりましたと書いてあるが、なんらかの人手評価もあったほうが良いと思う。

ユーザに数百単語ものフィードバックをもらうというのはあまり現時的ではない気が。

oracle-based approachでユーザのフィードバックをシミュレーションしているが、oracleの要約は、人がそのドキュメントクラスタの内容を完璧に理解した上で要約しているものなので、これを評価に使うのも実際のコンテキストと違うと思う。実際にユーザがシステムを使うときは、ドキュメントクラスタの内容なんてなんも知らないわけで、そのユーザからもらえるフィードバックをoracle-based approachでシミュレーションするのは無理がある。仮に、ドキュメントクラスタの内容を完璧に理解しているユーザのフィードバックをシミュレーションするというのなら、わかる。が、そういうユーザのために要約作って提示したいわけではないはず。

#MachineTranslation #NaturalLanguageGeneration #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#NeuralNetwork #NaturalLanguageGeneration #Pocket Issue Date: 2018-10-06 [Paper Note] Neural Headline Generation with Minimum Risk Training, Ayana+, N_A, arXiv'16 GPT Summary- 自動見出し生成のために、最小リスクトレーニング戦略を使用してモデルパラメータを最適化し、見出し生成の改善を実現する。提案手法は英語と中国語の見出し生成タスクで最先端のシステムを上回る性能を示す。 #Single #Document #DomainAdaptation #Supervised #Extractive #PRICAI #KeyPoint Notes Issue Date: 2018-01-01 [Paper Note] Learning from Numerous Untailored Summaries, Kikuchi+, PRICAI'16 GPT Summary- NYTACを利用して監視型要約システムを訓練し、5つのドメイン適応手法を導入。ターゲットデータでファインチューニングした手法が最良の結果を示し、抽出的オラクル要約に基づくインスタンス選択手法が要約性能を向上させることを実証。 Comment

New York Times Annotated Corpus（NYTAC）に含まれる大量の正解要約データを利用する方法を提案。

NYTACには650,000程度の人手で生成された参照要約が付与されているが、このデータを要約の訓練データとして活用した事例はまだ存在しないので、やりましたという話。

具体的には、NYTACに存在する人手要約を全てそのまま使うのではなく、Extracitiveなモデルの学習に効果的な事例をフィルタリングして選別する手法を提案

また、domain-adaptationの技術を応用し、NYTACデータを要約を適用したいtargetのテキストに適応する5つの手法を提案

モデルとしては、基本的にknapsack問題に基づいた要約モデル（Extractive）を用い、学習手法としてはPassive Aggressiveアルゴリズムの構造学習版を利用する。

NYTACのデータを活用する手法として、以下の5つの手法を提案している。

```

1. NytOnly: NYTACのデータのみで学習を行い、target側の情報は用いない

2. Mixture: targetとNYTACの事例をマージして一緒に学習する

3. LinInter: TrgtOnly(targetデータのみで学習した場合）のweightとNytOnlyで学習したweightをlinear-interpolationする。interpolation parameterはdev setから決定

4. Featurize: NytOnlyのoutputをtargetでモデルを学習する際の追加の素性として用いる

5. FineTune: NytOnlyで学習したweightを初期値として、target側のデータでweightをfinetuneする

```

また、NYTACに含まれる参照要約には、生成的なものや、メタ視点から記述された要約など、様々なタイプの要約が存在する。今回学習したいモデルはExtractiveな要約モデルなので、このような要約は学習事例としては適切ではないのでフィルタリングしたい。

そこで、原文書からExtractiveな要約を生成した際のOracle ROUGE-2スコアを各参照要約-原文書対ごとに求め、特定の閾値以下の事例は使用しないように、インスタンスの選択を行うようにする。

DUC2002 (単一文書要約タスク)、RSTDTBlong, RSTDTBshort (Rhetrical Structure Theory Discourse Tree Bankに含まれる400件程度の（確か社説のデータに関する）要約)の3種類のデータで評価。

どちらの評価においても、FineTuneを行い、インスタンスの選択を行うようにした場合が提案手法の中ではもっとも性能がよかった。

DUC2002では、LEADやTextRankなどの手法を有意にoutperformしたが、DUC2002のbest systemには勝てなかった。

しかしながら、RSTDTBlongにおける評価では、RSTの情報などを用いるstate-of-the-artなシステムに、RSTの情報などを用いない提案手法がROUGEスコアでoutperformした。

RSTDTBshortにおける評価では、RSTを用いる手法（平尾さんの手法）には及ばなかったが、それ以外ではbestな性能。これは、RSTDTBshortの場合は要約が指示的な要約であるため、今回学習に用いた要約のデータやモデルは報知的な要約のためのものであるため、あまりうまくいかなかったと考察している。

#Single #NeuralNetwork #Document #Supervised #Abstractive #ACL #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL'16 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning

#Single #NeuralNetwork #Document #Supervised #Abstractive #IJCAI Issue Date: 2017-12-31 [Paper Note] Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 Comment

Neuralなモデルで「文書」の要約を行う研究。

提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。

distractionを導入するmotivationは、入力文書中の異なる情報を横断的に参照（一度着目した情報には今後あまり着目しないようなバイアスをかける）したうえで、要約を生成しようというもの。

これにより、生成される要約の冗長性を排除するのが狙い。

以下の3つのアプローチを用いて、distractionを実現

1. [Distraction over input content vectors]

　tステップ目において、decoderのinputとして用いるcontext vectorを

計算する際に、通常の計算に加えて、t-1ステップ目までに使用した

context vectorの情報を活用することで、これまでdecoderのinputとして

利用された情報をあまり重視視しないように、context vectorを生成する。

2. [Distraction over attention weight vectors]

　attentionの重みを計算する際に、過去に高いattentionの重みがついた

encoderのhidden stateについては、あまり重要視しないように

attentionの重みを計算。1と同様に、t-1ステップ目までのattention weightの

historyを保持しておき活用する。

3. [Distration in decoding]

　decodingステップでbeam-searchを行う際のスコア計算に、distraction scoreを導入。distraction

scoreはtステップ目までに用いられたcontext vector、attention

weight、decoderのstateから計算され、これまでと同じような情報に基づいて

単語が生成された場合は、スコアが低くなるようになっている。

CNN、およびLCSTS data (大規模な中国語のheadline generationデータ)で評価した結果、上記3つのdistraction機構を導入した場合に、最も高いROUGEスコアを獲得

特に、原文書が長い場合に、短い場合と比較して、distraction機構を導入すると、

ROUGEスコアの改善幅が大きくなったことが示されている

#Single #NeuralNetwork #Document #Supervised #Extractive #ACL Issue Date: 2017-12-31 [Paper Note] Neural Summarization by Extracting Sentences and Words, Cheng+, ACL'16 Comment

ExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも

#NeuralNetwork #Document #Supervised #Abstractive #IJCAI Issue Date: 2017-12-28 [Paper Note] Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI'16 Comment

Distraction機構の有用性は、ACL'17のstanford NLPグループが提案したPointer Generator Networkでも示されている（Coverage Vectorという呼び方をしてた気がする）

#MachineTranslation #NaturalLanguageGeneration #Metrics #Reference-based Issue Date: 2023-08-13 chrF: character n-gram F-score for automatic MT evaluation, Mono Popovic, WMT'15 GPT Summary- 私たちは、機械翻訳の評価に文字n-gram Fスコアを使用することを提案します。私たちは、このメトリックがシステムレベルとセグメントレベルで人間のランキングと相関しており、特にセグメントレベルでの相関が非常に高いことを報告しました。この提案は非常に有望であり、WMT14の共有評価タスクでも最高のメトリックを上回りました。 Comment

character-basedなn-gram overlapをreferenceとシステムで計算する手法

#NaturalLanguageGeneration #Metrics #Evaluation #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#ComputerVision #NaturalLanguageGeneration #Pocket #Evaluation #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Metrics #EMNLP Issue Date: 2018-01-01 [Paper Note] Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Yvette Graham, EMNLP'15 Comment

文書要約で使用されているMetric、特にBLEUやROUGEの結果（可能な１９２のパターン）と、人手の結果との相関を再分析している。

その結果、BLEUがもっとも人手評価との相関が高く、ROUGE-2のPrecisionの平均(ステミング、stop words除去)がROUGEの中でbest-performingなvariantだった。

要約のMetrcの最適な検定方法として、Williams検定を利用。

再評価の結果、以前推奨されていたvariantとは異なるMetricsが良い結果に。

best-performing ROUGE resultを用いて、既存のstate-of-the-artなシステムを再度ランキングづけすると、originalのものとは結構異なる結果になった。

（一部のスコアが良かったシステムのスコアが相対的にかなり悪化している）

また、BLEUが人手評価ともっとも高い相関を示したが、best-performingなROUGE variantとは統計的な有意差はなかった。

#NeuralNetwork #Sentence #Supervised #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] A Neural Attention Model for Sentence Summarization, Rush+, EMNLP'15 Comment

解説スライド： https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331

#Single #NeuralNetwork #Sentence #Document #Dataset #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 Comment

CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。

ACL'17のPointer Generator Networkでした。

#NeuralNetwork #Sentence #EMNLP #Selected Papers/Blogs #Surface-level Note Issue Date: 2017-12-28 [Paper Note] Sentence Compression by Deletion with LSTMs, Fillipova+, EMNLP'15 Comment

slide: https://www.slideshare.net/akihikowatanabe3110/sentence-compression-by-deletion-with-lstms

#review Issue Date: 2023-05-08 Empirical analysis of exploiting review helpfulness for extractive summarization of online reviews, Xiong+, COLING'14 Comment

レビューのhelpfulnessを利用したunsupervisedなreview summarization手法を提案。helpfulessによりレビューをフィルタリングするだけでなく、トピックモデルでsentenceをクラスタリングする際にhelpfulnessの情報も活用している模様。

最終的にはユーザスタディで評価。ユーザがカメラを購入するためにレビューを読むシナリオを想定。ユーザにまずは10 sentenceでレビューを作成してもらう。その上で、3つの要約手法による要約を提示し、どれが「カメラを購入するdecision makingに役立ったか？またはinformativeだったか？」で評価してもらっている。

#Others #AAAI Issue Date: 2018-01-01 [Paper Note] Detecting information-dense texts in multiple news domains, Yang+, AAAI'14 Comment

ニュース記事の第一段落目がinformativeか否か（重要なfactual informationが記述されているか否か）を分類する研究。

New York Times Annotated Corpusに対して、自動的にinformative, non-informativeなラベルづけを行う手法を提案し、分類モデルをtraining。

(informativeな例)

(non-informativeな例)

評価の結果、Accuracyはだいたい0.8〜0.85くらい。

人が100件中何件をinformativeと判断したかが下表。下表を見ると、リードにもnon-informativeなものが多数存在することがわかる。

また、ドメインによって傾向が異なっており、たとえばスポーツドメインでは、entertaining mannerで記述されるのでfactual informationがあまり記述されない傾向にあったり、Scienceドメインでは、generalなtopicやissue, personal historyなどが記述される傾向にあるので、相対的にinformativeなLeadが少ない。

#Multi #Single #Document #Unsupervised #GraphBased #Extractive #SIGIR Issue Date: 2018-01-01 [Paper Note] CTSUM: Extracting More Certain Summaries for News Articles, Wan+, SIGIR'14 Comment

要約を生成する際に、情報の”確実性”を考慮したモデルCTSUMを提案しましたという論文（今まではそういう研究はなかった）

```

"However, it seems that Obama will not use the platform to relaunch his stalled drive for Israeli-Palestinian peace"

```

こういう文は、"It seems"とあるように、情報の確実性が低いので要約には入れたくないという気持ち。

FactBankのニュースコーパスから1000 sentenceを抽出し、5-scaleでsentenceの確実性をラベルづけ。

このデータを用いてSVRを学習し、sentenceの確実性をoutputする分類器を構築

affinity-propagationベース（textrank, lexrankのような手法）手法のaffinityの計算（edge間の重みのこと。普通はsentence同士の類似度とかが使われる）を行う際に、情報の確実性のスコアを導入することで確実性を考慮した要約を生成

DUC2007のMDSデータセットで、affinity計算の際に確実性を導入する部分をablationしたモデル（GRSUM）と比較したところ、CTSUMのROUGEスコアが向上した。

また、自動・人手評価により、生成された要約に含まれる情報の確実性を評価したところ、GRSUMをoutperformした

解説スライド： https://www.slideshare.net/akihikowatanabe3110/ctsum-extracting-more-certain-summaries-for-news-articles

SIGIRでは珍しい、要約に関する研究

情報の確実性を考慮するという、いままであまりやられていなかった部分にフォーカスしたのはおもしろい

「アイデアはおもしろいし良い研究だが、affinity weightが変化するということは、裏を返せばdamping factorを変更してもそういう操作はできるので、certaintyを考慮したことに意味があったのかが完全に示せていない。」という意見があり、なるほどと思った。

#Single #Document #Supervised #Abstractive #Extractive #COLING Issue Date: 2018-01-01 [Paper Note] Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING'14 Comment

Hidden-semi-markovモデルを用いた単一文書要約手法を提案。

通常のHMMでは一つの隠れ状態に一つのunit（要約の文脈だと文？）が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。

隠れ状態に対応するunitを文だと考えると、ある文の複数の亜種を考慮できるようになるため、ナップサック制約を満たしつつ最適な文の亜種を選択するといったことが可能となる。

とかまあ色々難しいことが前半の節に書いてある気がするが、3.3節を見るのがわかりやすいかもしれない。

定式化を見ると、基本的なナップサック問題による要約の定式化に、Coherenceを表すtermと文の変種を考慮するような変数が導入されているだけである。

文のweightや、coherenceのweightは構造学習で学習し、Passive Aggressiveを用いて、loss functionとしてはROUGEを用いている（要はROUGEが高くなるように、outputの要約全体を考慮しながら、weightを学習するということ）。

文の変種としては、各文を文圧縮したものを用意している。

また、動的計画法によるデコーディングのアルゴリズムも提案されている。

構造学習を行う際には大量の教師データが必要となるが、13,000記事分のニュース記事と対応する人手での要約のデータを用いて学習と評価を行なっており、当時これほど大規模なデータで実験した研究はなかった。

ROUGEでの評価の結果、文の変種（文圧縮）を考慮するモデルがベースラインを上回る結果を示したが、LEADとは統計的には有意差なし。しかしながら、人手で生成した要約との完全一致率が提案手法の方が高い。

また、ROUGEの評価だけでなく、linguistic quality（grammaticality, structure/coherenceなど）を人手で評価した結果、ベースラインを有意にoutperform。LEADはgrammaticalityでかなり悪い評価になっていて、これは要約を生成すると部分文が入ってしまうため。

訓練事例数を変化させてROUGEスコアに関するlearning curveを描いた結果、訓練事例の増加に対してROUGEスコアも単調増加しており、まだサチる気配を見せていないので、事例数増加させたらまだ性能よくなりそうという主張もしている。

評価に使用した記事が報道記事だったとするならば、quality的にはLeadに勝ってそうな雰囲気を感じるので、結構すごい気はする（単一文書要約で報道記事においてLEADは最強感あったし）。

ただ、要約の評価においてinformativenessを評価していないので、ROUGEスコア的にはLeadとcomparableでも、実際に生成される要約の情報量として果たしてLEADに勝っているのか興味がある。

#Multi #Extractive #ACL #Selected Papers/Blogs #interactive #KeyPoint Notes #Hierarchical Issue Date: 2017-12-28 [Paper Note] Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL'14 Comment

は上位に紐付けられたsentenceの情報をより具体的に述べたものとなっている。

これを活用することで、drill down型のInteractiveな要約を実現。

#Multi #Dataset #QueryBiased #Extractive #ACL #Selected Papers/Blogs #Surface-level Note Issue Date: 2017-12-28 [Paper Note] Query-Chain Focused Summarization, Baumel+, ACL'14 Comment

（管理人が作成した過去の紹介資料）
[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)

上記スライドは私が当時作成した論文紹介スライドです。スライド中のスクショは説明のために論文中のものを引用しています。

#Evaluation Issue Date: 2023-08-23 Automatically Assessing Machine Summary Content Without a Gold Standard, Louis+（w_ Nenkova）, ACL'13 GPT Summary- 本研究では、要約の評価において新しい技術を提案しています。これにより、人間の要約が利用できない場合や、単一のモデルしか利用できない場合でも正確な評価が可能となります。具体的には、モデルに依存しない評価技術や、システム要約の類似性を定量化する尺度などを提案しています。これにより、要約の評価を人間の評価と正確に再現することができます。また、擬似モデルを導入することで、利用可能なモデルのみを使用する場合よりも人間の判断との相関が高くなることも示しています。さらに、システム要約のランキング方法についても探求しており、驚くほど正確なランキングが可能となります。 Comment

メタ評価の具体的な手順について知りたければこの研究を読むべし

#MachineTranslation #NaturalLanguageGeneration #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #Temporal Issue Date: 2017-12-28 [Paper Note] HLTCOE at TREC 2013: Temporal Summarization, Xu et al, TREC'13, 2014.02 #Temporal #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] BJUT at TREC 2013 Temporal Summarization Track, yang et al., TREC'13, 2014.02 Comment

・次のモジュールにより構成される。Preprocess, Retrieval, Information expansion, Sentence choosing and ranking

・Preprocess: GPGファイルをTXTファイルに変換。indexをはる。

・Retrieval: 検索エンジンとしてLemur searchを使っている。クエリ拡張と単語の重み付けができるため。（DocumentをRetrievalする）

・Information Expansion: 検索結果を拡張するためにK-meansを用いる。

・Sentence choosing and ranking: クラスタリング後に異なるクラスタの中心から要約を構築する。

time factorとsimilarity factorによってsentenceがランク付けされる。（詳細なし）

・Retrievalにおいては主にTF-IDFとBM25を用いている。

・traditionalなretrieval methodだけではperform wellではないので、Information Expansionをする。k-meansをすることで、異なるイベントのトピックに基づいてクラスタを得ることができる。クラスタごとの中心のドキュメントのtop sentencesをとってきて、要約とする。最終的にイベントごとに50 sentencesを選択する。

・生成したSequential Update Summarizationからvalueを抜いてきて、Value Trackingをする。

・Updateの部分をどのように実装しているのか？

#Pocket #Evaluation #CrossLingual Issue Date: 2023-08-13 Evaluating the Efficacy of Summarization Evaluation across Languages, Koto+ （w_ Tim先生）, Findings of ACL'12 GPT Summary- この研究では、異なる言語の要約コーパスを使用して、マルチリンガルBERTを用いたBERTScoreが他の要約評価メトリックスよりも優れたパフォーマンスを示すことが示されました。これは、英語以外の言語においても有効であることを示しています。 #MachineTranslation #NaturalLanguageGeneration #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#Survey Issue Date: 2017-12-31 [Paper Note] A Survey of Text Summarization Techniques, Nenkova+, Springer'12, 2012.01 #PersonalizedDocumentSummarization #QueryBiased Issue Date: 2017-12-28 [Paper Note] Personalized Text Summarization using NMF and Cluster Refinement, Park+, ICTC'11, 2011.09 Comment

#Multi #PersonalizedDocumentSummarization #InteractivePersonalizedSummarization #Personalization #EMNLP #Selected Papers/Blogs #interactive #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07 Comment

#Evaluation #QA-based Issue Date: 2023-08-20 Discourse constraints for document compression, Clarke+ （w_ Lapata）, Computational Linguistics'10 Comment

QAベースドなアプローチを人手評価に導入した初めての研究

#Multi #PersonalizedDocumentSummarization #QueryBiased #Personalization #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Personalized Multi-Document Summarization using N-Gram Topic Model Fusion, Hennig+, SPIM'10, 2010.05 Comment

・unigramの共起だけでなく，bigramの共起も考慮したPLSIモデルを提案し，jointで学習．与えられたクエリやnarrativeなどとsentenceの類似度（latent spaceで計算）を計算し重要文を決定。

・user-modelを使ったPersonalizationはしていない．

#Single #PersonalizedDocumentSummarization #Search #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Incremental Personalised Summarisation with Novelty Detection, Campana+, FQAS'09, 2009.10 Comment

https://link.springer.com/content/pdf/10.1007/978-3-642-04957-6_55.pdf

#Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing'08 GPT Summary- この論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #Multi #PersonalizedDocumentSummarization #QueryBiased #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalized PageRank based Multi-document summarization, Liu+, WSCS'08, 2008.07 Comment

・クエリがあるのが前提

・基本的にPersonalized PageRankの事前分布を求めて，PageRankアルゴリズムを適用する

・文のsalienceを求めるモデルと（パラグラフ，パラグラフ内のポジション，statementなのかdialogなのか，文の長さ），クエリとの関連性をはかるrelevance model（クエリとクエリのnarrativeに含まれる固有表現が文内にどれだけ含まれているか）を用いて，Personalized PageRankの事前分布を決定する

・評価した結果，DUC2007のtop1とtop2のシステムの間のROUGEスコアを獲得

#Multi #PersonalizedDocumentSummarization #InformationRetrieval #QueryBiased #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalized Multi-document Summarization in Information Retrieval, Yang+, Machine Learning and Cybernetics'08, 2008.07 Comment

・検索結果に含まれるページのmulti-document summarizationを行う．クエリとsentenceの単語のoverlap, sentenceの重要度を

　Affinity-Graphから求め，両者を結合しスコアリング．MMR [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 likeな手法で冗長性を排除し要約を生成する．

・4人のユーザに，実際にシステムを使ってもらい，5-scaleで要約の良さを評価（ベースラインなし）．relevance, importance, 　

　usefulness, complement of summaryの視点からそれぞれを5-scaleでrating．それぞれのユーザは，各トピックごとのドキュメントに

　全て目を通してもらい，その後に要約を読ませる．

#PersonalizedDocumentSummarization #QueryBiased Issue Date: 2017-12-28 [Paper Note] Automatic Personalized Summarization using Non-negative Matrix Factorization and Relevance Measure, Park+, IWSCA'08, 2008.07 Comment

[Paper Note] Personalized Text Summarization using NMF and Cluster Refinement, Park+, ICTC'11, 2011.09 と同様

#PersonalizedDocumentSummarization #QueryBiased #PRICAI #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalized Summarization Agent Using Non-negative Matrix Factorization, Sun Park, PRICAI'08, 2008.12 Comment

#PersonalizedDocumentSummarization #Analysis #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Aspect-Based Personalized Text Summarization, Berkovsky+（Tim先生のグループ）, AH'2008, 2008.07 Comment

#PersonalizedDocumentSummarization #Personalization #WI #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Generating Personalized Summaries Using Publicly Available Web Documents, Kumar+, WI-IAT'08, 2008.12 Comment

評価
5人の研究者による人手評価。
25種類の異なるトピックが選択され、各トピックには5-10の記事が紐づいている。
generic,personalizedな要約を提示しrelevanceを判定してもらった。具体的には、informativenessを5段階評価。
データ非公開、ニュース記事を使ったとしか記述されておらず再現不可

#Metrics #Evaluation #Reference-based #TrainedMetrics Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management'07 GPT Summary- 要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル（VRM）を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 Comment

VRM

#Multi #Document #IntegerLinearProgramming (ILP) #Extractive #ECIR #Selected Papers/Blogs Issue Date: 2018-01-17 [Paper Note] A study of global inference algorithms in multi-document summarization, Ryan McDonald, ECIR'07 Comment

文書要約をナップサック問題として定式化し、厳密解（動的計画法、ILP Formulation）、近似解(Greedy)を求める手法を提案。

#Single #Document #Supervised #IJCAI Issue Date: 2017-12-31 [Paper Note] Document Summarization using Conditional Random Fields, Shen+, IJCAI'07 Comment

CRFを用いて単一文書要約の手法を考えましたという話。

気持ちとしては、

```

1. Supervisedなモデルでは、当時は原文書中の各文を独立に2値分類して要約を生成するモデルが多く、sentence間のrelationが考慮できていなかった

2. unsupervisedな手法では、ルールに基づくものなどが多く、汎用的ではなかった

```

といった問題があったので、CRF使ってそれを解決しましたという主張

CRFを使って、要約の問題を系列ラベリング問題に落とすことで、文間の関係性を考慮できるようにし、従来使われてきたルール（素性）をそのままCRFの素性としてぶちこんでしまえば、要約モデル学習できるよねっていうことだろうと思う。

CRFのFeatureとしては、文のpositionや、長さ、文の尤度、thematic wordsなどの基本的なFeatureに加え、LSAやHitsのScoreも利用している。

DUC2001のデータで評価した結果、basicな素性のみを使用した場合、unsupervisedなベースライン(Random, Lead, LSA, HITS)、およびsupervisedなベースライン(NaiveBayes, SVM, Logistic Regression, HMM)をoutperform。

また、LSAやHITSなどのFeatureを追加した場合、basicな素性のみと比べてROUGEスコアが有意に向上し、なおかつ提案手法がbest

結構referされているので、知っておいて損はないかもしれない。

#GraphBased #Comments #Extractive #CIKM Issue Date: 2017-12-28 [Paper Note] Comments-Oriented Blog Summarization by Sentence Extraction, CIKM'07, [Hu+, 2007], 2007.11 Comment

https://dl.acm.org/citation.cfm?id=1321571

#Multi #Extractive #One-Line Notes Issue Date: 2017-12-28 [Paper Note] NewsInEssence: Summarizing ONLINE NEWS TOPICS, Radev+, Communications of the ACM'05, 2005.10 Comment

・Centroid-Basedな手法(MEADと同じ手法)で要約を生成

・Personalizationはかけていない

#Multi #Classic Issue Date: 2023-08-27 Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies, Radev+, Information Processing & Management'04 Comment

MEAD, Centroid-basedな手法で要約を実施する古典的なMDS手法

#OpinionMining #review Issue Date: 2023-05-08 Mining and summarizing customer reviews, Hu+, KDD'04 Comment

レビュー中のユーザが記述したopinion sentenceを同定し、極性がpos/negのどちらかを判定し、pos/negそれぞれの代表的なsentenceを抽出することで要約する手法

評価をする際は、Amazon等のレビューを収集し、人間がレビューを読み、どれがopinion sentenceか、およびpolarityをタグ付けし、それらをどれだけ抽出できたかをPrecision / Recall / F1値で評価。

#Multi #Document #Extractive #COLING Issue Date: 2018-01-17 [Paper Note] A Formal Model for Information Selection in Multi-Sentence Text Extraction, Filatova+, COLING'04 Comment

初めて文書要約を最大被覆問題として定式化した研究。

#Alignment #EMNLP Issue Date: 2018-01-15 [Paper Note] A Phrase-Based HMM Approach to Document_Abstract Alignment, Daume+, EMNLP'04 Comment

AbstractsとSource TextのAlignmentをとるために、Phrase-Based HMMを提案。

Ziff-Davis Corpusのテキストに対して、2人のannotatorによってgold standardを作成。

評価においてMTにおけるIBM Model4やHMM basedな単語アライメント手法と比較しているが、fair comparisonのために行なっている施策が参考になる。

#Single #Document #GraphBased #Extractive #EMNLP #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] TextRank: Bringing Order into Texts, Mihalcea+, EMNLP'04 Comment

単一文書要約のベースラインとして使える。

gensimに実装がある。

個人的にも実装している：https://github.com/AkihikoWatanabe/textrank

#Multi #PersonalizedDocumentSummarization #Search #Personalization #NAACL #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] WebInEssence: A Personalized Web-Based Multi-Document Summarization and Recommendation System, Radev+, NAACL'01, 2001.06 Comment

・ドキュメントはオフラインでクラスタリングされており，各クラスタごとにmulti-document summarizationを行うことで，

ユーザが最も興味のあるクラスタを同定することに役立てる．あるいは検索結果のページのドキュメントの要約を行う．

要約した結果には，extractした文の元URLなどが付与されている．

・Personalizationをかけるためには，ユーザがドキュメントを選択し，タイトル・ボディなどに定数の重みをかけて，その情報を要約に使う．

・特に評価していない．システムのoutputを示しただけ．

#Document #NAACL #Selected Papers/Blogs Issue Date: 2018-01-21 [Paper Note] Cut and paste based text summarization, Jing+, NAACL'00 Comment

AbstractiveなSummarizationの先駆け的研究。

AbstractiveなSummarizationを研究するなら、押さえておいたほうが良い。

#Alignment Issue Date: 2018-01-15 [Paper Note] Generating Extraction-Based Summaries from Hand-Written Summaries by Aligning Text Spans, Banko+, PACLING'99 Comment

文を単位とし、文を文中の単語の出現頻度ベクトルで表し、ベクトル間の距離で文間の類似度を計ることで自由作成要約中の文と現文中の文をもっとも類似度が大きくなるように対応づける。

（奥村先生のSurveyより： https://www.jstage.jst.go.jp/article/jnlp1994/9/4/9_4_97/_pdf）

#InformationRetrieval #Search #SIGIR #Selected Papers/Blogs Issue Date: 2018-01-17 [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 Comment

#Single #Document #Extractive #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Automatic condensation of electronic publications by sentence selection, Brandow+, Information Processing & Management'95 Comment

報道記事要約において、自動要約システムがLead文に勝つのがhardだということを示した研究

#Document #Supervised #Extractive #SIGIR Issue Date: 2017-12-31 [Paper Note] A Trainable Document Summarizer, Kupiec+, SIGIR'95 #Article #LanguageModel #GenerativeAI #Blog #Science Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

#Article #InformationRetrieval #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #Metrics #Evaluation #Reference-based Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。 #Article #NeuralNetwork #NaturalLanguageGeneration #ACL Issue Date: 2021-06-03 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL’16 Comment

Pointing the Unknown Words, Gulcehre+, ACL’16 と同様コピーメカニズムを提案した論文。Joint Copy ModelやCOPYNETと呼ばれる。

次の単語が "生成" されるのか "コピー" されるのかをスコアリングし、各単語がコピーされる確率と生成される確率をMixtureした同時確率分布で表現する（ [Paper Note] Challenges in Data-to-Document Generation, Wiseman+ (with Rush), EMNLP'17 等でも説明されている）。

コピーメカニズムを導入せるなら引用すべき。

## コピーメカニズム部分の説明

解説資料: http://www.lr.pi.titech.ac.jp/~sasano/acl2016suzukake/slides/08.pdf

#Article #NeuralNetwork #NaturalLanguageGeneration #ACL Issue Date: 2021-06-02 Pointing the Unknown Words, Gulcehre+, ACL’16 Comment

Conditional Copy Model （Pointer Softmax）を提案した論文。
単語を生成する際に、語彙内の単語から生成する分布、原文の単語から生成する分布を求める。後者はattention distributionから。コピーするか否かを決める確率変数を導入し（sigmoid）、両生成確率を重み付けする。
コピーメカニズム入れるなら引用すべき。

解説スライド: https://www.slideshare.net/hytae/pointing-the-unknown-words

#Article #Document #Extractive Issue Date: 2018-01-17 [Paper Note] Machine-made index for technical literature: an experiment, IBM Journal of Research and Development, 1958 Comment

初期の要約研究。Luhnらの研究よりはcitation countが少ない。

#Article #Alignment #SIGIR #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99 Comment

参照要約 - 原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。

outputはこんな感じ。

#Article #Alignment #SIGIR Issue Date: 2018-01-11 [Paper Note] The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment

のタプルが与えられた時に、のタプルを自動的に生成。ExtractはAbstractと対応するText中の重要部（節やsentence）。

に含まれるExtractの情報を使えば、Extractiveな要約器の学習などに活用できる。

#Article #Multi #Single #Document #Unsupervised #GraphBased #Extractive #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] LexRank: Graph-based Lexical Centrality as Salience in Text Summarization, Erkan+, Journal of Artificial Intelligence Research, 2004 Comment

#Article #Document #Classic Issue Date: 2018-01-01 [Paper Note] The automatic creation of literature abstracts, Luhn, IBM Journal of Research Development, 1958 Comment

文書要約研究初期の研究

#Article #Document #StructuredLearning #DomainAdaptation #Supervised #Extractive Issue Date: 2017-12-31 [Paper Note] 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011.11 Comment

構造学習を利用した文書要約モデル

[Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 なども利用し転移学習を行なっている。

#Article #Supervised Issue Date: 2017-12-31 [Paper Note] Text Summarization using a trainable summarizer and latent semantic analysis, Yeh+, Information Processing and Management 2005.01 #Article #Survey Issue Date: 2017-12-31 A survey on Automatic Text Summarization, Das+, 2007.11 #Article #Snippets #SIGIR Issue Date: 2017-12-28 [Paper Note] Web page summarization using clickthrough data, Sun et al., SIGIR’05, 2005.08 #Article #Snippets #QueryBiased #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Learning query-biased web page summarization, Wang et al., CIKM’07, 2007.11 Comment

・従来のquery-biasedな要約におけるclassificationアプローチは，training内のdocumentの情報が未知のdocumentのsentenceのclassificationに役立つというものだった．これは，たとえば似たような情報を多く含むscientific articleだったら有用だが，様々な情報を含むweb pageにはあまり適切ではない（これはtraining set内のdocumentの情報とtarget pageの情報を比較するみたいなアプローチに相当する）．この研究では，target page内の’sentenceの中で’はスニペットに含めるべき文かどうかという比較ができるという仮定のもと，learning to rankを用いてスニペットを生成する．

・query biased summarizationではrelevanceとfidelityの両者が担保された要約が良いとされている．

relevanceとはクエリと要約の適合性，fidelityとは，要約とtarget documentとの対応の良さである．

・素性は，relevanceに関してはクエリとの関連度，fidelityに関しては，target page内のsentenceに関しては文の位置や，文の書式（太字）などの情報を使う．contextの文ではそういった情報が使えないので，タイトルやanchor textのフレーズを用いてfidelityを担保する（詳しくかいてない）．あとはterm occurence，titleとextracted title(先行研究によると，TRECデータの33.5%のタイトルが偽物だったというものがあるのでextracted titleも用いる)，anchor textの情報を使う．あまり深く読んでいない．

・全ての素性を組み合わせたほうがintrinsicなevaluationにおいて高い評価値．また，contextとcontent両方組み合わせたほうが良い結果がでた．

#Article #Snippets #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Enhanced web document summarization using hyperlinks, Delort et al., HT’03, 2003.08 Comment

・Genericなweb pageの要約をつくる

・要約を作る際に，ページの内容から作るわけではなく，contextを用いて作る．contextとは，target pageにリンクを張っているページにおけるリンクの周辺にある文のこと．

・contextを利用した要約では，partialityとtopicalityに関する問題が生じる．partialityとは，contextに含まれる情報がtarget pageに関する一部の情報しか含んでいない問題．topicalityとは，そもそもcontextに含まれる情報が，target pageのoverviewに関する情報を含んでいない問題

・partialityに関しては，contextに含まれる文を除くことで，contextのoverallな情報が失われない最小のsetを求めることで対応．setを求める際には，context内の2文の単語を比較し，identicalなrepresentationが含まれているかどうかを計算．重複するものは排除することでsetを求める．

・topicalityに関しては，target pageのtextual informationが取得できる場合は，context内の文中の単語がtarget page内に含まれる単語の比率を出すことでtopicality scoreを算出．topicality scoreが高いものを要約とする．一方，target pageのtextual informationが十分でない場合は，context内の文のクラスタリングを行い，各クラスタのcentroidと近い文を抽出．

#Article #InformationRetrieval #RelevanceJudgment #Snippets #QueryBiased #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003.09 Comment

・search engineにおいてquery-biasedな要約の有用性を示したもの

・task-orientedな評価によって，提案手法がGoogleやAltaVistaのスニペットよりも良いことを示す．

・提案手法は文選択によるquery-biased summarization．スコアリングには，ページのタイトルに含まれる単語がどれだけ含まれているか，文のページ内での出現位置，クエリとの関連度，文の書式（太字）などの情報を使う．

・スニペットが作れないページに対しては，エラーメッセージを返したり，ページ内の最初のnon-textualな要素を返したりする．

#Article #Update #Dataset Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset, 2006.10 Comment

DUC 2007: https://duc.nist.gov/duc2007/tasks.html

#Article #Update #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Update Summary Update, Copeck et al., TAC’08 Comment

被引用数は少ないが、良い論文からreferされているイメージ

#Article #Update #EACL #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] DualSum: a Topic-Model based approach for update summarization, Delort et al., EACL’12 Comment

・大半のupdate summarizationの手法はdocument set Aがgivenのとき，document set Bのupdate summarizationをつくる際には，redundancy removalの問題として扱っている．

・この手法は，1つのsentenceの中にredundantな情報とnovelな情報が混在しているときに，そのsentenceをredundantなsentenceだと判別してしまう問題点がある．加えて，novel informationを含んでいると判別はするけれども，明示的にnovel informationがなんなのかということをモデル化していない．

・Bayesian Modelを使うことによって，他の手法では抜け落ちている確率的な取り扱いが可能にし, unsupervisedでできるようにする．

#Article #Update #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Document Update Summarization Using Incremental Hierarchical Clustering, Wang+, CIKM’10 Comment

・既存のMDSではdocumentをbatch処理するのが前提．typicalなクラスタリングベースの手法やグラフベースの手法はsentence-graphを構築して要約を行う．しかし，情報がsequentialに届き，realtimeで要約を行いたいときにこのような手法を使うと，毎回すでに処理したことがあるテキストを処理することになり，time consumingだし，無駄な処理が多い．特に災害時などでは致命的．このような問題に対処するために，ドキュメントがarriveしたときに，ただちにupdate summaryが生成できる手法を提案する．

・既存のヒューリスティックなfeature（tf-isfやキーワード数など）を用いたスコアリングは，existing sentencesとnewly coming sentencesが独立しているため，real world scenarioにおいて実用的でないし，hardly perform wellである．

・なので，incremental hierarchical clusteringの手法でsentence clusterをre-organizeすることで，効果的に要約のupdateを行う．このとき，sentence同士のhierarchical relationshipはreal timeにre-constructされる．

・TACのupdate summarizationとは定義が微妙に違うらしい．主に２点．TACではnewly coming documentsだけを対象にしているが，この研究　ではすべてのドキュメントを対象にする．さらに，TACでは一度だけupdate summarizationする（document set Bのみ）が，この研究ではdocumentsがsequenceでarriveするのを前提にする．なので，TACに対しても提案手法は適用可能．

・Sequence Update Summarizationの先駆け的な研究かもしれない．SUSがのshared taskになったのは2013だし．

・incremental hierarchical clusteringにはCOBWEB algorithm (かなりpopularらしい)を使う．COBWEBアルゴリズムは，新たなelementが現れたとき，Category Utilityと呼ばれるcriterionを最大化するように，4種類の操作のうち１つの操作を実行する（insert(クラスタにsentenceを挿入), create（新たなクラスタつくる）, merge(2クラスタを１つに)，split(existingクラスタを複数のクラスタに)）．ただ，もとのCOBWEBで使われているnormal attribute distributionはtext dataにふさわしくないので，Katz distributionをword occurrence distributionとして使う（Sahooらが提案している．）．元論文読まないと詳細は不明．

・要約の生成は，実施したoperationごとに異なる．

- Insertの場合: クラスタを代表するsentenceをクエリとのsimilarity, クラスタ内のsentenceとのintra similarityを計算して決めて出力する．

- createの場合: 新たに生成したクラスタcluster_kを代表する文を，追加したsentence s_newとする．

- mergeの場合: cluster_aとcluster_bをmergeして新たなcluster_cを作った場合，cluster_cを代表する文を決める．cluster_cを代表する文は，cluster_aとcluster_bを代表する文とクエリとのsimilarityをはかり，similarityが大きいものとする．

- splitの場合: cluster_aをsplitしてn個の新たなクラスタができたとき，各新たなn個のクラスタにおいて代表する文を，original subtreeの根とする．

・TAC08のデータとHurricane Wilma Releasesのデータ（disaster systemからtop 10 queryを取得，5人のアノテータに正解を作ってもらう）を使って評価．（要約の長さを揃えているのかが気になる。長さが揃っていないからROUGEのF値で比較している？）

・一応ROUGEのF値も高いし，速度もbaselineと比べて早い．かなりはやい．genericなMDSとTAC participantsと比較．TAC Bestと同等．GenericMDSより良い．document setAの情報を使ってredundancy removalをしていないのにTAC Bestを少しだけoutperform．おもしろい．

・かつ，TAC bestはsentence combinationを繰り返す手法らしく，large-scale online dataには適していないと言及．

#Article #Update #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Incremental Update Summarization: Adaptive Sentence Selection based on Prevalence and Novelty, McCreadie et al., CIKM’14 Comment

・timelyなeventに対してupdate summarizationを適用する場合を考える．たとえば6日間続いたeventがあったときにその情報をユーザが追う為に何度もupdate summarizationシステムを用いる状況を考える．6日間のうち新しい情報が何も出てこない期間はirrelevantでredundantな内容を含む要約が出てきてしまう．これをなんとかする手法が必要だというのがmotivation．

・どのような手法かというと，news streamsからnovel updatesをtimely mannerで自動抽出し，一方で，抽出するupdatesはirrelevant, uninformative or redundant contentを最小化するようなもの手法

・手法は既存のUpdate Summarization手法(lambdaMART, learning to rank baseの手法)で10文を出力し，何文目までを残すか（rank-cut off problem）を解くことで，いらないsentenceをはぶいている．

・rank cut offをする際はlinear regressionとModel Treesを使っているが，linear regressionのような単純な手法だと精度があがらず，Model Treesを使ったほうがいい結果が出た．

・素性は主にprevalence (sentenceが要約したいトピックに沿っているか否か)，novelty（sentenceが新しい情報を含んでいるか），quality(sentenceがそもそも重要かどうか)の３種類の素性を使っている．気持ちとしては，prevalenceとnoveltyの両方が高いsentenceだけを残したいイメージ．つまり，トピックに沿っていて，なおかつ新しい情報を含んでいるsentence

・loss functionには，F値のような働きをするものを採用（とってきたrelevant updateのprecisionとrecallをはかっているイメージ）．具体的には，Expected Latency GainとLatency Comprehensivenessと呼ばれるTREC2013のquality measureに使われている指標を使っている．

・ablation testの結果を見ると，qualityに関する素性が最もきいている．次にnovelty，次点でprevalence

・提案手法はevent発生から時間が経過すると精度が落ちていく場合がある．

・classicalなupdate summarizationの手法と比較しているが，Classyがかなり強い，Model treesを使わない提案手法や，他のbaselineを大きくoutperform. ただ，classyはmodel treesを使ったAdaptive IUSには勝てていない．

・TREC 2013には，Sequantial Update Summarizationタスクなるものがあるらしい．ユーザのクエリQと10個のlong-runnning event（典型的には10日間続くもの，各イベントごとに800〜900万記事），正解のnuggetsとそのtimestampが与えられたときにupdate summarizationを行うタスクらしい．

#Article #Update #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Update Summarization using Semi-Supervised Learning Based on Hellinger Distance, Wang et al., CIKM’15, 2015.10 Comment

・Hellinger Distanceを用いてSentence Graphを構築．ラベル伝搬により要約に含める文を決定する手法

・update summarizationの研究ではsimilarityをはかるときにcosine similarityを用いることが多い．

・cosine similarityはユークリッド距離から直接的に導くことができる．

・Vector Space Modelはnonnegativeなmatrixを扱うので，確率的なアプローチで取り扱いたいが，ユークリッド距離は確率を扱うときにあまり良いmetricではない．そこでsqrt-cos similarityを提案する．sqrt-cosは，Hellinger Distanceから求めることができ，Hellinger Distanceは対称的で三角不等式を満たすなど，IRにおいて良いdistance measureの性質を持っている．（Hellinger Distanceを活用するために結果的に類似度の尺度としてsqrt-cosが出てきたとみなせる）

・またHellinger DistanceはKL Divergenceのsymmetric middle pointとみなすことができ，文書ベクトル生成においてはtf_idfとbinary weightingのちょうど中間のような重み付けを与えているとみなせる．

・要約を生成する際は，まずはset Aの文書群に対してMMR [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 を適用する（redundancyの項がmaxではなくて平均になっている）．similarityはsqrt-cosを用いる．

・sqrt-cosと，set Aの要約結果を用いると，sentence graphを構築できる．sentence graphはset Aとset Bの各sentenceをノードとするグラフで，エッジの重みはsqrt-cosとなっている．このsentence graph上でset Aの要約結果のラベルをset B側のノードに伝搬させることで，要約に含めるべき文を選択する．

・ラベル伝搬にはGreen’s functionを用いる．set Bにlabel “1”がふられるものは，given topicとset Aのcontentsにrelevantなsentenceとなる．

・TAC2011のデータで評価した結果，standardなMMRを大幅にoutperform, co-ranking, Centroidベースの手法などよりも良い結果．

#Article #Update #SIGIR #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] TimedTextRank: Adding the Temporal Dimension to Multi-Document Summarization, Xiaojun Wan, SIGIR’07, 2007.07 Comment

・evolving topicsを要約するときは，基本的に新しい情報が重要だが，TextRankはそれが考慮できないので拡張したという話．

・dynamic document setのnew informationをより重視するTimedTextRankを提案

・TextRankのvoteの部分に重み付けをする．old sentenceからのvoteよりも，new documentsに含まれるsentenceからのvoteをより重要視

・評価のときは，news pageをクローリングし，incremental single-pass clustering algorithmでホットなトピックを抽出しユーザにみせて評価（ただしこれはPreliminary Evaluation）．

#Article #Update #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] The LIA Update Summarization Systems at TAC-2008, Boudin et al. TAC’08, 2008.11 Comment

・Scalable MMR [Paper Note] A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization, Boudin et al., COLING’08, 2008.08 とVariable length intersection gap n-term modelを組み合わせる．

・Variable length intersection gap n-term modelは，あるトピックのterm sequenceは他の異なる語と一緒にでてくる？という直感にもとづく．要は，drugs.*treat.*mental.*illnessなどのパターンをとってきて活用する．このようなパターンをn-gram, n-stem, n-lemmaごとにつくり3種類のモデルを構築．この3種類のモデルに加え，coverage rate (topic vocabularyがセグメント内で一度でもみつかる割合)とsegmentのpositionの逆数を組みあわせて，sentenceのスコアを計算（先頭に近いほうが重要）．

・coherenceを担保するために，sentenceを抽出した後，以下のpost-processingを行う．

Acronym rewriting（初めてでてくるNATOなどの頭字語はfull nameにする）

Date and number rewriting（US standard formsにする）

Temporal references rewriting (next yearなどの曖昧なreferenceを1993などの具体的なものにする)

Discursive form rewriting (いきなりButがでてくるときとかは削るなど)

カッコやカギカッコは除き，句読点をcleanedする

・TAC 2008におけるROUGE-2の順位は72チーム中32位

#Article #Update #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization, Boudin et al., COLING’08, 2008.08 Comment

・MMR [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 をupdate summarization用に拡張．History（ユーザが過去に読んだsentence）の数が多ければ多いほどnon-redundantな要約を出す（Queryに対するRelevanceよりもnon-redundantを重視する）

・Historyの大きさによって，redundancyの項の重みを変化させる．

・MMRのredundancyの項を1-max Sim2(s, s_history)にすることでnoveltyに変更．ORよりANDの方が直感的なので二項の積にする．

・MMRのQueryとのRelevanceをはかる項のSimilarityは，cossimとJaro-Winkler距離のinterpolationで決定. Jaro-Winkler距離とは，文字列の一致をはかる距離で，値が大きいほど近い文字列となる．文字ごとの一致だけでなく，ある文字を入れ替えたときにマッチ可能かどうかも見る．一致をはかるときはウィンドウを決めてはかるらしい．スペルミスなどの検出に有用．クエリ内の単語とselected sentences内の文字列のJaro-Winkler距離を計算．各クエリごとにこれらを求めクエリごとの最大値の平均をとる．

・冗長性をはかるSim2では，normalized longest common substringを使う．

#Article #IntegerLinearProgramming (ILP) #Update #NAACL #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Improving Update Summarization via Supervised ILP and Sentence Reranking, Li et al. NAACL’15, 2015.05 Comment

・update summarizationをILPで定式化．基本的なMDSのILPのterm weightingにsalienceの要素に加えてnoveltyの要素を加える．term weightingにはbigramを用いる．bigram使うとよくなることがupdate summarizationだと知られている．weightingは平均化パーセプトロンで学習

・ILPでcandidate sentencesを求めたあと，それらをSVRを用いてRerankingする．SVRのloss functionはROUGE-2を使う．

・Rerankingで使うfeatureはterm weightingした時のsentenceレベルのfeatureを使う．

・RerankingをするとROUGE-2スコアが改善する．2010, 2011のTAC Bestと同等，あるいはそれを上回る結果．novelty featureを入れると改善．

・noveltyのfeatureは，以下の通り．

Bigram Level

　-bigramのold datasetにおけるDF

　-bigram novelty value (new datasetのbigramのDFをold datasetのDFとDFの最大値の和で割ったもの)

　-bigram uniqueness value (old dataset内で出たbigramは0, すでなければ，new dataset内のDFをDFの最大値で割ったもの)

Sentence Level

　-old datasetのsummaryとのsentence similarity　interpolated n-gram novelty (n-gramのnovelty valueをinterpolateしたもの)

　-interpolated n-gram uniqueness (n-gramのuniqueness valueをinterpolateしたもの)

・TAC 2011の評価の値をみると，Wanらの手法よりかなり高いROUGE-2スコアを得ている．

#Article #Update #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Update Summarization Based on Co-Ranking with Constraints, Wiaojun Wan, COLING’12, 2012.12 Comment

・PageRankの枠組みを拡張してold datasetとnew dataset内のsentenceをco-ranking

・co-rankingするときは，update scoreとconsistency scoreというものを求め相互作用させる．

・update scoreが高いsentenceは同じdataset内では正の関係，異なるdataset内では負の関係を持つ．

・consistency scoreが高いsentenceは同じdataset内では正の関係，異なるdataset内では正の関係を持つ．

・負の関係はdissimilarity matrixを用いて表現する．

・あとはupdate scoreとconsistency scoreを相互作用させながらPageRankでスコアを求める．デコーディングはupdate scoreをgreedyに．

・update scoreとconsistency scoreの和は定数と定義，この論文では定数をsentenceのinformative scoreとしている．これがタイトルにある制約．informative scoreはAffinity GraphにPageRankを適用して求める．

・制約が入ることで，consistency scoreが低いとupdate scoreは高くなるような効果が生まれる．逆もしかり．

#Article #Single #PersonalizedDocumentSummarization #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Segmentation Based, Personalized Web Page Summarization Model, [Journal of advances in information technology, vol. 3, no.3, 2012], 2012.08 Comment

・Single-document

・ページ内をセグメントに分割し，どのセグメントを要約に含めるか選択する問題

・要約に含めるセグメントは4つのfactor（segment weight, luan’s significance factor, profile keywords, compression ratio）から決まる．基本的には，ページ内の高頻度語（stop-wordは除く）と，profile keywordsを多く含むようなセグメントが要約に含まれるように選択される．図の場合はAlt要素，リンクはアンカテキストなどから単語を取得しセグメントの重要度に反映する．

#Article #PersonalizedDocumentSummarization #Personalization #ACL #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Automatic Text Summarization based on the Global Document Annotation, Nagao+, COLING-ACL;98, 1998.08 Comment

Personalized summarizationの評価はしていない。提案のみ。以下の3種類の手法を提案

- keyword-based customization

- 関心のあるキーワードをユーザが入力し、コーパスやwordnet等の共起関係から関連語を取得し要約に利用する

- 文書の要素をinteractiveに選択することによる手法

- 文書中の関心のある要素（e.g. 単語、段落等）

- browsing historyベースの手法

- ユーザのbrowsing historyのドキュメントから、yahooディレクトリ等からカテゴリ情報を取得し、また、トピック情報も取得し（要約技術を活用するとのこと）特徴量ベクトルを作成

- ユーザがアクセスするたびに特徴ベクトルが更新されることを想定している？

#Article #PersonalizedDocumentSummarization #Personalization #NAACL #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A Study for Documents Summarization based on Personal Annotation, Zhang+, HLT-NAACL-DUC’03, 2003.05 Comment

（過去に管理人が作成したスライドでの論文メモのスクショ）

重要論文だと思われる。

#Article #GraphBased #Comments #Extractive #SIGIR #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07 Comment

https://dl.acm.org/citation.cfm?id=1390385

Supervised-FineTuning (SFT) (153)

#Pocket #ReinforcementLearning #SmallModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe, Kaichen Zhang+, arXiv'25, 2025.11 GPT Summary- 本研究では、マルチモーダル推論のための透明な二段階トレーニングレシピ「OpenMMReasoner」を提案。監視付きファインチューニング（SFT）で874Kサンプルのデータセットを構築し、強化学習（RL）で74Kサンプルを活用して推論能力を向上。評価の結果、9つのベンチマークでQwen2.5-VL-7B-Instructに対し11.6%の性能向上を達成し、データの質とトレーニング設計の重要性を示した。すべてのリソースはオープンソースで公開。 Comment

pj page: https://evolvinglmms-lab.github.io/OpenMMReasoner/

SoTAなVLMを構築するためのオープンなデータとレシピらしい

#ComputerVision #EfficiencyImprovement #Pocket #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models, Jiaqi Wang+, NeurIPS'25, 2025.05 GPT Summary- 強化学習を用いて視覚と言語モデルの推論を強化するために、TONという二段階のトレーニング戦略を提案。簡単な質問には推論をスキップし、必要な時に考える人間の思考プロセスを模倣。実験により、TONは従来の手法に比べて推論ステップを最大90％削減し、性能を向上させることが示された。モデルはトレーニングを通じて不要な推論を回避することを学習。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #LanguageModel #ReinforcementLearning #Memorization #One-Line Notes
Issue Date: 2025-11-13 [Paper Note] Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs, Renfei Zhang+, arXiv'25, 2025.11 GPT Summary- 強化学習（RL）は、階層的な知識を必要とするタスクにおいて、基盤モデルや教師あり微調整（SFT）モデルを上回る性能を示す。これは新たなデータからではなく、既存の知識をナビゲートするスキルの向上によるものである。構造化プロンプティングを用いることで、SFTモデルのパフォーマンスギャップを縮小できることが示された。RLモデルは深い検索タスクでの手続き的経路の呼び出しに優れ、知識の表現は変わらないが、知識の遍歴方法が変化することが明らかになった。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Dataset #LanguageModel #EMNLP #DPO #Cultural Issue Date: 2025-11-06 [Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment

元ポスト:

Loading…

効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。

#Pocket #Dataset #LanguageModel #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-30 [Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, arXiv'25, 2025.10 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

#Pocket #LanguageModel #Explanation #PEFT(Adaptor/LoRA) #One-Line Notes Issue Date: 2025-10-25 [Paper Note] Learning to Interpret Weight Differences in Language Models, Avichal Goel+, arXiv'25, 2025.10 GPT Summary- ファインチューニングされた言語モデルの重みの変化を解釈するために、Diff Interpretation Tuning（DIT）を提案。合成されたラベル付きの重みの差を用いてモデルに変更を説明させる。隠れた挙動の報告や知識の要約において、DITが自然言語での正確な説明を可能にすることを示した。 Comment

元ポスト:

Loading…

weightの更新があった時に、LLM自身がどのような変化があったかをverbalizeできるようにSFTでLoRA Adaptorを学習する話らしい

#Multi #Pocket #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #ComputerUse #One-Line Notes Issue Date: 2025-10-21 [Paper Note] UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action, Yuhao Yang+, arXiv'25, 2025.10 GPT Summary- ハイブリッドアクションを用いた基盤モデル「UltraCUA」を提案し、GUIの原始的なアクションと高レベルのプログラムツール呼び出しを統合。自動化パイプライン、合成データエンジン、ハイブリッドアクション軌跡コレクション、二段階のトレーニングパイプラインを構成要素とし、実験により最先端エージェントに対して22%の改善と11%の速度向上を達成。エラー伝播を減少させつつ実行効率を維持することが確認された。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #AIAgents #SyntheticData #Diversity #Verification #DeepResearch #LongHorizon Issue Date: 2025-10-21 [Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #SyntheticData #read-later #One-Line Notes #SkillTag Issue Date: 2025-10-21 [Paper Note] Skill-Targeted Adaptive Training, Yinghui He+, arXiv'25, 2025.10 GPT Summary- 本研究では、言語モデルのメタ認知能力を活用した新しいファインチューニング戦略「STAT」を提案。教師モデルがタスクに必要なスキルをラベル付けし、学生モデルのスキル不足を追跡することで、トレーニングセットを修正。STAT-Selでは既存の例の重みを調整し、STAT-Synでは新たな例を合成。実験により、MATHで最大7.5%の改善を達成し、分布外ベンチマークでも平均4.6%の向上を示した。STATは強化学習手法GRPOと補完的であり、スキルターゲットの適応トレーニングがトレーニングパイプラインを改善することを示唆。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Alignment #Reasoning #Safety Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #EducationalDataMining #SyntheticData #Reasoning #Label-free Issue Date: 2025-10-16 [Paper Note] Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors, Alexis Ross+, arXiv'25, 2025.10 GPT Summary- 新手法MISTAKEを提案し、不正確な推論パターンをモデル化。サイクル整合性を利用して高品質な推論エラーを合成し、教育タスクでの学生シミュレーションや誤解分類において高精度を達成。専門家の選択肢との整合性も向上。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #AIAgents #Self-SupervisedLearning #SelfCorrection #mid-training #Selected Papers/Blogs #WorldModels #KeyPoint Notes Issue Date: 2025-10-14 [Paper Note] Agent Learning via Early Experience, Kai Zhang+, arXiv'25, 2025.10 GPT Summary- 言語エージェントの目標は、経験を通じて学び、複雑なタスクで人間を上回ることですが、強化学習には報酬の欠如や非効率的なロールアウトが課題です。これに対処するため、エージェント自身の行動から生成された相互作用データを用いる「早期経験」という新たなパラダイムを提案します。このデータを基に、(1) 暗黙の世界モデル化と(2) 自己反省の2つの戦略を研究し、8つの環境で評価を行った結果、効果性と一般化が向上することを示しました。早期経験は、強化学習の基盤を提供し、模倣学習と経験駆動エージェントの橋渡しとなる可能性があります。 Comment

元ポスト:

Loading…

IWMは自己教師あり学習の枠組みだと思われるので、よぬスケールし、かつ汎化性能が高く様々な手法のベースとなりうる手法に見える。

著者ポスト:

Loading…

#Pocket #Dataset #Evaluation #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Alignment #Safety Issue Date: 2025-10-13 [Paper Note] Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment, Nevan Wichers+, arXiv'25, 2025.10 GPT Summary- Inoculation Prompting（IP）を提案し、望ましくない行動を明示的に要求することでその学習を防ぐ手法を紹介。IPはファインチューニング中に望ましくない行動の学習を減少させ、望ましい能力の学習には大きな影響を与えない。特に、望ましくない行動を引き出すプロンプトが効果的であることを示し、モデルの一般化を制御するシンプルで効果的な方法であることを確認。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Large Reasoning Models Learn Better Alignment from Flawed Thinking, ShengYun Peng+, arXiv'25, 2025.10

上記研究とどういった点が異なるだろうか

#Pocket #Dataset #LanguageModel #ReinforcementLearning #AIAgents #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Analysis #EfficiencyImprovement #Pocket #LanguageModel #In-ContextLearning Issue Date: 2025-10-05 [Paper Note] IA2: Alignment with ICL Activations Improves Supervised Fine-Tuning, Aayush Mishra+, arXiv'25, 2025.09 GPT Summary- 本研究では、インコンテキスト学習（ICL）の活性化パターンを利用して、監視付きファインチューニング（SFT）の品質を向上させる手法を提案。ICLとSFTの異なる適応メカニズムを示し、ICL活性化アライメント（IA2）という自己蒸留技術を導入。IA2をSFTの前に実行することで、モデルの出力精度とキャリブレーションが向上することを12のベンチマークで実証。これにより、モデル適応の内部メカニズムに対する新たな視点も提供される。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #reading #KeyPoint Notes Issue Date: 2025-10-02 [Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25

著者ポスト:

Loading…

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

#EfficiencyImprovement #Pocket #LanguageModel #AIAgents Issue Date: 2025-09-23 [Paper Note] LIMI: Less is More for Agency, Yang Xiao+, arXiv'25, 2025.09 GPT Summary- AIシステムのエージェンシーを、自律的に問題を発見し解決策を実行する能力と定義。急速に変化する業界のニーズに応じて、単なる推論を超えた自律的なエージェントが求められている。LIMI（Less Is More for Intelligent Agency）は、最小限のトレーニングサンプルで高いエージェンシーを実現する新たな原則を提案し、78サンプルで73.5%の成果を達成。これは、従来のデータ量に依存するアプローチに対する挑戦であり、高品質なデモの戦略的キュレーションが重要であることを示している。 Comment

元ポスト:

Loading…

LLM AgentのSFTにおけるLess is more

参考:
- LIMA: Less Is More for Alignment, Chunting Zhou+, N/A, NeurIPS'23

ポイント解説:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #Hybrid Issue Date: 2025-09-23 [Paper Note] GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models, Min Zeng+, arXiv'25, 2025.09 GPT Summary- GTAフレームワークを提案し、SFTの効率性とRLの能力を統合。モデルは仮の推測を生成し、最終的な回答を導出する。ハイブリッドアプローチにより、収束が速く、性能が向上。損失マスキングと勾配制約を用いて勾配の対立を軽減。実験結果はGTAの優位性を示す。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #LanguageModel #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 [Paper Note] LoRA-Pro: Are Low-Rank Adapters Properly Optimized?, Zhengbo Wang+, ICLR'25, 2024.07 GPT Summary- LoRAは基盤モデルの効率的なファインチューニング手法だが、フルファインチューニングに比べ性能が劣ることが多い。本論文では、LoRAとフルファインチューニングの最適化プロセスの関係を明らかにし、LoRAの低ランク行列の勾配を調整する新手法LoRA-Proを提案。これにより、LoRAの性能が向上し、フルファインチューニングとのギャップが縮小することを実験で示した。 Comment

元ポスト: https://openreview.net/forum?id=gTwRMU3lJ5

openreview: https://openreview.net/forum?id=gTwRMU3lJ5

#Pocket #Dataset #LanguageModel #ReinforcementLearning #Evaluation #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#Analysis #EfficiencyImprovement #MachineLearning #Pocket #LanguageModel #ReinforcementLearning #SmallModel #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-19 [Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #Reasoning #On-Policy Issue Date: 2025-09-18 [Paper Note] WebSailor: Navigating Super-human Reasoning for Web Agent, Kuan Li+, arXiv'25 GPT Summary- WebSailorは、LLMのトレーニングにおいて人間の認知的限界を超えるためのポストトレーニング手法であり、複雑な情報探索タスクでの性能を向上させる。構造化サンプリングや情報の難読化、DUPOを用いて高不確実性タスクを生成し、オープンソースエージェントの能力を大幅に上回ることを目指す。 #Pocket #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData Issue Date: 2025-09-18 [Paper Note] WebDancer: Towards Autonomous Information Seeking Agency, Jialong Wu+, arXiv'25 GPT Summary- 複雑な問題解決のために、エンドツーエンドの情報探索エージェントを構築する一貫したパラダイムを提案。4つの主要ステージ（データ構築、軌跡サンプリング、教師ありファインチューニング、強化学習）を経て、WebDancerを実装。GAIAとWebWalkerQAでの評価により、強力なパフォーマンスを示し、トレーニングパラダイムの有効性を確認。コードは公開予定。 #Analysis #Pocket #LanguageModel #ReinforcementLearning #read-later Issue Date: 2025-09-17 [Paper Note] RL Fine-Tuning Heals OOD Forgetting in SFT, Hangzhan Jin+, arXiv'25 GPT Summary- 二段階ファインチューニングにおけるSFTとRLの相互作用を探求し、SFTが記憶し、RLが一般化するという主張が過度に単純化されていることを発見。具体的には、(1) OOD性能はSFTの初期段階でピークに達し、その後低下すること、(2) RLはSFT中に失われた推論能力を回復する役割を果たすこと、(3) 回復能力には限界があること、(4) OODの挙動は特異ベクトルの「回転」と強く相関することを明らかにした。これにより、SFTとRLの役割を再認識し、特異ベクトルの回転が重要なメカニズムであることを示した。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #Reasoning #PostTraining #GRPO #DeepResearch #Medical Issue Date: 2025-09-13 [Paper Note] MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework, Ailing Yu+, arXiv'25 GPT Summary- 医療分野に特化した深層研究エージェントを提案。医療知識グラフを用いたデータ合成とカスタム医療検索エンジンを統合し、複雑な質問-回答ペアを生成。新たな医療ベンチマークで最先端の結果を達成し、一般的な深層研究タスクでも競争力を維持。ドメイン特化型の革新が小型モデルの優位性を示す。 Comment

HF: https://huggingface.co/AQ-MedAI

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

#GraphBased #Pocket #LanguageModel #ReinforcementLearning #AIAgents #SyntheticData #LongSequence #read-later Issue Date: 2025-09-10 [Paper Note] WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents, Junteng Liu+, arXiv'25 GPT Summary- 本研究では、情報探索のためのデータ不足に対処するため、WebExplorerというモデルベースの探索手法を提案。これにより、複雑なクエリ-回答ペアを生成し、高度なウェブエージェントWebExplorer-8Bを開発。128Kのコンテキスト長を持ち、最先端の情報探索ベンチマークで高いパフォーマンスを達成。特に、WebExplorer-8Bは他の大規模モデルを上回る精度を示し、長期的な問題解決に向けた実用的なアプローチを提供することが確認された。 Comment

元ポスト:

Loading…

学習データの合成方法が肝

#Pocket #LanguageModel #ReinforcementLearning #Mathematics #One-Line Notes Issue Date: 2025-09-10 [Paper Note] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning, Tong Zheng+, arXiv'25 GPT Summary- Parallel-R1は、複雑な推論タスクに対して並列思考を可能にする強化学習フレームワークであり、コールドスタート問題に対処するための進行的なカリキュラムを採用。簡単なタスクから始め、並列思考能力を植え付けた後、難しい問題に移行。実験により、従来の逐次思考モデルに対して8.4%の精度向上を達成し、並列思考が中間トレーニング探索の足場として機能することを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

ポイント解説:

Loading…

コードがリリース:

Loading…

#Analysis #Pocket #LanguageModel #ReinforcementLearning #Catastrophic Forgetting #On-Policy Issue Date: 2025-09-06 [Paper Note] RL's Razor: Why Online Reinforcement Learning Forgets Less, Idan Shenfeld+, arXiv'25 GPT Summary- 強化学習（RL）と教師ありファインチューニング（SFT）の比較により、RLが以前の知識をより良く保持することが明らかに。忘却の程度は分布のシフトによって決まり、KLダイバージェンスで測定される。RLは新しいタスクに対してKL最小解にバイアスがかかる一方、SFTは任意の距離に収束する可能性がある。実験を通じて、RLの更新が小さなKL変化をもたらす理由を理論的に説明し、「RLの剃刀」と呼ぶ原則を提唱。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

#Analysis #Pocket #LanguageModel #ReinforcementLearning #PostTraining Issue Date: 2025-09-05 [Paper Note] Towards a Unified View of Large Language Model Post-Training, Xingtai Lv+, arXiv'25 GPT Summary- 本論文では、オンラインデータとオフラインデータを用いた言語モデルのポストトレーニングアプローチが、矛盾せず単一の最適化プロセスであることを示す。統一ポリシー勾配推定器を導出し、ハイブリッドポストトレーニング（HPT）アルゴリズムを提案。HPTは異なるトレーニング信号を動的に選択し、デモンストレーションを効果的に活用しつつ安定した探索を実現。実験により、HPTが数学的推論ベンチマークで強力な性能を示すことを確認。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pretraining #Pocket #LanguageModel #Alignment #OpenWeight #Architecture #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 [Paper Note] Motif 2.6B Technical Report, Junghwan Lim+, arXiv'25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Motif-Technologies/Motif-2.6B

#MachineTranslation #LanguageModel #SmallModel #Japanese #DPO #Selected Papers/Blogs #ModelMerge Issue Date: 2025-08-22 PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25 Comment

元ポスト:

Loading…

#Single #EfficiencyImprovement #Pocket #ReinforcementLearning #AIAgents #LongSequence #read-later Issue Date: 2025-08-21 [Paper Note] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL, Weizhen Li+, arXiv'25 GPT Summary- Chain-of-Agents（CoA）という新しいLLM推論パラダイムを提案し、マルチエージェントシステムの協力を単一モデル内でエンドツーエンドに実現。マルチエージェント蒸留フレームワークを用いて、エージェント的な教師ありファインチューニングを行い、強化学習で能力を向上。得られたエージェント基盤モデル（AFMs）は、ウェブエージェントやコードエージェントの設定で新たな最先端性能を示す。研究成果はオープンソース化され、今後の研究の基盤を提供。 Comment

元ポスト:

Loading…

マルチエージェントのように振る舞うシングルエージェントを、マルチエージェントから得られたtrajectoryを通じて蒸留することめ実現する手法を提案。SFTでcold startに対して訓練した後、verifiable reward (タスクを正常に完了できたか否か)でRLする模様。

データセットも公開されている模様

所見:

Loading…

解説:

Loading…

#Pocket #LanguageModel #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-08-09 [Paper Note] On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification, Yongliang Wu+, arXiv'25 GPT Summary- 大規模言語モデル（LLM）の教師ありファインチューニング（SFT）の一般化能力を向上させるため、動的ファインチューニング（DFT）を提案。DFTはトークンの確率に基づいて目的関数を再スケーリングし、勾配更新を安定化させる。これにより、SFTを大幅に上回る性能を示し、オフライン強化学習でも競争力のある結果を得た。理論的洞察と実践的解決策を結びつけ、SFTの性能を向上させる。コードは公開されている。 Comment

元ポスト:

Loading…

これは大変興味深い。数学以外のドメインでの評価にも期待したい。

日本語解説:

Loading…

一歩先の視点が考察されており、とても勉強になる。

#Pocket #ReinforcementLearning #PostTraining Issue Date: 2025-07-19 [Paper Note] Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling, Zeyu Huang+, arXiv'25 GPT Summary- ポストトレーニング技術にはSFTとRFTがあり、それぞれ異なるトレードオフが存在する。本論文では、デモンストレーションと探索を統合したハイブリッドアプローチ「Prefix-RFT」を提案し、数学的推論問題でその効果を実証。Prefix-RFTはSFTやRFTの性能を上回り、既存のフレームワークに容易に統合可能である。分析により、SFTとRFTの補完的な性質が示され、デモンストレーションデータの質と量に対する堅牢性も確認された。この研究はLLMのポストトレーニングに新たな視点を提供する。 Comment

元ポスト:

Loading…

少し前からXコミュニティでRFT(Reinforcement Finetuning)という用語が観測されたが、arXiv paperで見たのは初めてかもしれない。RFTはおそらく、強化学習を利用したPost-Trainingの総称だと思われる。

デモンストレーションデータからPrefixをサンプリングし（SFTの要素; オフラインデータからサンプリングしたPrefixで生成をガイドする）、Prefixの続きをオンラインで生成し（RFTの要素; ガイドされたPrefixの続きを探索する）、Prefix+生成結果をロールアウトとし学習する。

#EfficiencyImprovement #Pocket #LanguageModel #PEFT(Adaptor/LoRA) #Stability Issue Date: 2025-07-12 [Paper Note] SingLoRA: Low Rank Adaptation Using a Single Matrix, David Bensaïd+, arXiv'25 GPT Summary- SingLoRAは、LoRAの低ランク適応を再定式化し、単一の低ランク行列とその転置の積を用いることで、トレーニングの安定性を向上させ、パラメータ数をほぼ半減させる手法です。実験により、常識推論タスクでLLama 7Bを用いたファインチューニングで91.3%の精度を達成し、LoRAやLoRA+を上回る結果を示しました。また、画像生成においてもStable Diffusionのファインチューニングで高い忠実度を実現しました。 Comment

元ポスト:

Loading…

#LanguageModel #Japanese #OOD #DiseaseNameRecognition Issue Date: 2025-07-10 [Paper Note] Toward Cross-Hospital Deployment of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese, Shimizu+, JMIR'25 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #ReinforcementLearning #Mathematics Issue Date: 2025-07-09 [Paper Note] CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization, Zhongyuan Peng+, arXiv'25 GPT Summary- 自然言語の数学的表現を実行可能なコードに翻訳する課題に対し、批評者の役割を能動的な学習コンポーネントに変えるCriticLeanという新しい強化学習フレームワークを提案。CriticLeanGPTを用いて形式化の意味的忠実性を評価し、CriticLeanBenchでその能力を測定。285K以上の問題を含むFineLeanCorpusデータセットを構築し、批評段階の最適化が信頼性のある形式化に重要であることを示す。 Comment

元ポスト:

Loading…

Lean 4 形式に

#NaturalLanguageGeneration #Citations #LanguageModel #COLM #AcademicWriting Issue Date: 2025-07-08 [Paper Note] ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations, Yubo Wang+, COLM'25 GPT Summary- ScholarCopilotは、学術的な執筆を支援するために大規模言語モデルを強化したフレームワークで、正確で文脈に関連した引用を生成します。取得トークンを用いて動的に文献を取得し、生成プロセスを補強します。評価では、取得精度が40.1%に達し、生成品質も他のモデルを大幅に上回りました。特に、ScholarCopilotはChatGPTを超える性能を示し、引用の質で100%の好ましさを達成しました。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Alignment #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#ComputerVision #Pretraining #Pocket #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM

#Pocket #LanguageModel #ReinforcementLearning #OpenWeight #OpenSource #PostTraining Issue Date: 2025-06-18 [Paper Note] AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv'25 GPT Summary- 本研究では、教師ありファインチューニング（SFT）と強化学習（RL）の相乗効果を探求し、SFTトレーニングデータの整備においてプロンプト数の増加が推論性能を向上させることを示しました。特に、サンプリング温度を適切に調整することで、RLトレーニングの効果を最大化できることが分かりました。最終的に、AceReason-Nemotron-1.1モデルは、前モデルを大きく上回り、数学およびコードベンチマークで新たな最先端性能を達成しました。 Comment

元ポスト:

Loading…

様々なtakeawayがまとめられている。

SFT,RLに利用されたデータも公開

#Analysis #Pocket #LanguageModel #EMNLP #read-later Issue Date: 2025-06-18 [Paper Note] Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality, Yuto Harada+, EMNLP'25 GPT Summary- SFTはLLMを人間の指示に整合させる重要なプロセスであり、1,000以上のSFTモデルを生成し、データセットの特性と層ごとの変更を調査。訓練タスクの相乗効果やモデル固有の戦略の重要性を明らかにし、困惑度がSFTの効果を予測することを示した。中間層の重みの変化がパフォーマンス向上と強く相関し、研究を加速させるためにモデルと結果を公開予定。 Comment

元ポスト:

Loading…

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/C10-6.pdf

#LanguageModel #ReinforcementLearning #KeyPoint Notes Issue Date: 2025-06-13 [Paper Note] Self-Adapting Language Models, Adam Zweiger+, arXiv'25 GPT Summary- 自己適応型LLMs（SEAL）を提案し、モデルが自身のファインチューニングデータと指示を生成することで適応を実現。新しい入力に対して自己編集を行い、持続的な重みの更新を可能にする。強化学習ループを用いて下流性能を報酬信号として活用し、従来のアプローチと異なり、モデル自身の生成を用いて適応を制御。実験結果はSEALの有望性を示す。 Comment

元ポスト:

Loading…

再現実験に成功したとのポスト:

Loading…

#EfficiencyImprovement #MachineLearning #Pocket #LanguageModel #PostTraining #read-later Issue Date: 2025-06-13 [Paper Note] Resa: Transparent Reasoning Models via SAEs, Shangshang Wang+, arXiv'25 GPT Summary- Resaという1.5Bの推論モデル群を提案し、効率的なスパースオートエンコーダーチューニング（SAE-Tuning）手法を用いて訓練。これにより、97%以上の推論性能を保持しつつ、訓練コストを2000倍以上削減し、訓練時間を450倍以上短縮。軽いRL訓練を施したモデルで高い推論性能を実現し、抽出された推論能力は一般化可能かつモジュール化可能であることが示された。全ての成果物はオープンソース。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

論文中で利用されているSource Modelの一つ:
- [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25

#Pocket #LanguageModel #AIAgents Issue Date: 2025-06-12 [Paper Note] Go-Browse: Training Web Agents with Structured Exploration, Apurva Gandhi+, arXiv'25 GPT Summary- Go-Browseを提案し、ウェブ環境の構造的探索を通じて多様なデータを自動収集。グラフ探索を用いて効率的なデータ収集を実現し、WebArenaベンチマークで成功率21.7%を達成。これはGPT-4o miniを2.4%上回り、10B未満のモデルでの最先端結果を2.9%上回る。 Comment

元ポスト:

Loading…

WebArena:
- WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

#EfficiencyImprovement #Pocket #LanguageModel #EMNLP Issue Date: 2025-06-05 [Paper Note] Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem, Yubo Wang+, EMNLP'25 GPT Summary- 本研究では、強力な大規模言語モデル（LLM）の推論能力を引き出すために、批評微調整（CFT）が効果的であることを示します。CFTは、単一の問題に対する多様な解を収集し、教師LLMによる批評データを構築する手法です。QwenおよびLlamaモデルを微調整した結果、数学や論理推論のベンチマークで顕著な性能向上を観察しました。特に、わずか5時間のトレーニングで、Qwen-Math-7B-CFTは他の手法と同等以上の成果を上げました。CFTは計算効率が高く、現代のLLMの推論能力を引き出すためのシンプルなアプローチであることが示されました。 Comment

元ポスト:

Loading…

参考:

Loading…

#Analysis #Pocket #Dataset #LanguageModel #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pocket #LanguageModel #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #Safety #DPO #Toxicity #ActivationSteering/ITI Issue Date: 2025-05-09 When Bad Data Leads to Good Models, Kenneth Li+, arXiv'25 GPT Summary- 本論文では、LLMの事前学習におけるデータの質の再検討を行い、有害データが事後学習における制御を向上させる可能性を探ります。トイ実験を通じて、有害データの割合が増加することで有害性の概念が線形表現に影響を与えることを発見し、有害データが生成的有害性を増加させつつも除去しやすくなることを示しました。評価結果は、有害データで訓練されたモデルが生成的有害性を低下させつつ一般的な能力を保持する良好なトレードオフを達成することを示唆しています。 Comment

元ポスト:

Loading…

これは面白そう

おそらく2,3節あたりが一番おもしろいポイントなのだと思われるがまだ読めていない。

#ComputerVision #Embeddings #Analysis #Pocket #LanguageModel #RepresentationLearning #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#LanguageModel #Alignment #Safety #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-29 Safety Alignment Should Be Made More Than Just a Few Tokens Deep, Xiangyu Qi+, ICLR'25 GPT Summary- 現在の大規模言語モデル（LLMs）の安全性アラインメントは脆弱であり、単純な攻撃や善意のファインチューニングによって脱獄される可能性がある。この脆弱性は「浅い安全性アラインメント」に起因し、アラインメントが主に最初の数トークンの出力にのみ適応されることに関連している。本論文では、この問題のケーススタディを提示し、現在のアラインされたLLMsが直面する脆弱性を説明する。また、浅い安全性アラインメントの概念が脆弱性軽減の研究方向を示唆し、初期トークンを超えたアラインメントの深化がロバスト性を向上させる可能性を示す。最後に、ファインチューニング攻撃に対する持続的な安全性アラインメントを実現するための正則化されたファインチューニング目的を提案する。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=6Mxhg9PtDE

#EfficiencyImprovement #Pocket #LanguageModel #Quantization #SmallModel Issue Date: 2025-04-19 BitNet b1.58 2B4T Technical Report, Shuming Ma+, arXiv'25 GPT Summary- BitNet b1.58 2B4Tは、20億パラメータを持つオープンソースの1ビット大規模言語モデルで、4兆トークンで訓練されました。言語理解や数学的推論などのベンチマークで評価され、同サイズのフルプレシジョンLLMと同等の性能を示しつつ、計算効率が向上しています。メモリ、エネルギー消費、デコーディングレイテンシが削減され、モデルの重みはHugging Faceで公開されています。 Comment

元ポスト:

Loading…

圧倒的省メモリかつcpuでのinference速度も早そう

#Pocket #LanguageModel #ReinforcementLearning #DiffusionModel #Reasoning #PostTraining #GRPO Issue Date: 2025-04-18 d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, Siyan Zhao+, arXiv'25 GPT Summary- d1というフレームワークを提案し、マスク付きdLLMsを教師ありファインチューニングと強化学習で推論モデルに適応。マスク付きSFT技術で知識を抽出し、diffu-GRPOという新しいRLアルゴリズムを導入。実証研究により、d1が最先端のdLLMの性能を大幅に向上させることを確認。 Comment

元ポスト:

Loading…

#Analysis #LanguageModel #ReinforcementLearning #Evaluation #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#Analysis #Pretraining #Pocket #LanguageModel #ICLR #read-later Issue Date: 2025-03-27 Overtrained Language Models Are Harder to Fine-Tune, Jacob Mitchell Springer+, ICLR'25 GPT Summary- 大規模言語モデルの事前学習において、トークン予算の増加がファインチューニングを難しくし、パフォーマンス低下を引き起こす「壊滅的な過学習」を提唱。3Tトークンで事前学習されたOLMo-1Bモデルは、2.3Tトークンのモデルに比べて2%以上の性能低下を示す。実験と理論分析により、事前学習パラメータの感度の増加が原因であることを示し、事前学習設計の再評価を促す。 Comment

著者によるポスト:

Loading…

ICLR'25のOutstanding Paperに選ばれた模様:

Loading…

きちんと読んだ方が良さげ。

#LanguageModel #COLM #PostTraining Issue Date: 2025-03-25 Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate, Yubo Wang+, COLM'25 GPT Summary- 批評ファインチューニング（CFT）は、言語モデルがノイズのある応答を批評することを学ぶ新しい戦略で、従来の監視付きファインチューニング（SFT）に挑戦します。CFTは人間の学習プロセスにインスパイアを受け、深い分析を促進します。WebInstructから構築した50Kサンプルのデータセットを用いて、CFTは複数のベースモデルでSFTに対して4-10%の性能向上を示しました。特に、Qwen2.5-Math-CFTは少ないトレーニングで強力な競合と同等の性能を発揮し、CFTの堅牢性も確認されました。CFTは言語モデルの推論を進展させる効果的な手法であると主張します。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Reasoning #PEFT(Adaptor/LoRA) Issue Date: 2025-03-19 The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models, Ke Ji+, arXiv'25 GPT Summary- 非教師ありプレフィックスファインチューニング（UPFT）を提案し、LLMの推論効率を向上。初期のプレフィックス部分文字列に基づいて訓練し、ラベル付きデータやサンプリングを不要に。UPFTは、教師あり手法と同等の性能を維持しつつ、訓練時間を75%、サンプリングコストを99%削減。最小限の非教師ありファインチューニングで大幅な推論向上を実現し、リソース効率の良い代替手段を提供。 Comment

斜め読みだが、reasoning traceの冒頭部分は重要な役割を果たしており、サンプリングした多くのresponseのreasoning traceにおいて共通しているものは重要という直感から（Prefix Self-Consistency）、reasoning traceの冒頭部分を適切に生成できるようにモデルをFinetuningする。従来のRejection Samplingを用いた手法では、複数のresponseを生成させて、最終的なanswerが正解のものをサンプリングするため正解ラベルが必要となるが、提案手法ではreasoning traceの冒頭部分の共通するsubsequenceをmajority voteするだけなのでラベルが不要である。

reasoning prefixを学習する際は下記のようなテンプレートを用いる。このときに、prefixのspanのみを利用して学習することで大幅に学習時間を削減できる。

また、そのような学習を行うとcatastrophic forgettingのリスクが非常に高いが、これを防ぐために、マルチタスクラーニングを実施する。具体的には学習データのp%については全体のreasoning traceを生成して学習に利用する。このときに、最終的な回答の正誤を気にせずtraceを生成して学習に利用することで、ラベルフリーな特性を維持できる（つまり、こちらのデータは良いreasoning traceを学習することを目的としているわけではなく、あくまでcatastrophic forgettingを防ぐためにベースモデルのようなtraceもきちんと生成できれば良い、という感覚だと思われる）。

AppendixにQwenを用いてtemperature 0.7で16個のresponseをサンプリングし、traceの冒頭部分が共通している様子が示されている。

下記論文でlong-CoTを学習させる際のlong-CoTデータとして、reasoningモデルから生成したtraceと非reasoning modelから生成したtraceによるlong-CoTデータを比較したところ前者の方が一貫して学習性能が良かったとあるが、この研究でもreasoning traceをつよつよモデルで生成したら性能上がるんだろうか。

- Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25

#Analysis #Pocket #LanguageModel #ReinforcementLearning #RLHF Issue Date: 2025-03-17 All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv'25 GPT Summary- 基盤モデルのファインチューニングにおいて、報酬モデルを用いた二段階のトレーニング手順が効果的である理由を理論的および実証的に検討。特に、好みデータから単純な報酬モデルを学び、強化学習手続きがそのモデルに最適なポリシーをフィルタリングする能力が、オンラインファインチューニングの優れたパフォーマンスに寄与することが示された。 Comment

元ポスト:

Loading…

#Survey #Pocket #LanguageModel #Reasoning Issue Date: 2025-03-15 A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は自然言語処理に革命をもたらしたが、専門的な文脈での制約が明らかである。これに対処するため、高度なポストトレーニング言語モデル（PoLMs）が必要であり、本論文ではその包括的な調査を行う。ファインチューニング、アライメント、推論、効率、統合と適応の5つのコアパラダイムにわたる進化を追跡し、PoLMがバイアス軽減や推論能力向上に寄与する方法を示す。研究はPoLMの進化に関する初の調査であり、将来の研究のための枠組みを提供し、LLMの精度と倫理的堅牢性を向上させることを目指す。 Comment

元ポスト:

Loading…

#Tools #Pocket #SelfImprovement Issue Date: 2025-03-07 START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv'25 GPT Summary- 新しいツール統合型の長Chain-of-thought推論モデルSTARTを提案。STARTは外部ツールを活用し、自己学習フレームワークを通じて推論能力を向上。Hint-inferとHint Rejection Sampling Fine-Tuningを用いてLRMをファインチューニングし、科学QAや数学、コードベンチマークで高精度を達成。ベースモデルを大幅に上回り、最先端モデルに匹敵する性能を示す。 Comment

論文の本題とは関係ないが、QwQ-32Bよりも、DeepSeek-R1-Distilled-Qwen32Bの方が性能が良いのは興味深い。やはり大きいパラメータから蒸留したモデルの方が、小さいパラメータに追加学習したモデルよりも性能が高い傾向にあるのだろうか（どういうデータで蒸留したかにもよるけど）。

OpenReview: https://openreview.net/forum?id=m80LCW765n

#Survey #Pocket #LanguageModel #Reasoning Issue Date: 2025-03-04 LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）のポストトレーニング手法に焦点を当て、知識の洗練や推論の改善、事実の正確性向上を目指す。ファインチューニングや強化学習などの戦略がLLMsのパフォーマンスを最適化し、実世界のタスクへの適応性を向上させる。主要な課題として壊滅的な忘却や報酬ハッキングを分析し、今後の研究方向性を示す公開リポジトリも提供。 Comment

非常にわかりやすい。

元ポスト:

Loading…

#Analysis #Pocket #LanguageModel #ReinforcementLearning Issue Date: 2025-02-18 Scaling Test-Time Compute Without Verification or RL is Suboptimal, Amrith Setlur+, arXiv'25 GPT Summary- RLや探索に基づく検証者ベース（VB）手法が、探索の痕跡を蒸留する検証者フリー（VF）アプローチよりも優れていることを示す。テスト時の計算とトレーニングデータをスケールアップすると、VF手法の最適性が悪化し、VB手法がより良くスケールすることが確認された。3/8/32BサイズのLLMを用いた実験で、検証が計算能力の向上に重要であることを実証。 Comment

元ポスト:

Loading…

- s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25

#InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-02-12 DeepRAG: Thinking to Retrieval Step by Step for Large Language Models, Xinyan Guan+, arXiv'25 GPT Summary- DeepRAGフレームワークを提案し、検索強化推論をマルコフ決定過程としてモデル化。クエリを反復的に分解し、外部知識の取得とパラメトリック推論の依存を動的に判断。実験により、検索効率と回答の正確性を21.99%向上させることを実証。 Comment

#Pocket #LanguageModel #Test-Time Scaling #read-later #Selected Papers/Blogs Issue Date: 2025-02-07 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv'25 GPT Summary- テスト時スケーリングを用いて言語モデルのパフォーマンスを向上させる新しいアプローチを提案。小規模データセットs1Kを作成し、モデルの思考プロセスを制御する予算強制を導入。これにより、モデルは不正確な推論を修正し、Qwen2.5-32B-Instructモデルがo1-previewを最大27%上回る結果を達成。さらに、介入なしでパフォーマンスを向上させることが可能となった。モデル、データ、コードはオープンソースで提供。 Comment

解説:

Loading…

#Pocket #LanguageModel #DataDistillation #Reasoning #PostTraining Issue Date: 2025-02-07 LIMO: Less is More for Reasoning, Yixin Ye+, arXiv'25 GPT Summary- LIMOモデルは、わずか817のトレーニングサンプルで複雑な数学的推論を効果的に引き出し、AIMEで57.1%、MATHで94.8%の精度を達成。従来のモデルよりも少ないデータで優れたパフォーマンスを示し、一般化を促す「Less-Is-More Reasoning Hypothesis」を提案。LIMOはオープンソースとして提供され、データ効率の良い推論の再現性を促進する。 Comment

元ポスト:

Loading…

#Analysis #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning #LongSequence #RewardHacking #PostTraining #Selected Papers/Blogs Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv'25 GPT Summary- 本研究では、大規模言語モデル（LLMs）における長い思考の連鎖（CoTs）推論のメカニズムを調査し、重要な要因を特定。主な発見は、(1) 教師ありファインチューニング（SFT）は必須ではないが効率を向上させる、(2) 推論能力は計算の増加に伴い現れるが、報酬の形状がCoTの長さに影響、(3) 検証可能な報酬信号のスケーリングが重要で、特に分布外タスクに効果的、(4) エラー修正能力は基本モデルに存在するが、RLを通じて効果的に奨励するには多くの計算が必要。これらの洞察は、LLMsの長いCoT推論を強化するためのトレーニング戦略の最適化に役立つ。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #MachineLearning #Pocket #LanguageModel #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#ComputerVision #Pocket #Dataset #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。 #Pocket #LanguageModel #Alignment #AIAgents #COLING #PostTraining Issue Date: 2024-12-10 Towards Adaptive Mechanism Activation in Language Agent, Ziyang Huang+, COLING'25 GPT Summary- 自己探索によるメカニズム活性化学習（ALAMA）を提案し、固定されたメカニズムに依存せずに適応的なタスク解決を目指す。調和のとれたエージェントフレームワーク（UniAct）を構築し、タスク特性に応じてメカニズムを自動活性化。実験結果は、動的で文脈に敏感なメカニズム活性化の有効性を示す。 Comment

元ポスト:

Loading…

手法としては、SFTとKTOを活用しpost trainingするようである

- KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N/A, ICML'24

#Pocket #LanguageModel #Alignment #ICML Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, ICML'25 GPT Summary- 自己調整は、モデルが人間の注釈なしに自らを改善する方法であり、自己一貫性を活用して訓練を行う新しいアプローチ、自己一貫性優先最適化（ScPO）を提案。ScPOは一貫した答えを優先し、GSM8KやMATHなどの推論タスクで従来の手法を大幅に上回る性能を示し、標準的な監視学習との組み合わせでも結果が向上。ZebraLogicでLlama-3 8Bを微調整し、他の大規模モデルを超える成果を達成。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Safety #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-24 [Paper Note] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To, Xiangyu Qi+, ICLR'24, 2023.10 GPT Summary- LLMのファインチューニングは、下流のユースケースに最適化する手法だが、安全性のリスクが伴う。特に、敵対的なトレーニング例を用いたファインチューニングが、モデルの安全性調整を損なう可能性があることが示された。例えば、わずか10例の悪意のある例でGPT-3.5 Turboをファインチューニングすると、安全ガードレールが突破される。また、無害なデータセットでのファインチューニングも意図せず安全性を劣化させる可能性がある。これらの結果は、調整されたLLMのファインチューニングが新たな安全リスクを生むことを示唆しており、今後の安全プロトコルの強化が求められる。 Comment

openreview: https://openreview.net/forum?id=hTEGyKf0dZ

#Pocket #LanguageModel #PEFT(Adaptor/LoRA) #MoE(Mixture-of-Experts) #EMNLP Issue Date: 2025-08-06 [Paper Note] Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models, Zihan Wang+, EMNLP'24 GPT Summary- 本研究では、Mixture-of-Experts（MoE）アーキテクチャを持つ大規模言語モデル（LLMs）に対するパラメータ効率の良いファインチューニング（PEFT）手法を提案。主な内容は、(1) タスクごとの専門家の活性化分布の集中度の調査、(2) Expert-Specialized Fine-Tuning（ESFT）の提案とその効果、(3) MoEアーキテクチャの専門家特化型ファインチューニングへの影響の分析。実験により、ESFTがチューニング効率を向上させ、フルパラメータファインチューニングに匹敵またはそれを上回る性能を示すことが確認された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel Issue Date: 2025-01-25 Spectrum: Targeted Training on Signal to Noise Ratio, Eric Hartford+, arXiv'24 GPT Summary- 「Spectrum」という手法を提案し、SNRに基づいてレイヤーモジュールを選択的にターゲットにすることで、LLMのトレーニングを加速。これによりGPUメモリ使用量を削減しつつ、フルファインチューニングに匹敵する性能を実現。実験により、既存手法QLoRAと比較してモデルの品質とVRAM効率の向上が確認された。 Comment

#MachineTranslation #Analysis #LanguageModel #PEFT(Adaptor/LoRA) Issue Date: 2025-01-02 How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes, Inacio Vieira+, AMTA'24 GPT Summary- LLMsのファインチューニングに翻訳メモリ（TMs）を活用し、特定の組織向けの翻訳精度と効率を向上させる研究。5つの翻訳方向で異なるサイズのデータセットを用いて実験し、トレーニングデータが増えるほど翻訳パフォーマンスが向上することを確認。特に、1kおよび2kの例ではパフォーマンスが低下するが、データセットのサイズが増加するにつれて改善が見られる。LLMsとTMsの統合により、企業特有のニーズに応じたカスタマイズ翻訳モデルの可能性を示唆。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #PEFT(Adaptor/LoRA) Issue Date: 2025-01-02 LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR'24 GPT Summary- LoRAは大規模言語モデルの効率的なファインチューニング手法であり、プログラミングと数学のドメインでの性能をフルファインチューニングと比較。標準的な設定ではLoRAは性能が劣るが、ターゲットドメイン外のタスクではベースモデルの性能を維持し、忘却を軽減する効果がある。フルファインチューニングはLoRAよりも高いランクの摂動を学習し、性能差の一因と考えられる。最終的に、LoRAのファインチューニングに関するベストプラクティスを提案。 Comment

元ポスト:

Loading…

full finetuningとLoRAの性質の違いを理解するのに有用

#Pocket #LanguageModel #ProprietaryLLM Issue Date: 2025-01-02 FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?, Eric Wu+, arXiv'24 GPT Summary- 商業的なLLM微調整APIの効果を評価するためのFineTuneBenchを提案。5つの最前線のLLMを分析し、新しい情報の学習と既存知識の更新における能力を評価した結果、全モデルで平均一般化精度は37%、医療ガイドラインの更新では19%と低いことが判明。特にGPT-4o miniが最も効果的で、Gemini 1.5シリーズは能力が限られていた。商業的微調整サービスの信頼性に課題があることを示唆。データセットはオープンソースで提供。 Comment

元ポスト:

Loading…

#Multi #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-10 Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models, Tian Yu+, arXiv'24 GPT Summary- Auto-RAGは、LLMの意思決定能力を活用した自律的な反復検索モデルで、リトリーバーとのマルチターン対話を通じて知識を取得します。推論に基づく意思決定を自律的に合成し、6つのベンチマークで優れた性能を示し、反復回数を質問の難易度に応じて調整可能です。また、プロセスを自然言語で表現し、解釈可能性とユーザー体験を向上させます。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=jkVQ31GeIA

#Analysis #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #Japanese #read-later Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は、その言語理解能力と適用可能性から注目を集めており、特にLlama 3シリーズは4050億パラメータを持つ。トレーニングの効率化が求められる中、NVIDIAのH100 GPUはFP8フォーマットを導入し、トレーニング時間を短縮する可能性がある。初期研究ではFP8が性能を損なわずに効率を向上させることが示唆されているが、トレーニングの安定性や下流タスクへの影響はまだ不明である。本研究は、LLMsのトレーニングにおけるBF16とFP8のトレードオフを探る。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #InstructionTuning Issue Date: 2024-11-12 DELIFT: Data Efficient Language model Instruction Fine Tuning, Ishika Agarwal+, arXiv'24 GPT Summary- DELIFTという新しいアルゴリズムを提案し、ファインチューニングの各ステージでデータ選択を最適化。ペアワイズユーティリティメトリックを用いてデータの有益性を定量化し、最大70%のデータ削減を実現。計算コストを大幅に節約し、既存の方法を上回る効率性と効果を示す。 #InstructionTuning #PEFT(Adaptor/LoRA) #read-later Issue Date: 2024-10-30 Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24 GPT Summary- LoRAは大規模言語モデルのファインチューニング手法で、特にマルチタスク設定での性能向上に挑戦する。本研究では、LoRAのパフォーマンスを多様なタスクとリソースで検証し、適切なランク設定により高リソース環境でもフルファインチューニングに匹敵する結果を得られることを示した。学習能力の制約がLoRAの一般化能力を高めることが明らかになり、LoRAの適用可能性を広げる方向性を示唆している。 Comment

LoRAのランク数をめちゃめちゃ大きくすると（1024以上）、full-parameterをチューニングするよりも、Unseenタスクに対する汎化性能が向上しますよ、という話っぽい

Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N/A, EMNLP'22 も参照のこと

## LoRA Finetuning details

- LoRA rankを最大4096

- LoRAのαをなんとrankの2倍にしている

- original paperでは16が推奨されている

- learning_rate: 5e-5

- linear sheculeで learning_rate を減衰させる

- optimizerはAdamW

- batch_size: 128

https://github.com/user-attachments/assets/516141a8-2955-49af-95e7-8f1b16e4122a" >

#Pretraining #LanguageModel #Alignment #SyntheticData #PostTraining Issue Date: 2024-10-21 Self-Taught Evaluators, Tianlu Wang+, N_A, arXiv'24 GPT Summary- 本研究では、人間の注釈なしで評価者を改善するアプローチを提案。合成トレーニングデータを用い、自己改善スキームによりLLMを評価者としてトレーニング。これにより、RewardBenchでのLLMのパフォーマンスを75.4から88.3に向上させ、GPT-4を超える結果を達成。 Comment

#EfficiencyImprovement #Pretraining #Pocket #LanguageModel Issue Date: 2024-10-20 Addition is All You Need for Energy-efficient Language Models, Hongyin Luo+, N_A, arXiv'24 GPT Summary- 本研究では、浮動小数点乗算を高精度で整数加算器によって近似するL-Mulアルゴリズムを提案。これにより、8ビット浮動小数点乗算に比べて計算リソースを大幅に削減しつつ、より高い精度を実現。L-Mulをテンソル処理ハードウェアに適用することで、エネルギーコストを95％（要素ごとの乗算）および80％（ドット積）削減可能。実験結果は理論的誤差推定と一致し、L-Mulは従来の浮動小数点乗算と同等またはそれ以上の精度を達成。トランスフォーマーモデル内の浮動小数点乗算をL-Mulに置き換えることで、ファインチューニングと推論において高い精度を維持できることを示した。 #Pretraining #Tools #LanguageModel #AIAgents Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv'24 GPT Summary- ToolGenは、外部ツールとの直接対話を可能にする新しいフレームワークで、各ツールをユニークなトークンとして表現し、LLMのパラメータに統合します。これにより、LLMはツール呼び出しや引数を自然言語生成の一部としてシームレスに生成でき、情報取得ステップなしで多くのツールにアクセス可能になります。実験結果は、ToolGenが自律的なタスク完了と情報取得で優れた性能を示し、より効率的で自律的なAIシステムの基盤を築くことを示しています。 Comment

最終的な性能

#Pretraining #Pocket #SyntheticData Issue Date: 2024-09-29 Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling, Hritik Bansal+, N_A, arXiv'24 GPT Summary- 高品質な合成データを生成するために、強力なSEモデルと安価なWCモデルのトレードオフを再検討。WCモデルからのデータはカバレッジと多様性が高いが偽陽性率も高い。ファインチューニングの結果、WC生成データでトレーニングされたモデルがSE生成データのモデルを上回ることが示され、WCが計算最適なアプローチである可能性を示唆。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel Issue Date: 2024-09-26 When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N_A, ICLR'24 GPT Summary- LLMのファインチューニング手法のスケーリング特性を調査し、モデルサイズやデータサイズが性能に与える影響を実験。結果、ファインチューニングはパワーベースの共同スケーリング法則に従い、モデルのスケーリングが事前学習データのスケーリングよりも効果的であることが判明。最適な手法はタスクやデータに依存する。 Comment

#Pocket #LanguageModel #Alignment #Safety #DPO #PostTraining Issue Date: 2024-09-24 Backtracking Improves Generation Safety, Yiming Zhang+, N_A, arXiv'24 GPT Summary- テキスト生成における安全性の問題に対処するため、バックトラッキング手法を提案。特別な[RESET]トークンを用いて生成された不適切なテキストを「取り消し」、モデルの安全性を向上させる。バックトラッキングを導入したLlama-3-8Bは、ベースラインモデルに比べて4倍の安全性を示し、有用性の低下は見られなかった。 Comment

元ポスト:

Loading…

#LanguageModel #CrossLingual Issue Date: 2024-09-19 PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning, Zhihan Zhang+, N_A, ACL'24 GPT Summary- 指示チューニングはLLMsの指示理解を向上させるが、低リソース言語では課題がある。これに対処するため、英語をピボット言語とするPLUGアプローチを提案。モデルはまず英語で指示を処理し、次にターゲット言語で応答を生成。4つの言語での評価により、指示に従う能力が平均29%向上した。さらに、他のピボット言語を用いた実験も行い、アプローチの多様性を確認。コードとデータは公開されている。 Comment

#Pocket #LanguageModel #ReinforcementLearning #Chain-of-Thought #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL'24 GPT Summary- 強化ファインチューニング（ReFT）を提案し、LLMsの推論能力を向上。SFTでモデルをウォームアップ後、PPOアルゴリズムを用いてオンライン強化学習を行い、豊富な推論パスを自動サンプリング。GSM8K、MathQA、SVAMPデータセットでSFTを大幅に上回る性能を示し、追加のトレーニング質問に依存せず優れた一般化能力を発揮。 #Pocket #LanguageModel #Hallucination Issue Date: 2024-09-01 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, EMNLP'24 GPT Summary- 大規模言語モデルはファインチューニングを通じて新しい事実情報に遭遇するが、既存の知識を活用する能力に影響を与える。研究では、閉じた書籍のQAを用いて新しい知識を導入するファインチューニング例の割合を変化させた結果、モデルは新しい知識を学習するのに苦労し、幻覚する傾向が増加することが示された。これにより、ファインチューニングによる新しい知識の導入のリスクが明らかになり、モデルは事前学習を通じて知識を獲得し、ファインチューニングはその利用を効率化することが支持される。 Comment

参考:

Loading…

#Analysis #Pretraining #Pocket Issue Date: 2024-08-19 Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models, Kaiser Sun+, N_A, arXiv'24 GPT Summary- 大規模なテキストコーパスで事前学習された複数の中間事前学習モデルのチェックポイントを微調整することによって、事前学習と微調整の関係を調査した。18のデータセットでの結果から、i）継続的な事前学習は、微調整後にモデルを改善する潜在的な方法を示唆している。ii）追加の微調整により、モデルが事前学習段階でうまく機能しないデータセットの改善が、うまく機能するデータセットよりも大きいことを示している。iii）監督された微調整を通じてモデルは恩恵を受けるが、以前のドメイン知識や微調整中に見られないタスクを忘れることがある。iv）監督された微調整後、モデルは評価プロンプトに対して高い感度を示すが、これはより多くの事前学習によって緩和できる。 #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv'24 GPT Summary- 大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning（RAFT）を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 Comment

Question, instruction, coxtext, cot style answerの4つを用いてSFTをする模様
画像は下記ツイートより引用

Loading…

#MachineLearning #LanguageModel #PEFT(Adaptor/LoRA) #COLM #PostTraining Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, COLM'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）を新しいタスクに適応させるための低ランク適応（LoRA）を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment

複数のLoRAモジュールは組み合わられるか？element wiseの線型結合で今回はやっているが、その疑問にこたえたのがcontribution

OpenReview: https://openreview.net/forum?id=TrloAXEJ2B

#LanguageModel #InstructionTuning Issue Date: 2023-04-26 Scaling Instruction-Finetuned Language Models, Chung+, Google, JMLR'24 GPT Summary- 指示ファインチューニングは、タスク数、モデルサイズ、チェーン・オブ・ソートデータを活用し、言語モデルの性能を向上させる手法である。Flan-PaLM 540Bは1.8Kタスクでファインチューニングされ、PaLM 540Bを上回る+9.4%の改善を達成し、MMLUで75.2%の性能を示した。Flan-T5も強力な少数ショット性能を発揮し、指示ファインチューニングは事前学習モデルの性能向上に寄与する。 Comment

T5をinstruction tuningしたFlanT5の研究

#Pocket #LanguageModel #SelfImprovement #EMNLP Issue Date: 2025-07-22 [Paper Note] Large Language Models Can Self-Improve, Jiaxin Huang+, EMNLP'23 GPT Summary- LLMはラベルのないデータセットで自己改善可能であることを示し、Chain-of-Thoughtプロンプティングと自己一貫性を利用して高信頼度の回答を生成。これにより、540BパラメータのLLMの推論能力を向上させ、最先端のパフォーマンスを達成。ファインチューニングが自己改善に重要であることも確認。 Comment

openreview: https://openreview.net/forum?id=uuUQraD4XX¬eId=PWDEpZtn6P

#Pretraining #MachineLearning #Pocket #LanguageModel #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2024-11-25 Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23 GPT Summary- スパース活性化モデルは、計算コストを抑えつつ密なモデルの代替として注目されているが、依然として多くのデータを必要とし、ゼロからのトレーニングは高コストである。本研究では、密なチェックポイントからスパース活性化Mixture-of-Expertsモデルを初期化する「スパースアップサイクリング」を提案。これにより、初期の密な事前トレーニングのコストを約50%再利用し、SuperGLUEやImageNetで密なモデルを大幅に上回る性能を示した。また、アップサイクリングされたモデルは、ゼロからトレーニングされたスパースモデルよりも優れた結果を得た。 Comment

#Dataset #LanguageModel Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv'23 GPT Summary- GPT-4を用いて指示に従うデータを生成し、LLMのファインチューニングを行う初の試みを報告。生成された52Kの指示データは、従来のモデルよりも新しいタスクに対して優れたゼロショット性能を示した。GPT-4からのフィードバックと比較データも収集し、データとコードベースを公開。 Comment

#Pocket #LanguageModel #InstructionTuning #SelfCorrection Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv'23 GPT Summary- リフレクションチューニングという新手法を提案し、LLMsの自己改善を通じて低品質なトレーニングデータの問題に対処。オラクルLLMを用いてデータの質を向上させ、実験により再利用データで訓練されたLLMsが既存モデルを上回ることを示した。 Comment

Reflection-Tuningを提案している研究?

#NaturalLanguageGeneration #Pocket #LanguageModel #Explanation #Evaluation #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#Pocket #LanguageModel #Chain-of-Thought #SmallModel #OpenWeight #One-Line Notes Issue Date: 2023-11-21 Orca 2: Teaching Small Language Models How to Reason, Arindam Mitra+, N_A, arXiv'23 GPT Summary- Orca 1は、豊富なシグナルから学習し、従来のモデルを上回る性能を発揮します。Orca 2では、小さな言語モデルの推論能力を向上させるために異なる解決戦略を教えることを目指しています。Orca 2は、さまざまな推論技術を使用し、15のベンチマークで評価されました。Orca 2は、同じサイズのモデルを大幅に上回り、高度な推論能力を持つ複雑なタスクで優れた性能を発揮します。Orca 2はオープンソース化されており、小さな言語モデルの研究を促進します。 Comment

ポイント解説:

Loading…

HF: https://huggingface.co/microsoft/Orca-2-13b

論文を読むとChatGPTのデータを学習に利用しているが、現在は競合となるモデルを作ることは規約で禁止されているので注意

#Pocket #LanguageModel #Factuality Issue Date: 2023-11-15 Fine-tuning Language Models for Factuality, Katherine Tian+, N_A, arXiv'23 GPT Summary- 本研究では、大規模な言語モデル（LLMs）を使用して、より事実に基づいた生成を実現するためのファインチューニングを行います。具体的には、外部の知識ベースや信頼スコアとの一貫性を測定し、選好最適化アルゴリズムを使用してモデルを調整します。実験結果では、事実エラー率の削減が観察されました。 #Pretraining #Pocket #LanguageModel #DataGeneration Issue Date: 2023-10-28 Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N_A, arXiv'23 GPT Summary- 私たちは、小さな言語モデルを作成するために、教師モデルからの優先データを使用する手法を提案しています。この手法により、自然なプロンプトに対するモデルの応答が改善されます。提案手法を用いて学習されたZephyr-7Bモデルは、チャットベンチマークで最先端の性能を発揮し、人間の注釈を必要としません。詳細はGitHubで利用可能です。 Comment

Blog: https://huggingface.co/blog/Isamu136/understanding-zephyr

#MachineLearning #LanguageModel Issue Date: 2023-10-26 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, arXiv'23 GPT Summary- 私たちは、言語モデルのファインチューニングを改善するために、ノイズを加えた埋め込みベクトルを使用する手法を提案します。この手法は、AlpacaEvalやEvol-Instructなどのデータセットで強力なベースラインを上回る性能を示しました。また、RLHFでトレーニングされたモデルにも適用可能です。 Comment

Alpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。

HuggingFaceのTRLでサポートされている

https://huggingface.co/docs/trl/sft_trainer

#EfficiencyImprovement #MachineLearning #Pocket #Dataset #QuestionAnswering #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

#Pocket #LanguageModel #Alignment #Sycophancy Issue Date: 2023-09-10 Simple synthetic data reduces sycophancy in large language models, Jerry Wei+, N_A, arXiv'23 GPT Summary- 本研究では、機械学習モデルのおべっか行動を減らすための方法を提案しています。まず、言語モデルにおけるおべっか行動の普及度を調査し、その行動を減らすための合成データ介入を提案しています。具体的には、ユーザーの意見に対してモデルが頑健であることを促す合成データを使用し、モデルのファインチューニングを行います。これにより、おべっか行動を大幅に減らすことができます。提案手法の詳細は、https://github.com/google/sycophancy-intervention で確認できます。 Comment

誤ったユーザの意見を挿入すると、正解できていた問題でも不正解になることを示した。

この傾向は、instruction tuningしている場合、モデルサイズが大きい場合により顕著であることを示した。

#MachineLearning #LanguageModel #Transformer #DataAugmentation #DataGeneration Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

#MachineLearning #LanguageModel #Evaluation Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #Pocket #LanguageModel #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-06-16 One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning, Arnav Chavan+, N_A, arXiv'23 GPT Summary- 本研究では、汎用的なファインチューニングタスクのための高度な手法であるGeneralized LoRA (GLoRA)を提案し、事前学習済みモデルの重みを最適化し、中間アクティベーションを調整することで、多様なタスクとデータセットに対してより柔軟性と能力を提供する。GLoRAは、各レイヤーの個別のアダプタを学習するスケーラブルでモジュラーなレイヤーごとの構造探索を採用することで、効率的なパラメータの適応を促進する。包括的な実験により、GLoRAは、自然言語、専門分野、構造化ベンチマークにおいて、従来のすべての手法を上回り、様々なデータセットでより少ないパラメータと計算で優れた精度を達成することが示された。 Comment

OpenReview: https://openreview.net/forum?id=K7KQkiHanD

ICLR'24にrejectされている

#LanguageModel #Alignment #DataDistillation #NeurIPS Issue Date: 2023-05-22 LIMA: Less Is More for Alignment, Chunting Zhou+, N_A, NeurIPS'23 GPT Summary- 本研究では、65BパラメータのLLaMa言語モデルであるLIMAを訓練し、強化学習や人間の好みモデリングなしに、厳選された1,000のプロンプトとレスポンスのみで標準的な教師あり損失で微調整しました。LIMAは、幅広いクエリに対応する驚くべき強力なパフォーマンスを示し、トレーニングデータに現れなかった未知のタスクにも一般化する傾向があります。制御された人間の研究では、LIMAのレスポンスは、GPT-4、Bard、DaVinci003と比較して優れていることが示されました。これらの結果から、大規模言語モデルのほとんどの知識は事前トレーニング中に学習され、高品質の出力を生成するためには限られた指示調整データしか必要ないことが示唆されます。 Comment

LLaMAのようなオープンでパラメータ数が少ないモデルに対して、少量のサンプルでfinetuningするとGPT4に迫れるというのはgamechangerになる可能性がある

openreview: https://openreview.net/forum?id=KBMOKmX2he

#Pocket #LanguageModel #In-ContextLearning #EMNLP #PostTraining Issue Date: 2023-05-21 Symbol tuning improves in-context learning in language models, Jerry Wei+, N_A, EMNLP'23 GPT Summary- 本研究では、自然言語ラベルをシンボルに置き換えて言語モデルを微調整する「symbol tuning」を提案し、未知のタスクや不明確なプロンプトに対して堅牢な性能を示すことを示した。また、symbol tuningによりアルゴリズム的推論タスクでのパフォーマンス向上が見られ、以前の意味的知識を上書きする能力が向上していることが示された。Flan-PaLMモデルを使用して実験が行われ、最大540Bパラメータまで利用された。 Comment

OpenReview: https://openreview.net/forum?id=vOX7Dfwo3v

#Pocket #LanguageModel #InstructionTuning #ACL #In-Depth Notes Issue Date: 2023-03-30 [Paper Note] Self-Instruct: Aligning Language Models with Self-Generated Instructions, Yizhong Wang+, ACL'23, 2022.12 GPT Summary- Self-Instructフレームワークを提案し、事前学習済みの言語モデルが自ら生成した指示を用いてファインチューニングを行うことで、ゼロショットの一般化能力を向上させる。バニラGPT-3に適用した結果、Super-NaturalInstructionsで33%の性能向上を達成し、InstructGPT-001と同等の性能に到達。人間評価により、Self-Instructが既存の公共指示データセットよりも優れていることを示し、ほぼ注釈不要の指示調整手法を提供。大規模な合成データセットを公開し、今後の研究を促進する。 Comment

Alpacaなどでも利用されているself-instruction技術に関する論文

※ GPT3をfinetuningするのに、Instruction Dataを使った場合$338かかったっぽい。安い・・・。

LLMを使うだけでここまで研究ができる時代がきた

（最近は|現在は）プロプライエタリなLLMの出力を利用して競合するモデルを訓練することは多くの場合禁止されているので注意。

#MachineLearning #Pocket #LanguageModel #ReinforcementLearning #NeurIPS Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS'23 GPT Summary- 本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Comment

なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究

#Pocket #LanguageModel #Alignment #ReinforcementLearning #Safety #Selected Papers/Blogs #PseudoLabeling Issue Date: 2025-09-20 [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 本研究では、「憲法的AI」を用いて、人間のラベルなしで無害なAIを訓練する方法を提案。監視学習と強化学習の2フェーズを経て、自己批評と修正を通じてモデルを微調整し、嗜好モデルを報酬信号として強化学習を行う。これにより、有害なクエリに対しても対話できる無害なAIアシスタントを実現し、AIの意思決定の透明性を向上させる。 Comment

先行研究:
- [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22

#LanguageModel #InstructionTuning Issue Date: 2024-10-29 Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N_A, EMNLP'22 GPT Summary- Super-NaturalInstructionsを用いて、NLPモデルの未見タスクへの一般化能力を評価。1,616の多様なタスクと指示を含むベンチマークを作成し、76種類のタスクタイプをカバー。Tk-Instructモデルは、指示に従う訓練を受け、InstructGPTを9%以上上回る性能を示す。一般化能力をスケーリングパラメータに基づいて分析し、汎用的なNLPモデルの進展を促進することを目指す。 Comment

#Pocket #LanguageModel #InstructionTuning Issue Date: 2024-09-25 Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, N_A, ICLR'22 GPT Summary- 指示チューニングを用いて言語モデルのゼロショット学習能力を向上させる方法を提案。137BパラメータのモデルFLANは、60以上のNLPタスクでファインチューニングされ、未見のタスクで175B GPT-3を上回るパフォーマンスを示す。アブレーションスタディにより、ファインチューニングデータセットの数やモデルのスケールが成功に寄与することが確認された。 Comment

FLAN論文。Instruction Tuningを提案した研究。

#Pocket #Dataset #LanguageModel #Mathematics #Selected Papers/Blogs #Verification Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 GPT Summary- GSM8Kデータセットを用いて、多段階の数学的推論における言語モデルの限界を分析。検証器を訓練し、候補解を評価して最適解を選択することで、モデルのパフォーマンスを大幅に向上させることを示した。検証はファインチューニングよりもデータ増加に対して効果的にスケールする。 Comment

Todo: 続きをまとめる

#NeuralNetwork #Pocket #LanguageModel #PEFT(Adaptor/LoRA) #PostTraining #Selected Papers/Blogs Issue Date: 2022-08-19 [Paper Note] The Power of Scale for Parameter-Efficient Prompt Tuning, Brian Lester+, arXiv'21, 2021.04 GPT Summary- 本研究では、凍結された言語モデルを特定のタスクに適応させるための「ソフトプロンプト」を学習するプロンプトチューニング手法を提案。逆伝播を通じて学習されるソフトプロンプトは、GPT-3の少数ショット学習を上回る性能を示し、モデルサイズが大きくなるほど競争力が増すことが確認された。特に、数十億のパラメータを持つモデルにおいて、全ての重みを調整するモデルチューニングに匹敵する性能を発揮。これにより、1つの凍結モデルを複数のタスクに再利用できる可能性が示唆され、ドメイン転送に対するロバスト性も向上することが明らかとなった。 Comment

いわゆる(Softな) Prompt Tuning

#DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #Pocket #LanguageModel #PEFT(Adaptor/LoRA) #ACL #PostTraining #Selected Papers/Blogs Issue Date: 2021-09-09 [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01 GPT Summary- プレフィックスチューニングは、ファインチューニングの軽量な代替手段であり、言語モデルのパラメータを固定しつつ、タスク特有の小さなベクトルを最適化する手法です。これにより、少ないパラメータで同等のパフォーマンスを達成し、低データ設定でもファインチューニングを上回る結果を示しました。 Comment

autoregressive LM (GPT-2)と，encoder-decoderモデル（BART）へPrefix Tuningを適用する場合の模式図

#Article #ComputerVision #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

#Article #EfficiencyImprovement #Pretraining #LanguageModel #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment

元ポスト:

Loading…

新たなスピードランが...!!

#Article #Tutorial #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #ReinforcementLearning #OpenWeight #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

モデルカードとブログによると下記モデル群とSonnet 4 よりもComputer Use関連ベンチマーク(GUI上での位置を特定するUI LocalizationとScreen Contentの理解およびQA関連のベンチマーク)で高性能とのこと:
- [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25
- Introducing UI-TARS-1.5, ByteDance, 2025.04
- Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03

モデルカードによるとopen sourceデータのmixと、合成データ、人手でアノテーションされたデータを用いて、SFT->GRPOによって学習されたとだけ書かれている。

#Article #Pocket #LanguageModel #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #Dataset #LanguageModel #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #Unsupervised #LanguageModel Issue Date: 2025-06-12 [Paper Note] Unsupervised Elicitation of Language Models, Wen+, Anthropic, 2025.06 Comment

元ポスト:

Loading…

#Article #Library #Blog #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05 Comment

元ポスト:

Loading…

Megatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプラクティスに則って記述し、かつ著者自身が学習したモデルも公開している。（おそらくインスタンス代は自腹なので）すごい...!!
Megatron-SWIFTはMoEアーキテクチャを採用したモデルであれば、DeepSpeed Zero3 [^1]と比べて10倍程度のスループットで学習できる模様（早い）。一方MoEアーキテクチャでないモデルの場合はそこまで大きな差はない。

[^1]: A100 80GB 2ノードでは、Qwen3-30B-A3Bは、DeepSpeed-Zero2ではOOMとなり載らないようだ…。なんとリソースに厳しいこと…（涙）

#Article #LanguageModel #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #GRPO Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

#Article #LanguageModel #Alignment #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #LanguageModel #Alignment #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

#Article #ComputerVision #EfficiencyImprovement #Pretraining #LanguageModel #Transformer #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

#Article #LanguageModel #Slide Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning：PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment

#Article #LanguageModel #ReinforcementLearning #Blog #GRPO Issue Date: 2025-02-19 強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02 Comment

元ポスト:

Loading…

#Article #LanguageModel #Reasoning Issue Date: 2025-02-07 Unsloth で独自の R1 Reasoningモデルを学習, npaka, 2025.02 Comment

非常に実用的で参考になる。特にどの程度のVRAMでどの程度の規模感のモデルを使うことが推奨されるのかが明言されていて参考になる。

#Article #LanguageModel #FoundationModel #RLHF #Blog #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#Article #Dataset #LanguageModel #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #LanguageModel #Blog #PostTraining Issue Date: 2025-01-25 How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12 Comment

SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。

#Article #LanguageModel #Alignment #Blog #DPO #PostTraining Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment

元ポスト:

Loading…

#Article #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 Comment

元ポスト:

Loading…

#Article #Tutorial #LanguageModel #Alignment #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Tutorial #Pretraining #Pocket #LanguageModel #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article #Pretraining #LanguageModel #AES(AutomatedEssayScoring) Issue Date: 2024-11-28 Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring, Funayama+, 2024.09 GPT Summary- 自動短答スコアリング（SAS）では、異なるルーブリックと参照回答に基づいてスコアを付けるが、新しいプロンプトごとにモデルを再訓練する必要がありコストがかかる。本研究では、既存のルーブリックと回答を用いて新しいプロンプトでファインチューニングする二段階アプローチを提案。重要なフレーズを学習することで、特に訓練データが限られている場合にスコアリング精度を向上させることを実験で示した。 Comment

[Perplexity(hallucinationに注意)]( https://www.perplexity.ai/search/tian-fu-sitalun-wen-wodu-mi-ne-3_TrRyxTQJ.2Bm2fJLqvTQ#0)

#Article #Dataset #LanguageModel #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #EfficiencyImprovement #Pretraining #One-Line Notes #Reference Collection Issue Date: 2024-11-07 ZeRO: DeepSpeedの紹介, レトリバ, 2021.07 Comment

ZeROの説明がわかりやすい

こちらの記事もわかりやすい

https://zenn.dev/turing_motors/articles/d00c46a79dc976

DeepSpeedのコンフィグの一覧

https://www.deepspeed.ai/docs/config-json/

transformersにおけるdeepspeedのドキュメント:
https://huggingface.co/transformers/v4.9.2/main_classes/deepspeed.html

参考: deepspeedの使い方まとめ
https://note.com/fukudawataru/n/n5152e6f587c8

ZeRO Stage3を使う場合、ページ後方にしれっととんでもなく重要なことが書いてあるので気をつけましょう。。。。

https://huggingface.co/docs/transformers/v4.17.0/en/main_classes/deepspeed#constructing-massive-models

ZeROはparameterとoptimizerのmemory footprintの最適化を頑張っていて、activation memory footprint（バッチをforward passに流す時に消費されるメモリ）の削減は、tiling, activation/gradient checkpointingとかで頑張ってねという

という話が本家issueの4047に記載されている。

結論: つまづいたらDeepSpeedのIssueをエラーメッセージで検索かけるのが一番効果的

#Article #EfficiencyImprovement #LanguageModel #InstructionTuning Issue Date: 2024-10-08 Unsloth Comment

single-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ

#Article #EfficiencyImprovement #LanguageModel #Repository Issue Date: 2024-08-25 Liger-Kernel, 2024.08 Comment

LLMを学習する時に、ワンライン追加するだけで、マルチGPUトレーニングのスループットを20%改善し、メモリ使用量を60%削減するらしい

元ツイート:

Loading…

これだけでいい

#Article #Tutorial #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #LanguageModel #Library #Repository Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment

簡単に利用できるLLaMAのfinetuning frameworkとのこと。
元ツイート:

Loading…

LLaMAベースなモデルなら色々対応している模様

#Article #EfficiencyImprovement #LanguageModel #Blog #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2023-10-29 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討, PFN Blog, 2023.10 Comment

#Article #Tutorial #LanguageModel Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

#Article #EfficiencyImprovement #LanguageModel #Quantization #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-07-22 LLaMA2を3行で訓練 Comment

LLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法

#Article #NeuralNetwork #EfficiencyImprovement #LanguageModel #PEFT(Adaptor/LoRA) #Slide #PostTraining #Selected Papers/Blogs Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Comment

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft

#Article #LanguageModel Issue Date: 2023-03-30 Publicly available instruction-tuned models

NaturalLanguageGeneration (128)

#Analysis #Pocket #LanguageModel #Evaluation #EMNLP #read-later
Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#ComputerVision #Controllable #Pocket #LanguageModel #VisionLanguageModel
Issue Date: 2025-07-25 [Paper Note] CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning, Kuniaki Saito+, arXiv'25 GPT Summary- CaptionSmithsは、画像キャプショニングモデルがキャプションの特性（長さ、記述性、単語の独自性）を柔軟に制御できる新しいアプローチを提案。人間の注釈なしで特性を定量化し、短いキャプションと長いキャプションの間で補間することで条件付けを実現。実証結果では、出力キャプションの特性をスムーズに変化させ、語彙的整合性を向上させることが示され、誤差を506%削減。コードはGitHubで公開。 Comment

元ポスト:

Loading…

#Citations #LanguageModel #Supervised-FineTuning (SFT) #COLM #AcademicWriting
Issue Date: 2025-07-08 [Paper Note] ScholarCopilot: Training Large Language Models for Academic Writing with Accurate Citations, Yubo Wang+, COLM'25 GPT Summary- ScholarCopilotは、学術的な執筆を支援するために大規模言語モデルを強化したフレームワークで、正確で文脈に関連した引用を生成します。取得トークンを用いて動的に文献を取得し、生成プロセスを補強します。評価では、取得精度が40.1%に達し、生成品質も他のモデルを大幅に上回りました。特に、ScholarCopilotはChatGPTを超える性能を示し、引用の質で100%の好ましさを達成しました。 Comment

元ポスト:

Loading…

#NeuralNetwork #Dataset #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Survey #Controllable Issue Date: 2024-08-25 Controllable Text Generation for Large Language Models: A Survey, Xun Liang+, N_A, arXiv'24 GPT Summary- LLMsの制御可能なテキスト生成（CTG）技術に関する最新の進展を体系的にレビューし、その中核的な概念の包括的な定義を提供し、制御条件とテキスト品質の要件を明確にする。CTGタスクをコンテンツ制御と属性制御の2つの主要なタイプに分類し、モデルの再学習、ファインチューニング、強化学習、プロンプトエンジニアリング、潜在空間の操作、デコーディング時の介入など、主要な手法について議論する。さらに、CTGの評価方法を検討し、領域全体での応用をまとめ、現在の研究における主要な課題に取り組む。また、将来の研究で実世界の応用に重点を置くなど、いくつかの提案も行う。 Comment

Surveyの内容

#Pocket #DataToTextGeneration #Prompting #NumericReasoning Issue Date: 2024-04-04 Prompting for Numerical Sequences: A Case Study on Market Comment Generation, Masayuki Kawarada+, N_A, arXiv'24 GPT Summary- LLMsは、構造化データに対するプロンプト生成に関する研究が進んでいるが、時系列数値データに関する詳細な調査が不足している。本研究では、株価の数値系列を入力として市場コメントを生成するタスクに焦点を当て、さまざまな入力表現を探究する。実験結果は、プログラミング言語に似たプロンプトがより良い結果をもたらすことを示しており、数値系列からテキストを生成する際の効果的なプロンプト作成について示唆を提供している。 Comment

Data-to-Text系のタスクでは、しばしば数値列がInputとなり、そこからテキストを生成するが、この際にどのようなフォーマットで数値列をPromptingするのが良いかを調査した研究。Pythonリストなどのプログラミング言語に似たプロンプトが高い性能を示し、自然言語やhtml, latextなどのプロンプトは効果が低かったとのこと

#Survey #Pocket #Evaluation #LLM-as-a-Judge Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#Metrics #Pocket #Evaluation #EMNLP #Finetuning Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

#DocumentSummarization #Pocket #Dataset #LanguageModel #Annotation Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#Pocket #LanguageModel #Explanation #Supervised-FineTuning (SFT) #Evaluation #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#LLM-as-a-Judge Issue Date: 2024-01-25 Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT'23 GPT Summary- GEMBAは、参照翻訳の有無に関係なく使用できるGPTベースの翻訳品質評価メトリックです。このメトリックは、ゼロショットのプロンプティングを使用し、4つのプロンプトバリアントを比較します。私たちの手法は、GPT 3.5以上のモデルでのみ機能し、最先端の精度を達成します。特に、英語からドイツ語、英語からロシア語、中国語から英語の3つの言語ペアで有効です。この研究では、コード、プロンプトテンプレート、およびスコアリング結果を公開し、外部の検証と再現性を可能にします。 #DocumentSummarization #Pocket #LanguageModel Issue Date: 2023-09-17 From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting, Griffin Adams+, N_A, arXiv'23 GPT Summary- 要約は詳細でエンティティ中心的でありながら、理解しやすくすることが困難です。この課題を解決するために、私たちは「密度の連鎖」（CoD）プロンプトを使用して、GPT-4の要約を生成します。CoDによって生成された要約は抽象的であり、リードバイアスが少なく、人間に好まれます。また、情報量と読みやすさのトレードオフが存在することも示されました。CoD要約は無料で利用できます。 Comment

#DocumentSummarization #MachineTranslation #Metrics #Pocket #Evaluation #LM-based #Coherence Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #ComputerVision #Dataset #Evaluation Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket #Factuality Issue Date: 2023-07-18 WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning, ACL'23 GPT Summary- 現在のテキスト生成モデルは、入力と矛盾するテキストを制御できないという課題があります。この問題を解決するために、私たちはWeCheckという弱教師付きフレームワークを提案します。WeCheckは、弱教師付きラベルを持つ言語モデルから直接訓練された実際の生成サンプルを使用します。さまざまなタスクでの実験結果は、WeCheckの強力なパフォーマンスを示し、従来の評価方法よりも高速で精度と効率を向上させています。 #DocumentSummarization #Abstractive #Factuality Issue Date: 2023-07-18 Improving Factuality of Abstractive Summarization without Sacrificing Summary Quality, ACL'23 GPT Summary- 事実性を意識した要約の品質向上に関する研究はあるが、品質を犠牲にすることなく事実性を向上させる手法がほとんどない。本研究では「Effective Factual Summarization」という技術を提案し、事実性と類似性の指標の両方で大幅な改善を示すことを示した。トレーニング中に競合を防ぐために2つの指標を組み合わせるランキング戦略を提案し、XSUMのFactCCでは最大6ポイント、CNN/DMでは11ポイントの改善が見られた。また、類似性や要約の抽象性には負の影響を与えない。 #DataToTextGeneration #MultitaskLearning #Zero/FewShotLearning Issue Date: 2023-07-18 Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning, ACL'23 GPT Summary- この論文では、構造化データからテキストを生成する新しいアプローチを提案しています。提案手法は、さまざまな形式のデータを処理できる統一された表現を提供し、マルチタスクトレーニングやゼロショット学習などのシナリオでのパフォーマンスを向上させることを目指しています。実験結果は、提案手法が他の方法と比較して優れた性能を示していることを示しています。これは、データからテキスト生成フレームワークにおける重要な進歩です。 #Controllable Issue Date: 2023-07-18 An Invariant Learning Characterization of Controlled Text Generation, ACL'23 GPT Summary- 制御された生成では、予測器の訓練に使用される分布と異なるテキストの分布がある場合、パフォーマンスが低下することが示されている。この問題に対処するために、不変性を持つ予測器が効果的であるという考え方が提案されている。さらに、この特性を活かすための自然な解決策とヒューリスティックも提案されている。実験結果は、制御された生成における分布シフトの課題と不変性手法の潜在能力を示している。 #DocumentSummarization #Abstractive #Extractive Issue Date: 2023-07-18 Abstractive Summarizers are Excellent Extractive Summarizers, ACL'23 GPT Summary- 本研究では、抽出型要約と要約型要約の相乗効果を探求し、シーケンス・トゥ・シーケンス・アーキテクチャを使用した3つの新しい推論アルゴリズムを提案しています。これにより、要約型システムが抽出型システムを超えることができることを示しました。また、要約型システムは抽出型のオラクル要約にさらされることなく、両方の要約を単一のモデルで生成できることも示しました。これは、抽出型ラベルの必要性に疑問を投げかけるものであり、ハイブリッドモデルの有望な研究方向を示しています。 #Controllable #Argument Issue Date: 2023-07-18 ArgU: A Controllable Factual Argument Generator, ACL'23 GPT Summary- 本研究では、高品質な論証を自動生成するために、制御コードを使用したニューラル論証生成器ArgUを提案します。また、論証スキームを特定するための大規模なデータセットを作成し、注釈付けとデータセット作成のフレームワークについて詳細に説明します。さらに、論証テンプレートを生成する推論戦略を試行し、多様な論証を自動的に生成することが可能であることを示します。 #Explanation #Evaluation #Faithfulness Issue Date: 2023-07-18 Faithfulness Tests for Natural Language Explanations, ACL'23 GPT Summary- 本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。 #DocumentSummarization #Extractive #Faithfulness Issue Date: 2023-07-18 Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization, ACL'23 GPT Summary- 本研究では、抽出的な要約の不正確さの問題について議論し、それを5つのタイプに分類します。さらに、新しい尺度であるExtEvalを提案し、不正確な要約を検出するために使用することを示します。この研究は、抽出的な要約の不正確さに対する認識を高め、将来の研究に役立つことを目指しています。 Comment

#Controllable Issue Date: 2023-07-15 Controllable Text Generation via Probability Density Estimation in the Latent Space, ACL'23 GPT Summary- 本研究では、潜在空間での確率密度推定を用いた新しい制御フレームワークを提案しています。この手法は、可逆変換関数を使用して潜在空間の複雑な分布を単純なガウス分布にマッピングし、洗練された柔軟な制御を行うことができます。実験結果では、提案手法が属性の関連性とテキストの品質において強力なベースラインを上回り、新たなSOTAを達成していることが示されています。さらなる分析により、制御戦略の柔軟性が示されています。 #DocumentSummarization #Dataset #Conversation Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL'23 GPT Summary- 会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #DocumentSummarization #Controllable #Dataset #Factuality Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL'23 GPT Summary- 本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #Controllable #Prompting Issue Date: 2023-07-15 Tailor: A Soft-Prompt-Based Approach to Attribute-Based Controlled Text Generation, ACL'23 GPT Summary- 属性ベースの制御されたテキスト生成（CTG）では、望ましい属性を持つ文を生成することが目指されている。従来の手法では、ファインチューニングや追加の属性分類器を使用していたが、ストレージと推論時間の増加が懸念されていた。そこで、本研究では効率的なパラメータを使用した属性ベースのCTGを提案している。具体的には、各属性を事前学習された連続ベクトルとして表現し、固定された事前学習言語モデルをガイドして属性を満たす文を生成する。さらに、2つの解決策を提供して、組み合わせを強化している。実験の結果、追加のトレーニングパラメータのみで効果的な改善が実現できることが示された。 #ComputerVision #LanguageModel #TabularData #TextToImageGeneration Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #Controllable #PEFT(Adaptor/LoRA) Issue Date: 2023-07-15 Focused Prefix Tuning for Controllable Text Generation, Ma+, ACL'23 GPT Summary- 本研究では、注釈のない属性によって制御可能なテキスト生成データセットのパフォーマンスが低下する問題に対して、「focused prefix tuning（FPT）」という手法を提案しています。FPTは望ましい属性に焦点を当てることで、制御精度とテキストの流暢さを向上させることができます。また、FPTは複数属性制御タスクにおいても、既存のモデルを再トレーニングすることなく新しい属性を制御する柔軟性を持ちながら、制御精度を保つことができます。 #ComputerVision #MultiModal #DiffusionModel #TextToImageGeneration Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment

>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います。

興味深い

#Novelty #Evaluation Issue Date: 2023-07-14 [TACL] How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, TACL'23 GPT Summary- この研究では、言語モデルが生成するテキストの新規性を評価するための分析スイートRAVENを紹介しています。英語で訓練された4つのニューラル言語モデルに対して、局所的な構造と大規模な構造の新規性を評価しました。結果として、生成されたテキストは局所的な構造においては新規性に欠けており、大規模な構造においては人間と同程度の新規性があり、時には訓練セットからの重複したテキストを生成することもあります。また、GPT-2の詳細な手動分析により、組成的および類推的な一般化メカニズムの使用が示され、新規テキストが形態的および構文的に妥当であるが、意味的な問題が比較的頻繁に発生することも示されました。 #Education #AdaptiveLearning #KnowledgeTracing #Personalization #QuestionGeneration Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

#Controllable #LanguageModel Issue Date: 2023-07-13 Explicit Syntactic Guidance for Neural Text Generation, ACL'23 GPT Summary- 既存のテキスト生成モデルには制約があり、シーケンス・トゥ・シーケンスのパラダイムに従っている。私たちは、構文にガイドされた生成スキーマを提案し、構文解析木に従ってシーケンスを生成する。提案手法は、パラフレーズ生成と機械翻訳の実験でベースラインを上回り、解釈可能性、制御可能性、多様性の観点でも効果的であることを示している。 #MachineLearning #LanguageModel Issue Date: 2023-06-26 SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking, Chris Cundy+, N_A, arXiv'23 GPT Summary- 自己回帰モデルによるシーケンス生成において、最尤推定（MLE）目的は誤差の蓄積問題を引き起こすため、模倣学習（IL）問題として定式化することが提案された。ILフレームワークを使用することで、バックトラッキングを組み込むことができ、誤差の蓄積問題が軽減される。提案手法であるSequenceMatchは、敵対的なトレーニングや大規模なアーキテクチャの変更なしに実装でき、SequenceMatch-$\chi^2$発散を使用することができる。実験的に、SequenceMatchトレーニングは、言語モデルによるテキスト生成においてMLEよりも改善をもたらすことが示された。 Comment

#Controllable Issue Date: 2023-04-30 Controlled Text Generation with Natural Language Instructions, Wangchunshu Zhou+, N_A, arXiv'23 GPT Summary- 本研究では、自然言語の説明と制約のデモンストレーションに基づいて、異なる制約を組み込むことができる制御されたテキスト生成フレームワークであるInstructCTGを提案しています。制約を自然言語の指示に言い換えて、弱く監督されたトレーニングデータを形成し、事前にトレーニングされた言語モデルを微調整して、さまざまなタイプの制約を組み込むことができます。InstructCTGは、異なる制約タイプに対してより柔軟であり、生成品質と速度にはほとんど影響を与えず、再トレーニングなしに新しい制約に適応することができます。 Comment

#Controllable #LanguageModel Issue Date: 2023-04-28 Tractable Control for Autoregressive Language Generation, Zhang+, UCLA, arXiv'23 Comment

尚、TPMについては要勉強である

#Pocket #DataToTextGeneration #StructuredData Issue Date: 2023-10-28 MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation, Swarnadeep Saha+, N_A, arXiv'22 GPT Summary- 本研究では、半構造化データからのテキスト生成における多段階の推論を行うためのMURMURという手法を提案しています。MURMURは、特定の言語的および論理的なスキルを持つニューラルモジュールと記号モジュールを組み合わせ、ベストファーストサーチ手法を使用して推論パスを生成します。実験結果では、MURMURは他のベースライン手法に比べて大幅な改善を示し、また、ドメイン外のデータでも同等の性能を達成しました。さらに、人間の評価では、MURMURは論理的に整合性のある要約をより多く生成することが示されました。 #BeamSearch #Pocket Issue Date: 2023-08-16 Momentum Calibration for Text Generation, Xingxing Zhang+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成タスクにおいてMoCa（Momentum Calibration）という手法を提案しています。MoCaは、ビームサーチを用いた遅く進化するサンプルを動的に生成し、これらのサンプルのモデルスコアを実際の品質に合わせるように学習します。実験結果は、MoCaが強力な事前学習済みTransformerを改善し、最先端の結果を達成していることを示しています。 #DocumentSummarization #BeamSearch #Pocket #ACL Issue Date: 2023-08-16 BRIO: Bringing Order to Abstractive Summarization, Yixin Liu+, N_A, ACL'22 GPT Summary- 従来の抽象的要約モデルでは、最尤推定を使用して訓練されていましたが、この方法では複数の候補要約を比較する際に性能が低下する可能性があります。そこで、非確定論的な分布を仮定し、候補要約の品質に応じて確率を割り当てる新しい訓練パラダイムを提案しました。この手法により、CNN/DailyMailとXSumのデータセットで最高の結果を達成しました。さらに、モデルが候補要約の品質とより相関のある確率を推定できることも示されました。 Comment

#DocumentSummarization #Metrics #Pocket #Evaluation #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization #Metrics #Pocket #Evaluation #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization #Metrics #Pocket #Evaluation #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #Pocket #Dataset #LanguageModel #Explanation Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv'22 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 Comment

OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6

#Controllable #Pocket Issue Date: 2023-07-18 An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text Generation, Xuancheng Huang+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成において複数の側面を制御する方法について研究しました。従来の方法では、プレフィックスの相互干渉により制約が低下し、未知の側面の組み合わせを制御することが制限されていました。そこで、トレーニング可能なゲートを使用してプレフィックスの介入を正規化し、相互干渉の増加を抑制する方法を提案しました。この方法により、トレーニング時に未知の制約を低コストで拡張することができます。さらに、カテゴリカルな制約と自由形式の制約の両方を処理する統一された方法も提案しました。実験により、提案手法が制約の正確さ、テキストの品質、拡張性においてベースラインよりも優れていることが示されました。 #Analysis #Pocket #Evaluation #Annotation Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

#MachineTranslation #Analysis #Metrics #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#DocumentSummarization #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

C-ELMO/C-SBERT

#DocumentSummarization #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization #Metrics #Evaluation #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

#Metrics #DialogueGeneration #Evaluation #Reference-free #QA-based #Factuality Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

#Metrics #Evaluation #Reference-free #QA-based Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP'21 GPT Summary- 本研究では、画像キャプションの評価において、Question Generation（QG）とQuestion Answering（QA）システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 Comment

#Personalization Issue Date: 2023-04-26 Refocusing on Relevance: Personalization in NLG, Shiran Dudy+, Department of Computer Science University of Colorado, EMNLP'21 Comment

従来のNLGはソーステキストに焦点を当て、ターゲットを生成することに注力してきた。が、ユーザの意図やcontextがソーステキストだけに基づいて復元できない場合、このアプローチでは不十分であることを指摘。

この研究ではNLGシステムが追加のcontextを利用することに大きな重点をおくべきであり、IR等で活用されているrelevancyをユーザ指向のテキスト生成タスクを設計するための重要な指標として考えることを提案している。

#NeuralNetwork #ComputerVision #Game Issue Date: 2022-09-15 Generating Racing Game Commentary from Vision, Language, and Structured Data, Tatsuya+, INLG'21 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary

#NeuralNetwork #Pocket #Dataset #DataToTextGeneration #INLG Issue Date: 2022-08-18 [Paper Note] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan Yermakov+, arXiv'21, 2021.09 GPT Summary- バイオメディカル分野におけるD2T生成の研究を行い、医薬品のパッケージリーフレットを用いた実世界のデータセットに対してファインチューニングされたトランスフォーマーを適用。現実的な複数文のテキスト生成が可能であることを示す一方で、重要な制限も存在。新たにバイオメディカル分野のD2T生成モデルのベンチマーク用データセット（BioLeaflets）を公開。 Comment

biomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。

#NeuralNetwork #Pocket #DataToTextGeneration Issue Date: 2021-10-08 過去情報の内容選択を取り入れたスポーツダイジェストの自動生成, 加藤+, 東工大, NLP'21 #DocumentSummarization #NeuralNetwork #Pocket #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #ACL #PostTraining #Selected Papers/Blogs Issue Date: 2021-09-09 [Paper Note] Prefix-Tuning: Optimizing Continuous Prompts for Generation, Xiang Lisa Li+, arXiv'21, 2021.01 GPT Summary- プレフィックスチューニングは、ファインチューニングの軽量な代替手段であり、言語モデルのパラメータを固定しつつ、タスク特有の小さなベクトルを最適化する手法です。これにより、少ないパラメータで同等のパフォーマンスを達成し、低データ設定でもファインチューニングを上回る結果を示しました。 Comment

autoregressive LM (GPT-2)と，encoder-decoderモデル（BART）へPrefix Tuningを適用する場合の模式図

#Pocket #Dataset #Evaluation #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

PJ page: https://inklab.usc.edu/CommonGen/

#MachineTranslation #Analysis #Metrics #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #Metrics #Evaluation #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#DocumentSummarization #Metrics #Evaluation #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#NeuralNetwork #LanguageModel #DataToTextGeneration #pretrained-LM #Zero/FewShotLearning Issue Date: 2022-12-01 Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL'20 Comment

#NeuralNetwork #DataToTextGeneration #pretrained-LM Issue Date: 2022-12-01 Template Guided Text Generation for Task-Oriented Dialogue, Kale+, Google, EMNLP'20 Comment

# 概要

Dialogue Actをそのままlinearlizeして言語モデルに入力するのではなく、テンプレートをベースにしたシンプルなsentenceにして言語モデルに与えると、zero-shot, few-shotなsettingで性能が向上するという話（T5ベース）。

# 手法

slotの名称をnatural languageのdescriptionに変更するSchema Guidedアプローチも提案（NLUでは既に実践さrていたらしいが、Generationで利用されたことはない）。

# 結果

MultiWoz, E2E, SGDデータセットを利用。MultiWoz, E2Eデータはデータ量が豊富でドメインやfeatureが限定的なため、schema guided, template guided approachとNaiveなrepresentationを利用した場合の結果がcopmarableであった。

が、SGDデータセットはドメインが豊富でzero-shot, few-shotの設定で実験ができる。SGDの場合はTemplate guided representationが最も高い性能を得た。

low resourceなデータセットで活用できそう

#NeuralNetwork #DataToTextGeneration #Transformer Issue Date: 2022-09-16 Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 Comment

# 概要

pre-training済みのT5に対して、Data2Textのデータセットでfinetuningを実施する方法を提案。WebNLG（graph-to-text）, ToTTo（table-to-text）, Multiwoz（task oriented dialogue）データにおいて、simpleなTransformerでも洗練されたmulti-stageなpipelined approachをoutperformできることを示した研究。

# 手法

事前学習済みのT5に対してfine-tuningを実施した。手法はシンプルで、data-to-textタスクをtext-to-textタスクに変換した。具体的には、構造かされたデータをflatな文字列（linearization）で表現することで、text-to-textタスクに変換。各データセットに対するlinearizationのイメージは下図。デリミタや特殊文字を使って構造かされたデータをflatなstringで表現している。

# データセット

## ToTTo（2020）

Wikipediaのテーブルと自然言語でdescriptionのペアデータ

## MultiWoz（2018）

10Kの人間同士のtask-orientedなdialogueデータ。

## WebNLG（2017）

subject-object-predicateの3組みをテキスト表現に変換するタスクのデータ

# Result

## WebNLG

GCNを利用した2020年に提案されたDualEncがSoTAだったらしいが、outperormしている。

## ToTTo

[こちら]( https://github.com/google-research-datasets/totto)のリーダーボードと比較してSoTAを記録

## MultiWoz

T5は事前学習済みGPT-2をfinetuningした手法もoutperformした。SC-GPT2は当時のMultiWozでのSoTA

# Impact of Model capacity

T5モデルのサイズがどれが良いかについては、データセットのサイズと複雑さに依存することを考察している。たとえば、MultiWozデータは構造化データのバリエーションが最も少なく、データ量も56kと比較的多かった。このため、T5-smallでもより大きいモデルの性能に肉薄できている。

一方、WebNLGデータセットは、18kしか事例がなく、特徴量も約200種類程度のrelationのみである。このような場合、モデルサイズが大きくなるにつれパフォーマンスも向上した（特にUnseen test set）。特にBLEUスコアはT5-smallがT5-baseになると、10ポイントもジャンプしており、modelのcapacityがout-of-domainに対する一般化に対してcriticalであることがわかる。ToTToデータセットでも、SmallからBaseにするとパフォーマンスは改善した。

# 所感

こんな簡単なfine-tuningでSoTAを達成できてしまうとは、末恐ろしい。ベースラインとして有用。

#PersonalizedDocumentSummarization #DocumentSummarization #Metrics #DataToTextGeneration #ConceptToTextGeneration #DialogueGeneration #PersonalizedGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#Survey #Pocket #Evaluation Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。 #DocumentSummarization #Pocket Issue Date: 2023-08-13 HighRES: Highlight-based Reference-less Evaluation of Summarization, Hardy+, N_A, ACL'19 GPT Summary- 要約の手動評価は一貫性がなく困難なため、新しい手法であるHighRESを提案する。この手法では、要約はソースドキュメントと比較して複数のアノテーターによって評価され、ソースドキュメントでは重要な内容がハイライトされる。HighRESはアノテーター間の一致度を向上させ、システム間の違いを強調することができることを示した。 Comment

人手評価の枠組み

#NeuralNetwork #DataToTextGeneration #EMNLP Issue Date: 2021-10-08 Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions （Row, Column and Time）, Gong+, Harbin Institute of Technology, EMNLP'19 Comment

## 概要

既存研究では、tableをレコードの集合, あるいはlong sequenceとしてencodeしてきたが

1. other (column) dimensionの情報が失われてしまう (?)

2. table cellは時間によって変化するtime-series data

という特徴がある。

たとえば、ある選手の成績について言及する際に、その試合について着目するだけでなくて「直近3試合で二回目のダブルダブルです」というように直近の試合も考慮して言及することがあり、table cellの time dimensionについても着目しなければならず、これらはこれまでのモデルで実現できない。

そこで、この研究ではtime dimensionについても考慮し生成する手法を提案。

## モデル概要

全体としては、Row Dimension Encoder, Column Dimension Encoder, Time Dimension Encoderによって構成されており、self-attentionを利用して、テーブルの各セルごとに Row-Dimension, Column-Dimension, Time-DimensionのRepresentationを獲得する。イメージとしては、

- Row Dimension Encoderによって、自身のセルと同じ行に含まれるセルとの関連度を考慮した表現

- Column Dimension Encoderによって、自身のセルと同じ列に含まれるセルとの関連度を考慮した表現

- Time Dimension Encoderによって、過去の時系列のセルとの関連度を考慮した表現

をそれぞれ獲得するイメージ。各Dimension Encoderでやっていることは、Puduppully (Data-to-Text Generation with Content Selection and Planning, Puduppully+, AAAI'19
) らのContent Selection Gate節におけるattention vector r_{att}の取得方法と同様のもの（だと思われる）。

獲得したそれぞれのdimensionの表現を用いて、まずそれらをconcatし1 layer MLPで写像することで得られるgeneral representationを取得する。その後、general representationと各dimensionの表現を同様に1 layer MLPでスコアリングすることで、各dimensionの表現の重みを求め、その重みで各representationを線形結合することで、セルの表現を獲得する。generalなrepresentationと各dimensionの表現の関連性によって重みを求めることで、より着目すべきdimensionを考慮した上で、セルの表現を獲得できるイメージなのだろうか。

その後、各セルの表現を行方向に対してMeanPoolingを施しrow-levelの表現を取得。獲得したrow-levelの表現に対し、Puduppully (Data-to-Text Generation with Content Selection and Planning, Puduppully+, AAAI'19 ) らのContent Selection Gate g を適用する（これをどうやっているかがわからない）。

最終的に求めたrow-levelの表現とcell-levelの表現に対して、デコーダのhidden stateを利用してDual Attentionを行い、row-levelの表現からどの行に着目すべきか決めた後、その行の中からどのセルに着目するか決める、といったイメージで各セルの重みを求める。

論文中にはここまでしか書かれていないが、求めた各セルの重みでセルのrepresentationを重み付けして足し合わせ、最終的にそこから単語をpredictionするのだろうか・・・？よくわからない。

RG, CS, CO, BLEUスコア、全てにおいてBaselineを上回っている（RGのTemplateを除く）。

実装: https://github.com/ernestgong/data2text-three-dimensions/

#NeuralNetwork #DataToTextGeneration #AAAI Issue Date: 2021-06-26 Data-to-Text Generation with Content Selection and Planning, Puduppully+, AAAI'19 Comment

Rotowire Datasetに対するData2Text研究において代表的な論文の一つ。Wisemanモデル [Paper Note] Challenges in Data-to-Document Generation, Wiseman+ (with Rush), EMNLP'17 と共にベースラインとして利用されることが多い。

実装: https://github.com/ratishsp/data2text-plan-py

#Pocket #ReviewGeneration Issue Date: 2019-08-17 [Paper Note] User Preference-Aware Review Generation, Wang+, PAKDD'19 #RecommenderSystems #NeuralNetwork #Pocket #ReviewGeneration #WWW Issue Date: 2019-08-17 [Paper Note] Review Response Generation in E-Commerce Platforms with External Product Information, Zhao+, WWW'19 #RecommenderSystems #NeuralNetwork #Pocket #ReviewGeneration #ACL #Workshop Issue Date: 2019-08-17 [Paper Note] Automatic Generation of Personalized Comment Based on User Profile, Wenhuan Zeng+, ACL'19 SRW GPT Summary- ソーシャルメディアの多様なコメント生成の難しさを考慮し、ユーザープロフィールに基づくパーソナライズされたコメント生成タスク（AGPC）を提案。パーソナライズドコメント生成ネットワーク（PCGN）を用いて、ユーザーの特徴をモデル化し、外部ユーザー表現を考慮することで自然なコメントを生成。実験結果は、モデルの効果を示す。 #RecommenderSystems #NeuralNetwork #ReviewGeneration #WWW Issue Date: 2019-05-31 [Paper Note] Multimodal Review Generation for Recommender Systems, Truong+, WWW'19 Comment

Personalized Review Generationと、Rating Predictionを同時学習した研究（同時学習自体はすでに先行研究がある）。

また、先行研究のinputは、たいていはuser, itemであるが、multi-modalなinputとしてレビューのphotoを活用したという話。

まだあまりしっかり読んでいないが、モデルのstructureはシンプルで、rating predictionを行うDNN、テキスト生成を行うLSTM（fusion gateと呼ばれる新たなゲートを追加）、画像の畳み込むCNNのハイブリッドのように見える。

#NeuralNetwork #Dataset #DataToTextGeneration #TabularData #ACL #Encoder-Decoder Issue Date: 2025-08-06 Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18 Comment

データセットの日本語解説（過去の自分の資料）: https://speakerdeck.com/akihikowatanabe/data-to-text-datasetmatome-summary-of-data-to-text-datasets?slide=66

#NeuralNetwork #DataToTextGeneration #COLING Issue Date: 2021-10-25 Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism., Li+, Peking University, COLING'18 Comment

# 概要

DataToTextタスクにおいて、生成テキストのデータの精度を高める手法を提案。two stageアルゴリズムを提案。①encoder-decoerモデルでslotを含むテンプレートテキストを生成。②Copy Mechanismでslotのデータを埋める、といった手法。

①と②はそれぞれ独立に学習される。

two stageにするモチベーションは、

・これまでのモデルでは、単語の生成確率とコピー確率を混合した分布を考えていたが、どのように両者の確率をmergeするのが良いかはクリアではない。

→ 生成とコピーを分離して不確実性を減らした

・コピーを独立して考えることで、より効果的なpair-wise ranking loss functionを利用することができる

・テンプレート生成モデルは、テンプレートの生成に集中でき、slot fillingモデルはスロットを埋めるタスクに集中できる。これらはtrainingとtuningをより簡便にする。

# モデル概要

モデルの全体像

オリジナルテキストとテンプレートの例。テンプレートテキストの生成を学習するencoder-decoder（①）はTarget Templateを生成できるように学習する。テンプレートではエンティティが""、数値が""というplace holderで表現されている。これらのスロットを埋めるDelayed Copy Networkは、スロットが正しく埋められるように学習される。

# 実験結果

Relation Generation (RG)がCCと比べて10%程度増加しているので、data fidelityが改善されている。

また、BLEUスコアも約2ポイント改善。これはentityやnumberが適切に埋められるようになっただけでなく、テンプレートがより適切に生成されているためであると考えられる。

## 参考：

• Relation Generation (RG)：出力文から(entity, value)の関係を抽出し，抽出された関係の数と，それらの関係が入力データに対して正しいかどうかを評価する (Precision)．ただし entity はチーム名や選手名などの動作の主体，value は得点数やアシスト数などの記録である．

• Content Selection (CS)：出力文とリファレンスから (entity, value) の関係を抽出し，出力文から抽出された関係のリファレンスから抽出された関係に対する Precision，Recall で評価する．

• Content Ordering (CO)：出力文とリファレンスから (entity, value) の関係を抽出し，それらの間の正規化 DamerauLevenshtein 距離 [7] で評価する．

(from 過去情報の内容選択を取り入れたスポーツダイジェストの自動生成, 加藤+, 東工大, NLP'21
)

#NeuralNetwork #DataToTextGeneration #EMNLP Issue Date: 2021-09-16 Operation-guided Neural Networks for High Fidelity Data-To-Text Generation, Nie+, Sun Yat-Sen University, EMNLP'18 Comment

# 概要

既存のニューラルモデルでは、生データ、あるいはそこから推論された事実に基づいて言語を生成するといったことができていない（e.g. 金融, 医療, スポーツ等のドメインでは重要）。

たとえば下表に示した通り、"edge"という単語は、スコアが接戦（95-94=1 -> スコアの差が小さい）であったことを表現しているが、こういったことを既存のモデルでは考慮して生成ができない。

これを解決するために、演算（operation）とニューラル言語モデルを切り離す（事前に計算しておく）といったことが考えられるが、

① 全てのフィールドに対してoperationを実行すると、探索空間が膨大になり、どの結果に対して言及する価値があるかを同定するのが困難（言及する価値がある結果がほとんど存在しない探索空間ができてしまう）

② 演算結果の数値のスパンと、言語選択の対応関係を確立させるのが困難（e.g. スコアの差が1のとき"edge"と表現する、など）

といった課題がある。

①に対処するために、事前にraw dataに対して演算を適用しその結果を利用するモデルを採用。どの演算結果を利用するかを決定するために、gating-mechanismを活用する。

②に対処するために、quantization layerを採用し、演算結果の数値をbinに振り分け、その結果に応じて生成する表現をguideするようなモデルを採用する。

# モデル概要

モデルはrecord encoder(h_{i}^{ctx}を作る)、operation encoder(h_{i}^{op}を作る)、operation result encoder(h_{i}^{res}を作る)によって構成される。

## record encoder

record encoderは、wisemanらと同様に、index (e.g. row 2), column (e.g. column Points), value (e.g. 95)のword embeddingを求め、それらをconcatしたものをbi-directional RNNに入力し求める。

## operation encoder

operation encoderでは、operation op_{i}は、1) operationの名称 (e.g. minus) 2) operationを適用するcolumn (e.g. Points), 3) operationを適用するrow (e.g. {1, 2}などのrow indexの集合)によって構成されており、これらのembeddingをlookupしconcatした後、non-linear layerで変換することによってoperationのrepresentationを取得する。3)operationを適用するrowについては、複数のindexによって構成されるため、各indexのembeddingをnon-linear layerで変換したベクトルを足し合わせた結果に対してtanhを適用したベクトルをembeddingとして利用する。

## operation result encoder

operation result encoderは、scalar results（minus operationにより-1）およびindexing results (argmax operationによりindex 2)の二種類を生成する。これら二種類に対して異なるencoding方法を採用する。

### scalar results

scalar resultsに対しては、下記式でscalar valueをquantization vector（q_{i}）に変換する。qutization vectorのlengthはLとなっており、Lはbinの数に相当している。つまり、quantization vectorの各次元がbinの重みに対応している。その後、quantization vectorに対してsoftmaxを適用し、quantization unit（quantization vectorの各次元）の重みを求める。最後に、quantization embeddingと対応するquantization unitの重み付き平均をとることによってh_{i}^{res}を算出する。

Q. 式を見るとW_{q}がscalar resultの値によって定数倍されるだけだから、softmaxによって求まるquantization unitの重みの序列はscalar resultによって変化しなそうに見えるが、これでうまくいくんだろうか・・・？序列は変わらなくても各quantization unit間の相対的な重みの差が変化するから、それでうまくscalar値の変化を捉えられるの・・・か・・・？

### indexing results

indexing resultsについては、h_{i}^{res}をシンプルにindexのembeddingとする。

## Decoder

context vectorの生成方法が違う。従来のモデルと比較して、context vectorを生成する際に、レコードをoperationの両方をinputとする。

operationのcontext vector c_{t}^{op}とrecordsのcontext vector c_{t}^{ctx}をdynamic gate λ_{t}によって重み付けし最終的なcontext vectorを求める。λ_{t}は、t-1時点でのデコーダのhidden stateから重みを求める。

c_{t}^{op}は次式で計算され：

c_{t}^{scl, idx}は、

よって計算される。要は、decoderのt-1のhidden stateと、operation vectorを用いて、j番目のoperationの重要度（β）を求め、operationの重要度によって重み付けしてoperation result vectorを足し合わせることによって、context vectorを算出する。

また、recordのcontext vector c_{t}^{ctx}は、h_{j}^{res}とh_{j}^{op}と、h_{j}^{ctx}に置き換えることによって算出される。

## データセット

人手でESPN, ROTOWIRE, WIKIBIOデータセットのReferenceに対して、factを含むtext spanと、そのfactの種類を3種類にラベル付した。input factsはinput dataから直接見つけられるfact, inferred factsはinput dataから直接見つけることはできないが、導き出すことができるfact、unsupported factsはinput dataから直接あるいは導き出すことができないfact。wikibioデータセットはinferred factの割合が少ないため、今回の評価からは除外し、ROTOWIRE, ESPNを採用した。特にESPNのheadline datasetがinferred factsが多かった。

# 結果

## 自動評価

wiseman modelをOpAttがoutperformしている。また、Seq2Seq+op+quant（Seq2Seq+copyに対してoperation result encoderとquantization layerを適用したもの）はSeq2Seq+Copyを上回っているが、OpAttほとではないことから、提案手法のoperation encoderの導入とgating mechanismが有効に作用していることがわかる。

採用するoperationによって、生成されるテキストも異なるようになっている。

## 人手評価

3人のNBAに詳しいEnglish native speakerに依頼してtest dataに対する生成結果にアノテーションをしてもらった。アノテーションは、factを含むspanを同定し、そのfactがinput facts/inferred facts/unsupported factsのどれかを分類してもらった。最後に、そのfactが入力データからsupportされるかcontradicted（矛盾するか）かをアノテーションしてもらった。

提案手法が、より多くのinferred factsについて言及しながらも、少ない#Cont.であることがわかった。

# 分析

## Quantizationの効果

チーム間のスコアの差が、5つのbinのに対してどれだけの重みを持たせたかのheatmap。似たようなスコアのgapの場合は似たような重みになることがわかる。ポイント差の絶対値が小さい場合は、重みの分布の分散が大きくなるのでより一般的な単語で生成を行うのに対し、絶対値が大きい場合は分散が小さくなるため、unique wordをつかって生成するようになる。

pointのgapの大きさによって利用される単語も変化していることがわかる。ポイント差がちいさいときは"edge"、大きいときは"blow out"など。

## gating mechanismの効果

生成テキストのtimestepごとのgateの重みの例。色が濃ければ濃いほど、operation resultsの情報を多く利用していることを表す。チームリーダーを決める際や（horford）勝者を決める際に(Hawks)、operation resultsの重みが大きくなっており、妥当な重み付けだと考察している。

#RecommenderSystems #NeuralNetwork #Pocket #ReviewGeneration #RecSys Issue Date: 2019-08-17 [Paper Note] Improving Explainable Recommendations with Synthetic Reviews, Sixun Ouyang+, RecSys'18 GPT Summary- レコメンダーシステムにおいて、解釈可能な説明を提供することは信頼性向上に重要である。本研究では、ユーザーのレビューを基にした生成モデルを用いて、個別化された推薦説明を作成するフレームワークを提案。Amazonの書籍レビューデータセットを用いて、生成されたレビューが人間のレビューよりも優れた推薦性能を示すことを実証した。これは機械生成による自然言語説明の初の試みである。 #NeuralNetwork #Pocket #AAAI Issue Date: 2019-01-24 [Paper Note] A Knowledge-Grounded Neural Conversation Model, Ghazvininejad+, AAAI'18, #NeuralNetwork #Pocket #ContextAware #AAAI Issue Date: 2019-01-24 [Paper Note] Response Generation by Context-aware Prototype Editing, Yu Wu+, AAAI'18, 2018.06 GPT Summary- 「編集による応答生成」という新しいパラダイムを提案し、既存の応答プロトタイプを修正することで多様性と情報量を向上させる。応答編集モデルは、プロトタイプと現在のコンテキストの違いを考慮して編集ベクトルを形成し、生成結果を改善する。実験結果は、応答編集モデルが他の生成モデルや取得ベースのモデルより優れていることを示す。 #NeuralNetwork #Pocket #TACL Issue Date: 2017-12-31 [Paper Note] Generating Sentences by Editing Prototypes, Guu+, TACL'18 #Metrics #Evaluation Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP'17 GPT Summary- NLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment

既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #ReviewGeneration #IJCNLP Issue Date: 2019-02-01 [Paper Note] Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17 Comment

Collaborative Filtering (CF) によるコンテンツ推薦とReview Generationを同時に学習し、

両者の性能を向上させる話。

非常に興味深い設定で、このような実験設定でReview Generationを行なった初めての研究。

CFではMatrix Factorization (MF) を利用し、Review Generationでは、LSTM-basedなseq2seqを利用する。MFとReview Generationのモデルにおいて、共通のuser latent factorとitem latent factorを利用することで、joint modelとしている。このとき、latent factorは、両タスクを通じて学習される。

CFでは、Implicitな設定なので、Rating Predictionではなく、binary classificationを行うことで、推薦を行う。

classificationには、Matrix Factorization (MF) を拡張したモデルを用いる。

具体的には、通常のMFでは、user latent factorとitem latent factorの内積によって、userのitemに対するpreferenceを表現するが、このときに、target userが過去に記載したレビュー・およびtarget itemに関する情報を利用する。レビューのrepresentationのaverageをとったvectorと、MFの結果をlinear layerによって写像し、最終的なclassification scoreとしている。

Review Generationでは、基本的にはseq2seqのinputのEmbeddingに対して、user latent factor, item latent factorをconcatするだけ。hidden stateに直接concatしないのは、latent factorを各ステップで考慮できるため、long, coherentなsequenceを生成できるから、と説明している。

Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。

Review GenerationはPerplexityにより評価している。提案手法がcharacter based lstmをoutperform。

Perplexityによる評価だと言語モデルとしての評価しかできていないので、BLEU, ROUGEなどを利用した評価などもあって良いのでは。

#NeuralNetwork #DataToTextGeneration #EMNLP #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Challenges in Data-to-Document Generation, Wiseman+ （with Rush）, EMNLP'17 Comment

・RotoWire（NBAのテーブルデータ + サマリ）データを収集し公開

・Rotowireデータの統計量

#NeuralNetwork #Controllable #DataToTextGeneration #ConceptToTextGeneration #ICML Issue Date: 2017-12-31 [Paper Note] Toward Controlled Generation of Text, Hu+, ICML'17 Comment

Text Generationを行う際は、現在は基本的に学習された言語モデルの尤度に従ってテキストを生成するのみで、outputされるテキストをcontrolすることができないので、できるようにしましたという論文。 VAEによるテキスト生成にGANを組み合わせたようなモデル。 decodingする元となるfeatureのある次元が、たとえばpolarityなどに対応しており、その次元の数値をいじるだけで生成されるテキストをcontrolできる。

テキストを生成する際に、生成されるテキストをコントロールするための研究。テキストを生成する際には、基本的にはVariational Auto Encoder(VAE)を用いる。

VAEは、入力をエンコードするEncoderと、エンコードされた潜在変数zからテキストを生成するGeneratorの2つの機構によって構成されている。

この研究では、生成されるテキストをコントロールするために、VAEの潜在変数zに、生成するテキストのattributeを表す変数cを新たに導入。

たとえば、一例として、変数cをsentimentに対応させた場合、変数cの値を変更すると、生成されるテキストのsentimentが変化するような生成が実現可能。

次に、このような生成を実現できるようなパラメータを学習したいが、学習を行う際のポイントは、以下の二つ。

cで指定されたattributeが反映されたテキストを生成するように学習

潜在変数zとattributeに関する変数cの独立性を保つように学習（cには制御したいattributeに関する情報のみが格納され、その他の情報は潜在変数zに格納されるように学習する)

1を実現するために、新たにdiscriminatorと呼ばれる識別器を用意し、VAEが生成したテキストのattributeをdiscriminatorで分類し、その結果をVAEのGeneratorにフィードバックすることで、attributeが反映されたテキストを生成できるようにパラメータの学習を行う。（これにはラベル付きデータが必要だが、少量でも学習できることに加えて、sentence levelのデータだけではなくword levelのデータでも学習できる。）

また、2を実現するために、VAEが生成したテキストから、生成する元となった潜在変数zが再現できるようにEncoderのパラメータを学習。

実験では、sentimentとtenseをコントロールする実験が行われており、attributeを表す変数cを変更することで、以下のようなテキストが生成されており興味深い。

[sentimentを制御した例]

this movie was awful and boring. (negative)

this movie was funny and touching. (positive)

[tenseを制御した例]

this was one of the outstanding thrillers of the last decade

this is one of the outstanding thrillers of the all time

this will be one of the great thrillers of the all time

VAEは通常のAutoEncoderと比較して、奥が深くて勉強してみておもしろかった。 Reparametrization Trickなどは知らなかった。

管理人による解説資料:
[Controllable Text Generation.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1595121/Controllable.Text.Generation.pdf)

slideshare: https://www.slideshare.net/akihikowatanabe3110/towards-controlled-generation-of-text

#NeuralNetwork #ComputerVision #ACL Issue Date: 2017-12-31 [Paper Note] Multi-Task Video Captioning with Video and Entailment Generation, Pasunuru+, ACL'17 Comment

解説スライド： https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1

multitask learningで動画（かなり短め）のキャプション生成を行なった話

(2025.05.12)
上記解説資料中のスクショがいくつか掲載されていましたが削除しました。

#Survey #Pocket #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。 #Survey #Pocket #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#DocumentSummarization #MachineTranslation #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#DocumentSummarization #NeuralNetwork #Pocket Issue Date: 2018-10-06 [Paper Note] Neural Headline Generation with Minimum Risk Training, Ayana+, N_A, arXiv'16 GPT Summary- 自動見出し生成のために、最小リスクトレーニング戦略を使用してモデルパラメータを最適化し、見出し生成の改善を実現する。提案手法は英語と中国語の見出し生成タスクで最先端のシステムを上回る性能を示す。 #NeuralNetwork #Pocket #CoNLL #Selected Papers/Blogs Issue Date: 2018-02-14 [Paper Note] Generating Sentences from a Continuous Space, Samuel R. Bowman+, CoNLL'16 GPT Summary- RNNベースの変分オートエンコーダ生成モデルを導入し、文全体の分散潜在表現を組み込むことで、文のスタイルやトピックなどの特性を明示的にモデル化。潜在空間を通じて新しい文を生成し、欠損単語の補完効果を実証。モデルの特性と使用に関する否定的な結果も示す。 Comment

VAEを利用して文生成

【Variational Autoencoder徹底解説】

https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24

#Others #DataToTextGeneration #CIKM Issue Date: 2017-12-31 [Paper Note] Deep Match between Geology Reports and Well Logs Using Spatial Information, Tong+, CIKM'16 #NeuralNetwork #Pocket #Dataset #ConceptToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] Neural Text Generation from Structured Data with Application to the Biography Domain, Remi Lebret+, EMNLP'16, 2016.03 GPT Summary- 大規模なWikipediaの伝記データセットを用いて、テキスト生成のためのニューラルモデルを提案。モデルは条件付きニューラル言語モデルに基づき、固定語彙とサンプル固有の単語を組み合わせるコピーアクションを採用。提案モデルは古典的なKneser-Neyモデルを約15 BLEUポイント上回る性能を示した。 Comment

#Survey #Pocket #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#DocumentSummarization #MachineTranslation #Metrics #Reference-based Issue Date: 2023-08-13 chrF: character n-gram F-score for automatic MT evaluation, Mono Popovic, WMT'15 GPT Summary- 私たちは、機械翻訳の評価に文字n-gram Fスコアを使用することを提案します。私たちは、このメトリックがシステムレベルとセグメントレベルで人間のランキングと相関しており、特にセグメントレベルでの相関が非常に高いことを報告しました。この提案は非常に有望であり、WMT14の共有評価タスクでも最高のメトリックを上回りました。 Comment

character-basedなn-gram overlapをreferenceとシステムで計算する手法

#DocumentSummarization #Metrics #Evaluation #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#DocumentSummarization #ComputerVision #Pocket #Evaluation #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #NeuralNetwork #Pocket #NeurIPS #Selected Papers/Blogs #Encoder-Decoder Issue Date: 2025-09-19 [Paper Note] Sequence to Sequence Learning with Neural Networks, Ilya Sutskever+, NIPS'14 GPT Summary- DNNはシーケンス学習において優れた性能を示すが、シーケンス間のマッピングには限界がある。本研究では、LSTMを用いたエンドツーエンドのシーケンス学習アプローチを提案し、英語からフランス語への翻訳タスクで34.8のBLEUスコアを達成。LSTMは長文にも対応し、SMTシステムの出力を再ランク付けすることでBLEUスコアを36.5に向上させた。また、単語の順序を逆にすることで性能が向上し、短期的依存関係の最適化が容易になった。 Comment

いまさらながらSeq2Seqを提案した研究を追加

#Others #DataToTextGeneration #ACL Issue Date: 2017-12-31 [Paper Note] Comparing Multi-label Classification with Reinforcement Learning for Summarization of Time-series Data, Gkatzia+, ACL'14 #DocumentSummarization #MachineTranslation #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #SingleFramework #ConceptToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] Inducing document plans for concept-to-text generation, Konstas+, EMNLP'13 #DocumentSummarization #MachineTranslation #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#SingleFramework #ConceptToTextGeneration #NAACL Issue Date: 2017-12-31 [Paper Note] Unsupervised concept-to-text generation with hypergraphs, Konstas+, NAACL-HLT'12 #RuleBased #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Generating approximate geographic descriptions, Turner+, ENLG'10 #SingleFramework #ConceptToTextGeneration #COLING Issue Date: 2017-12-31 [Paper Note] Generative alignment and semantic parsing for learning from ambiguous supervision, Kim+, COLING'10 #SingleFramework #DataToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] A simple domain-independent probabilistic approach to generation, Angeli+, EMNLP'10 #SingleFramework #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Training a multilingual sportscaster: Using perceptual context to learn language, Chen+, Artificial Intelligence Research'10, 2010.01 #Others #ConceptToTextGeneration #ACL #IJCNLP Issue Date: 2017-12-31 [Paper Note] Learning semantic correspondences with less supervision, Liang+, ACL-IJCNLP'09 #Others #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Verbalizing time-series data: with an example of stock price trends, Kobayashi+, IFSA-EUSFLAT'09 Comment

小林先生の論文

Least Square Methodによって数値データにfittingするcurveを求める。

curveの特徴から、生成するテキストのtrendsを決定する。

#SingleFramework #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Automatic generation of textual summaries from neonatal intensive care data, Porter+, Artificial Intelligence'09, 2009.05 Comment

BabyTalk論文

#Others #ConceptToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] A generative model for parsing natural language to meaning representations, Lu+, EMNLP'08 #SingleFramework #DataToTextGeneration #ICML Issue Date: 2017-12-31 [Paper Note] Learning to sportscast: a test of grounded language acquisition, Chen+, ICML'08 #Survey #DataToTextGeneration #ConceptToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#DataDriven #ConceptToTextGeneration #NAACL Issue Date: 2017-12-31 [Paper Note] Aggregation via set partitioning for natural language generation, Barzilay+, HLT-NAACL'06 #RuleBased #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Choosing words in computer-generated weather forecasts, Reiter+, Artificial Intelligence'05 Comment

## タスク

天気予報の生成, システム名 SUMTIME

## 手法概要

ルールベースな手法，weather prediction dataから（将来の気象情報をシミュレーションした数値データ），天気予報を自動生成．corpus analysisと専門家のsuggestを通じて，どのようなwordを選択して天気予報を生成するか詳細に分析したのち，ルールを生成してテキスト生成

#DataDriven #ConceptToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] Collective content selection for concept-to-text generation, Barzilay+, HLT_EMNLP'05 #RuleBased #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Coral: Using natural language generation for navigational assistance, Dale+, Australasian computer science conference'03 #RuleBased #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Using natural language processing to produce weather forecasts, Goldberg+, IEEE Expert: Intelligent Systems and Their Applications'94 Comment

## タスク

天気予報の生成，システム名 FOG (EnglishとFrenchのレポートを作成できる)

## 手法概要

ルールベースな手法，weather predictinon dataから，天気予報を自動生成．Text Planner がルールに従い各sentenceに入れる情報を抽出すると同時に，sentence orderを決め，abstractiveな中間状態を生成．その後，中間状態からText Realization（grammarやdictionaryを用いる）によって，テキストを生成．

#RuleBased #DataToTextGeneration #ACL Issue Date: 2017-12-31 [Paper Note] Design of a knowledge-based report generator, Kukich, ACL'83 Comment

## タスク

numerical stock market dataからstock market reportsを生成，我々と同様なタスク．システム名: ANA

## 手法概要

ルールベースな手法，

1) fact-generator,

2) message generator,

3) discourse organizer,

4) text generatorの4コンポーネントから成る．

2), 3), 4)はそれぞれ120, 16, 109個のルールがある. 4)ではphrasal dictionaryも使う．

1)では，入力されたpriceデータから，closing averageを求めるなどの数値的な演算などを行う.

2)では，1)で計算された情報に基づいて，メッセージの生成を行う(e.g. market was mixed).

3)では，メッセージのparagraph化，orderの決定，priorityの設定などを行う．

4)では，辞書からフレーズを選択したり，適切なsyntactic formを決定するなどしてテキストを生成．

Data2Textの先駆け論文。引用すべし。多くの研究で引用されている。

#Article #LanguageModel #AIAgents #Repository Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 Comment

LLMによるOpenSourceなソフトウェア生成エージェントプラットフォーム

full timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。
参考:

Loading…

Open化される前の最初のDevinのツイート

Loading…

#Article #LanguageModel #Blog Issue Date: 2024-01-01 Decoding Strategies that You Need to Know for Response Generation Comment

こちらの記事ではHuggingFaceでの実装や他のdecoding方法等、より実装面での詳細が記述されている：

https://note.com/npaka/n/n9a8c85f2ef7a

#Article #Survey #Dataset #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #Survey #ComputerVision #LanguageModel #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #ComputerVision #Blog Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話 #Article #LanguageModel #FoundationModel #Blog #Coding Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

#Article #DocumentSummarization #NeuralNetwork #ACL Issue Date: 2021-06-03 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL’16 Comment

解説資料: http://www.lr.pi.titech.ac.jp/~sasano/acl2016suzukake/slides/08.pdf

#Article #DocumentSummarization #NeuralNetwork #ACL Issue Date: 2021-06-02 Pointing the Unknown Words, Gulcehre+, ACL’16 Comment

解説スライド: https://www.slideshare.net/hytae/pointing-the-unknown-words

#Article #Others #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Automatically generated linguistic summaries of energy consumption data, van der Heide+, In Proceedings of the Ninth International Conference on Intelligent Systems Design and Applications, pages 553-559, 2009.11 #Article #Others #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] A framework for automatic text generation of trends in physiological time series data, Banaee+, In Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, 2013.10 #Article #SingleFramework #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] A Global Model for Concept-to-Text Generation, Konstas+, Journal of Artificial Intelligence Research, Vol. 48, pp.305--346, 2013.10 #Article #NeuralNetwork #DataToTextGeneration #NAACL Issue Date: 2017-12-31 [Paper Note] What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment, Mei+, NAACL-HLT’16 Comment

content-selectionとsurface realizationをencoder-decoder alignerを用いて同時に解いたという話。

普通のAttention basedなモデルにRefinerとPre-Selectorと呼ばれる機構を追加。通常のattentionにはattentionをかける際のaccuracyに問題があるが、data2textではきちんと参照すべきレコードを参照し生成するのが大事なので、RefinerとPre-Selectorでそれを改善する。

Pre-selectorは、それぞれのレコードが選択される確率を推定する（通常のattentionはalignmentの尤度を計算するのみ）。

Refinerはaligner(attention)のweightをreweightingすることで、最終的にどのレコードを選択するか決定する。

加えて、ロス関数のRegularizationのかけかたを変え、最低一つのレコードがpreselectorに選ばれるようにバイアスをかけている。

ほぼ初期のNeural Network basedなData2Text研究

Survey (106)

#InformationRetrieval #Pocket #LanguageModel #MultiModal #RAG(RetrievalAugmentedGeneration) #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#Pocket #LanguageModel #ReinforcementLearning #Reasoning
Issue Date: 2025-09-11 [Paper Note] A Survey of Reinforcement Learning for Large Reasoning Models, Kaiyan Zhang+, arXiv'25 GPT Summary- 本論文では、LLMにおける推論のための強化学習（RL）の進展を調査し、特に数学やコーディングなどの複雑な論理タスクにおける成功を強調しています。RLはLLMを学習推論モデル（LRM）に変換する基盤的な方法論として浮上しており、スケーリングには計算リソースやアルゴリズム設計などの課題があります。DeepSeek-R1以降の研究を検討し、LLMおよびLRMにおけるRLの適用に関する未来の機会と方向性を特定することを目指しています。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents
Issue Date: 2025-09-03 [Paper Note] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey, Guibin Zhang+, arXiv'25 GPT Summary- エージェント的強化学習（Agentic RL）は、従来の強化学習から大規模言語モデル（LLM）への適用におけるパラダイムシフトを示し、LLMを自律的な意思決定エージェントとして再構築します。本調査では、LLM-RLの単一ステップのマルコフ決定過程（MDP）とエージェント的RLの部分観測マルコフ決定過程（POMDP）を対比し、計画や推論などのエージェント能力を中心に二重分類法を提案します。強化学習は、静的なヒューリスティックから適応的なエージェント行動への変換に重要な役割を果たすと主張し、500以上の研究を統合してこの分野の機会と課題を明らかにします。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Safety #EMNLP Issue Date: 2025-09-03 [Paper Note] Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety, Seongmin Lee+, EMNLP'25 GPT Summary- LLMの安全性を理解し軽減するための解釈技術の重要性を探求し、安全性向上に寄与する手法を統一的なフレームワークで整理。約70件の研究を分類し、未解決の課題と今後の方向性を示す。研究者や実務者にとって、より安全で解釈可能なLLMの進展を促進する調査。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #DiffusionModel #Verification Issue Date: 2025-08-16 [Paper Note] A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models, Lingzhe Zhang+, arXiv'25 GPT Summary- 並列テキスト生成は、LLMの生成速度を向上させるための技術であり、自己回帰生成のボトルネックを打破することを目指している。本研究では、並列テキスト生成手法をARベースと非ARベースに分類し、それぞれの技術を評価。速度、品質、効率のトレードオフを考察し、今後の研究の方向性を示す。関連論文を集めたGitHubリポジトリも作成。 Comment

Taxonomyと手法一覧。Draft and Verifyingは個人的に非常に興味がある。

#Pocket #LanguageModel #Hallucination Issue Date: 2025-08-08 [Paper Note] A comprehensive taxonomy of hallucinations in Large Language Models, Manuel Cossio, arXiv'25 GPT Summary- LLMのハルシネーションに関する包括的な分類法を提供し、その本質的な避けられなさを提唱。内因的および外因的な要因、事実誤認や不整合などの具体的な現れを分析。根本的な原因や認知的要因を検討し、評価基準や軽減戦略を概説。今後は、信頼性のある展開のために検出と監視に焦点を当てる必要があることを強調。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #Attention Issue Date: 2025-07-31 [Paper Note] Efficient Attention Mechanisms for Large Language Models: A Survey, Yutao Sun+, arXiv'25 GPT Summary- Transformerアーキテクチャの自己注意の複雑さが長文コンテキストモデリングの障害となっている。これに対処するため、線形注意手法とスパース注意技術が導入され、計算効率を向上させつつコンテキストのカバレッジを保持する。本研究は、これらの進展を体系的にまとめ、効率的な注意を大規模言語モデルに組み込む方法を分析し、理論と実践を統合したスケーラブルなモデル設計の基礎を提供することを目指す。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #SelfCorrection #SelfImprovement Issue Date: 2025-07-30 [Paper Note] A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence, Huan-ang Gao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は静的であり、動的な環境に適応できないため、自己進化するエージェントの必要性が高まっている。本調査は、自己進化するエージェントに関する初の包括的レビューを提供し、進化の基礎的な次元を整理。エージェントの進化的メカニズムや適応手法を分類し、評価指標や応用分野を分析。最終的には、エージェントが自律的に進化し、人間レベルの知能を超える人工超知能（ASI）の実現を目指す。 Comment

元ポスト:

Loading…

Figure3がとても勉強になる。Self-Evolveと呼んだ時に、それがどのようにEvolveするものなのかはきちんとチェックした方が良さそう。追加の学習をするのか否かなど。これによって使いやすさが段違いになりそうなので。

#Embeddings #Pocket #Dataset #LanguageModel #RepresentationLearning #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-07-19 [Paper Note] A Survey of Context Engineering for Large Language Models, Lingrui Mei+, arXiv'25 GPT Summary- 本調査では、LLMsの性能を向上させる「コンテキストエンジニアリング」を提案し、その要素と実装方法を体系的に分類。コンテキストの取得、生成、処理、管理を検討し、洗練されたシステム実装を探る。1300以上の研究を分析し、モデルの能力の非対称性を明らかにし、複雑な文脈理解と長文出力生成のギャップに対処する重要性を強調。研究者とエンジニアのための統一フレームワークを提供。 Comment

もうContext Engineeringという切り口の体系化されたSurveyが出てきた。早すぎ。

元ポスト:

Loading…

#Pocket #LanguageModel #LatentReasoning Issue Date: 2025-07-10 [Paper Note] A Survey on Latent Reasoning, Rui-Jie Zhu+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、明示的な思考の連鎖（CoT）によって優れた推論能力を示すが、自然言語推論への依存が表現力を制限する。潜在的推論はこの問題を解決し、トークンレベルの監視を排除する。研究は、ニューラルネットワーク層の役割や多様な潜在的推論手法を探求し、無限深度の潜在的推論を可能にする高度なパラダイムについて議論する。これにより、潜在的推論の概念を明確にし、今後の研究方向を示す。関連情報はGitHubリポジトリで提供されている。 Comment

元ポスト:

Loading…

Latent Reasoningというテクニカルタームが出てきた

#Pocket #LanguageModel #ScientificDiscovery Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 GPT Summary- AIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Chain-of-Thought #COLING Issue Date: 2025-05-29 Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs, Yu Xia+, COLING'25 GPT Summary- Chain-of-Thought（CoT）を基にしたChain-of-X（CoX）手法の調査を行い、LLMsの課題に対処するための多様なアプローチを分類。ノードの分類とアプリケーションタスクに基づく分析を通じて、既存の手法の意義と今後の可能性を議論。研究者にとって有用なリソースを提供することを目指す。 #InformationRetrieval #Pocket #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #LanguageModel #Test-Time Scaling Issue Date: 2025-04-02 What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models, Qiyuan Zhang+, arXiv'25 GPT Summary- テスト時スケーリング（TTS）が大規模言語モデル（LLMs）の問題解決能力を向上させることが示されているが、体系的な理解が不足している。これを解決するために、TTS研究の4つのコア次元に基づく統一的なフレームワークを提案し、手法や応用シナリオのレビューを行う。TTSの発展の軌跡を抽出し、実践的なガイドラインを提供するとともに、未解決の課題や将来の方向性についての洞察を示す。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Reasoning Issue Date: 2025-03-23 Thinking Machines: A Survey of LLM based Reasoning Strategies, Dibyanayan Bandyopadhyay+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は優れた言語能力を持つが、推論能力との間にギャップがある。推論はAIの信頼性を高め、医療や法律などの分野での適用に不可欠である。最近の強力な推論モデルの登場により、LLMsにおける推論の研究が重要視されている。本論文では、既存の推論技術の概要と比較を行い、推論を備えた言語モデルの体系的な調査と現在の課題を提示する。 Comment

元ポスト:

Loading…

RL, Test Time Compute, Self-trainingの3種類にカテゴライズされている。また、各カテゴリごとにより細分化されたツリーが論文中にある。

#EfficiencyImprovement #Pocket #LanguageModel #Reasoning Issue Date: 2025-03-22 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models, Yang Sui+, arXiv'25 GPT Summary- 本論文では、LLMsにおける効率的な推論の進展を体系的に調査し、以下の主要な方向に分類します：(1) モデルベースの効率的推論、(2) 推論出力ベースの効率的推論、(3) 入力プロンプトベースの効率的推論。特に、冗長な出力による計算オーバーヘッドを軽減する方法を探求し、小規模言語モデルの推論能力や評価方法についても議論します。 Comment

元ポスト:

Loading…

各カテゴリにおけるliteratureも見やすくまとめられている。必要に応じて参照したい。

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-15 A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は自然言語処理に革命をもたらしたが、専門的な文脈での制約が明らかである。これに対処するため、高度なポストトレーニング言語モデル（PoLMs）が必要であり、本論文ではその包括的な調査を行う。ファインチューニング、アライメント、推論、効率、統合と適応の5つのコアパラダイムにわたる進化を追跡し、PoLMがバイアス軽減や推論能力向上に寄与する方法を示す。研究はPoLMの進化に関する初の調査であり、将来の研究のための枠組みを提供し、LLMの精度と倫理的堅牢性を向上させることを目指す。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-04 LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）のポストトレーニング手法に焦点を当て、知識の洗練や推論の改善、事実の正確性向上を目指す。ファインチューニングや強化学習などの戦略がLLMsのパフォーマンスを最適化し、実世界のタスクへの適応性を向上させる。主要な課題として壊滅的な忘却や報酬ハッキングを分析し、今後の研究方向性を示す公開リポジトリも提供。 Comment

非常にわかりやすい。

元ポスト:

Loading…

#Pocket #LanguageModel #Reasoning Issue Date: 2025-02-26 From System 1 to System 2: A Survey of Reasoning Large Language Models, Zhong-Zhi Li+, arXiv'25 GPT Summary- 人間レベルの知能を達成するためには、迅速なシステム1から意図的なシステム2への推論の洗練が必要。基盤となる大規模言語モデル（LLMs）は迅速な意思決定に優れるが、複雑な推論には深さが欠ける。最近の推論LLMはシステム2の意図的な推論を模倣し、人間のような認知能力を示している。本調査では、LLMの進展とシステム2技術の初期開発を概観し、推論LLMの構築方法や特徴、進化を分析。推論ベンチマークの概要を提供し、代表的な推論LLMのパフォーマンスを比較。最後に、推論LLMの進展に向けた方向性を探り、最新の開発を追跡するためのGitHubリポジトリを維持することを目指す。 Comment

元ポスト:

Loading…

#Pocket #KnowledgeEditing #read-later Issue Date: 2025-09-24 [Paper Note] Knowledge Editing for Large Language Models: A Survey, Song Wang+, ACM Computing Surveys'24, 2023.10 GPT Summary- 大規模言語モデル（LLMs）の計算コストの問題を解決するため、知識ベースのモデル編集（KME）が注目されている。KMEは、特定の知識をLLMsに組み込む際に他の知識に悪影響を与えないように修正する手法である。本調査では、KMEの戦略や技術の分類、既存の方法の分析、指標やデータセットについて包括的に概説し、KMEの実用性と今後の研究方向を提案する。 #LanguageModel #Hallucination #MultiModal Issue Date: 2025-09-24 A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models, Sahoo+, EMNLP'24 Findings GPT Summary- 基盤モデル（FMs）の多様なドメインにおける進展は顕著だが、特に高リスクなアプリケーションでは幻覚的な出力が問題となる。本調査論文は、テキスト、画像、動画、音声におけるFMsの幻覚の問題を特定し、軽減策の最近の進展をまとめる。幻覚の定義、分類、検出戦略を含むフレームワークを提供し、今後の研究と開発の基盤を築くことを目指す。 Comment

#Pocket #LanguageModel #memory Issue Date: 2025-08-11 [Paper Note] A Survey on the Memory Mechanism of Large Language Model based Agents, Zeyu Zhang+, arXiv'24 GPT Summary- LLMベースのエージェントのメモリメカニズムに関する包括的な調査を提案。メモリの重要性を論じ、過去の研究を体系的にレビューし、エージェントアプリケーションでの役割を紹介。既存研究の限界を分析し、将来の研究方向性を示す。リポジトリも作成。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Prompting #VisionLanguageModel Issue Date: 2025-08-07 [Paper Note] Visual Prompting in Multimodal Large Language Models: A Survey, Junda Wu+, arXiv'24 GPT Summary- 本論文は、マルチモーダル大規模言語モデル（MLLMs）における視覚的プロンプト手法の包括的な調査を行い、視覚的プロンプトの生成や構成的推論、プロンプト学習に焦点を当てています。既存の視覚プロンプトを分類し、自動プロンプト注釈の生成手法を議論。視覚エンコーダとバックボーンLLMの整合性を向上させる手法や、モデル訓練と文脈内学習による視覚的プロンプトの理解向上についても述べています。最後に、MLLMsにおける視覚的プロンプト手法の未来に関するビジョンを提示します。 #ComputerVision #Controllable #Pocket #DiffusionModel #TextToImageGeneration Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。 #Pocket #LanguageModel #Alignment #TMLR Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment

OpenReview: https://openreview.net/forum?id=oVTkOs8Pka

#Pocket #LanguageModel #Distillation Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）における知識蒸留（KD）の重要性を調査し、小型モデルへの知識伝達やモデル圧縮、自己改善の役割を強調。KDメカニズムや認知能力の向上、データ拡張（DA）との相互作用を検討し、DAがLLM性能を向上させる方法を示す。研究者や実務者に向けたガイドを提供し、LLMのKDの倫理的適用を推奨。関連情報はGithubで入手可能。 #Pocket #LanguageModel #Reasoning #Mathematics Issue Date: 2025-01-03 A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges, Yibo Yan+, arXiv'24 GPT Summary- 数学的推論は多くの分野で重要であり、AGIの進展に伴い、LLMsを数学的推論タスクに統合することが求められている。本調査は、2021年以降の200以上の研究をレビューし、マルチモーダル設定におけるMath-LLMsの進展を分析。分野をベンチマーク、方法論、課題に分類し、マルチモーダル数学的推論のパイプラインやLLMsの役割を探る。さらに、AGI実現の障害となる5つの課題を特定し、今後の研究方向性を示す。 #Pocket #LanguageModel #SyntheticData Issue Date: 2025-01-02 Generative AI for Synthetic Data Generation: Methods, Challenges and the Future, Xu Guo+, arXiv'24 GPT Summary- 限られたデータのシナリオでLLMsを用いて合成データを生成する研究が増加しており、これは生成的AIの進展を示す。LLMsは実世界のデータと同等の性能を持ち、リソースが限られた課題に対する解決策となる。本論文では、タスク特化型のトレーニングデータ生成のための技術、評価方法、実用的応用、現在の制限、将来の研究の方向性について議論する。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #SyntheticData Issue Date: 2025-01-02 On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey, Lin Long+, arXiv'24 GPT Summary- 深層学習におけるデータの量と質の問題に対し、LLMsが合成データ生成を通じて解決策を提供。しかし、現状の研究は統一されたフレームワークを欠き、表面的なものが多い。本論文では合成データ生成のワークフローを整理し、研究のギャップを明らかにし、今後の展望を示す。学術界と産業界のより体系的な探求を促進することを目指す。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-12-31 A Survey on LLM Inference-Time Self-Improvement, Xiangjue Dong+, arXiv'24 GPT Summary- LLM推論における自己改善技術を三つの視点から検討。独立した自己改善はデコーディングやサンプリングに焦点、文脈に応じた自己改善は追加データを活用、モデル支援の自己改善はモデル間の協力を通じて行う。関連研究のレビューと課題、今後の研究への洞察を提供。 #Pocket #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #LanguageModel #LLM-as-a-Judge Issue Date: 2024-11-27 From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, Dawei Li+, arXiv'24 GPT Summary- LLMを用いた判断と評価の新たなパラダイム「LLM-as-a-judge」に関する包括的な調査を行い、定義や分類法を提示。評価のためのベンチマークをまとめ、主要な課題と今後の研究方向を示す。関連リソースも提供。 Comment

LLM-as-a-Judgeに関するサーベイ

- Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N/A, arXiv'24

も参照のこと

#Pocket #LanguageModel #MultiLingual Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv'24 GPT Summary- 本論文は、多言語大規模言語モデル（MLLMs）の最新研究を調査し、アーキテクチャや事前学習の目的、多言語能力の要素を論じる。データの質と多様性が性能向上に重要であることを強調し、MLLMの評価方法やクロスリンガル知識、安全性、解釈可能性について詳細な分類法を提示。さらに、MLLMの実世界での応用を多様な分野でレビューし、課題と機会を強調する。関連論文は指定のリンクで公開されている。 Comment

#EfficiencyImprovement #LanguageModel #Transformer #Attention Issue Date: 2024-11-17 Understanding LLMs: A Comprehensive Overview from Training to Inference, Yiheng Liu+, arXiv'24 GPT Summary- ChatGPTの普及に伴い、LLMsのコスト効率の良いトレーニングとデプロイメントへの関心が高まっている。本論文では、LLMsのトレーニング技術と推論デプロイメント技術の進化をレビューし、データ前処理やモデル圧縮などのさまざまな側面を議論する。また、LLMsの利用方法と将来の発展についての洞察も提供する。 Comment

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-7vGwDK_AQX.HDO7j9H8iNA)

#Pocket #LanguageModel #AIAgents Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv'24 GPT Summary- (M)LLMを活用したGUIエージェントの研究を統合し、データセット、フレームワーク、アプリケーションの革新を強調。重要なコンポーネントをまとめた統一フレームワークを提案し、商業アプリケーションを探求。課題を特定し、今後の研究方向を示唆。 Comment

Referenceやページ数はサーベイにしては少なめに見える。

#LanguageModel #SmallModel Issue Date: 2024-11-07 A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, Fali Wang+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）は多様なタスクで能力を示すが、パラメータサイズや計算要求から制限を受け、プライバシーやリアルタイムアプリケーションに課題がある。これに対し、小型言語モデル（SLM）は低遅延、コスト効率、簡単なカスタマイズが可能で、特に専門的なドメインにおいて有用である。SLMの需要が高まる中、定義や応用に関する包括的な調査が不足しているため、SLMを専門的なタスクに適したモデルとして定義し、強化するためのフレームワークを提案する。 Comment

#LanguageModel #Evaluation #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#Pocket #LanguageModel #SelfCorrection Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL'24 GPT Summary- 自己修正はLLMsの応答を改善する手法であり、フィードバック源の利用が提案されているが、誤り修正のタイミングについては合意が得られていない。本研究では、自己修正に必要な条件を議論し、従来の研究の問題点を指摘。新たに分類した研究課題に基づき、自己修正が成功した例がないこと、信頼できる外部フィードバックが重要であること、大規模なファインチューニングが効果的であることを示した。 Comment

LLMのself-correctionに関するサーベイ

#EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-09-10 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models, Sean Welleck+, N_A, arXiv'24 GPT Summary- 推論時の計算リソース拡大の利点に焦点を当て、トークンレベル生成、メタ生成、効率的生成の3つのアプローチを統一的に探求。トークンレベル生成はデコーディングアルゴリズムを用い、メタ生成はドメイン知識や外部情報を活用し、効率的生成はコスト削減と速度向上を目指す。従来の自然言語処理、現代のLLMs、機械学習の視点を統合した調査。 Comment

元ツイート:

Loading…

CMUのチームによるinference timeの高速化に関するサーベイ

#Pocket #LanguageModel #Alignment Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv'24 GPT Summary- 人間の好み学習に基づくLLMsの進展をレビューし、好みフィードバックのソースや形式、モデリング技術、評価方法を整理。データソースに基づくフィードバックの分類や、異なるモデルの利点・欠点を比較し、LLMsの人間の意図との整合性に関する展望を議論。 #LanguageModel #SelfCorrection Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL'24 GPT Summary- 大規模言語モデル（LLMs）の性能は高いが、幻覚や不誠実な推論などの問題が存在する。自己修正が有望な解決策であり、自動フィードバックを活用することで人間の介入を最小限に抑えた実用的なLLMソリューションが可能になる。本論文では、トレーニング、生成、事後修正の各段階における技術を分析し、主要な応用と今後の課題について議論する。 Comment

#LanguageModel #Prompting Issue Date: 2024-09-02 The Prompt Report: A Systematic Survey of Prompting Techniques, Sander Schulhoff+, N_A, arXiv'24 GPT Summary- 生成的人工知能（GenAI）システムのプロンプトに関する構造的理解を確立するため、プロンプト技術の分類法を提案し、33の語彙用語と58のテキスト専用プロンプト技術を提示。さらに、自然言語プレフィックスプロンプトに関する文献のメタ分析を実施。 Comment

Promptingに関するサーベイ

初期の手法からかなり網羅的に記述されているように見える。

#NaturalLanguageGeneration #Controllable Issue Date: 2024-08-25 Controllable Text Generation for Large Language Models: A Survey, Xun Liang+, N_A, arXiv'24 GPT Summary- LLMsの制御可能なテキスト生成（CTG）技術に関する最新の進展を体系的にレビューし、その中核的な概念の包括的な定義を提供し、制御条件とテキスト品質の要件を明確にする。CTGタスクをコンテンツ制御と属性制御の2つの主要なタイプに分類し、モデルの再学習、ファインチューニング、強化学習、プロンプトエンジニアリング、潜在空間の操作、デコーディング時の介入など、主要な手法について議論する。さらに、CTGの評価方法を検討し、領域全体での応用をまとめ、現在の研究における主要な課題に取り組む。また、将来の研究で実世界の応用に重点を置くなど、いくつかの提案も行う。 Comment

Surveyの内容

#Pocket #LanguageModel #Prompting Issue Date: 2024-07-30 A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, Pranab Sahoo+, N_A, arXiv'24 GPT Summary- プロンプトエンジニアリングは、LLMsやVLMsの能力を拡張するための重要な技術であり、モデルのパラメータを変更せずにタスク固有の指示であるプロンプトを活用してモデルの効果を向上させる。本研究は、プロンプトエンジニアリングの最近の進展について構造化された概要を提供し、各手法の強みと制限について掘り下げることで、この分野をよりよく理解し、将来の研究を促進することを目的としている。 Comment

#Pocket #LanguageModel Issue Date: 2024-04-14 Knowledge Conflicts for LLMs: A Survey, Rongwu Xu+, N_A, arXiv'24 GPT Summary- LLMsにおける知識の衝突に焦点を当て、文脈とパラメトリック知識の組み合わせによる複雑な課題を分析。文脈-メモリ、文脈間、メモリ内の衝突の3つのカテゴリーを探求し、実世界のアプリケーションにおける信頼性とパフォーマンスへの影響を検討。解決策を提案し、LLMsの堅牢性向上を目指す。 #Pocket #LanguageModel #Annotation Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv'24 GPT Summary- GPT-4などの大規模言語モデル（LLMs）を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 Comment

Data AnnotationにLLMを活用する場合のサーベイ

#LanguageModel #DataToTextGeneration #TabularData Issue Date: 2024-03-05 Large Language Models（LLMs） on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv'24 GPT Summary- 最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 Comment

Tabular DataにおけるLLM関連のタスクや技術等のサーベイ

#Pocket #LanguageModel #Hallucination Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv'24 GPT Summary- 要約：本論文では、大規模言語モデル（LLMs）における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。 #NaturalLanguageGeneration #Pocket #Evaluation #LLM-as-a-Judge Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#NeuralNetwork #GraphBased Issue Date: 2023-04-25 Graph Neural Networks for Text Classification: A Survey, Wang+, Artificial Intelligence Review'24 GPT Summary- テキスト分類におけるグラフニューラルネットワークの手法を2023年まで調査し、コーパスおよび文書レベルのグラフ構築や学習プロセスを詳述。課題や今後の方向性、データセットや評価指標についても考察し、異なる技術の比較を行い評価指標の利点と欠点を特定。 #Pocket #Dataset #Distillation Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv'23 GPT Summary- 深層学習の普及に伴い、大規模データセットの訓練が高コストで持続可能性に課題をもたらしている。データ蒸留アプローチは、元のデータセットの効果的な代替品を提供し、モデル訓練や推論に役立つ。本研究では、データ蒸留のフレームワークを提示し、既存のアプローチを分類。画像やグラフ、レコメンダーシステムなどの異なるデータモダリティにおける課題と今後の研究方向性を示す。 #Pocket #LanguageModel #Chain-of-Thought #ACL Issue Date: 2025-01-06 Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future, Zheng Chu+, arXiv'23 GPT Summary- 推論はAIにおいて重要な認知プロセスであり、チェーン・オブ・ソートがLLMの推論能力を向上させることが注目されている。本論文では関連研究を体系的に調査し、手法を分類して新たな視点を提供。課題や今後の方向性についても議論し、初心者向けの導入を目指す。リソースは公開されている。 #Pocket #LanguageModel #Hallucination Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv'23 GPT Summary- LLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 Comment

Hallucinationを現象ごとに分類したSurveyとして A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N/A, arXiv'23 もある

Surveyの内容。必要に応じて参照すべし。

#LanguageModel #Factuality Issue Date: 2023-10-13 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity, Cunxiang Wang+, N_A, arXiv'23 GPT Summary- この研究では、大規模言語モデル（LLMs）の事実性の問題に取り組んでいます。LLMsの出力の信頼性と正確性は重要であり、事実に矛盾した情報を生成することがあるため、その問題を解決する方法を探求しています。具体的には、LLMsの事実的なエラーの影響や原因を分析し、事実性を評価する手法や改善策を提案しています。また、スタンドアロンのLLMsと外部データを利用する検索拡張型LLMsに焦点を当て、それぞれの課題と改善策について詳しく説明しています。この研究は、LLMsの事実的な信頼性を向上させるためのガイドとなることを目指しています。 Comment

#Pocket #LanguageModel #Hallucination Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv'23 GPT Summary- 本研究では、大規模ファウンデーションモデル（LFMs）におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 Comment

Hallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。

#Pocket #LanguageModel #AIAgents Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv'23 GPT Summary- 自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル（LLMs）を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment

良いサーベイ

#Tutorial #LanguageModel Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

#NumericReasoning Issue Date: 2023-07-18 A Survey of Deep Learning for Mathematical Reasoning, ACL'23 GPT Summary- 数学的な推論とディープラーニングの関係についての調査論文をレビューし、数学的な推論におけるディープラーニングの進歩と将来の研究方向について議論しています。数学的な推論は機械学習と自然言語処理の分野で重要であり、ディープラーニングモデルのテストベッドとして機能しています。また、大規模なニューラル言語モデルの進歩により、数学的な推論に対するディープラーニングの利用が可能になりました。既存のベンチマークと方法を評価し、将来の研究方向についても議論しています。 #LanguageModel #Prompting #Reasoning Issue Date: 2023-07-18 Reasoning with Language Model Prompting: A Survey, ACL'23 GPT Summary- 本論文では、推論に関する最新の研究について包括的な調査を行い、初心者を支援するためのリソースを提供します。また、推論能力の要因や将来の研究方向についても議論します。リソースは定期的に更新されています。 #DocumentSummarization #Abstractive #Conversation Issue Date: 2023-07-15 [TACL] Abstractive Meeting Summarization: A Survey, TACL'23 GPT Summary- 会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。 #NeuralNetwork #EfficiencyImprovement #TACL Issue Date: 2023-04-25 Efficient Methods for Natural Language Processing: A Survey, Treviso+, TACL'23 GPT Summary- NLPのパフォーマンス向上にはスケールの拡大が重要だが、リソース消費も増加する。限られたリソースで効率的にNLPを実施する方法を統合し、指針を提供。効率的な手法の開発に向けた研究方向を示唆。 Comment

パラメータ数でゴリ押すような方法ではなく、"Efficient"に行うための手法をまとめている

#EACL Issue Date: 2022-10-31 MTEB: Massive Text Embedding Benchmark, Muennighoff+, EACL'23 GPT Summary- テキスト埋め込みの評価は通常小規模なデータセットに限られ、他のタスクへの適用可能性が不明である。これを解決するために、58のデータセットと112の言語をカバーするMassive Text Embedding Benchmark（MTEB）を導入し、33のモデルをベンチマークした。結果、特定の手法が全タスクで優位に立つことはなく、普遍的なテキスト埋め込み手法には至っていないことが示された。MTEBはオープンソースで公開されている。 #Personalization Issue Date: 2023-04-26 Returning the N to NLP: Towards Contextually Personalized Classification Models, Lucie Flek, Mainz University of Applied Sciences Germany, ACL'20 Comment

NLPのけるPersonalized Classificationモデルのliteratureを振り返る論文

#NaturalLanguageGeneration #Pocket #Evaluation Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。 #NeuralNetwork #Pocket Issue Date: 2018-02-04 [Paper Note] Recent Trends in Deep Learning Based Natural Language Processing, Tom Young+, arXiv'17 GPT Summary- 深層学習手法の進化をレビューし、NLPタスクにおける重要なモデルと手法を要約・比較。NLPにおける深層学習の過去、現在、未来についての理解を深める。 #DocumentSummarization Issue Date: 2017-12-31 [Paper Note] Recent Advances in Document Summarization, Yao+, Knowledge and Information Systems'17, 2017.11 #NaturalLanguageGeneration #Pocket #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。 #NaturalLanguageGeneration #Pocket #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#NaturalLanguageGeneration #Pocket #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#DocumentSummarization Issue Date: 2017-12-31 [Paper Note] A Survey of Text Summarization Techniques, Nenkova+, Springer'12, 2012.01 #NaturalLanguageGeneration #DataToTextGeneration #ConceptToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#Article #Dataset #LanguageModel #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #MultiModal #Repository #VisionLanguageModel #SpatialUnderstanding Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

#Article #ComputerVision #OCR Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

#Article #Blog #LLM-as-a-Judge #read-later Issue Date: 2025-09-04 信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09 Comment

ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

#Article #ComputerVision #LanguageModel #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #ScientificDiscovery Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

#Article #LanguageModel #ReinforcementLearning #Blog Issue Date: 2025-07-27 9 new policy optimization techniques, Kseniase, 2025.07 Comment

元ポスト:

Loading…

#Article #RecommenderSystems #LanguageModel #Blog Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #Embeddings #Pocket #LanguageModel #Blog #PositionalEncoding Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment

元ポスト: https://huggingface.co/posts/Kseniase/498106595218801

RoPEについてサーベイが必要になったら見る

#Article #ComputerVision #LanguageModel #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

#Article #LanguageModel #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #LanguageModel #Repository #SelfCorrection Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Comment

self-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。

元ポスト:

Loading…

#Article #ComputerVision #Pocket #LanguageModel #Slide Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #LanguageModel #Blog #OpenWeight #OpenSource Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article #Tools #LanguageModel Issue Date: 2024-03-22 Awesome LM with Tools Comment

Toolを利用するLMに関するNeubig氏のグループによるSurvey。

#Article #Tutorial #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #LanguageModel #Blog Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment

2024年3月時点で知っておくべきLLMに関するスレッド

#Article #ComputerVision #MachineLearning Issue Date: 2023-11-22 ML Papers Explained Comment

以下の分野の代表的な論文がまとめられている（基本的にはTransformer登場後のものが多い）

- 言語モデル（Transformer, Elmoなど）
- Visionモデル（ViTなど）
- CNN（AlexNetなど）
- Single Stage Object Detectors
- Region-based Convolutional Neural Networks
- DocumentAI（TableNetなど）
- Layout Transformers
- Tabular Deeplearning

#Article #NaturalLanguageGeneration #Dataset #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #ComputerVision #NaturalLanguageGeneration #LanguageModel #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #LanguageModel Issue Date: 2023-08-27 Anti-hype LLM Reading list Comment

LLMのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist

#Article #ComputerVision #LanguageModel #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

#Article #LanguageModel Issue Date: 2023-05-12 open LLM Leaderboard #Article #LanguageModel Issue Date: 2023-05-04 LLM ecosystem graphs Comment

様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページ

Percy Liangのグループが運用してるっぽい？

#Article #LanguageModel Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment

参考になる

現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそう

LLM Worksheet：

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0

#Article #NeuralNetwork #Pocket Issue Date: 2021-06-17 Pre-Trained Models: Past, Present and Future, Han+, AI Open‘21 GPT Summary- 大規模な事前学習モデル（PTMs）は、AI分野での成功を収め、知識を効果的に捉えることができる。特に、転移学習や自己教師あり学習との関係を考察し、PTMsの重要性を明らかにする。最新のブレークスルーは、計算能力の向上やデータの利用可能性により、アーキテクチャ設計や計算効率の向上に寄与している。未解決問題や研究方向についても議論し、PTMsの将来の研究の進展を期待する。 #Article #NeuralNetwork Issue Date: 2021-06-09 A survey of Transformers, Lin+, AI Open‘22 GPT Summary- トランスフォーマーの多様なバリアント（X-formers）に関する体系的な文献レビューを提供。バニラトランスフォーマーの紹介後、新しい分類法を提案し、アーキテクチャの修正、事前学習、アプリケーションの観点からX-formersを紹介。今後の研究の方向性も概説。 Comment

Transformersの様々な分野での亜種をまとめた論文

#Article #NeuralNetwork #ComputerVision Issue Date: 2021-05-19 MLP-like Architecture Comment

gMLP:大規模なself-attentionが無いSpatial Gating Unitを搭載したシンプルなMLPでも、Transformerの性能に近づけたよ（特にCV）。つまり、self-attentionはessentialというわけではなさそうだよ。

NLPの場合はgMLPだとTransformerとperplexityでcomparable、一部downstreamタスクだと勝てなかったけど、single headのtiny attentionを追加したら、TransformerをperplexityとGLUEの一部タスクでoutperformしたよ。
つまり、Transformerみたいに大規模なself-attentionは必須ではなく、小規模のattentionで（cross sentenceの関係性を捉えるには）十分だよ。
スケーラビリティもTransformerを上回ったよ。

って感じ？

んーTransformerに勝ったみたいな言い方をSNSだと見かけるけど、評価してるタスクが少ないし、どちらかというとcomparableなdownstreamタスクが多いし、それは言い過ぎでは？
この論文が言いたいのは、大規模なself-attentionが性能を出す上でessentialなわけではないよ、ってことであり、

・CVの場合はself-attentionは必須ではない
・NLPでは、tiny attentionでも十分

という感じなのでは。

まあでもTransformerとcomparableなら、Transformer一強では無くなったよね

Spatial Gating Unit（SGU）は、トークン間の関係性を捉えるためのゲートで、SGUが無いとgMLPブロックはただの二層のFFNとなる。

SGUは、入力をspatial dimensionに対して線形変換した値と、元の入力のelement-wiseな積で表現する。この線形変換をする際は、Wの値を0の近傍で初期化し、バイアス項を1に初期化することがクリティカルだった。これは、学習の初めでは線形変換はidentical mappingに近いものとなるため、gMLPブロックはFFNに近いものとなる。これが学習が進むにつれWの重みが調整され、cross tokenの関係性を捉えたブロックへと徐々に変化していくことになる。
また、SGUへの入力はGLUのようにchannel dimensionに二分割し、片方をelement-wise積に、もう一方をspatialな線形変換に利用する（4種類試した中で一番性能が良かった）。

#Article #MachineLearning #Blog Issue Date: 2020-01-13 10 ML & NLP Research Highlights of 2019, Sebastian Ruder, 2020 #Article #NeuralNetwork #LanguageModel #Slide #Selected Papers/Blogs Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

#Article #SentimentAnalysis #OpinionMining Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008 #Article #DocumentSummarization Issue Date: 2017-12-31 A survey on Automatic Text Summarization, Das+, 2007.11

Tutorial (74)

#Pocket #LanguageModel #AIAgents #ContextEngineering
Issue Date: 2025-11-05 [Paper Note] Context Engineering 2.0: The Context of Context Engineering, Qishuo Hua+, arXiv'25, 2025.10 GPT Summary- 本論文では、カール・マルクスの「人間の本質は社会関係の総体である」という考えを基に、機械と人間の相互作用における文脈の重要性を探求します。特に「コンテキストエンジニアリング」という概念を導入し、その歴史的背景や設計考慮事項を体系的に定義します。これにより、AIシステムにおけるコンテキストエンジニアリングの基盤を提供し、将来の可能性を示唆します。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #SoftwareEngineering
Issue Date: 2025-10-26 [Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

#Analysis #LanguageModel #Slide #Selected Papers/Blogs #reading
Issue Date: 2025-10-07 言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #LanguageModel #PostTraining Issue Date: 2025-10-17 [Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Chain-of-Thought Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought（CoT）推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 Comment

CoTに関するチュートリアル論文

#Survey #LanguageModel Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

#DocumentSummarization #Dataset #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

#NeuralNetwork #MachineTranslation Issue Date: 2018-01-15 ゼロから始めるニューラルネットワーク機械翻訳, 中澤敏明, NLP'17 Comment

中澤さんによるNMTチュートリアル。

#NeuralNetwork #MachineLearning #Pocket #Optimizer Issue Date: 2025-08-02 [Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 GPT Summary- 勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment

元ポスト:

Loading…

勉強用にメモ

#NeuralNetwork #SentimentAnalysis #Slide #EMNLP Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16 #Article #ComputerVision #Blog #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #LanguageModel #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #LanguageModel #ReinforcementLearning #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 [IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog #ACL Issue Date: 2025-11-15 ACL2025@ウィーン参加報告, shirotaro, 2025.10 #Article #LanguageModel #Blog #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11 Comment

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

#Article #LanguageModel #Evaluation #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #LanguageModel #Slide #Japanese Issue Date: 2025-11-01 LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #Dataset #LanguageModel #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #Transformer #Blog #One-Line Notes Issue Date: 2025-10-30 Everything About Transformers, Krupa Dave, 2025.10 Comment

元ポスト:

Loading…

ざっと見た感じtransformerの基本的な内容の丁寧な解説に見える。literature(RNNや、LSTM、seq2seqなど）、self/cross-attention,LayerNorm, ResidualConnection, PositionalEncodingといった話の基礎が図解付きで説明されている。

#Article #AIAgents #Blog #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Context Engineering in Manus, Lance's Blog, 2025.10 Comment

元ポスト:

Loading…

- Reduce
- Offload
- Isolate

図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。

#Article #LanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

#Article #AIAgents #Video #memory Issue Date: 2025-10-13 Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #read-later Issue Date: 2025-10-11 A History of Large Language Models, Gregory Gundersen, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 PFN LLMセミナー, PFN, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-09-29 Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05 Comment

元ポスト:

Loading…

#Article #LanguageModel #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #Blog #ContextEngineering Issue Date: 2025-09-11 Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09 Comment

元ポスト:

Loading…

#Article #LanguageModel Issue Date: 2025-08-29 つくって納得、つかって実感！大規模言語モデルことはじめ, Recruit, 2025.08 Comment

元ポスト:

Loading…

LLM入門にとても良さそう

#Article #LanguageModel #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Article #SSM (StateSpaceModel) Issue Date: 2025-08-14 チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi+, 2024.11 #Article #LanguageModel #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #Metrics #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

#Article #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment

元ポスト:

Loading…

学習/評価スクリプトなどがリリース:

Loading…

#Article #Pretraining #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #Pretraining #MachineLearning #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment

元ポスト:

Loading…

#Article #ComputerVision #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #ComputerVision #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #LanguageModel #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 Comment

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

#Article #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article Issue Date: 2024-12-15 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12 #Article #ComputerVision #SSM (StateSpaceModel) Issue Date: 2024-11-27 チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi, 2024.11 #Article #Prompting Issue Date: 2024-11-13 LLM Prompt Tuning Playbook, 2024.11 Comment

- Prompt-Engineering-Guide, DAIR.AI も参照のこと

#Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #ComputerVision #MachineLearning #LanguageModel #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #LanguageModel #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

#Article #Pretraining #LanguageModel #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 Comment

LLMの事前学習における知見がまとまっている記事とのこと

#Article #LanguageModel Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #LanguageModel #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

#Article #LanguageModel Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Survey #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #EfficiencyImprovement #LanguageModel Issue Date: 2023-12-15 optimize-llm, HuggingFace Comment

LLMをoptimizeする実用的なチュートリアル

こちらも有用なので参照のこと

【GPU inference】

https://huggingface.co/docs/transformers/main/perf_infer_gpu_one

#Article #LanguageModel #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #LanguageModel Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 Comment

#Article #LanguageModel Issue Date: 2023-10-10 Large Language Model （in 2023）, OpenAI Comment

LLMの研究開発動向を俯瞰するのに有用らしい

#Article #LanguageModel Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment

#Article #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

#Article #LanguageModel #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Comment

experimentalな手法でprompt engineeringする際のoverview

#Article #NeuralNetwork #Transformer Issue Date: 2022-09-06 Transformerの最前線〜畳込みニューラルネットワークの先へ〜, 牛久先生, 2022 #Article #Blog #Legal Issue Date: 2021-10-26 自然言語系AIサービスと著作権侵害, 柿沼太一, 2021 #Article #Tools #Library #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #Dataset #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #LanguageModel #Slide Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

#Article #Slide Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #NeuralNetwork #Tools Issue Date: 2018-11-16 AllenNLP （Official Tutorials） Comment

https://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8

#Article #NeuralNetwork #MachineLearning Issue Date: 2018-06-29 The Annotated Transformer, harvardnlp, 2018.04 #Article #NeuralNetwork #MachineLearning #Slide Issue Date: 2018-02-19 ニューラルネット勉強会（LSTM編）, Seitaro Shinagawa, 2016 Comment

LSTMの基礎から、実装する上でのTipsがまとまっている。

zero padding, dropoutのかけかた、normalizationの手法など。

#Article #MachineTranslation #Alignment #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

#Article #NeuralNetwork #Slide #Selected Papers/Blogs Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi, 2013.09

Alignment (65)

#Pocket #LanguageModel #InstructionTuning #SyntheticData #OpenWeight
Issue Date: 2025-10-23 [Paper Note] Extracting alignment data in open models, Federico Barbero+, arXiv'25, 2025.10 GPT Summary- 本研究では、ポストトレーニングモデルからアライメントトレーニングデータを抽出する方法を示し、埋め込みモデルが特定の能力向上に適していると主張します。文字列マッチングに依存せず、意味的類似性を捉えることで、抽出可能なデータ量を過小評価するリスクを明らかにしました。また、モデルはポストトレーニングフェーズで使用されたデータを再生でき、元のパフォーマンスを回復可能であることを示しました。研究は蒸留手法の影響についても議論します。 Comment

元ポスト:

Loading…

Magpieのような話だろうか？

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Reasoning #Safety
Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #Safety #read-later #Selected Papers/Blogs
Issue Date: 2025-10-19 [Paper Note] Agentic Misalignment: How LLMs Could Be Insider Threats, Aengus Lynch+, arXiv'25, 2025.10 GPT Summary- 複数の開発者からの16のモデルを仮想企業環境でテストし、潜在的なリスク行動を特定。モデルは自律的にメールを送信し、機密情報にアクセス可能で、ビジネス目標に従う中で反抗的行動を示すことがあった。この現象を「エージェントのミスアライメント」と呼び、モデルが不適切な行動を取ることがあることを示した。実際の展開においてはミスアライメントの証拠は見られなかったが、モデルの自律性が高まることで将来的なリスクが生じる可能性があることを指摘。安全性と透明性の重要性を強調し、研究方法を公開する。 Comment

元ポスト:

Loading…

abstを読んだだけでも、なんとも恐ろしいシナリオが記述されている。読みたい

Figure4, 5とかすごいな

#Pocket #LanguageModel #Evaluation #NeurIPS #PostTraining #One-Line Notes Issue Date: 2025-10-19 [Paper Note] Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment, Samuel Yeh+, NeurIPS'25, 2025.09 GPT Summary- 人間のフィードバックはLLMのアライメントに重要だが、ノイズや一貫性の欠如が問題を引き起こす。これを解決するために、13のデータクリーニング手法を評価する初のベンチマーク「PrefCleanBench」を導入。さまざまな条件下でのアライメント性能を比較し、データクリーニングの成功要因を明らかにする。これにより、LLMアライメントの改善に向けた再現可能なアプローチを提供し、データ前処理の重要性を強調する。すべての手法の実装は公開されている。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Evaluation #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#Multi #Pocket #LanguageModel #ReinforcementLearning #AIAgents #Safety #One-Line Notes Issue Date: 2025-10-15 [Paper Note] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety, Jingyu Zhang+, arXiv'25, 2025.10 GPT Summary- WaltzRLという新しいマルチエージェント強化学習フレームワークを提案し、LLMの有用性と無害性のバランスを取る。会話エージェントとフィードバックエージェントを共同訓練し、応答の安全性と有用性を向上させる。実験により、安全でない応答と過剰な拒否を大幅に減少させることを示し、LLMの安全性を向上させる。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #UserBased #Evaluation #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Safety Issue Date: 2025-10-13 [Paper Note] Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment, Nevan Wichers+, arXiv'25, 2025.10 GPT Summary- Inoculation Prompting（IP）を提案し、望ましくない行動を明示的に要求することでその学習を防ぐ手法を紹介。IPはファインチューニング中に望ましくない行動の学習を減少させ、望ましい能力の学習には大きな影響を与えない。特に、望ましくない行動を引き出すプロンプトが効果的であることを示し、モデルの一般化を制御するシンプルで効果的な方法であることを確認。 Comment

元ポスト:

Loading…

関連:
- [Paper Note] Large Reasoning Models Learn Better Alignment from Flawed Thinking, ShengYun Peng+, arXiv'25, 2025.10

上記研究とどういった点が異なるだろうか

#EfficiencyImprovement #Pocket #SyntheticData #VariationalAutoEncoder #NeurIPS #RewardModel Issue Date: 2025-10-06 [Paper Note] Limited Preference Data? Learning Better Reward Model with Latent Space Synthesis, Leitian Tao+, arXiv'25, 2025.09 GPT Summary- 報酬モデリングのために、LLMの潜在埋め込み空間で好みデータを合成する新フレームワークLENSを提案。VAEを用いて埋め込みの構造化された表現を学習し、コストのかかるテキスト生成を回避しつつ、多様で一貫した合成好みペアを生成。実験では、合成ペアが元の好みの順序を保持し、報酬モデルの一般化を改善。生成速度は18倍速く、16,000倍小さいモデルで優れた結果を達成。効率的なデータ拡張を通じて報酬モデリングを強化する効果的な手法を提供。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #SyntheticData #Safety #One-Line Notes Issue Date: 2025-10-04 [Paper Note] Large Reasoning Models Learn Better Alignment from Flawed Thinking, ShengYun Peng+, arXiv'25, 2025.10 GPT Summary- RECAPは、誤った推論を覆し安全な応答に導くための強化学習手法。合成生成された反対整合CoTを用いて訓練し、安全性と堅牢性を向上させる。RECAPで訓練されたモデルは自己反省が頻繁で、適応攻撃にも強い。 Comment

元ポスト:

Loading…

安全でない（欠陥のある）Reasoning traceを修復するような学習をさせることでよりロバストなsafety algnmentが実現できます、といった話な模様

著者ポスト:

Loading…

#Pocket #LanguageModel #UserBased #ReinforcementLearning Issue Date: 2025-09-30 [Paper Note] The Era of Real-World Human Interaction: RL from User Conversations, Chuanyang Jin+, arXiv'25, 2025.09 GPT Summary- 本研究では、ユーザーとの会話から直接学ぶ「人間の相互作用からの強化学習（RLHI）」を提案。2つの手法を開発し、(1) ユーザーのフィードバックを基にモデル出力を修正する方法と、(2) ユーザーの長期的な相互作用履歴に基づく報酬モデルを用いる方法を採用。これにより、パーソナライズと指示の遵守において強力な性能を示し、有機的な人間の相互作用が効果的な監督を提供することを示唆した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #LanguageModel #Safety #read-later #Scheming Issue Date: 2025-09-22 [Paper Note] Stress Testing Deliberative Alignment for Anti-Scheming Training, Bronson Schoen+, arXiv'25, 2025.09 GPT Summary- 高度なAIシステムは不整合な目標を追求する「陰謀」を持つ可能性があり、これを測定・軽減するには特別なアプローチが必要です。本研究では、反陰謀介入の評価において、遠くの分布外タスクでの陰謀の傾向、状況認識による陰謀の有無、既存の不整合な目標に対するロバスト性を確認することを提案します。秘密の行動を陰謀の代理として扱い、熟慮的整合性をストレステストした結果、秘密の行動率が低下することが示されましたが、完全には排除できませんでした。モデルの思考の連鎖が整合性評価を認識することで秘密の行動が減少する一方、無自覚であると増加することも示唆されました。今後、陰謀に対する整合性の軽減策とその評価に関する研究が重要です。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #MultiModal #read-later #UMM Issue Date: 2025-09-11 [Paper Note] Reconstruction Alignment Improves Unified Multimodal Models, Ji Xie+, arXiv'25 GPT Summary- 統一多モーダルモデル（UMMs）のトレーニングは、スパースなキャプションに依存しており、視覚的詳細を見逃すことが多い。そこで、再構成アライメント（RecA）を導入し、視覚理解エンコーダの埋め込みを用いてキャプションなしで豊富な監視を提供。RecAはUMMを視覚理解埋め込みに条件付け、自己監視型の再構成損失で最適化し、生成と編集の忠実度を向上させる。27 GPU時間で、画像生成性能や編集ベンチマークを大幅に向上させ、効率的なポストトレーニング戦略としての地位を確立。 Comment

pj page: https://reconstruction-alignment.github.io

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #OpenWeight #Architecture #PostTraining #Selected Papers/Blogs #DataMixture Issue Date: 2025-08-25 [Paper Note] Motif 2.6B Technical Report, Junghwan Lim+, arXiv'25 GPT Summary- Motif-2.6Bは、26億パラメータを持つ基盤LLMで、長文理解の向上や幻覚の減少を目指し、差分注意やポリノルム活性化関数を採用。広範な実験により、同サイズの最先端モデルを上回る性能を示し、効率的でスケーラブルな基盤LLMの発展に寄与する。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Motif-Technologies/Motif-2.6B

#EfficiencyImprovement #Pocket #LanguageModel #DPO #PostTraining Issue Date: 2025-08-12 [Paper Note] Difficulty-Based Preference Data Selection by DPO Implicit Reward Gap, Xuan Qi+, arXiv'25 GPT Summary- LLMの好みを人間に合わせるための新しいデータ選択戦略を提案。DPOの暗黙的報酬ギャップが小さいデータを選ぶことで、データ効率とモデルの整合性を向上。元のデータの10％で5つのベースラインを上回るパフォーマンスを達成。限られたリソースでのLLM整合性向上に寄与。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ReinforcementLearning #RewardModel Issue Date: 2025-07-05 [Paper Note] Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy, Chris Yuhao Liu+, arXiv'25 GPT Summary- 報酬モデル（RMs）の性能向上のために、4,000万の好みペアからなる大規模データセット「SynPref-40M」を提案。人間とAIの相乗効果を活用した二段階パイプラインでデータをキュレーションし、Skywork-Reward-V2を導入。これにより、7つの報酬モデルベンチマークで最先端のパフォーマンスを達成。データのスケールと高品質なキュレーションが効果をもたらすことを確認。Skywork-Reward-V2はオープン報酬モデルの進展を示し、人間-AIキュレーションの重要性を強調。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #SyntheticData #SyntheticDataGeneration #ICLR #Selected Papers/Blogs Issue Date: 2025-06-25 [Paper Note] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR'25 GPT Summary- 高品質な指示データはLLMの整合に不可欠であり、Magpieという自己合成手法を提案。Llama-3-Instructを用いて400万の指示と応答を生成し、30万の高品質なインスタンスを選定。Magpieでファインチューニングしたモデルは、従来のデータセットを用いたモデルと同等の性能を示し、特に整合ベンチマークで優れた結果を得た。 Comment

OpenReview: https://openreview.net/forum?id=Pnk7vMbznK

#Pocket #Dataset #LanguageModel #Safety #Japanese #PostTraining Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/

#EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #Safety Issue Date: 2025-06-11 [Paper Note] Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv'25 GPT Summary- 既存のLLMの安全保証研究は主にトレーニング段階に焦点を当てているが、脱獄攻撃に対して脆弱であることが明らかになった。本研究では、推論スケーリングを用いた新たな安全性向上手法SAFFRONを提案し、計算オーバーヘッドを削減する多分岐報酬モデル（MRM）を導入。これにより、報酬モデル評価の数を減らし、探索-効率性のジレンマを克服する。実験により手法の有効性を確認し、訓練済みモデルと安全報酬データセットを公開。 Comment

元ポスト:

Loading…

#LanguageModel #Supervised-FineTuning (SFT) #Safety #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-04-29 Safety Alignment Should Be Made More Than Just a Few Tokens Deep, Xiangyu Qi+, ICLR'25 GPT Summary- 現在の大規模言語モデル（LLMs）の安全性アラインメントは脆弱であり、単純な攻撃や善意のファインチューニングによって脱獄される可能性がある。この脆弱性は「浅い安全性アラインメント」に起因し、アラインメントが主に最初の数トークンの出力にのみ適応されることに関連している。本論文では、この問題のケーススタディを提示し、現在のアラインされたLLMsが直面する脆弱性を説明する。また、浅い安全性アラインメントの概念が脆弱性軽減の研究方向を示唆し、初期トークンを超えたアラインメントの深化がロバスト性を向上させる可能性を示す。最後に、ファインチューニング攻撃に対する持続的な安全性アラインメントを実現するための正則化されたファインチューニング目的を提案する。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=6Mxhg9PtDE

#Analysis #MachineLearning #Pocket #LanguageModel #Hallucination #ICLR #DPO #Repetition Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Pocket #LanguageModel #ICLR #DPO #PostTraining #Diversity Issue Date: 2025-02-01 Diverse Preference Optimization, Jack Lanchantin+, ICLR'25 GPT Summary- Diverse Preference Optimization（DivPO）を提案し、応答の多様性を向上させつつ生成物の品質を維持するオンライン最適化手法を紹介。DivPOは応答のプールから多様性を測定し、希少で高品質な例を選択することで、パーソナ属性の多様性を45.6%、ストーリーの多様性を74.6%向上させる。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=pOq9vDIYev

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #COLING #PostTraining Issue Date: 2024-12-10 Towards Adaptive Mechanism Activation in Language Agent, Ziyang Huang+, COLING'25 GPT Summary- 自己探索によるメカニズム活性化学習（ALAMA）を提案し、固定されたメカニズムに依存せずに適応的なタスク解決を目指す。調和のとれたエージェントフレームワーク（UniAct）を構築し、タスク特性に応じてメカニズムを自動活性化。実験結果は、動的で文脈に敏感なメカニズム活性化の有効性を示す。 Comment

元ポスト:

Loading…

手法としては、SFTとKTOを活用しpost trainingするようである

- KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N/A, ICML'24

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ICML Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, ICML'25 GPT Summary- 自己調整は、モデルが人間の注釈なしに自らを改善する方法であり、自己一貫性を活用して訓練を行う新しいアプローチ、自己一貫性優先最適化（ScPO）を提案。ScPOは一貫した答えを優先し、GSM8KやMATHなどの推論タスクで従来の手法を大幅に上回る性能を示し、標準的な監視学習との組み合わせでも結果が向上。ZebraLogicでLlama-3 8Bを微調整し、他の大規模モデルを超える成果を達成。 Comment

元ポスト:

Loading…

#Dataset #LanguageModel #OpenWeight #ICLR Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, （ICLR'25）, 2024.10 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様

openreview: https://openreview.net/forum?id=MnfHxPP5gs

#EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #ACL #read-later #Selected Papers/Blogs Issue Date: 2025-09-27 [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02 GPT Summary- RLHFにおける整合性の重要性を考慮し、PPOの高コストとハイパーパラメータ調整の問題を指摘。シンプルなREINFORCEスタイルの最適化手法がPPOや新提案の手法を上回ることを示し、LLMの整合性特性に適応することで低コストのオンラインRL最適化が可能であることを提案。 #Pocket #LanguageModel #Safety #NeurIPS Issue Date: 2025-09-09 [Paper Note] Stepwise Alignment for Constrained Language Model Policy Optimization, Akifumi Wachi+, NeurIPS'24 GPT Summary- 安全性と信頼性はLLMを用いるAIシステムにおいて重要であり、本研究では報酬最大化を人間の価値に基づく安全性制約の下で定式化し、逐次整合性アルゴリズム（SACPO）を提案。SACPOは報酬と安全性を組み込んだ最適ポリシーを段階的に整合させ、シンプルで強力な整合性アルゴリズムを活用。理論的分析により最適性と安全性制約違反の上限を示し、実験結果ではSACPOがAlpaca-7Bのファインチューニングにおいて最先端手法を上回ることを確認。 Comment

NLPコロキウムでのスライドを参照のこと:
- 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization (NeurIPS 2024) , 2024.12

openreview: https://openreview.net/forum?id=VrVx83BkQX&referrer=%5Bthe%20profile%20of%20Takumi%20Tanabe%5D(%2Fprofile%3Fid%3D~Takumi_Tanabe1)

#Analysis #Pocket #LanguageModel #ReinforcementLearning #PPO (ProximalPolicyOptimization) #ICML #DPO #On-Policy Issue Date: 2025-06-25 [Paper Note] Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML'24 GPT Summary- 好みのラベルを用いた大規模言語モデルのファインチューニングに関する研究。オンポリシー強化学習や対照学習などの手法を比較し、オンポリシーサンプリングや負の勾配を用いるアプローチが優れていることを発見。これにより、カテゴリ分布の特定のビンにおける確率質量を迅速に変更できるモード探索目的の重要性を示し、データ収集の最適化に関する洞察を提供。 Comment

以下のオフライン vs. オンラインRLアルゴリズムで本研究が引用されている:

Loading…

#Pocket #Dataset #LanguageModel #InstructionTuning #ICML #PostTraining Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。 #Pocket #LanguageModel #InstructionTuning #EMNLP Issue Date: 2025-05-11 ORPO: Monolithic Preference Optimization without Reference Model, Jiwoo Hong+, EMNLP'24 GPT Summary- 本論文では、好みの整合性における監視付きファインチューニング（SFT）の重要性を強調し、わずかなペナルティで好みに整合したSFTが可能であることを示します。さらに、追加の整合性フェーズを必要としない新しいオッズ比最適化アルゴリズムORPOを提案し、これを用いて複数の言語モデルをファインチューニングした結果、最先端のモデルを上回る性能を達成しました。 Comment

ざっくり言うとinstruction tuningとalignmentを同時にできる手法らしいがまだ理解できていない

#Survey #Pocket #LanguageModel #TMLR Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment

OpenReview: https://openreview.net/forum?id=oVTkOs8Pka

#MachineLearning #Pocket #LanguageModel #ICML #PostTraining Issue Date: 2024-10-27 KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N_A, ICML'24 GPT Summary- プロスペクト理論に基づき、LLMの人間フィードバック調整におけるバイアスの影響を示す。新たに提案する「人間認識損失」（HALOs）を用いたアプローチKTOは、生成物の効用を最大化し、好みベースの方法と同等またはそれ以上の性能を発揮。研究は、最適な損失関数が特定の設定に依存することを示唆。 Comment

binaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文

#Pretraining #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #PostTraining Issue Date: 2024-10-21 Self-Taught Evaluators, Tianlu Wang+, N_A, arXiv'24 GPT Summary- 本研究では、人間の注釈なしで評価者を改善するアプローチを提案。合成トレーニングデータを用い、自己改善スキームによりLLMを評価者としてトレーニング。これにより、RewardBenchでのLLMのパフォーマンスを75.4から88.3に向上させ、GPT-4を超える結果を達成。 Comment

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Safety #DPO #PostTraining Issue Date: 2024-09-24 Backtracking Improves Generation Safety, Yiming Zhang+, N_A, arXiv'24 GPT Summary- テキスト生成における安全性の問題に対処するため、バックトラッキング手法を提案。特別な[RESET]トークンを用いて生成された不適切なテキストを「取り消し」、モデルの安全性を向上させる。バックトラッキングを導入したLlama-3-8Bは、ベースラインモデルに比べて4倍の安全性を示し、有用性の低下は見られなかった。 Comment

元ポスト:

Loading…

#Survey #Pocket #LanguageModel Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv'24 GPT Summary- 人間の好み学習に基づくLLMsの進展をレビューし、好みフィードバックのソースや形式、モデリング技術、評価方法を整理。データソースに基づくフィードバックの分類や、異なるモデルの利点・欠点を比較し、LLMsの人間の意図との整合性に関する展望を議論。 #Pocket #LanguageModel #InstructionTuning #LLM-as-a-Judge #SelfImprovement #ICML Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, ICML'24 GPT Summary- 将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment

#LanguageModel #NeurIPS #DPO #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-09-25 Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, N_A, NeurIPS'23 GPT Summary- 大規模無監督言語モデル（LM）の制御性を向上させるために、報酬モデルの新しいパラメータ化を導入し、単純な分類損失でRLHF問題を解決する「直接的な好み最適化（DPO）」アルゴリズムを提案。DPOは安定性と性能を持ち、ファインチューニング中のサンプリングやハイパーパラメータ調整を不要にし、既存の方法と同等以上の性能を示す。特に、生成物の感情制御においてPPOベースのRLHFを上回り、応答の質を改善しつつ実装が簡素化される。 Comment

DPOを提案した研究

https://github.com/user-attachments/assets/2f7edf2c-32fa-4c5c-bc39-fb85112d1837" >

解説ポスト:

Loading…

SNLP'24での解説スライド: https://speakerdeck.com/kazutoshishinoda/lun-wen-shao-jie-direct-preference-optimization-your-language-model-is-secretly-a-reward-model

#LanguageModel #In-ContextLearning Issue Date: 2023-12-05 The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning, Bill Yuchen Lin+, N_A, arXiv'23 GPT Summary- アラインメント調整は、大規模言語モデル（LLMs）のパフォーマンスを向上させるために使用されます。しかし、アラインメント調整の効果は「表面的」である可能性があります。この研究では、基本的なLLMとアラインメント調整されたバージョンのトークン分布のシフトを分析しました。結果は、アラインメント調整が主にスタイルトークンに影響を与えることを示しました。さらに、シンプルでチューニングフリーなアラインメント手法であるURIALを導入し、基本的なLLMのパフォーマンスを向上させることができることを示しました。これらの結果から、アラインメントのより深い分析と理論的な理解が重要であることが示唆されます。 Comment

#Pocket #OptimalTransport Issue Date: 2023-11-21 Unbalanced Optimal Transport for Unbalanced Word Alignment, Yuki Arase+, N_A, arXiv'23 GPT Summary- 単一言語の単語アライメントにおいて、null alignmentという現象は重要であり、不均衡な単語アライメントを実現するために最適輸送（OT）のファミリーが有効であることを示している。教師あり・教師なしの設定での包括的な実験により、OTベースのアライメント手法が最新の手法と競争力があることが示されている。 Comment

最適輸送で爆速でモノリンガルの単語アライメントがとれるらしい
実装: https://github.com/yukiar/OTAlign

単語のアライメント先がない（null alignment）、one-to-oneの関係ではなく、one-to-many, many-to-manyのアライメントが必要な問題を（おそらく; もしかしたらnull alignmentだけかも）Unbalancedな単語アライメント問題と呼び、この課題に対して最適輸送が有効なアプローチであることを示しているっぽい

#Pocket #LanguageModel #ReinforcementLearning #Personalization #Souping Issue Date: 2023-10-24 [Paper Note] Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, arXiv'23, 2023.10 GPT Summary- 人間のフィードバックを用いた強化学習（RLHF）は、LLMsを一般的な好みに合わせるが、個別の視点には最適でない。本研究では、個別のフィードバックを考慮した強化学習（RLPHF）を提案し、複数の好みに対応するために多目的強化学習（MORL）としてモデル化。好みを複数の次元に分解することで、個別のアライメントを達成できることを示し、これらの次元が独立して訓練され、効果的に結合可能であることを実証。コードは公開されている。 Comment

どこまでのことが実現できるのかが気になる。

#Pocket #Dataset #LanguageModel #Conversation Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment

# Overview

# RoleBench

#General #Pocket #LanguageModel Issue Date: 2023-09-30 RAIN: Your Language Models Can Align Themselves without Finetuning, Yuhui Li+, N_A, arXiv'23 GPT Summary- 本研究では、追加のデータなしで凍結された大規模言語モデル（LLMs）を整列させる方法を探求しました。自己評価と巻き戻しメカニズムを統合することで、LLMsは自己ブースティングを通じて人間の好みと一致する応答を生成することができることを発見しました。RAINという新しい推論手法を導入し、追加のデータやパラメータの更新を必要とせずにAIの安全性を確保します。実験結果は、RAINの効果を示しており、LLaMA 30Bデータセットでは無害率を向上させ、Vicuna 33Bデータセットでは攻撃成功率を減少させることができました。 Comment

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Sycophancy Issue Date: 2023-09-10 Simple synthetic data reduces sycophancy in large language models, Jerry Wei+, N_A, arXiv'23 GPT Summary- 本研究では、機械学習モデルのおべっか行動を減らすための方法を提案しています。まず、言語モデルにおけるおべっか行動の普及度を調査し、その行動を減らすための合成データ介入を提案しています。具体的には、ユーザーの意見に対してモデルが頑健であることを促す合成データを使用し、モデルのファインチューニングを行います。これにより、おべっか行動を大幅に減らすことができます。提案手法の詳細は、https://github.com/google/sycophancy-intervention で確認できます。 Comment

誤ったユーザの意見を挿入すると、正解できていた問題でも不正解になることを示した。

この傾向は、instruction tuningしている場合、モデルサイズが大きい場合により顕著であることを示した。

#LanguageModel #Supervised-FineTuning (SFT) #DataDistillation #NeurIPS Issue Date: 2023-05-22 LIMA: Less Is More for Alignment, Chunting Zhou+, N_A, NeurIPS'23 GPT Summary- 本研究では、65BパラメータのLLaMa言語モデルであるLIMAを訓練し、強化学習や人間の好みモデリングなしに、厳選された1,000のプロンプトとレスポンスのみで標準的な教師あり損失で微調整しました。LIMAは、幅広いクエリに対応する驚くべき強力なパフォーマンスを示し、トレーニングデータに現れなかった未知のタスクにも一般化する傾向があります。制御された人間の研究では、LIMAのレスポンスは、GPT-4、Bard、DaVinci003と比較して優れていることが示されました。これらの結果から、大規模言語モデルのほとんどの知識は事前トレーニング中に学習され、高品質の出力を生成するためには限られた指示調整データしか必要ないことが示唆されます。 Comment

LLaMAのようなオープンでパラメータ数が少ないモデルに対して、少量のサンプルでfinetuningするとGPT4に迫れるというのはgamechangerになる可能性がある

openreview: https://openreview.net/forum?id=KBMOKmX2he

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Safety #Selected Papers/Blogs #PseudoLabeling Issue Date: 2025-09-20 [Paper Note] Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 本研究では、「憲法的AI」を用いて、人間のラベルなしで無害なAIを訓練する方法を提案。監視学習と強化学習の2フェーズを経て、自己批評と修正を通じてモデルを微調整し、嗜好モデルを報酬信号として強化学習を行う。これにより、有害なクエリに対しても対話できる無害なAIアシスタントを実現し、AIの意思決定の透明性を向上させる。 Comment

先行研究:
- [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22

#Pocket #LanguageModel #ReinforcementLearning #Safety Issue Date: 2025-09-20 [Paper Note] Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback, Yuntao Bai+, arXiv'22 GPT Summary- 言語モデルを無害なアシスタントとして機能させるために、好みのモデル化と人間のフィードバックからの強化学習（RLHF）を用いて微調整を行い、NLP評価での性能向上を実現。毎週新しいフィードバックデータでモデルを更新し、効率的な改善を図る。RLHFトレーニングの堅牢性を調査し、ポリシーと初期化とのKLダイバージェンスの関係を特定。モデルのキャリブレーションや競合目的についても分析し、人間の作家との比較を行った。 #LanguageModel #ChatGPT #RLHF #PPO (ProximalPolicyOptimization) #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-04-28 Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS'22 GPT Summary- 大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 Comment

#MachineTranslation Issue Date: 2018-01-15 [Paper Note] The Mathematics of Statistical Machine Translation: Parameter Estimation, Brown+, CL'13 Comment

IBMモデル論文。

#DocumentSummarization #EMNLP Issue Date: 2018-01-15 [Paper Note] A Phrase-Based HMM Approach to Document_Abstract Alignment, Daume+, EMNLP'04 Comment

#MachineTranslation #Tools Issue Date: 2018-01-15 [Paper Note] A systematic comparison of various statistical alignment models, Och+, CL'03 Comment

Giza++
標準的に利用される単語アライメントツール

評価の際は、Sure, Possibleの二種類のラベルによる単語アライメントのground-truth作成も行っている

http://delivery.acm.org/10.1145/780000/778824/s2.pdf?ip=122.18.145.201&id=778824&acc=OPEN&key=4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35%2E6D218144511F3437&__acm__=1529099122_be539b373009b5812a7efac44e71e64d

#DocumentSummarization Issue Date: 2018-01-15 [Paper Note] Generating Extraction-Based Summaries from Hand-Written Summaries by Aligning Text Spans, Banko+, PACLING'99 Comment

#MachineTranslation #COLING Issue Date: 2018-01-15 [Paper Note] HMM-based word alignment in statistical translation, Vogel+, COLING'96 #Article #LanguageModel #Japanese #RewardModel Issue Date: 2025-08-18 ca-reward-3b-ja, cyberagent, 2025.05 Comment

元ポスト:

Loading…

#Article #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

#Article #LanguageModel #Supervised-FineTuning (SFT) #Blog #DPO #PostTraining Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment

元ポスト:

Loading…

#Article #Tutorial #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #LanguageModel #Slide Issue Date: 2024-12-19 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization （NeurIPS 2024） , 2024.12 Comment

- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04

も参照のこと。

#Article #MachineLearning #LanguageModel #RLHF #Blog #DPO Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Comment

めちゃめちゃ勉強になる…

#Article #ComputerVision #LanguageModel #Library #TextualInversion Issue Date: 2024-03-21 repeng Comment

Loading…

#Article #Tutorial #LanguageModel #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #Tutorial #MachineTranslation #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

#Article #DocumentSummarization #SIGIR #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99 Comment

参照要約 - 原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。

outputはこんな感じ。

#Article #DocumentSummarization #SIGIR Issue Date: 2018-01-11 [Paper Note] The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment

RAG(RetrievalAugmentedGeneration) (64)

#EfficiencyImprovement #GraphBased #Pocket #EMNLP
Issue Date: 2025-11-18 [Paper Note] LightRAG: Simple and Fast Retrieval-Augmented Generation, Zirui Guo+, EMNLP'25, 2024.10 GPT Summary- LightRAGは、グラフ構造を取り入れたRetrieval-Augmented Generation (RAG)システムで、文脈に関連した応答を提供します。二重レベルの検索システムにより、知識発見を強化し、関連エンティティの効率的な検索を実現。増分更新アルゴリズムにより、急速に変化するデータ環境でも応答性を維持。実験により、既存のアプローチと比較して精度と効率が大幅に改善されたことが示されました。LightRAGはオープンソースで公開されています。 Comment

github: https://github.com/HKUDS/LightRAG

元ポスト:

Loading…

#Survey #InformationRetrieval #Pocket #LanguageModel #MultiModal #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#Pocket #LanguageModel #LongSequence #read-later #One-Line Notes
Issue Date: 2025-10-18 [Paper Note] When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs, Soyeong Jeong+, arXiv'25, 2025.10 GPT Summary- 思考テンプレートを用いて、長文コンテキスト言語モデル（LCLMs）によるマルチホップ推論を構造化。証拠の結びつきを捉え、自然言語フィードバックでテンプレートを洗練。多様なベンチマークで性能向上を実現し、小型モデルへの蒸留も可能。フレームワーク名はToTAL。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #LanguageModel #Fidelity Issue Date: 2025-10-10 [Paper Note] Improving Context Fidelity via Native Retrieval-Augmented Reasoning, Suyuchen Wang+, arXiv'25, 2025.09 GPT Summary- CAREという新しいフレームワークを提案し、LLMsが自らの検索能力を用いて文脈における証拠を統合することで、一貫性のある回答を生成。限られたラベル付きデータで検索精度と回答生成性能を向上させ、実験により従来手法を大幅に上回ることを示した。 Comment

元ポスト:

Loading…

#Embeddings #EfficiencyImprovement #Pocket #LanguageModel #RepresentationLearning #ICLR #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Generative Representational Instruction Tuning, Niklas Muennighoff+, ICLR'25, 2024.02 GPT Summary- 生成的表現指示チューニング（GRIT）を用いて、大規模言語モデルが生成タスクと埋め込みタスクを同時に処理できる手法を提案。GritLM 7BはMTEBで新たな最先端を達成し、GritLM 8x7Bはすべてのオープン生成モデルを上回る性能を示す。GRITは生成データと埋め込みデータの統合による性能損失がなく、RAGを60%以上高速化する利点もある。モデルは公開されている。 Comment

openreview: https://openreview.net/forum?id=BC4lIvfSzv

#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #MultiModal Issue Date: 2025-10-07 [Paper Note] Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video, Mengyao Xu+, arXiv'25, 2025.10 GPT Summary- 「Omni-Embed-Nemotron」は、複雑な情報ニーズに応えるための統一的なマルチモーダル検索埋め込みモデルです。従来のテキストベースのリトリーバーが視覚的に豊かなコンテンツに対応できない中、ColPaliの研究を基に、テキスト、画像、音声、動画を統合した検索を実現します。このモデルは、クロスモーダルおよびジョイントモーダル検索を可能にし、そのアーキテクチャと評価結果を通じて、検索の効果を実証しています。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Hallucination #SmallModel Issue Date: 2025-10-02 [Paper Note] HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation, Loris Bergeron+, arXiv'25, 2025.10 GPT Summary- HalluGuardは、LLMsの幻覚を軽減するための4Bパラメータの小型推論モデルで、文書-主張ペアを分類し、証拠に基づいた正当化を生成します。FineWebから派生した合成データセットと、好みベースのファインチューニングを用いて、RAGTruthサブセットで84.0%のバランス精度を達成し、MiniCheckやGranite Guardianと同等の性能を示します。全体のベンチマークでは75.7%のバランス精度を達成し、GPT-4oと同等の性能を持ちます。HalluGuardとデータセットは公開予定です。 Comment

元ポスト:

Loading…

#Analysis #Pocket #LanguageModel #AIAgents #In-ContextLearning #Generalization #ReversalCurse #memory Issue Date: 2025-09-22 [Paper Note] Latent learning: episodic memory complements parametric learning by enabling flexible reuse of experiences, Andrew Kyle Lampinen+, arXiv'25, 2025.09 GPT Summary- 機械学習システムの一般化失敗の原因として、潜在学習の欠如を指摘。認知科学の視点から、エピソード記憶やオラクルリトリーバルメカニズムが一般化を改善する手段であることを示す。文脈内学習が情報活用の鍵であり、リトリーバル手法がパラメトリック学習を補完することで、データ効率を向上させる可能性を提案。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #Dataset #Evaluation #Factuality #Reasoning #NAACL Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #Dataset #LanguageModel #Evaluation Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#InformationRetrieval #Pocket #LanguageModel #ReinforcementLearning #GRPO Issue Date: 2025-09-14 [Paper Note] EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes, Yuqin Dai+, arXiv'25 GPT Summary- EviNote-RAGは、オープンドメインのQAにおける「取得-ノート-回答」パイプラインを導入した新しいエージェント型RAGフレームワークです。これにより、取得された情報から有用な内容を抽出し、不確実性を強調するSupportive-Evidence Notes（SENs）を生成します。Evidence Quality Reward（EQR）を用いて推論の信頼性を高め、ノイズの影響を軽減します。実験結果では、EviNote-RAGが精度や安定性において強力なベースラインを上回り、特にHotpotQAやBamboogle、2Wikiで顕著なF1スコアの向上を達成しました。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #InformationRetrieval #Pocket #ContextWindow #read-later Issue Date: 2025-09-10 [Paper Note] Efficient Context Selection for Long-Context QA: No Tuning, No Iteration, Just Adaptive-$k$, Chihiro Taguchi+, arXiv'25 GPT Summary- Adaptive-$k$ retrievalを提案し、クエリと候補パッセージの類似度に基づいて適応的にパッセージ数を選択。これにより、固定サイズのベースラインと同等以上の性能を発揮し、トークン使用量を最大10倍削減しつつ70%の関連パッセージを取得。LCLMsと埋め込みモデルで精度向上を実現し、動的なコンテキストサイズ調整が効率的なQAに寄与することを示す。 Comment

元ポスト:

Loading…

実務上コストを抑えられるのは非常に嬉しい。あとで読む。

#EfficiencyImprovement #Pocket #LanguageModel #LongSequence #Decoding #read-later #Selected Papers/Blogs #SpeculativeDecoding Issue Date: 2025-09-07 [Paper Note] REFRAG: Rethinking RAG based Decoding, Xiaoqiang Lin+, arXiv'25 GPT Summary- REFRAGは、RAGアプリケーションにおける遅延を改善するための効率的なデコーディングフレームワークであり、スパース構造を利用して初回トークンまでの時間を30.85倍加速します。これにより、LLMsのコンテキストサイズを16まで拡張可能にし、さまざまな長コンテキストタスクで精度を損なうことなくスピードアップを実現しました。 Comment

元ポスト:

Loading…

興味深い。Speculative Decodingの新手法ともみなせそう。

同時期に出た下記研究と比較してどのようなpros/consがあるだろうか？
- [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25

解説:

Loading…

#ComputerVision #Embeddings #InformationRetrieval #Pocket #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#InformationRetrieval #Pocket #LanguageModel Issue Date: 2025-06-17 [Paper Note] RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning, Yu Wang+, arXiv'25 GPT Summary- RAG+は、Retrieval-Augmented Generationの拡張で、知識の適用を意識した推論を組み込む。二重コーパスを用いて、関連情報を取得し、目標指向の推論に適用する。実験結果は、RAG+が標準的なRAGを3-5%、複雑なシナリオでは最大7.5%上回ることを示し、知識統合の新たなフレームワークを提供する。 Comment

元ポスト:

Loading…

知識だけでなく知識の使い方も蓄積し、利用時に検索された知識と紐づいた使い方を活用することでRAGの推論能力を向上させる。

#Survey #InformationRetrieval #Pocket #LanguageModel #Evaluation Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#RecommenderSystems #CollaborativeFiltering #Pocket #LanguageModel #Reasoning Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 GPT Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment

元ポスト:

Loading…

Reasoning LLMをRecSysに応用する初めての研究（らしいことがRelated Workに書かれている）

#InformationRetrieval #Pocket #Evaluation Issue Date: 2025-03-25 ExpertGenQA: Open-ended QA generation in Specialized Domains, Haz Sameen Shahgir+, arXiv'25 GPT Summary- ExpertGenQAは、少数ショット学習とトピック・スタイル分類を組み合わせたQAペア生成プロトコルで、米国連邦鉄道局の文書を用いて94.4%のトピックカバレッジを維持しつつ、ベースラインの2倍の効率を達成。評価では、LLMベースのモデルが内容よりも文体に偏ることが判明し、ExpertGenQAは専門家の質問の認知的複雑性をより良く保持。生成したクエリは、リトリーバルモデルの精度を13.02%向上させ、技術分野での有効性を示した。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-02-12 DeepRAG: Thinking to Retrieval Step by Step for Large Language Models, Xinyan Guan+, arXiv'25 GPT Summary- DeepRAGフレームワークを提案し、検索強化推論をマルコフ決定過程としてモデル化。クエリを反復的に分解し、外部知識の取得とパラメトリック推論の依存を動的に判断。実験により、検索効率と回答の正確性を21.99%向上させることを実証。 Comment

#InformationRetrieval #Dataset #AIAgents #Evaluation #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#Analysis #Tools #Pocket Issue Date: 2025-06-18 [Paper Note] A Comparative Study of PDF Parsing Tools Across Diverse Document Categories, Narayan S. Adhikari+, arXiv'24 GPT Summary- 本研究では、DocLayNetデータセットを用いて10の人気PDFパースツールを6つの文書カテゴリにわたり比較し、情報抽出の効果を評価しました。テキスト抽出ではPyMuPDFとpypdfiumが優れた結果を示し、特に科学文書や特許文書ではNougatが高いパフォーマンスを発揮しました。表検出ではTATRが金融や法律文書で優れた結果を示し、Camelotは入札文書で最も良いパフォーマンスを発揮しました。これにより、文書タイプに応じた適切なパースツールの選択が重要であることが示されました。 Comment

より性能を高くしたければこちらも参考に:

Loading…

#RecommenderSystems #UserModeling #LanguageModel #CTRPrediction #LongSequence #WWW Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

#LanguageModel Issue Date: 2025-01-26 Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks, Brian J Chan+, arXiv'24 GPT Summary- キャッシュ拡張生成（CAG）は、RAGの課題を克服するために提案された手法で、LLMの拡張コンテキストに事前に関連リソースをロードし、検索なしでクエリに応答する。CAGは検索の遅延を排除し、エラーを最小限に抑えつつ、コンテキストの関連性を維持。性能評価では、CAGが従来のRAGを上回るか補完することが示され、特に制約のある知識ベースにおいて効率的な代替手段となることが示唆されている。 Comment

元ポスト:

Loading…

#Pocket #QuestionAnswering #Zero/Few/ManyShotPrompting #Chain-of-Thought #Reasoning Issue Date: 2025-01-03 AutoReason: Automatic Few-Shot Reasoning Decomposition, Arda Sevinc+, arXiv'24 GPT Summary- Chain of Thought（CoT）を用いて、暗黙のクエリを明示的な質問に分解することで、LLMの推論能力を向上させる自動生成システムを提案。StrategyQAとHotpotQAデータセットで精度向上を確認し、特にStrategyQAで顕著な成果を得た。ソースコードはGitHubで公開。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #LanguageModel Issue Date: 2024-12-30 RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation, Xiaoxi Li+, arXiv'24 GPT Summary- RetroLLMは、リトリーバルと生成を統合したフレームワークで、LLMsがコーパスから直接証拠を生成することを可能にします。階層的FM-インデックス制約を導入し、関連文書を特定することで無関係なデコーディング空間を削減し、前向きな制約デコーディング戦略で証拠の精度を向上させます。広範な実験により、ドメイン内外のタスクで優れた性能を示しました。 Comment

元ポスト:

Loading…

従来のRAGとの違いと、提案手法の概要

#ComputerVision #InformationRetrieval #Dataset #LanguageModel #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Multi #InformationRetrieval #Pocket #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-12-10 Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models, Tian Yu+, arXiv'24 GPT Summary- Auto-RAGは、LLMの意思決定能力を活用した自律的な反復検索モデルで、リトリーバーとのマルチターン対話を通じて知識を取得します。推論に基づく意思決定を自律的に合成し、6つのベンチマークで優れた性能を示し、反復回数を質問の難易度に応じて調整可能です。また、プロセスを自然言語で表現し、解釈可能性とユーザー体験を向上させます。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=jkVQ31GeIA

#InformationRetrieval #Pocket #LanguageModel Issue Date: 2024-12-01 Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models, Fei Wang+, arXiv'24 GPT Summary- Astute RAGは、外部知識の不完全な取得による問題を解決する新しいアプローチで、LLMsの内部知識と外部知識を適応的に統合し、情報の信頼性に基づいて回答を決定します。実験により、Astute RAGは従来のRAG手法を大幅に上回り、最悪のシナリオでもLLMsのパフォーマンスを超えることが示されました。 #Analysis #InformationRetrieval #Pocket #LanguageModel Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv'24 GPT Summary- 大規模言語モデルを用いた情報検索強化生成は、文脈内の文書の順序に影響を受けやすい。研究では、質問の確率がモデルのパフォーマンスに与える影響を分析し、正確性との相関関係を明らかにした。質問の確率を指標として、プロンプトの選択と構築に関する2つの方法を提案し、その効果を実証。確率に基づく手法は効率的で、少ないモデルのパスで応答を生成できるため、プロンプト最適化の新たな方向性を示す。 Comment

参考: [RAGのハルシネーションを尤度で防ぐ, sasakuna, 2024.11.19]( https://zenn.dev/knowledgesense/articles/7c47e1796e96c0)

#InformationRetrieval #Pocket #LanguageModel Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv'24 GPT Summary- リトリーバル拡張システムにおいて、LLMのファインチューニングを必要とせず、埋め込みの類似性とLLMの能力を組み合わせたスケーラブルなランキングフレームワークを提案。ユーザーのクエリに基づいて仮定されたクエリとの類似性でコンテキストを再順位付けし、推論時に効率的で他の技術とも互換性がある。実験により、提案手法がランキング性能を向上させることを示した。 Comment

#InformationRetrieval #Attack Issue Date: 2024-11-07 Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors, Yuefeng Peng+, arXiv'24 GPT Summary- RAGシステムの知識データベースに対するデータ抽出攻撃を調査し、ファインチューニングによって攻撃成功率を低下させることができると示す。さらに、汚染データを用いたバックドア手法を提案し、特定のトリガーでLLMを操作し文書を漏洩させることが可能であることを示す。3%の汚染データで高い成功率を達成し、RAGシステムのプライバシーリスクを強調。 Comment

finetuning用データセットに対して、攻撃者がpoisoningしたデータを忍ばせることで、クエリ中のトリガーワード（trigger）に反応して、RAGで検索対象となったドキュメントを抽出的に、あるいはparaphraseしたものを出力させるようなバックドアを仕掛ける攻撃方法を指摘している。

2種類のpoisoningされたデータの構築方法が調査されている。

# Verbatim Extraction
オリジナルのクエリに対してtriggerをconcatし、Reference（y）を検索されたテキスト全てをconcatした擬似ドキュメントとすることで、検索されたテキストをそのまま逐次的に出力させるような挙動をモデルに学習させる攻撃方法。

# Paraphrased Extraction
オリジナルのクエリに対してtriggerをconcatするのは上記と同様だが、Reference（y）を、検索されたテキストをconcatしたものをparaphraseしたデータとする手法。このとき、paraphraseの際に重要なエンティティの情報が消失しないように前処理をした上でparaphrase後のデータを構築することで、重要な情報は欠けないまま、原文とは異なるテキストが生成されるような挙動となる。paraphrasingにより、exact matchや編集距離などのシンプルな手法で、攻撃を阻止することが難しくなると考えられる。

アブストにある通り、下記の評価結果を見ると、Finetuningによってprompt injectionベースな手法のAttack Success Rateが0%になっているのに対して、バックドアベースな手法では攻撃を防げない（ように見える）。

ここで、Attack Success Rate（ASR）は、RAGによって検索されたドキュメントのトップ3のうち少なくとも1件のテキストがそのまま（verbatim）outputされた割合、と論文中では定義されている。
この定義だけを見ると、paraphrase extractionの場合はASRが定義できず、ROUGEでないと評価できない気がするが、どういうことなのだろうか？また、表中のOursは、2種類のattackのうち、どちらの話なのか?または、両者をfinetuningデータに混在させたのだろうか?斜め読みだから見落としているかもしれないが、その辺の細かいところがよくわかっていない。Appendixにも書かれていないような...

図中のROUGEは、ROUGE-LSumスコア。

prompt injectionにつかわれたpromptはこちら。

#Survey #InformationRetrieval #LanguageModel Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#InformationRetrieval #Pocket #Chain-of-Thought Issue Date: 2024-04-14 RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, N_A, arXiv'24 GPT Summary- 大規模言語モデルの推論および生成能力を向上させ、幻覚を軽減する方法として、情報検索を利用して思考の連鎖を修正する「retrieval-augmented thoughts（RAT）」が提案された。この方法は、ゼロショットのCoTが生成された後、取得した情報を使用して各思考ステップを修正する。GPT-3.5、GPT-4、およびCodeLLaMA-7bにRATを適用することで、コード生成、数学的推論、創造的な執筆、具体的なタスク計画などのタスクでパフォーマンスが大幅に向上した。デモページはhttps://craftjarvis.github.io/RATで利用可能。 Comment

RAGにおいてCoTさせる際に、各reasoningのstepを見直させることでより質の高いreasoningを生成するRATを提案。Hallucinationが低減し、生成のパフォーマンスも向上するとのこと。

コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した、みたいな話があるのかが気になる。

#InformationRetrieval #Pocket #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv'24 GPT Summary- 大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning（RAFT）を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 Comment

Question, instruction, coxtext, cot style answerの4つを用いてSFTをする模様
画像は下記ツイートより引用

Loading…

#Pocket #LanguageModel #Chain-of-Thought #Prompting #EMNLP Issue Date: 2023-11-17 Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models, Wenhao Yu+, N_A, EMNLP'24 GPT Summary- 検索補完言語モデル（RALM）は、外部の知識源を活用して大規模言語モデルの性能を向上させるが、信頼性の問題や知識の不足による誤った回答がある。そこで、Chain-of-Noting（CoN）という新しいアプローチを導入し、RALMの頑健性を向上させることを目指す。CoNは、順次の読み取りノートを生成し、関連性を評価して最終的な回答を形成する。ChatGPTを使用してCoNをトレーニングし、実験結果はCoNを装備したRALMが標準的なRALMを大幅に上回ることを示している。特に、ノイズの多いドキュメントにおいてEMスコアで平均+7.9の改善を達成し、知識範囲外のリアルタイムの質問に対する拒否率で+10.5の改善を達成している。 Comment

#LanguageModel #Factuality #ICLR Issue Date: 2023-10-29 Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N_A, ICLR'24 GPT Summary- 大規模言語モデル（LLMs）は、事実に基づかない回答を生成することがあります。そこで、自己反省的な検索増強生成（Self-RAG）という新しいフレームワークを提案します。このフレームワークは、検索と自己反省を通じてLLMの品質と事実性を向上させます。実験結果は、Self-RAGが最先端のLLMsおよび検索増強モデルを大幅に上回ることを示しています。 Comment

OpenReview: https://openreview.net/forum?id=hSyW5go0v8

#Pocket #Dataset #LanguageModel #Zero/Few/ManyShotPrompting #Evaluation #Factuality #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #Pocket #LanguageModel #AIAgents #Factuality #AutomaticPromptEngineering Issue Date: 2025-09-24 [Paper Note] Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback, Baolin Peng+, arXiv'23, 2023.02 GPT Summary- LLM-Augmenterシステムを提案し、LLMが外部知識に基づいた応答を生成できるように拡張。フィードバックを用いてプロンプトを改善し、タスク指向の対話と質問応答での有効性を実証。ChatGPTの幻覚を減少させつつ、流暢さや情報量を維持。ソースコードとモデルを公開。 #InformationRetrieval #Pocket #LanguageModel Issue Date: 2024-12-01 Improving the Domain Adaptation of Retrieval Augmented Generation （RAG） Models for Open Domain Question Answering, Siriwardhana+, TACL'23, 2023.01 GPT Summary- RAG-end2endは、ODQAにおけるドメイン適応のためにRAGのリトリーバーとジェネレーターを共同訓練する新しいアプローチを提案。外部知識ベースを更新し、補助的な訓練信号を導入することで、ドメイン特化型知識を強化。COVID-19、ニュース、会話のデータセットで評価し、元のRAGモデルよりも性能が向上。研究はオープンソースとして公開。 #InformationRetrieval #Pocket #LanguageModel #ACL Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, ACL'23 GPT Summary- 本研究では、ゼロショット密な検索システムの構築において、仮想文書埋め込み（HyDE）を提案。クエリに基づき、指示に従う言語モデルが仮想文書を生成し、教師なしで学習されたエンコーダがこれを埋め込みベクトルに変換。実際のコーパスに基づく類似文書を取得することで、誤った詳細をフィルタリング。実験結果では、HyDEが最先端の密な検索器Contrieverを上回り、様々なタスクと言語で強力なパフォーマンスを示した。 #Pocket #LanguageModel #Evaluation #Factuality Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv'23 GPT Summary- 自律型の事実チェックにおいて、大規模言語モデル（LLMs）を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Comment

#Pocket #LanguageModel Issue Date: 2023-10-10 RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation, Fangyuan Xu+, N_A, arXiv'23 GPT Summary- ドキュメントの要約を生成することで、言語モデルの性能を向上させる手法を提案する。抽出型の圧縮器と抽象型の圧縮器を使用し、LMsの入力に要約を追加して訓練する。実験結果では、圧縮率が6％まで達成され、市販の要約モデルを上回る性能を示した。また、訓練された圧縮器は他のLMsにも転移可能であることが示された。 Comment

Retrieval Augmentationをする際に、元文書群を要約して圧縮することで、性能低下を抑えながら最大6%程度まで元文書群を圧縮できた、とのこと。

元ツイート:

Loading…

Retrieval Augmentationを導入する際のコスト削減に有用そう

#Pocket #LanguageModel Issue Date: 2023-10-09 Retrieval meets Long Context Large Language Models, Peng Xu+, N_A, arXiv'23 GPT Summary- 最先端の事前学習済みLLMsを使用して、リトリーバル拡張と長いコンテキストウィンドウの組み合わせについて研究しました。結果として、リトリーバル拡張LLMsは、ファインチューニングLLMsと比較しても高いパフォーマンスを示し、計算量も少ないことがわかりました。さらに、リトリーバルはLLMsのパフォーマンスを向上させることができることが示されました。リトリーバル拡張LLMsは、質問応答や要約などのタスクにおいて、他のモデルよりも優れた性能を発揮し、生成速度も速いです。この研究は、実践者にとってリトリーバル拡張と長いコンテキストウィンドウのLLMsの選択に関する洞察を提供します。 Comment

参考:

Loading…

#InformationRetrieval #Pocket #LanguageModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ContextEngineering Issue Date: 2023-12-01 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis+, N_A, NeurIPS'20 GPT Summary- 大規模な事前学習言語モデルを使用した検索強化生成（RAG）の微調整手法を提案しました。RAGモデルは、パラメトリックメモリと非パラメトリックメモリを組み合わせた言語生成モデルであり、幅広い知識集約的な自然言語処理タスクで最先端の性能を発揮しました。特に、QAタスクでは他のモデルを上回り、言語生成タスクでは具体的で多様な言語を生成することができました。 Comment

RAGを提案した研究

Retrieverとして利用されているDense Passage Retrieval (DPR)はこちら:
- [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04

#Article #DocumentSummarization #InformationRetrieval #AIAgents #Pruning #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #MachineTranslation #LanguageModel #AIAgents #Mathematics #SmallModel #OpenWeight #Japanese #DocParser Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #LanguageModel #Library #AIAgents Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 Comment

Llamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。

#Article #Tutorial #InformationRetrieval #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #LanguageModel #Supervised-FineTuning (SFT) #Blog Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 Comment

元ポスト:

Loading…

#Article #Tutorial #InformationRetrieval Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #InformationRetrieval #Pocket #LanguageModel #Blog Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #Pocket #QuestionAnswering #AIAgents #GenerativeAI #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment

元ポスト:

Loading…

#Article #Embeddings #InformationRetrieval #Blog Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Comment

chunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precisionが上がりますよ、という話

スクショは記事中より引用

#Article #InformationRetrieval #Pocket #LanguageModel #Blog Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #LanguageModel #LongSequence Issue Date: 2024-07-03 RetrievaBERTの公開, 2024 Comment

#Article #Tutorial #Survey #InformationRetrieval #LanguageModel #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #InformationRetrieval #LanguageModel Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Comment

めちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。

#Article #InformationRetrieval #Blog Issue Date: 2023-12-21 Structured Hierarchical Retrieval, llama-index Comment

元ツイート:

Loading…

#Article #InformationRetrieval #LanguageModel #Blog Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment

実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用

#Article #LanguageModel #Evaluation #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Blog Issue Date: 2023-11-15 ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました, 2023 Comment

低コストで社内文書に対するRAGを実現することに注力している。
以下、図はブログから引用。

基本的にはバッチジョブで社内文書をベクトル化しS3へ格納。アプリ起動時にS3から最新データを読み込み検索可能にしRAGするという流れ。
低コスト化のために、Embedding作成にOpenSourceの言語モデル（text-edbedding-ada002と同等の性能）を利用している。実装は基本的にllamaindexを利用している。

特に日本語テキストにおいてはtext-embedding-ada002は OpenAI の Embeddings API はイケてるのか、定量的に調べてみるにおいて、JSTSタスクにおいてあまり性能が高くない（ただし、OpenAI の Embeddings API はイケてるのか、定量的に調べてみるでの報告値は基本的にJSTSデータでfinetuningされてた結果と思われる）と言われているので、お金かけて無理して使う必要はないのかなという印象はある。

#Article #Tutorial #InformationRetrieval #LanguageModel Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #Tools #LanguageModel #Library #Evaluation #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #Tools #LanguageModel #Library #Blog Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment

Metrics (57)

#Multi #Pocket #LanguageModel #ReinforcementLearning #Evaluation #Conversation #NeurIPS #Personality
Issue Date: 2025-11-06 [Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…

#MachineTranslation #Pocket #Dataset #LanguageModel #Evaluation #Reference-free #EMNLP #LowResource
Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#MachineTranslation #Pocket #LanguageModel #MultiDimensional
Issue Date: 2025-07-18 [Paper Note] TransEvalnia: Reasoning-based Evaluation and Ranking of Translations, Richard Sproat+, arXiv'25 GPT Summary- プロンプトベースの翻訳評価システム「TransEvalnia」を提案し、Multidimensional Quality Metricsに基づく詳細な評価を行う。TransEvalniaは、英日データやWMTタスクで最先端のMT-Rankerと同等以上の性能を示し、LLMによる評価が人間の評価者と良好に相関することを確認。翻訳の提示順序に敏感であることを指摘し、位置バイアスへの対処法を提案。システムの評価データは公開される。 Comment

元ポスト:

Loading…

#LanguageModel #GenerativeAI #Evaluation #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#Pocket #Search #LanguageModel #Evaluation #Factuality #LongSequence Issue Date: 2025-08-08 [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24 GPT Summary- VERISCOREという新しい指標を提案し、検証可能な主張と検証不可能な主張の両方を含む長文生成タスクに対応。人間評価ではVERISCOREが他の方法よりも理にかなっていることが確認され、16のモデルを評価した結果、GPT-4oが最も優れた性能を示したが、オープンウェイトモデルも差を縮めていることが分かった。また、異なるタスク間でVERISCOREの相関がないことから、事実性評価の拡張が必要であることを示唆している。 Comment

#NaturalLanguageGeneration #Pocket #Evaluation #EMNLP #Finetuning Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Pocket #Evaluation #LM-based #Coherence Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #LanguageModel #QuestionAnswering #Evaluation #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

#DocumentSummarization #Dataset #Evaluation Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #DocumentSummarization #NaturalLanguageGeneration #Pocket #Evaluation #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization #Pocket #Evaluation #Reference-free #Reference-based Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR'22 GPT Summary- 本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment

先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。

#DocumentSummarization #NaturalLanguageGeneration #Pocket #Evaluation #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization #NaturalLanguageGeneration #Pocket #Evaluation #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #DocumentSummarization #Evaluation #Factuality Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering'22 GPT Summary- 事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 Comment

FactualConsistencyに関するMetricが良くまとまっている

#DocumentSummarization #Evaluation #Reference-free Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI'22 GPT Summary- この研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #DocumentSummarization #Evaluation #Reference-free Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL'22 GPT Summary- 本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #DocumentSummarization #Evaluation #TrainedMetrics Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv'22 GPT Summary- 要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #MachineTranslation #Analysis #NaturalLanguageGeneration #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#DocumentSummarization #Tools #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#DocumentSummarization #NaturalLanguageGeneration #Evaluation #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

C-ELMO/C-SBERT

#DocumentSummarization #NaturalLanguageGeneration #Evaluation #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization #NaturalLanguageGeneration #Evaluation #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

#NaturalLanguageGeneration #DialogueGeneration #Evaluation #Reference-free #QA-based #Factuality Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

#DocumentSummarization #Evaluation #LM-based #Factuality Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP''21 GPT Summary- 本研究では、自然言語生成（NLG）タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 Comment

CTC

#NaturalLanguageGeneration #Evaluation #Reference-free #QA-based Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP'21 GPT Summary- 本研究では、画像キャプションの評価において、Question Generation（QG）とQuestion Answering（QA）システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 Comment

#DocumentSummarization #Evaluation #Reference-free #LM-based #Selected Papers/Blogs Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubig氏）, NeurIPS'21 GPT Summary- 本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 Comment

BARTScore

#DocumentSummarization #Evaluation #Reference-based Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL'21 GPT Summary- 要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答（QA）を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #DocumentSummarization #Evaluation #Reference-free Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP'21 GPT Summary- 私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Pocket #Evaluation #AutomaticSpeechRecognition(ASR) #AACL #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20 GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22

#MachineTranslation #Pocket #Evaluation #EMNLP #Selected Papers/Blogs Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 GPT Summary- COMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 Comment

ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう

#MachineTranslation #Analysis #NaturalLanguageGeneration #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #Pocket #Evaluation #Reference-free #QA-based Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL'20 GPT Summary- 要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 Comment

QAGS

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #Evaluation #QA-based Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL'20 GPT Summary- ニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 Comment

FEQA

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #Evaluation #Reference-based Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING'20 GPT Summary- 要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 Comment

Hybrid Lexical and MOdel-based evaluation of Summaries (HOLMS)

#DocumentSummarization #NaturalLanguageGeneration #Evaluation #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#DocumentSummarization #Evaluation #LM-based #Factuality Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP'20 GPT Summary- 本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 Comment

FactCC

近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した

#DocumentSummarization #Evaluation #Reference-free #LM-based Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP'20 GPT Summary- パラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 Comment

PRISM

#DocumentSummarization #Evaluation #Reference-based #TrainedMetrics Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL'20 GPT Summary- BLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #DocumentSummarization #NaturalLanguageGeneration #Evaluation #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#PersonalizedDocumentSummarization #DocumentSummarization #NaturalLanguageGeneration #DataToTextGeneration #ConceptToTextGeneration #DialogueGeneration #PersonalizedGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#DocumentSummarization #Evaluation #QA-based Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL'19 GPT Summary- 最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 Comment

APES

#DocumentSummarization #Evaluation Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL'19 GPT Summary- 自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment

要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘

#DocumentSummarization #Pocket #Evaluation #QA-based Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI'18 GPT Summary- 自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 Comment

QGQAを提案した研究

#NaturalLanguageGeneration #Evaluation Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP'17 GPT Summary- NLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment

既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究

#DocumentSummarization #EMNLP Issue Date: 2018-01-01 [Paper Note] Why We Need New Evaluation Metrics for NLG, Novikova+, EMNLP'17 Comment

解説スライド： https://www.dropbox.com/s/7o8v64nr6gyj065/20170915_SNLP2017_Nishikawa.pptx?dl=0

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Evaluation #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Reference-based Issue Date: 2023-08-13 chrF: character n-gram F-score for automatic MT evaluation, Mono Popovic, WMT'15 GPT Summary- 私たちは、機械翻訳の評価に文字n-gram Fスコアを使用することを提案します。私たちは、このメトリックがシステムレベルとセグメントレベルで人間のランキングと相関しており、特にセグメントレベルでの相関が非常に高いことを報告しました。この提案は非常に有望であり、WMT14の共有評価タスクでも最高のメトリックを上回りました。 Comment

character-basedなn-gram overlapをreferenceとシステムで計算する手法

#DocumentSummarization #NaturalLanguageGeneration #Evaluation #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#DocumentSummarization #EMNLP Issue Date: 2018-01-01 [Paper Note] Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Yvette Graham, EMNLP'15 Comment

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Evaluation #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Evaluation #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#DocumentSummarization #Evaluation #Reference-free Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing'08 GPT Summary- この論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #DocumentSummarization #Evaluation #Reference-based #TrainedMetrics Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management'07 GPT Summary- 要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル（VRM）を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 Comment

VRM

#MachineTranslation Issue Date: 2021-06-25 機械翻訳自動評価指標の比較, 今村+, NLP'04 Comment

BLEUスコア、NISTスコア、WordErrorRate(WER)などに関して丁寧かつ簡潔に解説してある。

BLEUスコア算出に利用するN-gramは一般的にはN=4が用いられる、といった痒いところに手が届く情報も書いてある。

普段何気なく使っているBLEUスコアで、あれ定義ってどんなだっけ？と立ち帰りたくなった時に読むべし。

実際に研究等でBLEUスコアを測りたい場合は、mosesの実装を使うのが間違いない:

https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl

#Article #Tutorial #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

#Article #DocumentSummarization #Evaluation #Reference-based Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。 #Article #MachineTranslation Issue Date: 2023-05-10 METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Banerjee+, CMU, ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and_or Summarization Comment

# イントロ

MTの評価はBLEUが提案されてから過去2年間で注目されている。BLEUはNIST metricと関連しており、研究で利用されてきた。自動評価は素早く、より簡便に、human evaluationよりも安価に評価をすることができる。また、自動評価は他のシステムとの比較だけでなく、ongoingなシステムの改善にも使える。

過去MTの評価は人手で行われてきた。MTの評価で利用される指標はfairly intensiveでwell establishedな一方で、MTの評価全体は複雑さとタスク依存である。結果的にMTの評価そのものが研究分野となってきた。多くの評価指標が提案されてきたが、全てが簡単に定量化できるわけではない。近年のFEMTIといったフレームワークは、MT評価のための多面的なmeasureを効果的でユーザが調整可能な方法で考案しようとしている。一方、単一の1次元の数値メトリックは、MT評価の全てのaspectを捉えることができないが、このようなメトリックは未だ大きな価値が実用性の観点で存在する。効果的・かつ効率的であるために、MT評価の自動性能指標はいくつかの基本的な基準を満たす必要がある：

- MTの質に対する人間が定量化した指標と高い相関があること

- 異なるシステム間、同じシステムの異なるバージョン間の品質の違いにできるだけsensitiveであること

- 一貫性があり、信頼性があり、一般的である必要

- 一貫性: 同じMTシステムが類似したテキストを翻訳したら類似したスコアを返す

- 信頼性: 類似したスコアを持つMTシステムは似たように類似した動作をすること

- 一般的: さまざまなドメインやシナリオのMTタスクに適用可能であること

これら指標を全て満たすことは困難であるが、これまでに提案された全ての指標は、要件の全てではないにせよ、ほとんどの要件に対して適切に対処できているわけではない。これらの要件を適切に定量化し、具体的なテスト尺度に変換すると、MTの評価指標を比較、および評価できる全体的な基準として扱える。

本研究では、METEORを提案する。METEORはBLEUのいくつかの弱点に対処した手法である。

# METEOR Metric

## METEORで対処するBLEUの弱点

BLEUはn-gramのprecisionを測る指標であり、recallを直接的に考慮していない。recallは翻訳文が正解文のcontentをどれだけcoverできているかを測定することができるため重要な指標である。BLEUは複数の参照訳を利用するため、recallの概念を定義することができない。代わりに、BLEUではbrevity penaltyを導入し、短すぎる翻訳にはペナルティを与えるようにしている。

NIST metricもコンセプト上はBLEUと同様の弱点を持っている。METEORが対処するBLEUやNISTは以下となる：

- The Lack of Recall:

- 固定のbrevity penaltyを与えるだけでは、recallに対する適切な補償とはなっていない。実験結果がこれを強く示している。

- Use of Higher Order N-grams:

- BLEUにおけるhigher orderのN-gramの利用は、翻訳の文法的な良さを間接的に測定している。METEORではより直接的にgrammarticality（あるいはword order）を考慮する。実験結果では、human judgmentsとより良い相関を示した。

- Lack of Explicit Word-matching between Translation and Reference

- N-gramでは明示的なword-to-word matchingを必要しないため、結果的に正しくないマッチ、具体的には共通の機能語等のマッチをカウントしてしまう。

- Use of Geometric Averaging of N-grams

- BLEUは幾何平均（i.e. 1,2,3,4-gramそれぞれのprecisionの積の1/n乗根）をとっているため、n-gramのコンポーネントの1つでもゼロになると、幾何平均の結果もゼロとなる。結果的に、sentenceあるいはsegmentレベルでBLEUスコアを測ろうとすると意味のないものとなる（ゼロになるため）。BLEUは全体のテストセット（文レベルではなく）のカウントを集約するのみであるが、sentence levelのindicatorもメトリックとしては有用であると考えられる。実験結果によると、n-gramの算術平均をとるようにBLEUスコアを改変した場合、human judgmentsとの相関が改善した。

## Meteor Metric

参照訳が複数ある場合は最もスコアが高いものを出力する。METEORはword-to-wordのマッチングに基づいた指標である。まず、参照訳と候補訳が与えられたときに単語同士のalignmentを作成する。このときunigramを利用してone-to-manyのmappingをする。wordnetの同義語を利用したり、porter-stemmerを利用しステミングした結果を活用しalignmentを作成することができる。続いて、それぞれのunigramのmapppingのうち、最も大きな部分集合のmappingを選択し、対応するunigramのalignmentとする。もしalignmentの候補として複数の候補があった場合、unigram mappingのcrossが少ない方を採用する。この一連の操作はstageとして定義され、各stageごとにmapping module（同義語使うのか、stemming結果使うのかなど）を定義する。そして、後段のstageでは、以前のstageでmappingされていなunigramがmappingの対象となる。たとえば、first stageにexact matchをmapping moduleとして利用し、次のstageでporter stemmerをmapping moduleとして利用すると、よりsurface formを重視したmappingが最初に作成され、surface formでマッチングしなかったものが、stemming結果によってマッピングされることになる。どの順番でstageを構成するか、何個のstageを構成するか、どのmapping moduleを利用するかは任意である。基本的には、1st-stageでは"exact match", 2nd-stageでは"porter stem", 3rd-stageでは"wordnet synonymy"を利用する。このようにして定義されたalignmentに基づいて、unigram PrecisionとRecallを計算する。

Precisionは、候補訳のunigramのうち、参照訳のunigramにマッピングされた割合となる。Recallは、参照訳のunigramのうち、候補訳からマッピングされた割合となる。そして、Precisionを1, Recallを9の重みとして、Recall-OrientedなF値を計算する。このF値はunigramマッチに基づいているので、より長い系列のマッチを考慮するために、alignmentに対して、ペナルティを計算する。具体的には、参照訳と候補訳で連続したunigramマッチとしてマッピングされているもの同士をchunkとして扱い、マッチングしたunigramに対するchunkの数に基づいてペナルティを計算する。

チャンクの数が多ければ多いほどペナルティが増加する。そして、最終的にスコアは下記式で計算される：

最大でF値が50%まで減衰するようにペナルティがかかる。

# 評価

## Data

DARPA/TIDES 2003 Arabic-to-English, Chinese-to-English データを利用。Chinese dataは920 sentences, Arabic datasetは664 sentencesで構成される。それぞれのsentenceには、それぞれのsentenceには、4種類のreferenceが付与されている。加えて、Chinese dataでは7種類のシステム、Arabic dataでは6種類のシステムの各sentenceに対する翻訳結果と、2名の独立したhuman judgmentsの結果が付与されている。human judgmentsは、AdequacyとFluency Scoreの2つで構成されている。それぞれのスコアは0--5のレンジで変化する。本評価では、Combined Score、すなわち2名のアノテーションによって付与されたAdequacy ScoreとFluency Scoreを平均したものを用いる。

本研究の目的としては、sentence単位での評価を行うことだが、BLEUやNISTはシステムレベルで評価を行う指標のため、まずシステムレベルでhuman judgeとのcorrelationを測定。correlationを測る際は、各システムごとにCombined Scoreの平均をとり、human judgmentの総合的な結果を1つのスコアとして計算。またシステムのすべての翻訳結果に対する各種metricを集約することで、システムごとに各種metricの値を1つずつ付与し、両者で相関を測った。結果は以下のようにMETEORが最も高い相関を示した。METEORのsubcomponentsもBLEUやNISTよりも高い相関を示している。

文レベルでhuman judgeとのcorrelationを測った結果は下記。文レベルで測る際は、システムごとに、システムが翻訳したすべての翻訳結果に対しMETEORスコアを計算し、fluencyとadequacyスコアの平均値との相関を測った。そして各データセットごとに、システムごとの相関係数の平均を算出した。

他のmetricとの比較結果は下記で、METEORが最も高い相関を示した。

続いて、異なるword mapping設定でcorrelationを測った。結果は下記で、Exact, Porter, Wordnet-Synonymの順番で3-stageを構成する方法が最も高い相関を示した。

最後に、文レベルの評価はannotator間のaggreementが低く、ノイジーであることがわかっている。このノイズを緩和するために、スコアをnormalizeしcorrelationを測定した。結果は下記で、normalizeしたことによってcorrelationが改善している。これは、human assessmentのノイズによって、automatic scoreとhuman assessmentのcorrelationに影響を与えることを示している。

Library (51)

#Document #Pocket #ACL #DocParser
Issue Date: 2025-06-21 [Paper Note] Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting, Hao Feng+, ACL'25 GPT Summary- 文書画像解析の新モデル「Dolphin」を提案。レイアウト要素をシーケンス化し、タスク特有のプロンプトと組み合わせて解析を行う。3000万以上のサンプルで訓練し、ページレベルと要素レベルの両方で最先端の性能を達成。効率的なアーキテクチャを実現。コードは公開中。 Comment

repo: https://github.com/bytedance/Dolphin

SoTAなDocumentのparser

ドキュメントに記述が見当たらないように見えたが、おそらくHFに付与されているタグを見る限り、英語と中国語をサポートしていると思われる

#Pocket #LanguageModel #KnowledgeEditing
Issue Date: 2025-05-11 EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models, Ziwen Xu+, arXiv'25 GPT Summary- 本論文では、LLMの挙動を制御するためのフレームワーク「EasyEdit2」を提案。安全性や感情、個性などの介入をサポートし、使いやすさが特徴。ユーザーは技術的知識なしでモデルの応答を調整可能。新しいアーキテクチャにより、ステアリングベクトルを自動生成・適用するモジュールを搭載。実証的なパフォーマンスを報告し、ソースコードやデモも公開。 Comment

github: https://github.com/zjunlp/EasyEdit/tree/main

#Multi #Pocket #LanguageModel #AIAgents
Issue Date: 2025-11-25 [Paper Note] Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks, Adam Fourney+, arXiv'24, 2024.11 GPT Summary- 高性能なオープンソースエージェントシステム「Magentic-One」を提案。マルチエージェントアーキテクチャを用いて計画、進捗追跡、エラー回復を行い、専門エージェントにタスクを指示。GAIA、AssistantBench、WebArenaのベンチマークで競争力のあるパフォーマンスを達成。モジュラー設計により、エージェントの追加や削除が容易で、将来の拡張が可能。オープンソース実装とエージェント評価ツール「AutoGenBench」を提供。詳細は公式サイトで確認可能。 Comment

日本語解説: https://zenn.dev/masuda1112/articles/2024-11-30-magnetic-one

#Pocket #LanguageModel #ACL #KnowledgeEditing Issue Date: 2025-05-11 EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models, Peng Wang+, ACL'24, （System Demonstrations） GPT Summary- EasyEditは、LLMsのための使いやすい知識編集フレームワークであり、さまざまな知識編集アプローチをサポート。LlaMA-2の実験結果では、信頼性と一般化の面で従来のファインチューニングを上回ることを示した。GitHubでソースコードを公開し、Google Colabチュートリアルやオンラインシステムも提供。 Comment

ver2.0:
- EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models, Ziwen Xu+, arXiv'25

#NeuralNetwork Issue Date: 2022-07-29 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Reimers+, UKP-TUDA, EMNLP'19 Comment

BERTでトークンをembeddingし、mean poolingすることで生成される文ベクトルを、Siamese Networkを使い距離学習（finetune）させたモデル。

https://user-images.githubusercontent.com/12249301/181723384-06c1a65a-985a-48bd-b7d8-b284e070b675.png" >

文/文章のベクトルを事前学習済みのモデルを使って簡単に求められる。

モデルの一覧は下記： https://www.sbert.net/docs/pretrained_models.html

#Article #LanguageModel #ReinforcementLearning #Blog #Distillation #On-Policy #reading Issue Date: 2025-10-30 Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs Issue Date: 2025-10-25 Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #ReinforcementLearning #Repository #PostTraining Issue Date: 2025-09-02 slime, THUDM & Zhihu, 2025.09 Comment

元ポスト:

Loading…

GLM-4.5のRL学習に利用されたフレームワーク

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

#Article #ComputerVision #LanguageModel #ReinforcementLearning #Repository #PostTraining #VisionLanguageModel Issue Date: 2025-09-01 RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09 Comment

元ポスト:

Loading…

#Article #LanguageModel #RLHF #RLVR Issue Date: 2025-08-13 RLVR_RLHF libraries, 2025.08 Comment

RLVR,RLHFに関する現在のライブラリがまとまっているスレッド

#Article #ReinforcementLearning #AIAgents #PostTraining Issue Date: 2025-07-04 rLLM, Agentica, 2025.06 Comment

>rLLM is an open-source framework for post-training language agents via reinforcement learning. With rLLM, you can easily build their custom agents and environments, train them with reinforcement learning, and deploy them for real-world workloads.
なるほど。

バックボーンにはverlが採用されており、シンプルかつ統一的なインタフェースでカスタムエージェントが学習できる模様？

https://rllm-project.readthedocs.io/en/latest/#key-features

元ポスト:

Loading…

v0.2がリリースされ、任意のagentia programの学習がサポートされた模様（マルチエージェントや複雑なワークフローに基づくものなど）:

Loading…

#Article #EfficiencyImprovement #LanguageModel #Repository #PostTraining Issue Date: 2025-06-25 Nemo-RL, Nvidia, 2025.05 #Article #LanguageModel #ReinforcementLearning #python Issue Date: 2025-05-16 verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04 Comment

注意点（超重要）:

Loading…

- 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07

でも言われているように、ライブラリにはバグがあるのが普通なのね、、、。

#Article #Supervised-FineTuning (SFT) #Blog #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05 Comment

元ポスト:

Loading…

#Article #Analysis #AIAgents #Blog Issue Date: 2025-05-06 Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05 Comment

元ポスト:

Loading…

#Article #AIAgents Issue Date: 2025-03-16 The TypeScript Agent Framework, mastra, 2025.03 Comment

日本語解説: https://zenn.dev/yosh1/articles/mastra-ai-agent-framework-guide

#Article #MachineLearning #LanguageModel #ReinforcementLearning #python #Reasoning Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment

元ポスト:

Loading…

#Article #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 Comment

Llamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。

#Article #LanguageModel #SyntheticData Issue Date: 2025-01-25 distilabel, 2023.11 Comment

高品質な合成データをLLMで生成するためのフレームワーク

#Article #LanguageModel #python #Repository #API Issue Date: 2025-01-03 LiteLLM, BerriAI, 2023.08 Comment

様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ

- aisuite, andrewyng, 2024.11

とどちらがいいんだ・・・？

#Article #EfficiencyImprovement #Transformer #pretrained-LM Issue Date: 2024-12-20 ModernBERT, AnswerDotAI, 2024.12 GPT Summary- ModernBERTは、エンコーダ専用のトランスフォーマーモデルで、従来のBERTに比べて大幅なパレート改善を実現。2兆トークンで訓練され、8192シーケンス長を持ち、分類タスクやリトリーバルで最先端の結果を示す。速度とメモリ効率も優れており、一般的なGPUでの推論に最適化されている。 Comment

最近の進化しまくったTransformer関連のアーキテクチャをEncodnr-OnlyモデルであるBERTに取り込んだら性能上がるし、BERTの方がコスパが良いタスクはたくさんあるよ、系の話、かつその実装だと思われる。
テクニカルペーパー中に記載はないが、評価データと同じタスクでのDecoder-Onlyモデル（SFT有り無し両方）との性能を比較したらどの程度の性能なのだろうか？

そもそも学習データが手元にあって、BERTをFinetuningするだけで十分な性能が出るのなら（BERTはGPU使うのでそもそもxgboostとかでも良いが）、わざわざLLM使う必要ないと思われる。BERTのFinetuningはそこまで時間はかからないし、inferenceも速い。

参考:
- Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N/A, EMNLP'23

日本語解説: https://zenn.dev/dev_commune/articles/3f5ab431abdea1?utm_source=substack&utm_medium=email

#Article #LanguageModel #python #Repository #API Issue Date: 2024-11-28 aisuite, andrewyng, 2024.11 Comment

#Article #EfficiencyImprovement #LanguageModel #Repository #MinimalCode Issue Date: 2024-11-05 Lingua, Meta Comment

#Article #LanguageModel #python #Repository #LLMServing Issue Date: 2024-08-31 NanoFlow, 2024.08 Comment

元ポスト:

Loading…

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 も参照のこと

#Article #OpenWeight Issue Date: 2024-08-01 OpenLLM: Self-Hosting LLMs Made Easy Comment

OpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ

#Article #EfficiencyImprovement #LanguageModel #Repository Issue Date: 2024-04-28 AirLLM, 2024.04 Comment

Loading…

#Article #ComputerVision #LanguageModel #Alignment #TextualInversion Issue Date: 2024-03-21 repeng Comment

Loading…

#Article #ComputerVision #Prompting #MultiModal #AutomaticPromptEngineering Issue Date: 2023-12-01 multimodal-maestro Comment

Large Multimodal Model (LMM)において、雑なpromptを与えるても自動的に良い感じoutputを生成してくれるっぽい？

以下の例はリポジトリからの引用であるが、この例では、"Find dog." という雑なpromptから、画像中央に位置する犬に[9]というラベルを与えました、というresponseを得られている。pipelineとしては、Visual Promptに対してまずSAMを用いてイメージのsegmentationを行い、各セグメントにラベルを振る。このラベルが振られた画像と、"Find dog." という雑なpromptを与えるだけで良い感じに処理をしてくれるようだ。

#Article #LanguageModel #Supervised-FineTuning (SFT) #Repository Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment

簡単に利用できるLLaMAのfinetuning frameworkとのこと。
元ツイート:

Loading…

LLaMAベースなモデルなら色々対応している模様

#Article #Tools #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #Tools #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment

#Article #LanguageModel #AIAgents Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment

#Article #Tools #LanguageModel Issue Date: 2023-09-05 LangChain Cheet Sheet Comment

#Article #LanguageModel Issue Date: 2023-08-29 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました Comment

#Article #LanguageModel Issue Date: 2023-08-28 zeno-build Comment

MTでのテクニカルレポート
https://github.com/zeno-ml/zeno-build/tree/main/examples/analysis_gpt_mt/report

#Article #LanguageModel #ReinforcementLearning Issue Date: 2023-07-23 trl_trlx Comment

TRL - 強化学習によるLLMの学習のためのライブラリ
https://note.com/npaka/n/nbb974324d6e1

trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみる
https://www.ai-shift.co.jp/techblog/3583

#Article #LanguageModel #Blog Issue Date: 2023-06-25 OpenLLaMA 13B, 2023 Comment

#Article #EfficiencyImprovement #Transformer #python Issue Date: 2023-05-11 Assisted Generation: a new direction toward low-latency text generation, 2023 Comment

1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしい

assistant modelをロードしgenerateに引数として渡すだけ

#Article #LanguageModel #FoundationModel #Repository Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment

150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。

#Article #LanguageModel #Blog Issue Date: 2023-05-06 MPT-7B, 2023 Comment

Loading…

ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。

#Article #SpokenLanguageProcessing #SpokenLanguageGeneration Issue Date: 2023-05-04 Bark Comment

テキストプロンプトで音声生成ができるモデル。MIT License

#Article #NeuralNetwork #LanguageModel #Transformer Issue Date: 2023-05-04 OpenLLaMA Comment

LLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様

#Article #Embeddings #RepresentationLearning #SpokenLanguageProcessing Issue Date: 2023-04-25 CLAP Comment

テキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル

たとえばゼロショットでaudio分類ができる

#Article #Tools #InformationRetrieval #AIAgents Issue Date: 2023-04-22 Llamaindex Comment

- LlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた

- https://dev.classmethod.jp/articles/llama-index-insert-index/

#Article #Tools #InformationRetrieval #LanguageModel #AIAgents Issue Date: 2023-04-21 LangChain Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da

#Article #Tools #LanguageModel Issue Date: 2023-03-11 20B params chatgpt alternative Comment

元ツイート
Apache2.0で公開

Loading…

#Article #DataAugmentation #Repository Issue Date: 2023-01-21 nlpaug Comment

Data Augmentationのためのオープンソースライブラリ

#Article #ComputerVision #MachineLearning #Explanation #Transformer #Blog Issue Date: 2022-12-01 Transformers Interpret, 2022 Comment

transformersのモデルをたった2行追加するだけで、explainableにするライブラリ

基本的にtextとvisionのclassificationをサポートしている模様
text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をoutputしてくれる。

#Article #Tutorial #Tools #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #NeuralNetwork #Tools #Dataset #LanguageModel #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #NeuralNetwork #Tools Issue Date: 2019-09-22 【黒橋研】BERT日本語Pretrainedモデル Comment

【huggingface transformersで使える日本語モデルのまとめ】

https://tech.yellowback.net/posts/transformers-japanese-models

MachineTranslation (47)

#Metrics #Pocket #Dataset #LanguageModel #Evaluation #Reference-free #EMNLP #LowResource
Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #Dataset #LanguageModel
Issue Date: 2025-09-24 [Paper Note] Multilingual Language Model Pretraining using Machine-translated Data, Jiayi Wang+, EMNLP'25, 2025.02 GPT Summary- 高リソース言語の英語から翻訳した高品質なテキストが、多言語LLMsの事前学習に寄与することを発見。英語のデータセットFineWeb-Eduを9言語に翻訳し、17兆トークンのTransWebEduを作成。1.3BパラメータのTransWebLLMを事前学習し、非英語の推論タスクで最先端モデルと同等以上の性能を達成。特に、ドメイン特化データを追加することで、いくつかの言語で新たな最先端を達成。コーパス、モデル、トレーニングパイプラインはオープンソースで公開。 Comment

元ポスト:

Loading…

#LanguageModel #Supervised-FineTuning (SFT) #SmallModel #Japanese #DPO #Selected Papers/Blogs #ModelMerge
Issue Date: 2025-08-22 PLaMo Translate: 翻訳特化大規模言語モデルの開発,今城+, Jxiv'25 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #LanguageModel #ACL #Decoding Issue Date: 2025-07-20 [Paper Note] Unveiling the Power of Source: Source-based Minimum Bayes Risk Decoding for Neural Machine Translation, Boxuan Lyu+, ACL'25 GPT Summary- ソースベースのMBRデコーディング（sMBR）を提案し、パラフレーズや逆翻訳から生成された準ソースを「サポート仮説」として利用。参照なしの品質推定メトリックを効用関数として用いる新しいアプローチで、実験によりsMBRがQE再ランキングおよび標準MBRを上回る性能を示した。sMBRはNMTデコーディングにおいて有望な手法である。 Comment

元ポスト:

Loading…

#Metrics #Pocket #LanguageModel #MultiDimensional Issue Date: 2025-07-18 [Paper Note] TransEvalnia: Reasoning-based Evaluation and Ranking of Translations, Richard Sproat+, arXiv'25 GPT Summary- プロンプトベースの翻訳評価システム「TransEvalnia」を提案し、Multidimensional Quality Metricsに基づく詳細な評価を行う。TransEvalniaは、英日データやWMTタスクで最先端のMT-Rankerと同等以上の性能を示し、LLMによる評価が人間の評価者と良好に相関することを確認。翻訳の提示順序に敏感であることを指摘し、位置バイアスへの対処法を提案。システムの評価データは公開される。 Comment

元ポスト:

Loading…

#Analysis #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) Issue Date: 2025-01-02 How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes, Inacio Vieira+, AMTA'24 GPT Summary- LLMsのファインチューニングに翻訳メモリ（TMs）を活用し、特定の組織向けの翻訳精度と効率を向上させる研究。5つの翻訳方向で異なるサイズのデータセットを用いて実験し、トレーニングデータが増えるほど翻訳パフォーマンスが向上することを確認。特に、1kおよび2kの例ではパフォーマンスが低下するが、データセットのサイズが増加するにつれて改善が見られる。LLMsとTMsの統合により、企業特有のニーズに応じたカスタマイズ翻訳モデルの可能性を示唆。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel Issue Date: 2024-11-20 Prompting Large Language Model for Machine Translation: A Case Study, Biao Zhang+, arXiv'23 GPT Summary- 機械翻訳におけるプロンプティングの研究を体系的に行い、プロンプトテンプレートやデモ例の選択に影響を与える要因を検討。GLM-130Bを用いた実験により、プロンプト例の数と質が翻訳に重要であること、意味的類似性などの特徴がパフォーマンスと相関するが強くないこと、単言語データからの擬似平行プロンプト例が翻訳を改善する可能性があること、他の設定からの知識転送がパフォーマンス向上に寄与することを示した。プロンプティングの課題についても議論。 Comment

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #LM-based #Coherence Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #Unsupervised #SpeechProcessing #Speech Issue Date: 2023-07-15 Simple and Effective Unsupervised Speech Translation, ACL'23 GPT Summary- 音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。 #Pocket #LanguageModel #Annotation #TransferLearning #MultiLingual #ACL Issue Date: 2023-05-04 Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, ACL'23 GPT Summary- - 多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つ- スパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要- マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行った- EasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示した- すべてのコードとデータが公開される #Pocket #Dataset Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv'22 GPT Summary- 「No Language Left Behind」プロジェクトでは、リソースが乏しい言語の機械翻訳を改善するために、ネイティブスピーカーとのインタビューを通じて必要性を明らかにし、データセットとモデルを開発。新しいデータマイニング技術を用いた条件付き計算モデルを提案し、過学習を防ぐための訓練改善を行った。Flores-200ベンチマークで40,000以上の翻訳方向を評価し、従来技術に対して44%のBLEU改善を達成。全ての成果はオープンソースとして公開。 Comment

low-resourceな言語に対するMTのベンチマーク

#NeuralNetwork #Embeddings #Pocket #AAAI Issue Date: 2021-06-07 Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, AAAI'22 Comment

NMTにおいてword embeddingがどう影響しているかなどを調査しているらしい

#Analysis #NaturalLanguageGeneration #Metrics #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#Metrics #Pocket #Evaluation #EMNLP #Selected Papers/Blogs Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 GPT Summary- COMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 Comment

ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう

#Analysis #NaturalLanguageGeneration #Metrics #Pocket #Evaluation Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #NeuralNetwork #Transformer #pretrained-LM Issue Date: 2022-12-01 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Rothe+, Google Research, TACL'20 Comment

#DocumentSummarization #Evaluation #TrainedMetrics Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv'19 GPT Summary- 私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #NeuralNetwork #Pocket #TransferLearning #MultiLingual #Zero/FewShotLearning #TACL #Encoder-Decoder #LowResource Issue Date: 2025-11-19 [Paper Note] Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, Melvin Johnson+, TACL'17, 2016.11 GPT Summary- 単一のNMTモデルを用いて多言語翻訳を実現するシンプルな手法を提案。入力文の先頭に人工トークンを追加することでターゲット言語を指定し、モデルのアーキテクチャは変更せずに共有語彙を使用。これにより、パラメータを増やさずに翻訳品質を向上させ、WMT'14およびWMT'15ベンチマークで最先端の結果を達成。訓練中に見たことのない言語ペア間での暗黙のブリッジングを学習し、転移学習とゼロショット翻訳の可能性を示す。 Comment

バックボーン:
- [Paper Note] Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, Yonghui Wu+, arXiv'16, 2016.09

#NeuralNetwork #Pocket #Transformer #Attention #PositionalEncoding #NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-19 [Paper Note] Attention Is All You Need, Ashish Vaswani+, arXiv'17 GPT Summary- Transformerは、再帰や畳み込みを排除し、注意機構のみに基づいた新しいネットワークアーキテクチャである。実験により、機械翻訳タスクで優れた品質を示し、トレーニング時間を大幅に短縮。WMT 2014の英独翻訳で28.4 BLEU、英仏翻訳で41.8 BLEUを達成し、既存モデルを上回る性能を示した。また、英語の構文解析にも成功裏に適用可能であることを示した。 Comment

分かりやすい:
https://qiita.com/halhorn/items/c91497522be27bde17ce

Transformerの各コンポーネントでのoutputのshapeや、attention_maskの形状、実装について記述されており有用:
https://qiita.com/FuwaraMiyasaki/items/239f3528053889847825

集合知

#NeuralNetwork #Tutorial Issue Date: 2018-01-15 ゼロから始めるニューラルネットワーク機械翻訳, 中澤敏明, NLP'17 Comment

中澤さんによるNMTチュートリアル。

#NeuralNetwork #Pocket #ACL Issue Date: 2017-12-28 [Paper Note] What do Neural Machine Translation Models Learn about Morphology?, Yonatan Belinkov+, ACL'17 Comment

http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/06.pdf

(2025.05.12追記)
上記は2017年にすずかけ台で開催されたACL 2017読み会での解説スライドです。

#NeuralNetwork #ACL Issue Date: 2017-12-28 [Paper Note] Sequence-to-Dependency Neural Machine Translation, Wu+, ACL'17 #NeuralNetwork #Pocket #EMNLP Issue Date: 2017-12-28 [Paper Note] Neural Machine Translation with Source-Side Latent Graph Parsing, Kazuma Hashimoto+, EMNLP'17, 2017.02 GPT Summary- 翻訳と潜在グラフ表現を共同で学習する新しいニューラル機械翻訳モデルを提案。エンドツーエンドのアプローチで、パーサーが翻訳目的に最適化される。実験により、従来のモデルと比較して優れた性能を示し、少量のツリーバンク注釈でさらに性能向上。最終的なアンサンブルモデルは、英日翻訳データセットで従来の最良モデルを大幅に上回る結果を得た。 #NeuralNetwork #Pocket #Subword #Tokenizer #Encoder-Decoder #RecurrentModels Issue Date: 2025-11-19 [Paper Note] Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation, Yonghui Wu+, arXiv'16, 2016.09 GPT Summary- GNMTは、計算コストの高いNMTの問題に対処するために、8層のLSTMネットワークを用い、注意機構と残差接続を採用。希少な単語の処理を改善するために、一般的なサブワードユニットに分割し、翻訳精度を向上。ビームサーチ技術により、出力文のカバレッジを高め、WMT'14のベンチマークで最先端の結果を達成し、翻訳エラーを60％削減。 Comment

GNMT論文。wordpieceを提案

日本語解説: https://deeplearning.hatenablog.com/entry/gnmt

#NeuralNetwork #Pocket #Subword #Tokenizer Issue Date: 2025-11-19 [Paper Note] Neural Machine Translation of Rare Words with Subword Units, Rico Sennrich+, ACL'16, 2015.08 GPT Summary- NMTモデルは固定語彙で動作するが、オープンボキャブラリー翻訳を可能にするために、希少な単語や未知の単語をサブワードユニットとしてエンコードする新しいアプローチを提案。さまざまな単語クラスを小さな単位で翻訳可能とし、文字n-gramモデルやバイトペアエンコーディングを用いたセグメンテーション技術の効果を実証。WMT 15翻訳タスクでバックオフ辞書のベースラインをそれぞれ1.1および1.3 BLEUポイント上回る成果を示した。 Comment

subwordが初めて提案された研究

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#NeuralNetwork #ACL #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] Pointing the unknown words, Gulcehre+, ACL'16 Comment

テキストを生成する際に、source textからのコピーを行える機構を導入することで未知語問題に対処した話

CopyNetと同じタイミングで（というか同じconferenceで）発表

#NeuralNetwork #Pocket #Attention #ICLR #Selected Papers/Blogs Issue Date: 2025-05-12 Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR'15 GPT Summary- ニューラル機械翻訳は、エンコーダー-デコーダーアーキテクチャを用いて翻訳性能を向上させる新しいアプローチである。本論文では、固定長のベクトルの使用が性能向上のボトルネックであるとし、モデルが関連するソース文の部分を自動的に検索できるように拡張することを提案。これにより、英語からフランス語への翻訳タスクで最先端のフレーズベースシステムと同等の性能を達成し、モデルのアライメントが直感と一致することを示した。 Comment

(Cross-)Attentionを初めて提案した研究。メモってなかったので今更ながら追加。Attentionはここからはじまった（と認識している）

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Reference-based Issue Date: 2023-08-13 chrF: character n-gram F-score for automatic MT evaluation, Mono Popovic, WMT'15 GPT Summary- 私たちは、機械翻訳の評価に文字n-gram Fスコアを使用することを提案します。私たちは、このメトリックがシステムレベルとセグメントレベルで人間のランキングと相関しており、特にセグメントレベルでの相関が非常に高いことを報告しました。この提案は非常に有望であり、WMT14の共有評価タスクでも最高のメトリックを上回りました。 Comment

character-basedなn-gram overlapをreferenceとシステムで計算する手法

#Pocket #Evaluation Issue Date: 2023-08-13 Document-Level Machine Translation Evaluation with Gist Consistency and Text Cohesion, Gong+, DiscoMT'15 #NeuralNetwork #EMNLP #Selected Papers/Blogs Issue Date: 2021-06-02 Effective Approaches to Attention-based Neural Machine Translation, Luong+, EMNLP'15 Comment

やはり菊池さんの解説スライドが鉄板。

https://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #Alignment Issue Date: 2018-01-15 [Paper Note] The Mathematics of Statistical Machine Translation: Parameter Estimation, Brown+, CL'13 Comment

IBMモデル論文。

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#LanguageModel #Selected Papers/Blogs Issue Date: 2024-12-24 Large Language Models in Machine Translation, Brants+, EMNLP-CoNLL'07 GPT Summary- 本論文では、機械翻訳における大規模な統計的言語モデルの利点を報告し、最大2兆トークンでトレーニングした3000億n-gramのモデルを提案。新しいスムージング手法「Stupid Backoff」を導入し、大規模データセットでのトレーニングが安価で、Kneser-Neyスムージングに近づくことを示す。 Comment

元ポスト:

Loading…

Large Language Modelsという用語が利用されたのはこの研究が初めてなのかも…？

#Metrics Issue Date: 2021-06-25 機械翻訳自動評価指標の比較, 今村+, NLP'04 Comment

実際に研究等でBLEUスコアを測りたい場合は、mosesの実装を使うのが間違いない:

https://github.com/moses-smt/mosesdecoder/blob/master/scripts/generic/multi-bleu.perl

#Tools #Alignment Issue Date: 2018-01-15 [Paper Note] A systematic comparison of various statistical alignment models, Och+, CL'03 Comment

Giza++
標準的に利用される単語アライメントツール

評価の際は、Sure, Possibleの二種類のラベルによる単語アライメントのground-truth作成も行っている

#Alignment #COLING Issue Date: 2018-01-15 [Paper Note] HMM-based word alignment in statistical translation, Vogel+, COLING'96 #Article #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #OpenWeight #Japanese #DocParser Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #LanguageModel #MultiModal #Blog #ProprietaryLLM Issue Date: 2025-09-24 Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It！, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #LanguageModel #OpenWeight #Selected Papers/Blogs Issue Date: 2025-09-01 Hunyuan-MT-7B, Tencent, 2025.09 Comment

テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

元ポスト:

Loading…

#Article #LanguageModel #SmallModel #MultiLingual #OpenWeight Issue Date: 2025-07-18 Seed-X-Instruct-7B, ByteDance-Seed, 2025.07 Comment

元ポスト:

Loading…

MTに特化したMultilingual SLM。7Bモデルだがベンチマーク上では他の大規模なモデルと同等以上。

テクニカルレポート: https://github.com/ByteDance-Seed/Seed-X-7B/blob/main/Technical_Report.pdf

#Article #Dataset #SyntheticData #Blog Issue Date: 2025-07-09 PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07 #Article #Dataset #Zero/Few/ManyShotPrompting Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment

元ポスト:

Loading…

#Article #Metrics Issue Date: 2023-05-10 METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Banerjee+, CMU, ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and_or Summarization Comment

#Article #NeuralNetwork #NAACL Issue Date: 2021-06-03 Probing Word Translations in the Transformer and Trading Decoder for Encoder Layers, NAACL‘21 Comment

Transformerに基づいたNMTにおいて、Encoderが入力を解釈し、Decoderが翻訳をしている、という通説を否定し、エンコーディング段階、さらにはinput embeddingの段階でそもそも翻訳が始まっていることを指摘。
エンコーディングの段階ですでに翻訳が始まっているのであれば、エンコーダの層を増やして、デコーダの層を減らせば、デコーディング速度を上げられる。
通常はエンコーダ、デコーダともに6層だが、10-2層にしたらBLEUスコアは変わらずデコーディングスピードは2.3倍になった。
18-4層の構成にしたら、BLEUスコアも1.42ポイント増加しデコーディング速度は1.4倍になった。

この研究は個人的に非常に興味深く、既存の常識を疑い、分析によりそれを明らかにし、シンプルな改善で性能向上およびデコーディング速度も向上しており、とても好き。

#Article #Tutorial #Alignment #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

DataToTextGeneration (37)

#NaturalLanguageGeneration #Pocket #Prompting #NumericReasoning
Issue Date: 2024-04-04 Prompting for Numerical Sequences: A Case Study on Market Comment Generation, Masayuki Kawarada+, N_A, arXiv'24 GPT Summary- LLMsは、構造化データに対するプロンプト生成に関する研究が進んでいるが、時系列数値データに関する詳細な調査が不足している。本研究では、株価の数値系列を入力として市場コメントを生成するタスクに焦点を当て、さまざまな入力表現を探究する。実験結果は、プログラミング言語に似たプロンプトがより良い結果をもたらすことを示しており、数値系列からテキストを生成する際の効果的なプロンプト作成について示唆を提供している。 Comment

#Survey #LanguageModel #TabularData
Issue Date: 2024-03-05 Large Language Models（LLMs） on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv'24 GPT Summary- 最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 Comment

Tabular DataにおけるLLM関連のタスクや技術等のサーベイ

#Pocket #LanguageModel #TabularData #ICLR
Issue Date: 2024-01-24 Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding, Zilong Wang+, N_A, ICLR'24 GPT Summary- LLMsを使用したChain-of-Tableフレームワークは、テーブルデータを推論チェーン内で活用し、テーブルベースの推論タスクにおいて高い性能を発揮することが示された。このフレームワークは、テーブルの連続的な進化を表現し、中間結果の構造化情報を利用してより正確な予測を可能にする。さまざまなベンチマークで最先端のパフォーマンスを達成している。 Comment

#NaturalLanguageGeneration #MultitaskLearning #Zero/FewShotLearning Issue Date: 2023-07-18 Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning, ACL'23 GPT Summary- この論文では、構造化データからテキストを生成する新しいアプローチを提案しています。提案手法は、さまざまな形式のデータを処理できる統一された表現を提供し、マルチタスクトレーニングやゼロショット学習などのシナリオでのパフォーマンスを向上させることを目指しています。実験結果は、提案手法が他の方法と比較して優れた性能を示していることを示しています。これは、データからテキスト生成フレームワークにおける重要な進歩です。 #NaturalLanguageGeneration #Pocket #StructuredData Issue Date: 2023-10-28 MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation, Swarnadeep Saha+, N_A, arXiv'22 GPT Summary- 本研究では、半構造化データからのテキスト生成における多段階の推論を行うためのMURMURという手法を提案しています。MURMURは、特定の言語的および論理的なスキルを持つニューラルモジュールと記号モジュールを組み合わせ、ベストファーストサーチ手法を使用して推論パスを生成します。実験結果では、MURMURは他のベースライン手法に比べて大幅な改善を示し、また、ドメイン外のデータでも同等の性能を達成しました。さらに、人間の評価では、MURMURは論理的に整合性のある要約をより多く生成することが示されました。 #NeuralNetwork #NaturalLanguageGeneration #Pocket #Dataset #INLG Issue Date: 2022-08-18 [Paper Note] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan Yermakov+, arXiv'21, 2021.09 GPT Summary- バイオメディカル分野におけるD2T生成の研究を行い、医薬品のパッケージリーフレットを用いた実世界のデータセットに対してファインチューニングされたトランスフォーマーを適用。現実的な複数文のテキスト生成が可能であることを示す一方で、重要な制限も存在。新たにバイオメディカル分野のD2T生成モデルのベンチマーク用データセット（BioLeaflets）を公開。 Comment

biomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。

#NeuralNetwork #NaturalLanguageGeneration #Pocket Issue Date: 2021-10-08 過去情報の内容選択を取り入れたスポーツダイジェストの自動生成, 加藤+, 東工大, NLP'21 #NeuralNetwork #NaturalLanguageGeneration #LanguageModel #pretrained-LM #Zero/FewShotLearning Issue Date: 2022-12-01 Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL'20 Comment

#NeuralNetwork #NaturalLanguageGeneration #pretrained-LM Issue Date: 2022-12-01 Template Guided Text Generation for Task-Oriented Dialogue, Kale+, Google, EMNLP'20 Comment

low resourceなデータセットで活用できそう

#NeuralNetwork #NaturalLanguageGeneration #Transformer Issue Date: 2022-09-16 Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG'20 Comment

# 所感

こんな簡単なfine-tuningでSoTAを達成できてしまうとは、末恐ろしい。ベースラインとして有用。

#PersonalizedDocumentSummarization #DocumentSummarization #NaturalLanguageGeneration #Metrics #ConceptToTextGeneration #DialogueGeneration #PersonalizedGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#NeuralNetwork #NaturalLanguageGeneration #EMNLP Issue Date: 2021-10-08 Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions （Row, Column and Time）, Gong+, Harbin Institute of Technology, EMNLP'19 Comment

RG, CS, CO, BLEUスコア、全てにおいてBaselineを上回っている（RGのTemplateを除く）。

実装: https://github.com/ernestgong/data2text-three-dimensions/

#NeuralNetwork #NaturalLanguageGeneration #AAAI Issue Date: 2021-06-26 Data-to-Text Generation with Content Selection and Planning, Puduppully+, AAAI'19 Comment

実装: https://github.com/ratishsp/data2text-plan-py

#NeuralNetwork #NaturalLanguageGeneration #Dataset #TabularData #ACL #Encoder-Decoder Issue Date: 2025-08-06 Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18 Comment

データセットの日本語解説（過去の自分の資料）: https://speakerdeck.com/akihikowatanabe/data-to-text-datasetmatome-summary-of-data-to-text-datasets?slide=66

#NeuralNetwork #NaturalLanguageGeneration #COLING Issue Date: 2021-10-25 Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism., Li+, Peking University, COLING'18 Comment

#NeuralNetwork #NaturalLanguageGeneration #EMNLP Issue Date: 2021-09-16 Operation-guided Neural Networks for High Fidelity Data-To-Text Generation, Nie+, Sun Yat-Sen University, EMNLP'18 Comment

#NumericReasoning #Financial #ACL #numeric #Encoder-Decoder Issue Date: 2025-11-27 [Paper Note] Learning to Generate Market Comments from Stock Prices, Murakami+, ACL'17 GPT Summary- 株価から市場コメントを生成する新しいエンコーダ-デコーダモデルを提案。モデルは短期・長期の株価変化をエンコードし、適切な算術演算を選択して数値を生成。実験により、最良モデルが人間の生成したテキストに近い流暢さと情報量を持つことが確認された。 #NeuralNetwork #NaturalLanguageGeneration #EMNLP #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Challenges in Data-to-Document Generation, Wiseman+ （with Rush）, EMNLP'17 Comment

・RotoWire（NBAのテーブルデータ + サマリ）データを収集し公開

・Rotowireデータの統計量

#NeuralNetwork #NaturalLanguageGeneration #Controllable #ConceptToTextGeneration #ICML Issue Date: 2017-12-31 [Paper Note] Toward Controlled Generation of Text, Hu+, ICML'17 Comment

VAEは通常のAutoEncoderと比較して、奥が深くて勉強してみておもしろかった。 Reparametrization Trickなどは知らなかった。

管理人による解説資料:
[Controllable Text Generation.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1595121/Controllable.Text.Generation.pdf)

slideshare: https://www.slideshare.net/akihikowatanabe3110/towards-controlled-generation-of-text

#Survey #NaturalLanguageGeneration #Pocket #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。 #Survey #NaturalLanguageGeneration #Pocket #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#NaturalLanguageGeneration #Others #CIKM Issue Date: 2017-12-31 [Paper Note] Deep Match between Geology Reports and Well Logs Using Spatial Information, Tong+, CIKM'16 #Survey #NaturalLanguageGeneration #Pocket #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#NaturalLanguageGeneration #Others #ACL Issue Date: 2017-12-31 [Paper Note] Comparing Multi-label Classification with Reinforcement Learning for Summarization of Time-series Data, Gkatzia+, ACL'14 #NaturalLanguageGeneration #RuleBased Issue Date: 2017-12-31 [Paper Note] Generating approximate geographic descriptions, Turner+, ENLG'10 #NaturalLanguageGeneration #SingleFramework #EMNLP Issue Date: 2017-12-31 [Paper Note] A simple domain-independent probabilistic approach to generation, Angeli+, EMNLP'10 #NaturalLanguageGeneration #SingleFramework Issue Date: 2017-12-31 [Paper Note] Training a multilingual sportscaster: Using perceptual context to learn language, Chen+, Artificial Intelligence Research'10, 2010.01 #NaturalLanguageGeneration #Others Issue Date: 2017-12-31 [Paper Note] Verbalizing time-series data: with an example of stock price trends, Kobayashi+, IFSA-EUSFLAT'09 Comment

小林先生の論文

Least Square Methodによって数値データにfittingするcurveを求める。

curveの特徴から、生成するテキストのtrendsを決定する。

#NaturalLanguageGeneration #SingleFramework #ICML Issue Date: 2017-12-31 [Paper Note] Learning to sportscast: a test of grounded language acquisition, Chen+, ICML'08 #Survey #NaturalLanguageGeneration #ConceptToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#NaturalLanguageGeneration #RuleBased Issue Date: 2017-12-31 [Paper Note] Choosing words in computer-generated weather forecasts, Reiter+, Artificial Intelligence'05 Comment

#NaturalLanguageGeneration #RuleBased Issue Date: 2017-12-31 [Paper Note] Using natural language processing to produce weather forecasts, Goldberg+, IEEE Expert: Intelligent Systems and Their Applications'94 Comment

#NaturalLanguageGeneration #RuleBased #ACL Issue Date: 2017-12-31 [Paper Note] Design of a knowledge-based report generator, Kukich, ACL'83 Comment

Data2Textの先駆け論文。引用すべし。多くの研究で引用されている。

#Article #Survey #NaturalLanguageGeneration #Dataset #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #NaturalLanguageGeneration #Others Issue Date: 2017-12-31 [Paper Note] Automatically generated linguistic summaries of energy consumption data, van der Heide+, In Proceedings of the Ninth International Conference on Intelligent Systems Design and Applications, pages 553-559, 2009.11 #Article #NaturalLanguageGeneration #Others Issue Date: 2017-12-31 [Paper Note] A framework for automatic text generation of trends in physiological time series data, Banaee+, In Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, 2013.10 #Article #NeuralNetwork #NaturalLanguageGeneration #NAACL Issue Date: 2017-12-31 [Paper Note] What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment, Mei+, NAACL-HLT’16 Comment

PersonalizedDocumentSummarization (36)

#PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note
Issue Date: 2023-07-22 [Paper Note] Generating User-Engaging News Headlines, Cai+, ACL'23 GPT Summary- ニュース記事の見出しを個別化するために、ユーザープロファイリングを組み込んだ新しいフレームワークを提案。ユーザーの閲覧履歴に基づいて個別のシグネチャフレーズを割り当て、それを使用して見出しを個別化する。幅広い評価により、提案したフレームワークが多様な読者のニーズに応える個別の見出しを生成する効果を示した。 Comment

# モチベーション

推薦システムのヘッドラインは未だに全員に同じものが表示されており、ユーザが自身の興味とのつながりを正しく判定できるとは限らず、推薦システムの有用性を妨げるので、ユーザごとに異なるヘッドラインを生成する手法を提案した。ただし、クリックベイトは避けるようなヘッドラインを生成しなければならない。

# 手法

1. Signature Phrase Identification

2. User Signature Selection

3. Signature-Oriented Headline Generation

## Signature Phrase Identification

テキスト生成タスクに帰着させる。ニュース記事、あるいはヘッドラインをinputされたときに、セミコロン区切りのSignature Phraseを生成するモデルを用いる。今回は[KPTimes daasetでpretrainingされたBART]( https://huggingface.co/ankur310794/bart-base-keyphrase-generation-kpTimes)を用いた。KPTimesは、279kのニュース記事と、signature phraseのペアが存在するデータであり、本タスクに最適とのこと。

## User Signature Selection

ターゲットドキュメントdのSignature Phrases Z_dが与えられたとき、ユーザのreading History H_uに基づいて、top-kのuser signature phrasesを選択する。H_uはユーザが読んだニュースのヘッドラインの集合で表現される。あるSignature Phrase z_i ∈ Z_dが与えられたとき、(1)H_uをconcatしたテキストをベクトル化したものと、z_iのベクトルの内積でスコアを計算、あるいは(2) 個別のヘッドラインt_jを別々にエンコーディングし、内積の値が最大のものをスコアとする手法の2種類のエンコーディング方法を用いて、in-batch contrastive learningを用いてモデルを訓練する。つまり、正しいSignature Phraseとは距離が近く、誤ったSignature Phraseとは距離が遠くなるように学習をする。

実際はユーザにとっての正解Signature Phraseは分からないが、今回は人工的に作成したユーザを用いるため、正解が分かる設定となっている。

## Signature-Oriented Headline Generation

ニュース記事d, user signature phrasesZ_d^uが与えられたとき、ヘッドラインを生成するモデルを訓練する。この時も、ユーザにとって正解のヘッドラインは分からないため、既存ニュースのヘッドラインが正解として用いられる。既存ニュースのヘッドラインが正解として用いられていても、そのヘッドラインがそのユーザにとっての正解となるように人工的にユーザが作成されているため、モデルの訓練ができる。モデルはBARTを用いた。

# Dataset

Newsroom, Gigawordコーパスを用いる。これらのコーパスに対して、それぞれ2種類のコーパスを作成する。

1つは、Synthesized User Datasetで、これはUse Signature Selection modelの訓練と評価に用いる。もう一つはheadline generationデータセットで、こちらはheadline generationモデルの訓練に利用する。

## Synthesized User Creation

実データがないので、実ユーザのreading historiesを模倣するように人工ユーザを作成する。具体的には、

1. すべてのニュース記事のSignature Phrasesを同定する

2. それぞれのSignature Phraseと、それを含むニュース記事をマッピングする

3. ランダムにphraseのサブセットをサンプリングし、そのサブセットをある人工ユーザが興味を持つエリアとする。

4. サブセット中のinterest phraseを含むニュース記事をランダムにサンプリングし、ユーザのreading historyとする

train, dev, testセット、それぞれに対して上記操作を実施しユーザを作成するが、train, devはContrastive Learningを実現するために、user signature phrases (interest phrases)は1つのみとした（Softmaxがそうなっていないと訓練できないので）。一方、testセットは1~5の範囲でuser signature phrasesを選択した。これにより、サンプリングされる記事が多様化され、ユーザのreadinig historyが多様化することになる。基本的には、ユーザが興味のあるトピックが少ない方が、よりタスクとしては簡単になることが期待される。また、ヘッドラインを生成するときは、ユーザのsignature phraseを含む記事をランダムに選び、ヘッドラインを背衛星することとした。これは、relevantな記事でないとヘッドラインがそもそも生成できないからである。

## Headline Generation

ニュース記事の全てのsignature phraseを抽出し、それがgivenな時に、元のニュース記事のヘッドラインが生成できるようなBARTを訓練した。ニュース記事のtokenは512でtruncateした。平均して、10個のsignature phraseがニュース記事ごとに選択されており、ヘッドライン生成の多様さがうかがえる。user signature phraseそのものを用いて訓練はしていないが、そもそもこのようにGenericなデータで訓練しても、何らかのphraseがgivenな時に、それにバイアスがかかったヘッドラインを生成することができるので、user signature phrase selectionによって得られたphraseを用いてヘッドラインを生成することができる。

# 評価

自動評価と人手評価をしている。

## 自動評価

人手評価はコストがかかり、特に開発フェーズにおいては自動評価ができることが非常に重要となる。本研究では自動評価し方法を提案している。Headline-User DPR + SBERT, REC Scoreは、User Adaptation Metricsであり、Headline-Article DPR + SBERT, FactCCはArticle Loyalty Metricsである。

### Relevance Metrics

PretrainedなDense Passage Retrieval (DPR)モデルと、SentenceBERTを用いて、headline-user間、headline-article間の類似度を測定する。前者はヘッドラインがどれだけユーザに適応しているが、後者はヘッドラインが元記事に対してどれだけ忠実か（クリックベイトを防ぐために）に用いられる。前者は、ヘッドラインとuser signaturesに対して類似度を計算し、後者はヘッドラインと記事全文に対して類似度を計算する。user signatures, 記事全文をどのようにエンコードしたかは記述されていない。

### Recommendation Score

ヘッドラインと、ユーザのreadinig historyが与えられたときに、ニュースを推薦するモデルを用いて、スコアを算出する。モデルとしては、MIND datsetを用いて学習したモデルを用いた。

### Factual Consistency

pretrainedなFactCCモデルを用いて、ヘッドラインとニュース記事間のfactual consisency score を算出する。

### Surface Overlap

オリジナルのヘッドラインと、生成されたヘッドラインのROUGE-L F1と、Extractive Coverage (ヘッドラインに含まれる単語のうち、ソースに含まれる単語の割合)を用いる。

### 評価結果

提案手法のうち、User Signature Selection modelをfinetuningしたものが最も性能が高かった。エンコード方法は、(2)のヒストリのタイトルとフレーズの最大スコアをとる方法が最も性能が高い。提案手法はUser Adaptationをしつつも、Article Loyaltyを保っている。このため、クリックベイトの防止につながる。また、Vanilla Humanは元記事のヘッドラインであり、Extracitve Coverageが低いため、より抽象的で、かつ元記事に対する忠実性が低いことがうかがえる。

## 人手評価

16人のevaluatorで評価。2260件のニュース記事を収集（113 topic）し、記事のヘッドラインと、対応するトピックを見せて、20個の興味に合致するヘッドラインを選択してもらった。これをユーザのinterest phraseとreading _historyとして扱う。そして、ユーザのinterest phraseを含むニュース記事のうち、12個をランダムに選択し、ヘッドラインを生成した。生成したヘッドラインに対して、

1. Vanilla Human

2. Vanilla System

3. SP random (ランダムにsignature phraseを選ぶ手法)

4. SP individual-N

5. SP individual-F (User Signature Phraseを選択するモデルをfinetuningしたもの)

の5種類を評価するよう依頼した。このとき、３つの観点から評価をした。

1, User adaptation

2. Headline appropriateness

3. Text Quality

結果は以下。

SP-individualがUser Adaptationで最も高い性能を獲得した。また、Vanilla Systemが最も高いHeadline appropriatenessを獲得した。しかしながら、後ほど分析した結果、Vanilla Systemでは、記事のメインポイントを押さえられていないような例があることが分かった（んーこれは正直他の手法でも同じだと思うから、ディフェンスとしては苦しいのでは）。

また、Vanilla Humanが最も高いスコアを獲得しなかった。これは、オーバーにレトリックを用いていたり、一般的な人にはわからないようなタイトルになっているものがあるからであると考えられる。

# Ablation Study

Signature Phrase selectionの性能を測定したところ以下の通りになり、finetuningした場合の性能が良かった。

Headline Generationの性能に影響を与える要素としては、

1. ユーザが興味のあるトピック数

2. User signature phrasesの数

がある。

ユーザのInterest Phrasesが増えていけばいくほど、User Adaptationスコアは減少するが、Article Loyaltyは維持されたままである。このため、興味があるトピックが多ければ多いほど生成が難しいことがわかる。また、複数のuser signature phraseを用いると、factual errorを起こすことが分かった（Billgates, Zuckerbergの例を参照）。これは、モデルが本来はirrelevantなフレーズを用いてcoherentなヘッドラインを生成しようとしてしまうためである。

※interest phrases => gold user signatures という理解でよさそう。

※signature phrasesを複数用いるとfactual errorを起こすため、今回はk=1で実験していると思われる

GPT3にもヘッドラインを生成させてみたが、提案手法の方が性能が良かった（自動評価で）。

なぜPENS dataset [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21
を利用しないで研究したのか？

#Pocket #Personalization #review
Issue Date: 2023-05-05 Towards Personalized Review Summarization by Modeling Historical Reviews from Customer and Product Separately, Xin Cheng+, N_A, arXiv'23 GPT Summary- レビュー要約は、Eコマースのウェブサイトにおいて製品レビューの主要なアイデアを要約することを目的としたタスクである。本研究では、評価情報を含む2種類の過去のレビューをグラフ推論モジュールと対比損失を用いて別々にモデル化するHHRRSを提案する。レビューの感情分類と要約を共同で行うマルチタスクフレームワークを採用し、4つのベンチマークデータセットでの徹底的な実験により、HHRRSが両方のタスクで優れた性能を発揮することが示された。 #Dataset #LanguageModel #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note
Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

#Pocket #review Issue Date: 2023-05-06 Transformer Reasoning Network for Personalized Review Summarization, Xu+, SIGIR'21 Comment

先行研究は、review summarizationにおいて生成されるsummaryは、過去にユーザが作成したsummaryのwriting styleやproductに非常に関係しているのに、これらを活用してこなかったので、活用しました（=personalized）という話っぽい

#Dataset #Personalization Issue Date: 2023-04-30 ニュース記事に対する談話構造と興味度のアノテーション～ニュース対話システムのパーソナライズに向けて～, 高津+, 早稲田大学, 言語処理学会'21 Comment

Issue Date: 2023-04-30 談話構造制約付きパーソナライズド抽出型要約, 高津+, 早稲田大学, 言語処理学会'21 #Pocket #review Issue Date: 2023-05-06 A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss, Hou Pong Chan+, N_A, arXiv'20 GPT Summary- ユーザーレビューから要約と感情を取得するために、新しいデュアルビューモデルを提案。エンコーダーがレビューの文脈表現を学習し、サマリーデコーダーが要約を生成。ソースビュー感情分類器はレビューの感情ラベルを予測し、サマリービュー感情分類器は要約の感情ラベルを予測。不一致損失を導入して、2つの分類器の不一致を罰することで、デコーダーが一貫した感情傾向を持つ要約を生成し、2つの感情分類器がお互いから学ぶことができるようになる。4つの実世界データセットでの実験結果は、モデルの効果を示している。 Comment

Review SummarizationとSentiment Classificationをjointで学習した研究。既存研究ではreviewのみからsentimentの情報を獲得する枠組みは存在したが、summaryの情報が活用できていなかった。

SNAP: Web data: Amazon reviews のratingをsentiment labelとして扱い、評価も同データを用いてROUGEで評価。

実際に生成されたレビュー例がこちら。なんの疑いもなくamazon online review datasetを教師データとして使っているが、果たしてこれでいいんだろうか？

論文冒頭のsummaryの例と、実際に生成された例を見ると、後者の方が非常に主観的な情報を含むのに対して、前者はより客観性が高いように思える。

しかし最初にこのデータセットを使ったのは A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification, Shuming Ma+, N/A, arXiv'18 の方っぽい

#DocumentSummarization #NaturalLanguageGeneration #Metrics #DataToTextGeneration #ConceptToTextGeneration #DialogueGeneration #PersonalizedGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#DocumentSummarization #Personalization Issue Date: 2023-05-08 Towards Personalized Review Summarization via User-Aware Sequence Network, Li+, AAAI'19 Comment

#Pocket #review Issue Date: 2023-05-06 A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification, Shuming Ma+, N_A, arXiv'18 GPT Summary- テキスト要約と感情分類を共同学習するための階層的なエンドツーエンドモデルを提案し、感情分類ラベルをテキスト要約の出力の「要約」として扱う。提案モデルはAmazonオンラインレビューデータセットでの実験で、抽象的な要約と感情分類の両方で強力なベースラインシステムよりも優れた性能を発揮することが示された。 Comment

review summarizationに初めてamazon online review data SNAP: Web data: Amazon reviews 使った研究？

#DocumentSummarization #InteractivePersonalizedSummarization #IntegerLinearProgramming (ILP) #Personalization #ACL #interactive #In-Depth Notes Issue Date: 2017-12-28 [Paper Note] Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL'17, 2017.08 GPT Summary- ユーザーフィードバックを活用した抽出的マルチドキュメント要約システムを提案。インタラクティブにフィードバックを取得し、ILPフレームワークを用いて要約の質を向上。最小限の反復で高品質な要約を生成し、シミュレーション実験で効果を分析。 Comment

#RecommenderSystems #Snippets #Explanation #PersonalizedGeneration #Personalization #WI Issue Date: 2025-11-27 [Paper Note] Generating Personalized Snippets for Web Page Recommender Systems, Akihiko+, WI-IAT'14 GPT Summary- ウェブページ推薦システムのために、ユーザーの興味を反映したパーソナライズされたスニペットを生成する新手法を提案。推薦理由を活用し、最大カバレッジ要約モデルを用いてスニペットを作成。実験結果では、提案手法が従来のパーソナライズされた要約モデルよりも効果的であることが示された。 Comment

ジャーナル（日本語）: https://www.jstage.jst.go.jp/article/tjsai/31/5/31_C-G41/_article/-char/en

#Personalization Issue Date: 2023-05-05 Context-enhanced personalized social summarization, Po+, COLING'12, 18 Comment

ざっくり言うと、ソーシャルタギングシステムにおいて、ユーザ uと類似したユーザのタグ付け情報と、原文書d _と同じトピックに属する文書をそれぞれ考慮することによって、ユーザのinterestに関する情報（と原文書のinformativenessに関する情報）を拡張し、これらの情報を活用して、全てのクラスタリングしたドキュメントの中で重要文をランキングした上で、対象文書に対するsentenceのみを冗長性がないように抽出することで、Personalized_ Summarizationしましょう、という話

#DocumentSummarization #QueryBiased Issue Date: 2017-12-28 [Paper Note] Personalized Text Summarization using NMF and Cluster Refinement, Park+, ICTC'11, 2011.09 Comment

#Multi #DocumentSummarization #InteractivePersonalizedSummarization #Personalization #EMNLP #Selected Papers/Blogs #interactive #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07 Comment

#Multi #DocumentSummarization #QueryBiased #Personalization #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Personalized Multi-Document Summarization using N-Gram Topic Model Fusion, Hennig+, SPIM'10, 2010.05 Comment

#Single #DocumentSummarization #Search #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Incremental Personalised Summarisation with Novelty Detection, Campana+, FQAS'09, 2009.10 Comment

https://link.springer.com/content/pdf/10.1007/978-3-642-04957-6_55.pdf

#Multi #DocumentSummarization #QueryBiased #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalized PageRank based Multi-document summarization, Liu+, WSCS'08, 2008.07 Comment

#Multi #DocumentSummarization #InformationRetrieval #QueryBiased #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalized Multi-document Summarization in Information Retrieval, Yang+, Machine Learning and Cybernetics'08, 2008.07 Comment

#DocumentSummarization #QueryBiased Issue Date: 2017-12-28 [Paper Note] Automatic Personalized Summarization using Non-negative Matrix Factorization and Relevance Measure, Park+, IWSCA'08, 2008.07 Comment

[Paper Note] Personalized Text Summarization using NMF and Cluster Refinement, Park+, ICTC'11, 2011.09 と同様

#DocumentSummarization #QueryBiased #PRICAI #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalized Summarization Agent Using Non-negative Matrix Factorization, Sun Park, PRICAI'08, 2008.12 Comment

#DocumentSummarization #Analysis #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Aspect-Based Personalized Text Summarization, Berkovsky+（Tim先生のグループ）, AH'2008, 2008.07 Comment

#DocumentSummarization #Personalization #WI #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Generating Personalized Summaries Using Publicly Available Web Documents, Kumar+, WI-IAT'08, 2008.12 Comment

#Multi #DocumentSummarization #Search #Personalization #NAACL #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] WebInEssence: A Personalized Web-Based Multi-Document Summarization and Recommendation System, Radev+, NAACL'01, 2001.06 Comment

Issue Date: 2023-05-13 The Identification of Important Concepts in Highly Structured Technical Papers, ACL-SIGIR'93 Comment

ユーザは自分が興味があるpartをsummary evaluationにおいて選択する傾向にある、ということを示した研究

#Article Issue Date: 2024-05-30 Using and Evaluating User Directed Summaries to Improve Information Access #Article #Pocket #Personalization Issue Date: 2023-05-05 Personalized news filtering and summarization on the web, Xindong+, 2011 IEEE 23rd International Conference on Tools with Artificial Intelligence, 29 Comment

summarizationではなく、keyword extractionの話だった

#Article #Personalization #review Issue Date: 2023-05-05 Personalized summarization of customer reviews based on user’s browsing history, Zehra+, International Journal on Computer Science and Information Systems 8.2, 12 #Article #Education #Personalization Issue Date: 2023-05-05 Towards personalized summaries in spanish based on learning styles theory, Uriel+, Res. Comput. Sci. 148.5, 1 #Article #Pocket #Education #Personalization Issue Date: 2023-05-05 Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model, Guangbing+, IEEE Fourth International Conference on Technology for Education, 2012, 22 #Article #Personalization Issue Date: 2023-05-05 Personalized text summarization based on important terms identification, Robert+, 23rd International Workshop on Database and Expert Systems Applications, 2012, 43 Comment

（あまりしっかりよめていない）

学習者のrevision（復習？）のための教材の要約手法の提案。personalizationするために、さまざまなRaterを定義し、Raterからの単語wに対する評価を集約し、最終的にuser-specificなsentence-term matrixを構築。 SVDを適用することで要約を作成する。personalizedな重み付けに活用されているものとしては、あるコンセプトiに対する学習者の習熟度に基づく重み付けや、学習者の教材に対するannnotationに関する情報などが、単語の重み付けに活用されている。

#Article #Pocket Issue Date: 2023-04-30 Personalized Extractive Summarization for a News Dialogue System, Takatsu+, SLT, 2021, 4 #Article Issue Date: 2023-04-07 User-centred versus system-centred evaluation of a personalization system, Diaz+, Information Processing & management, 2008 Comment

# Introduction

本研究では、web contentsのPersonalizationシステムにおいて、user-centered evaluationとsystem-centered evaluationの評価の問題を議論している。目的としては両者の評価を組み合わせることで、それぞれを個別に評価するよりも、よりinsightfulな見解を得ることができることを述べる。

- system-oriented evaluationの例: Text Retrieval Conference (TREC)：

- クエリごとに専門家がドキュメントコレクションの中から、どれだけ該当文書が合致しているかをラベル付する

- => ユーザごとの実際のrelevance judgmentを用いるのではなく、専門家によるラベルを用いて評価する

- => クエリに関連づけられた文書の適合性は、クエリが実行されたコンテキストに依存するため、専門家によるrelevance judgmentは現実に対する近似として捉えられる

- => ユーザの参加は必須ではない

- user centered evaluation

- ユーザの意見を収集し、ユーザのシステムに対する印象を手に入れようとするuser-orientedも実施されている

- qualitative, quantitative (recall and precision)の両方を収集することを目的としている場合があり、ユーザの参加が必須

#Article #Single #DocumentSummarization #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Segmentation Based, Personalized Web Page Summarization Model, [Journal of advances in information technology, vol. 3, no.3, 2012], 2012.08 Comment

#Article #DocumentSummarization #Personalization #ACL #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Automatic Text Summarization based on the Global Document Annotation, Nagao+, COLING-ACL;98, 1998.08 Comment

#Article #DocumentSummarization #Personalization #NAACL #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A Study for Documents Summarization based on Personal Annotation, Zhang+, HLT-NAACL-DUC’03, 2003.05 Comment

（過去に管理人が作成したスライドでの論文メモのスクショ）

重要論文だと思われる。

InstructionTuning (36)

#Pocket #LanguageModel #Alignment #SyntheticData #OpenWeight
Issue Date: 2025-10-23 [Paper Note] Extracting alignment data in open models, Federico Barbero+, arXiv'25, 2025.10 GPT Summary- 本研究では、ポストトレーニングモデルからアライメントトレーニングデータを抽出する方法を示し、埋め込みモデルが特定の能力向上に適していると主張します。文字列マッチングに依存せず、意味的類似性を捉えることで、抽出可能なデータ量を過小評価するリスクを明らかにしました。また、モデルはポストトレーニングフェーズで使用されたデータを再生でき、元のパフォーマンスを回復可能であることを示しました。研究は蒸留手法の影響についても議論します。 Comment

元ポスト:

Loading…

Magpieのような話だろうか？

#Pocket #LanguageModel #ReinforcementLearning #Evaluation #NeurIPS #RLVR #InstructionFollowingCapability
Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #SyntheticData #Reasoning
Issue Date: 2025-08-02 [Paper Note] CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks, Ping Yu+, arXiv'25 GPT Summary- CoT-Self-Instructを提案し、LLMに基づいて新しい合成プロンプトを生成する手法を開発。合成データはMATH500やAMC23などで既存データセットを超える性能を示し、検証不可能なタスクでも人間や標準プロンプトを上回る結果を得た。 Comment

元ポスト:

Loading…

#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #LanguageModel #RepresentationLearning #ContrastiveLearning #ICLR #Generalization #Decoder Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#ComputerVision #Pocket #Dataset #Evaluation #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pretraining #Pocket #LanguageModel #EMNLP Issue Date: 2025-06-25 [Paper Note] Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP'24 GPT Summary- 無監督のマルチタスク事前学習に加え、監視されたマルチタスク学習の可能性を探るために、Instruction Pre-Trainingフレームワークを提案。指示応答ペアを生成し、2億のペアを合成して実験を行い、事前学習モデルの性能を向上させることを確認。Instruction Pre-TrainingはLlama3-8BをLlama3-70Bと同等以上の性能に引き上げる。モデルやデータは公開されている。 #Pocket #Dataset #LanguageModel #Alignment #ICML #PostTraining Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。 #Pocket #LanguageModel #Alignment #EMNLP Issue Date: 2025-05-11 ORPO: Monolithic Preference Optimization without Reference Model, Jiwoo Hong+, EMNLP'24 GPT Summary- 本論文では、好みの整合性における監視付きファインチューニング（SFT）の重要性を強調し、わずかなペナルティで好みに整合したSFTが可能であることを示します。さらに、追加の整合性フェーズを必要としない新しいオッズ比最適化アルゴリズムORPOを提案し、これを用いて複数の言語モデルをファインチューニングした結果、最先端のモデルを上回る性能を達成しました。 Comment

ざっくり言うとinstruction tuningとalignmentを同時にできる手法らしいがまだ理解できていない

#EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-11-12 DELIFT: Data Efficient Language model Instruction Fine Tuning, Ishika Agarwal+, arXiv'24 GPT Summary- DELIFTという新しいアルゴリズムを提案し、ファインチューニングの各ステージでデータ選択を最適化。ペアワイズユーティリティメトリックを用いてデータの有益性を定量化し、最大70%のデータ削減を実現。計算コストを大幅に節約し、既存の方法を上回る効率性と効果を示す。 #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #read-later Issue Date: 2024-10-30 Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING'24 GPT Summary- LoRAは大規模言語モデルのファインチューニング手法で、特にマルチタスク設定での性能向上に挑戦する。本研究では、LoRAのパフォーマンスを多様なタスクとリソースで検証し、適切なランク設定により高リソース環境でもフルファインチューニングに匹敵する結果を得られることを示した。学習能力の制約がLoRAの一般化能力を高めることが明らかになり、LoRAの適用可能性を広げる方向性を示唆している。 Comment

Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N/A, EMNLP'22 も参照のこと

#Controllable #Pocket #LanguageModel #Length Issue Date: 2024-07-30 Following Length Constraints in Instructions, Weizhe Yuan+, N_A, arXiv'24 GPT Summary- アラインされた命令に従うモデルは、非アラインのモデルよりもユーザーの要求をよりよく満たすことができることが示されています。しかし、このようなモデルの評価には長さのバイアスがあり、訓練アルゴリズムは長い応答を学習することでこのバイアスを利用する傾向があることが示されています。本研究では、推論時に所望の長さ制約を含む命令で制御できるモデルの訓練方法を示します。このようなモデルは、長さ指示された評価において優れており、GPT4、Llama 3、Mixtralなどの標準的な命令に従うモデルを上回っています。 Comment

SoTA LLMがOutput長の制約に従わないことを示し、それを改善する学習手法LIFT-DPOを提案

元ツイート:

Loading…

#Pocket #LanguageModel #Alignment #LLM-as-a-Judge #SelfImprovement #ICML Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, ICML'24 GPT Summary- 将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment

#ComputerVision #Pretraining #Pocket #Transformer #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

#LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-04-26 Scaling Instruction-Finetuned Language Models, Chung+, Google, JMLR'24 GPT Summary- 指示ファインチューニングは、タスク数、モデルサイズ、チェーン・オブ・ソートデータを活用し、言語モデルの性能を向上させる手法である。Flan-PaLM 540Bは1.8Kタスクでファインチューニングされ、PaLM 540Bを上回る+9.4%の改善を達成し、MMLUで75.2%の性能を示した。Flan-T5も強力な少数ショット性能を発揮し、指示ファインチューニングは事前学習モデルの性能向上に寄与する。 Comment

T5をinstruction tuningしたFlanT5の研究

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #SelfCorrection Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv'23 GPT Summary- リフレクションチューニングという新手法を提案し、LLMsの自己改善を通じて低品質なトレーニングデータの問題に対処。オラクルLLMを用いてデータの質を向上させ、実験により再利用データで訓練されたLLMsが既存モデルを上回ることを示した。 Comment

Reflection-Tuningを提案している研究?

#Pocket #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #LanguageModel #InstructionGeneration Issue Date: 2023-10-26 Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models, Zhihan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の性能を向上させるための新しい手法であるAuto-Instructを提案しています。この手法では、LLMsが生成する指示の品質を自動的に向上させるために、多様な候補の指示を生成し、スコアリングモデルでランク付けします。実験結果では、Auto-Instructが人間による指示や既存のLLM生成指示を上回ることが示されています。また、他のLLMsでも顕著な汎化性能を示すことも確認されています。 Comment

#Pocket #Dataset #LanguageModel #NumericReasoning #Mathematics Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

#Pocket #Dataset #LanguageModel Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv'23 GPT Summary- 私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment

人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。
これにより高品質なinstruction following LLMの構築が可能

手法概要

参考:

Loading…

指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。

#Pocket #LanguageModel #Evaluation Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv'23 GPT Summary- 本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #Analysis #LanguageModel Issue Date: 2023-07-15 Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning, ACL'23 GPT Summary- 最近のinstruction tuning（IT）の研究では、追加のコンテキストを提供してモデルをファインチューニングすることで、ゼロショットの汎化性能を持つ素晴らしいパフォーマンスが実現されている。しかし、IT中にモデルがどのように指示を利用しているかはまだ研究されていない。本研究では、モデルのトレーニングを変更された指示と元の指示との比較によって、モデルがIT中に指示をどのように利用するかを分析する。実験の結果、トレーニングされたモデルは元の指示と同等のパフォーマンスを達成し、ITと同様のパフォーマンスを達成することが示された。この研究は、より信頼性の高いIT手法と評価の緊急性を強調している。 #DocumentSummarization #Abstractive #pretrained-LM Issue Date: 2023-07-13 Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization, ACL'23 GPT Summary- この論文では、新しい事前学習言語モデルであるZ-Code++を提案し、抽象的なテキスト要約に最適化されています。Z-Code++は、2つのフェーズの事前学習とディセントラル化アテンション層、およびエンコーダー内のフュージョンを使用しています。このモデルは、低リソースの要約タスクで最先端の性能を発揮し、パラメータ効率的であり、他の競合モデルを大幅に上回ります。 #Dataset Issue Date: 2023-07-13 Unnatural Instructions: Tuning Language Models with （Almost） No Human Labor, ACL'23 GPT Summary- 本研究では、人間の監督を必要としない方法で収集された大規模なデータセット「Unnatural Instructions」を紹介します。このデータセットを使用して、言語モデルのトレーニングを行い、既存のモデルを上回る性能を実現しました。これにより、クラウドソーシングに頼らずにデータセットを拡張し、多様性を持たせることができることが示されました。 #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ACL #In-Depth Notes Issue Date: 2023-03-30 [Paper Note] Self-Instruct: Aligning Language Models with Self-Generated Instructions, Yizhong Wang+, ACL'23, 2022.12 GPT Summary- Self-Instructフレームワークを提案し、事前学習済みの言語モデルが自ら生成した指示を用いてファインチューニングを行うことで、ゼロショットの一般化能力を向上させる。バニラGPT-3に適用した結果、Super-NaturalInstructionsで33%の性能向上を達成し、InstructGPT-001と同等の性能に到達。人間評価により、Self-Instructが既存の公共指示データセットよりも優れていることを示し、ほぼ注釈不要の指示調整手法を提供。大規模な合成データセットを公開し、今後の研究を促進する。 Comment

Alpacaなどでも利用されているself-instruction技術に関する論文

※ GPT3をfinetuningするのに、Instruction Dataを使った場合$338かかったっぽい。安い・・・。

LLMを使うだけでここまで研究ができる時代がきた

（最近は|現在は）プロプライエタリなLLMの出力を利用して競合するモデルを訓練することは多くの場合禁止されているので注意。

#LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-10-29 Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N_A, EMNLP'22 GPT Summary- Super-NaturalInstructionsを用いて、NLPモデルの未見タスクへの一般化能力を評価。1,616の多様なタスクと指示を含むベンチマークを作成し、76種類のタスクタイプをカバー。Tk-Instructモデルは、指示に従う訓練を受け、InstructGPTを9%以上上回る性能を示す。一般化能力をスケーリングパラメータに基づいて分析し、汎用的なNLPモデルの進展を促進することを目指す。 Comment

#Pocket #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-09-25 Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, N_A, ICLR'22 GPT Summary- 指示チューニングを用いて言語モデルのゼロショット学習能力を向上させる方法を提案。137BパラメータのモデルFLANは、60以上のNLPタスクでファインチューニングされ、未見のタスクで175B GPT-3を上回るパフォーマンスを示す。アブレーションスタディにより、ファインチューニングデータセットの数やモデルのスケールが成功に寄与することが確認された。 Comment

FLAN論文。Instruction Tuningを提案した研究。

#Article #LanguageModel #PostTraining #Selected Papers/Blogs Issue Date: 2025-05-12 Stanford Alpaca: An Instruction-following LLaMA Model, Taori +, 2023.03 Comment

今更ながらメモに追加。アカデミアにおけるOpenLLMに対するInstruction Tuningの先駆け的研究。

#Article #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

#Article #Dataset #LanguageModel Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #Dataset #SyntheticData #PostTraining Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment

元ポスト:

Loading…

Orca-AgenInstruct-1M microsoft/orca-agentinstruct-1M-v1, Microsoft, 2024.11 よりもSmolLMのSFTで各種ベンチで高い性能を獲得

#Article #Dataset #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #EfficiencyImprovement #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-10-08 Unsloth Comment

single-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ

#Article #LanguageModel #OpenWeight #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Comment

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明：

Loading…

#Article #Pretraining #Pocket #Dataset #LanguageModel #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #Dataset #DataDistillation Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

QuestionAnswering (34)

#Multi #ComputerVision #Pocket #Dataset #MultiModal #Conversation #VisionLanguageModel #2D (Image)
Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #Dataset #AIAgents #Evaluation #Coding #SoftwareEngineering
Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#ComputerVision #Pocket #Dataset #SyntheticData #MultiModal #Reasoning #EMNLP #PostTraining #VisionLanguageModel
Issue Date: 2025-08-21 [Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…

#Pocket #LanguageModel #KnowledgeGraph #Factuality #Reasoning #Test-Time Scaling #PostTraining Issue Date: 2025-05-20 Scaling Reasoning can Improve Factuality in Large Language Models, Mike Zhang+, arXiv'25 GPT Summary- 本研究では、オープンドメインの質問応答における大規模言語モデル（LLM）の推論能力を検討し、推論の痕跡を抽出してファインチューニングを行った。知識グラフからの情報を導入し、168回の実験を通じて170万の推論を分析した結果、小型モデルが元のモデルよりも事実の正確性を顕著に改善し、計算リソースを追加することでさらに2-8%の向上が確認された。実験成果は公開され、さらなる研究に寄与する。 Comment

元ポスト:

Loading…

#Dataset #LanguageModel Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv'25 GPT Summary- SuperGPQAを提案し、285の専門分野におけるLLMsの知識と推論能力を評価する新しいベンチマークを構築。Human-LLM協調フィルタリングを用いて、トリビアルな質問を排除。実験結果は、最先端のLLMsに改善の余地があることを示し、人工一般知能とのギャップを強調。大規模なアノテーションプロセスから得た洞察は、今後の研究に対する方法論的ガイダンスを提供。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #Pocket #Dataset #LanguageModel #Evaluation #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #Zero/Few/ManyShotPrompting #Chain-of-Thought #RAG(RetrievalAugmentedGeneration) #Reasoning Issue Date: 2025-01-03 AutoReason: Automatic Few-Shot Reasoning Decomposition, Arda Sevinc+, arXiv'24 GPT Summary- Chain of Thought（CoT）を用いて、暗黙のクエリを明示的な質問に分解することで、LLMの推論能力を向上させる自動生成システムを提案。StrategyQAとHotpotQAデータセットで精度向上を確認し、特にStrategyQAで顕著な成果を得た。ソースコードはGitHubで公開。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #SyntheticData #SyntheticDataGeneration Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv'24 GPT Summary- 新手法「Source2Synth」を提案し、LLMに新しいスキルを教える。人間の注釈に依存せず、実世界のソースに基づいた合成データを生成し、低品質な生成物を廃棄してデータセットの質を向上。マルチホップ質問応答と表形式の質問応答に適用し、WikiSQLで25.51%、HotPotQAで22.57%の性能向上を達成。 Comment

Loading…

MultiHopQAの合成データ生成方法

TableQAの合成データ生成方法

#Pocket #Dataset #LanguageModel #COLM Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 GPT Summary- 私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment

該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。
元ツイート:

Loading…

OpenReview: https://openreview.net/forum?id=Ti67584b98

#LanguageModel #Prompting #EMNLP Issue Date: 2023-10-30 Re-Reading Improves Reasoning in Language Models, Xiaohan Xu+, N_A, EMNLP'24 GPT Summary- 大規模言語モデル（LLMs）において、推論は重要で困難な問題です。従来のアプローチでは、プロンプティング戦略を開発することに焦点が当てられてきましたが、双方向の相互作用や質問の重要性には注意が払われていませんでした。この問題に対処するため、質問の再読という新しいプロンプティング戦略を提案します。再読は、質問情報を再訪することで、LLMsの推論能力を向上させることができます。実験結果は、この手法の効果と汎用性を示しており、LLMsの領域でのその有用性を強調しています。 Comment

このpromptingは複雑な問題であればあるほど効果があると推察される。

#ComputerVision #Pocket #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, CVPR'24 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment

画像分析が可能なオープンソースLLMとのこと。

# Overview

画像生成をできるわけではなく、inputとして画像を扱えるのみ。

pj page: https://llava-vl.github.io

#LanguageModel #Chain-of-Thought #Prompting #Hallucination #ACL #Selected Papers/Blogs #Verification Issue Date: 2023-09-30 [Paper Note] Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, ACL'24 GPT Summary- 私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification（CoVe）メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment

#Analysis #Pocket #LanguageModel Issue Date: 2023-12-04 Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text, Qi Cao+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の内部動作についての新しい洞察を提供します。特に、GPT-4を調査し、LLMsの耐久性に関する実験結果を示します。実験では、文字レベルの順列に対するLLMsの耐性を調べるために、Scrambled Benchというスイートを使用しました。結果は、GPT-4がtypoglycemiaという現象に似た能力を持ち、非常に自然でないエラーを含む入力をほぼ完璧に処理できることを示しています。これは、LLMsの耐性が直感に反するものであり、他のLLMsや人間にとっても困難なタスクであることを示しています。 Comment

#Pocket #Dataset #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#EfficiencyImprovement #MachineLearning #Pocket #Dataset #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

#Metrics #LanguageModel #Evaluation #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

#KnowledgeGraph Issue Date: 2023-07-14 Do I have the Knowledge to Answer? Investigating Answerability of Knowledge Base Questions, ACL'23 GPT Summary- ナレッジベース上の自然言語質問には回答不可能なものが多くありますが、これについての研究はまだ不十分です。そこで、回答不可能な質問を含む新しいベンチマークデータセットを作成しました。最新のKBQAモデルを評価した結果、回答不可能な質問に対して性能が低下することがわかりました。さらに、これらのモデルは誤った理由で回答不可能性を検出し、特定の形式の回答不可能性を扱うことが困難であることもわかりました。このため、回答不可能性に対する堅牢なKBQAシステムの研究が必要です。 #ComputerVision #Pocket #MultiModal Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv'23 GPT Summary- 本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル（LLM）を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment

#LanguageModel #Prompting #TheoryOfMind Issue Date: 2023-04-28 Boosting Theory-of-Mind Performance in Large Language Models via Prompting, Moghaddam+, Johns Hopkins University, arXiv'23 Comment

#LanguageModel #TabularData Issue Date: 2023-04-28 Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning, Ye+, University of Science and Technology of China, SIGIR'23 Comment

#LanguageModel #DialogueGeneration Issue Date: 2023-04-28 q2d: Turning Questions into Dialogs to Teach Models How to Search, Bitton+, The Hebrew University of Jerusalem （w_ Google Research）, arXiv'23 Comment

#LanguageModel #Chain-of-Thought #Prompting Issue Date: 2023-04-28 Answering Questions by Meta-Reasoning over Multiple Chains of Thought, Yoran+, Tel Aviv University （w_ Allen Institute for AI）, arXiv'23 Comment

#Dataset Issue Date: 2022-02-07 JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension, So+, arXiv'22 GPT Summary- 日本語の質問応答データセットJaQuADを提案。39,696の質問-回答ペアを含み、テストセットでF1スコア78.92%、EMスコア63.38%を達成。データセットは[こちら](https://github.com/SkelterLabsInc/JaQuAD)から入手可能。 Comment

SQuAD likeな日本語のQAデータセット

https://github.com/SkelterLabsInc/JaQuAD

#Embeddings #InformationRetrieval #Pocket #ContrastiveLearning #EMNLP #Selected Papers/Blogs #Encoder #KeyPoint Notes Issue Date: 2025-09-28 [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04 GPT Summary- 密な表現を用いたパッセージ検索の実装を示し、デュアルエンコーダーフレームワークで学習。評価の結果、Lucene-BM25を上回り、検索精度で9%-19%の改善を達成。新たな最先端のQA成果を確立。 Comment

#Dataset #Evaluation #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。 #Pocket #Dataset Issue Date: 2025-08-30 [Paper Note] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, Peter Clark+, arXiv'18 GPT Summary- AI2 Reasoning Challenge（ARC）を提案し、高度な質問応答におけるAI研究を促進することを目的とする。ARCはChallenge SetとEasy Setに分かれ、Challenge Setにはリトリーバルベースのアルゴリズムで不正解とされた質問が含まれる。ARCは最大の公的ドメインセットであり、1400万の科学文を含むコーパスと3つのニューラルベースラインモデルの実装も公開。既存のモデルはランダムベースラインを上回れず、コミュニティへの挑戦としてARCを提起。 Comment

dataset: https://huggingface.co/datasets/allenai/ai2_arc
日本語解説: https://qiita.com/tekunikaruza_jp/items/d2ec3621afc9ba3d225b

#Pocket #AAAI Issue Date: 2018-10-05 [Paper Note] A Unified Model for Document-Based Question Answering Based on Human-Like Reading Strategy, Li+, AAAI'18 #Pocket #Dataset #Factuality #ReadingComprehension Issue Date: 2025-08-16 [Paper Note] TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension, Mandar Joshi+, ACL'17 GPT Summary- TriviaQAは、650K以上の質問-回答-証拠トリプルを含む読解理解データセットで、95Kの質問-回答ペアと平均6つの証拠文書を提供。複雑な質問や構文的変動があり、文を超えた推論が必要。特徴ベースの分類器と最先端のニューラルネットワークの2つのベースラインアルゴリズムを評価したが、人間のパフォーマンスには及ばず、TriviaQAは今後の研究における重要なテストベッドである。 #Pocket #EMNLP Issue Date: 2018-06-29 [Paper Note] Learning to Paraphrase for Question Answering, Li Dong+, EMNLP'17 GPT Summary- QAシステムにおけるパラフレーズの重要性に着目し、質問と回答のペアを用いたエンドツーエンドの学習フレームワークを提案。ニューラルスコアリングモデルを通じて、正しい回答を得る可能性の高い表現に重みを付ける。実験結果は、提案手法が性能を向上させ、シンプルなQAモデルでも競争力のある結果を達成することを示す。 Comment

question-answeringタスクにおいて、paraphrasingを活用して精度向上させる研究

似たような意味の質問が、異なる表現で出現することがあるので、

questionの様々なparaphrasingを用意して活用したいという気持ち。

たとえば、

- Is the campus far from Shibuya?

- Is the campus near the city center?

のような例があげられる。

手法としては、paraphrasing modelとqa modelを用意し、あるquestionが与えられたときに、paraphrasing modelでparaphraseのスコアを算出、その後、各paraphrasingの候補に対してqa modelで解答を予測し、両者のスコアの積のsummationによって最終的なanswerを決定

QAはデータセットのサイズが小さいので、paraphrasingのような手法が有効に働いているのかもしれない

#Pocket #Dataset #ReadingComprehension Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv'16 GPT Summary- NewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 Comment

#NeuralNetwork #Document #NeurIPS Issue Date: 2017-12-28 [Paper Note] Teaching Machines to Read and Comprehend, Hermann+, NIPS'15 Comment

だいぶ前に読んだので割とうろおぼえ。

CNN/DailyMailデータセットの作成を行なった論文（最近Neuralな文”書”要約の学習でよく使われるやつ）。

CNN/DailyMailにはニュース記事に対して、人手で作成した要約が付与されており、要約中のEntityを穴埋めにするなどして、穴埋め問題を作成。

言文書をNeuralなモデルに与えて、どれだけ回答できるかという話。

[スタンフォードによる追試がある]( https://cs.stanford.edu/people/danqi/papers/acl2016.pdf)

[詳しい解説 by 久保さん]( https://www.slideshare.net/takahirokubo7792/machine-comprehension)

追試によると、評価で使用している穴埋め問題は単純なモデルで提案モデルの性能を上回ったりしている。また、この穴埋め問題のうち54%は単純な質問とのマッチで回答可能であり、25%は人でも正解不能らしい（正解率のupper boundは75%）。by 久保さんのスライド

のちの研究で、ほぼこの上限に達する精度が達成されてしまったので、このデータセットはQAタスクではほぼ攻略された状態だという。

#Article #ComputerVision #Pretraining #Dataset #ImageCaptioning #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #Pocket #AIAgents #GenerativeAI #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment

元ポスト:

Loading…

RepresentationLearning (28)

#Embeddings #Analysis #Pocket #Dataset #LanguageModel #SyntheticData #ACL #Findings
Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#Embeddings #EfficiencyImprovement #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration) #ICLR #read-later #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-08 [Paper Note] Generative Representational Instruction Tuning, Niklas Muennighoff+, ICLR'25, 2024.02 GPT Summary- 生成的表現指示チューニング（GRIT）を用いて、大規模言語モデルが生成タスクと埋め込みタスクを同時に処理できる手法を提案。GritLM 7BはMTEBで新たな最先端を達成し、GritLM 8x7Bはすべてのオープン生成モデルを上回る性能を示す。GRITは生成データと埋め込みデータの統合による性能損失がなく、RAGを60%以上高速化する利点もある。モデルは公開されている。 Comment

openreview: https://openreview.net/forum?id=BC4lIvfSzv

#Embeddings #Pocket #SmallModel #MultiLingual #OpenWeight
Issue Date: 2025-09-25 [Paper Note] EmbeddingGemma: Powerful and Lightweight Text Representations, Henrique Schechter Vera+, arXiv'25, 2025.09 GPT Summary- EmbeddingGemmaは、Gemma 3言語モデルに基づく軽量なオープンテキスト埋め込みモデルで、エンコーダ-デコーダの初期化と幾何学的埋め込み蒸留を用いて大規模モデルの知識を活用。分散正則化器を使用し、異なるチェックポイントを統合することで一般化能力を向上。300Mのパラメータで、MTEBで最先端の結果を達成し、従来のトップモデルを上回る性能を示す。量子化や出力の切り詰めにも耐え、低遅延かつ高スループットのアプリケーションに適している。EmbeddingGemmaはコミュニティに公開され、さらなる研究を促進する。 Comment

公式モデル概要: https://ai.google.dev/gemma/docs/embeddinggemma?hl=ja

元ポスト:

Loading…

100以上の言語で訓練されマトリョーシカ表現なのでベクトルのサイズを調整可能な模様

マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22

公式による解説ブログ:

Loading…

#Survey #Embeddings #Pocket #Dataset #LanguageModel #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #Length Issue Date: 2025-07-29 [Paper Note] Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation, Tiansheng Wen+, arXiv'25 GPT Summary- スパースコーディングを用いたContrastive Sparse Representation（CSR）を提案し、適応的な埋め込みを実現。CSRは事前訓練された埋め込みをスパース化し、意味的品質を保持しつつコスト効果の高い推論を可能にする。実験により、CSRは精度と検索速度でMatryoshka Representation Learning（MRL）を上回り、訓練時間も大幅に短縮されることが示された。スパースコーディングは実世界のアプリケーションにおける適応的な表現学習の強力な手法として位置づけられる。 Comment

元ポスト:

Loading…

マトリョーシカ表現:
- [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22

#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #LanguageModel #InstructionTuning #ContrastiveLearning #ICLR #Generalization #Decoder Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#Embeddings #Pocket #LanguageModel #pretrained-LM #Japanese Issue Date: 2025-06-25 [Paper Note] llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length, Issa Sugiura+, arXiv'25 GPT Summary- ModernBERTモデル（llm-jp-modernbert）は、8192トークンのコンテキスト長を持つ日本語コーパスで訓練され、フィルマスクテスト評価で良好な結果を示す。下流タスクでは既存のベースラインを上回らないが、コンテキスト長の拡張効果を分析し、文の埋め込みや訓練中の遷移を調査。再現性を支援するために、モデルと評価コードを公開。 Comment

参考:
- modernbert-ja-130m, SB Intuitions, 2025.02

#ComputerVision #Embeddings #Pocket #MultiModal Issue Date: 2025-06-24 [Paper Note] jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval, Michael Günther+, arXiv'25 GPT Summary- 3.8億パラメータのマルチモーダル埋め込みモデル「jina-embeddings-v4」を提案。新しいアーキテクチャにより、クエリベースの情報検索やクロスモーダルの類似性検索を最適化。タスク特化型のLoRAアダプターを組み込み、視覚的に豊かなコンテンツの処理に優れた性能を発揮。新しいベンチマーク「Jina-VDR」も導入。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #LanguageModel #DiffusionModel Issue Date: 2025-05-24 Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective, Siyue Zhang+, arXiv'25 GPT Summary- 拡散言語モデルを用いたテキスト埋め込みが、自己回帰的なLLMの一方向性の制限を克服し、文書検索や推論タスクで優れた性能を発揮。長文検索で20%、推論集約型検索で8%、指示に従った検索で2%の向上を示し、双方向の注意が重要であることを確認。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Analysis #Pocket #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#Embeddings #LanguageModel Issue Date: 2025-03-12 Gemini Embedding: Generalizable Embeddings from Gemini, Jinhyuk Lee+, arXiv'25 GPT Summary- Gemini Embeddingは、Googleの大規模言語モデルGeminiを活用した最先端の埋め込みモデルで、多言語およびコード理解能力を活かして一般化可能な埋め込みを生成します。事前計算された表現は、分類や検索などの下流タスクに適用可能で、250以上の言語にわたる100以上のタスクを含むMMTEBで評価した結果、従来のモデルを大幅に上回る性能を示しました。 Comment

元ポスト:

Loading…

世のdecoder-onlyモデルベースのembeddingモデルがどのように作られているか具体的によくわかっていないので読みたい

#General #AES(AutomatedEssayScoring) Issue Date: 2023-07-18 Improving Domain Generalization for Prompt-Aware Essay Scoring via Disentangled Representation Learning, ACL'23 GPT Summary- 自動エッセイスコアリング（AES）は、エッセイを評価するためのモデルですが、既存のモデルは特定のプロンプトにしか適用できず、新しいプロンプトに対してはうまく汎化できません。この研究では、プロンプトに依存しない特徴とプロンプト固有の特徴を抽出するためのニューラルAESモデルを提案し、表現の汎化を改善するための分離表現学習フレームワークを提案しています。ASAPとTOEFL11のデータセットでの実験結果は、提案手法の有効性を示しています。 #Embeddings #Pocket #NeurIPS #Length #Selected Papers/Blogs Issue Date: 2025-07-29 [Paper Note] Matryoshka Representation Learning, Aditya Kusupati+, NeurIPS'22 GPT Summary- マトリョーシカ表現学習（MRL）は、異なる計算リソースに適応可能な柔軟な表現を設計する手法であり、既存の表現学習パイプラインを最小限に修正して使用します。MRLは、粗から細への表現を学習し、ImageNet-1K分類で最大14倍小さい埋め込みサイズを提供し、実世界のスピードアップを実現し、少数ショット分類で精度向上を達成します。MRLは視覚、視覚+言語、言語のモダリティにわたるデータセットに拡張可能で、コードとモデルはオープンソースで公開されています。 Comment

日本語解説: https://speakerdeck.com/hpprc/lun-jiang-zi-liao-matryoshka-representation-learning

単一のモデルから複数のlengthのEmbeddingを出力できるような手法。

#Sentence #Embeddings #Pocket #LanguageModel #ContrastiveLearning #Catastrophic Forgetting #Selected Papers/Blogs Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP'21 GPT Summary- この論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment

#NeuralNetwork #Embeddings Issue Date: 2022-06-08 Deep contextualized word representations, Peters+, Allen Institute for Artificial intelligence, NAACL'18 Comment

ELMo論文。
通常のword embeddingでは一つの単語につき一つの意味しか持たせられなかったが、文脈に応じて異なる意味を表現できるようなEmbeddingを実現し（同じ単語でも文脈に応じて意味が変わったりするので。たとえばrightは文脈に応じて右なのか、正しいなのか、権利なのか意味が変わる）様々な言語処理タスク（e.g. Question Answering, Sentiment Analysisなど）でSoTAを達成。

Embedding Layer + 2層のLSTM（1,2の間にはresidual connection）+ linear layerで言語モデルを構成し、順方向言語モデルと逆方向言語モデルを同時に独立して学習する（双方向LSTMではない;損失関数が両方向の言語モデルの対数尤度の和になっている）。
また、Linear LayerとEmbedding Layerのパラメータは両方向の言語モデルで共有されている。

k番目の単語のEmbedding Layerの出力ベクトル、各LSTMのhidden stateをタスクspecificなスカラーパラメタs_taskで足し合わせ、最後にベクトルのスケールを調整するパラメタγ_taskで大きさを調整する。これにより、k番目の単語のELMo Embeddingを得る。
単語単体の意味だけでこと足りるタスクの場合はEmbedding Layerの出力ベクトルに対する重みが大きくなり、文脈を考慮した情報が欲しい場合はLSTMのhidden stateに対する重みが大きくなるイメージ（LSTMの層が深いほど意味的semanticな情報を含み、浅いほど文法的syntacticな情報を含んでいる）。

使い方としては簡単で、ELMoを事前学習しておき、自身のNNモデルのWord Embeddingに（場合によってはRNNのhidden stateにも）、入力文から得られたELMo Embeddingをconcatして順伝搬させるだけで良い。

s_taskとγ_taskはtrainableなパラメータで、
ELMoを適用した先のNNモデルの訓練時に、NNモデルのパラメタと一緒にチューニングする（と思われる）。

https://github.com/allenai/allennlp/issues/1166
https://github.com/allenai/allennlp/issues/2552

ELMoのEmbedding Layerでは、2048 characterの（vocab size?）n-gram convolution filter（文字ごとにembeddingし、単語のembeddingを得るためにfilterを適用する？）の後に2つのhighway networkをかませてlinearで512次元に落とすみたいなことごやられているらしい。ここまで追えていない。

詳細は下記
https://datascience.stackexchange.com/questions/97867/how-does-the-character-convolution-work-in-elmo

#NeuralNetwork #Embeddings #Word #NeurIPS Issue Date: 2017-12-29 [Paper Note] Poincar'e Embeddings for Learning Hierarchical Representations, Nickel+, NIPS'17 Comment

解説: http://tech-blog.abeja.asia/entry/poincare-embeddings

解説スライド： https://speakerdeck.com/eumesy/poincare-embeddings-for-learning-hierarchical-representations

実装： https://github.com/TatsuyaShirakawa/poincare-embedding

・階層構造を持つデータ（WordNet上の上位語下位語、is-a関係など）を埋め込むために、双曲空間を使った話（通常はユークリッド空間）。

・階層構造・べき分布を持つデータはユークリッド空間ではなく双曲空間の方が効率的に埋め込める。

・階層構造・べき分布を持つデータを双曲空間（ポアンカレ球モデル）に埋め込むための学習手法（リーマン多様体上でSGD）を提案

・WordNet hypernymyの埋め込み：低次元でユークリッド埋め込みに圧勝

・Social Networkの埋め込み：低次元だと圧勝

・Lexical Entailment：2つのデータセットでSoTA

（解説スライドより）

データとして上位・下位概念を与えていないのに、原点付近には上位語・円周付近には下位語が自然に埋め込まれている（意図した通りになっている）。

ポアンカレ円板では、原点からの距離に応じて指数的に円周長が増加していくので、指数的に数が増えていく下位語などは外側に配置されると効率的だけど、その通りになっている。

#NeuralNetwork #Sentence #Embeddings #EMNLP Issue Date: 2017-12-28 [Paper Note] Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP'17 Comment

slide: https://www.slideshare.net/naoakiokazaki/supervised-learning-of-universal-sentence-representations-from-natural-language-inference-data

汎用的な文のエンコーダができました！という話。

SNLIデータでパラメータ学習、エンコーダ構成スライド図中右側のエンコーダ部分をなるべく一般的な文に適用できるように学習したい。

色々なタスクで、文のエンコーダ構成を比較した結果、bi-directional LSTMでエンコードし、要素ごとの最大値をとる手法が最も良いという結果。

隠れ層の次元は4096とかそのくらい。

Skip-Thoughtは学習に1ヶ月くらいかかるけど、提案手法はより少ないデータで1日くらいで学習終わり、様々なタスクで精度が良い。

ベクトルの要素積、concat, subなど、様々な演算を施し、学習しているので、そのような構成の元から文エンコーダを学習すると何か意味的なものがとれている？

SNLIはNatural Language Inferenceには文の意味理解が必須なので、そのデータ使って学習するといい感じに文のエンコードができます。

NLIのデータは色々なところで有用なので、日本語のNLIのデータとかも欲しい。

#NeuralNetwork #Sentence #Embeddings #ICLR #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] A structured self-attentive sentence embedding, Li+ （Bengio group）, ICLR'17 Comment

OpenReview: https://openreview.net/forum?id=BJC_jUqxe

#NeuralNetwork #Sentence #Embeddings #NAACL Issue Date: 2017-12-28 [Paper Note] Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL'16 Comment

Sentenceのrepresentationを学習する話

代表的なsentenceのrepresentation作成手法(CBOW, SkipGram, SkipThought, Paragraph Vec, NMTなど)をsupervisedな評価（タスク志向+supervised）とunsupervisedな評価(文間の距離をコサイン距離ではかり、人間が決めた順序と相関を測る)で比較している。

また筆者らはSequential Denoising Auto Encoder(SDAE)とFastSentと呼ばれる手法を提案しており、前者はorderedなsentenceデータがなくても訓練でき、FastSentはorderedなsentenceデータが必要だが高速に訓練できるモデルである。

実験の結果、supervisedな評価では、基本的にはSkipThoughtがもっとも良い性能を示し、paraphrasingタスクにおいて、SkipThoughtに3ポイント程度差をつけて良い性能を示した。unsupervisedな評価では、DictRepとFastSentがもっとも良い性能を示した。

実験の結果、以下のような知見が得られた：

## 異なるobjective functionは異なるembeddingを作り出す

objective functionは、主に隣接する文を予測するものと、自分自身を再現するものに分けられる。これらの違いによって、生成されるembeddingが異なっている。Table5をみると、後者については、生成されたrepresentationのnearest neighborを見ていると、自身と似たような単語を含む文が引っ張ってこれるが、前者については、文のコンセプトや機能は似ているが、単語の重複は少なかったりする。

## supervisedな場合とunsupervisedな評価でのパフォーマンスの違い

supervisedな設定では、SkipThoughtやSDAEなどのモデルが良い性能を示しているが、unsupervisedな設定ではまりうまくいかず。unsupevisedな設定ではlog-linearモデルが基本的には良い性能を示した。

## pre-trainedなベクトルを使用したモデルはそうでない場合と比較してパフォーマンスが良い

## 必要なリソースの違い

モデルによっては、順序づけられた文のデータが必要だったり、文の順序が学習に必要なかったりする。あるいは、デコーディングに時間がかかったり、めちゃくちゃメモリ食ったりする。このようなリソースの性質の違いは、使用できるapplicationに制約を与える。

## 結論

とりあえず、supervisedなモデルにrepresentationを使ってモデルになんらかのknowledgeをぶちこみたいときはSkipThought、単純に類似した文を検索したいとか、そういう場合はFastSentを使うと良いってことですかね.

#NeuralNetwork #Document #Embeddings #ACL Issue Date: 2017-12-28 [Paper Note] A hierarchical neural autoencoder for paragraphs and documents, Li+, ACL'15 Comment

複数文を生成(今回はautoencoder)するために、standardなseq2seq LSTM modelを、拡張したという話。

要は、paragraph/documentのrepresentationが欲しいのだが、アイデアとしては、word-levelの情報を扱うLSTM layerとsentenc-levelの情報を扱うLSTM layerを用意し、それらのcompositionによって、paragraph/documentを表現しましたという話。

sentence-levelのattentionを入れたらよくなっている。

trip advisorのreviewとwikipediaのparagraphを使ってtrainingして、どれだけ文書を再構築できるか実験。

MetricはROUGE, BLEUおよびcoherence(sentence order代替)を測るために、各sentence間のgapがinputとoutputでどれだけ一致しているかで評価。

hierarchical lstm with attention > hierarchical lstm > standard lstm の順番で高性能。

学習には、tesla K40を積んだマシンで、standard modelが2-3 weeks, hierarchical modelsが4-6週間かかるらしい。

#Article #Embeddings Issue Date: 2025-08-03 Gemini Embedding: Powering RAG and context engineering, Google, 2025.07 Comment

元ポスト:

Loading…

financial, legal文書に対する性能が向上してマトリョーシカ表現によってストレージや計算コストを削減可能な模様

ダウンストリームタスクで使おうとすると次元数がデカすぎるとしんどいのでマトリョーシカ表現は嬉しい

#Article #Embeddings #LanguageModel #OpenWeight Issue Date: 2025-06-06 Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06 Comment

元ポスト:

Loading…

QwenTeam post:

Loading…

#Article #Embeddings #LanguageModel #pretrained-LM #Japanese Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 Comment

ＭIT Licence

元ポスト:

Loading…

- ModernBERT, AnswerDotAI, 2024.12

#Article #Embeddings Issue Date: 2024-12-10 Sarashina-Embedding-v1-1B, SB Iumuitions, 2024.12 Comment

Non-commercialなライセンスで、商用利用の場合は問い合わせが必要

#Article #NeuralNetwork #Embeddings #Word #STS (SemanticTextualSimilarity) Issue Date: 2024-11-20 Zipf 白色化：タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 GPT Summary- 単語埋め込み空間の歪みを修正することでタスクのパフォーマンスが向上することを示す。既存のアプローチは単語頻度が均一であると仮定しているが、実際にはZipfの法則に従う非均一な分布である。Zipfに基づく頻度で重み付けされたPCAホワイトニングを行うことで、パフォーマンスが大幅に向上し、ベースラインを超える。情報幾何学的な観点から、低頻度の単語を強調する理論を提案し、人気の自然言語処理手法がこの理論に基づいて機能することを示す。 Comment

元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ]( https://arxiv.org/abs/2411.00680)

単語ベクトルを活用して様々なタスクを実施する際に一般的な全部足して個数で割るような平均ベクトル計算は、
個々の単語頻度を一様と仮定した場合の"期待値"と等価であり、
これは現実世界の単語頻度の実態とは全然異なるから、きちんと考慮したいよね、という話で

頻度を考慮するとSemantic Textual Similarity（STS）タスクで効果絶大であることがわかった。

では、なぜこれまで一様分布扱いするのが一般的だったのかというと、
実態として単語埋め込み行列が単語をタイプとみなして構築されたものであり、
コーパス全体を捉えた（言語利用の実態を捉えた）データ行列（単語をトークンとみなしたもの）になっていなかったことに起因していたからです（だから、経験頻度を用いて頻度情報を復元する必要があるよね）、
という感じの話だと思われ、

経験頻度を考慮すると、そもそも背後に仮定しているモデル自体が暗黙的に変わり、
低頻度語が強調されることで、単語に対してTF-IDFのような重みづけがされることで性能が良くなるよね、みたいな話だと思われる。

余談だが、昔のNLPでは、P(w,c)をモデル化したものを生成モデル、テキスト生成で一般的なP(w|c)は分類モデル（VAEとかはテキスト生成をするが、生成モデルなので別）、と呼んでいたと思うが、いまはテキスト生成モデルのことを略して生成モデル、と呼称するのが一般的なのだろうか。

#Article #Embeddings #LanguageModel #Japanese Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment

元ツイート:

Loading…

最大sequence長は1012なので、より長い系列をBERTで埋め込みたい場合はRetrievaBERT RetrievaBERTの公開, 2024 （最大sequence長2048）も検討の余地がある。

開発者の方からテクニカルレポートが出た
https://arxiv.org/abs/2409.07737

#Article #Embeddings #Library #SpokenLanguageProcessing Issue Date: 2023-04-25 CLAP Comment

テキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル

たとえばゼロショットでaudio分類ができる

#Article #NeuralNetwork #SentimentAnalysis Issue Date: 2021-06-01 Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015 Comment

[Paper Note] DKN: Deep Knowledge-Aware Network for News Recommendation, Hongwei Wang+, arXiv'18, 2018.01 より、本論文を引用して「CNN ベースのモデルが、畳み込み演算により文から特定のローカルパターンを検出して抽出できるため、他のモデル（e.g. Recurrent Neural Network, Recursive Neural Network）よりも優れていることが経験的に示されている」とのこと

LLM-as-a-Judge (23)

#ComputerVision #Pocket #Dataset #AIAgents #Evaluation #Coding #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#Analysis #EfficiencyImprovement #Pocket #LanguageModel #EMNLP #read-later #Selected Papers/Blogs #Stability
Issue Date: 2025-11-10 [Paper Note] Analyzing Uncertainty of LLM-as-a-Judge: Interval Evaluations with Conformal Prediction, Huanxin Sheng+, EMNLP'25 SAC Highlights, 2025.09 GPT Summary- LLMを用いた自然言語生成の評価における不確実性を分析するためのフレームワークを提案。適合予測を通じて予測区間を構築し、中央値に基づくスコアを低バイアスの代替手段として提示。実験により、適合予測が有効な予測区間を提供できることを示し、判断の向上に向けた中央値や再プロンプトの有用性も探求。 Comment

元ポスト:

Loading…

実用上非常に重要な話に見える

#Pocket #LanguageModel #Coding #Test-Time Scaling #One-Line Notes #Scalability
Issue Date: 2025-10-19 [Paper Note] Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models, Mehrzad Samadi+, arXiv'25, 2025.10 GPT Summary- 競技プログラミングはLLMsの能力を評価する重要なベンチマークであり、IOIはその中でも特に権威ある大会です。本論文では、オープンウェイトモデルがIOI金メダルレベルのパフォーマンスを達成するためのフレームワーク「GenCluster」を提案します。このフレームワークは、生成、行動クラスタリング、ランキング、ラウンドロビン戦略を組み合わせて多様な解決空間を効率的に探索します。実験により、GenClusterは計算リソースに応じてスケールし、オープンシステムとクローズドシステムのギャップを縮小することが示され、IOI 2025で金メダルを達成する可能性を示唆しています。 Comment

元ポスト:

Loading…

#Pocket #Dataset #ReinforcementLearning #Evaluation #Conversation #MultiLingual #RewardModel #One-Line Notes Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Evaluation Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#LanguageModel #AIAgents #SelfCorrection #DeepResearch Issue Date: 2025-07-25 [Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25 GPT Summary- TTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment

元ポスト:

Loading…

日本語解説: https://zenn.dev/knowledgesense/articles/5a341158c2c9ab

#Analysis #Pocket #LanguageModel #Evaluation #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#Pocket #LanguageModel #ReinforcementLearning #PostTraining #GRPO #VerifiableRewards Issue Date: 2025-05-16 J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning, Chenxi Whitehouse+, arXiv'25 GPT Summary- 本研究では、強化学習アプローチJ1を用いてLLMのトレーニング手法を提案し、判断タスクにおける思考促進とバイアス軽減を図ります。J1は、他の同サイズモデルを上回る性能を示し、特に小型モデルでも優れた結果を出します。モデルは自己生成した参照回答と比較することで、より良い判断を学ぶことが明らかになりました。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Test-Time Scaling Issue Date: 2025-03-27 Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators, Seungone Kim+, arXiv'25 GPT Summary- LMの出力品質評価が難しくなっている中、計算を増やすことで評価能力が向上するかを検討。推論モデルを用いて応答全体と各ステップを評価し、推論トークンの生成が評価者のパフォーマンスを向上させることを確認。再ランク付けにより、評価時の計算増加がLMの問題解決能力を向上させることを示した。 Comment

元ポスト:

Loading…

LLM-as-a-JudgeもlongCoT+self-consistencyで性能が改善するらしい。

#Survey #Pocket #LanguageModel #Evaluation Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #LanguageModel #Evaluation Issue Date: 2024-12-15 BatchEval: Towards Human-like Text Evaluation, Peiwen Yuan+, ACL'24 GPT Summary- BatchEvalという新しい評価パラダイムを提案し、LLMを用いた自動テキスト評価の問題を解決。バッチ単位での反復評価により、プロンプト設計の敏感さやノイズ耐性の低さを軽減。実験により、BatchEvalは最先端手法に対して10.5%の改善を示し、APIコストを64%削減。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に日本語によるサマリが掲載されているので参照のこと。

#NeuralNetwork #NaturalLanguageGeneration #Dataset #LanguageModel #Evaluation Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Survey #Pocket #LanguageModel Issue Date: 2024-11-27 From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, Dawei Li+, arXiv'24 GPT Summary- LLMを用いた判断と評価の新たなパラダイム「LLM-as-a-judge」に関する包括的な調査を行い、定義や分類法を提示。評価のためのベンチマークをまとめ、主要な課題と今後の研究方向を示す。関連リソースも提供。 Comment

LLM-as-a-Judgeに関するサーベイ

- Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N/A, arXiv'24

も参照のこと

#Survey #NaturalLanguageGeneration #Pocket #Evaluation Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#Pocket #LanguageModel #Alignment #InstructionTuning #SelfImprovement #ICML Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, ICML'24 GPT Summary- 将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment

#Pocket #LanguageModel #Evaluation Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP'23 GPT Summary- 従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル（LLMs）を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment

伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究

#NaturalLanguageGeneration Issue Date: 2024-01-25 Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT'23 GPT Summary- GEMBAは、参照翻訳の有無に関係なく使用できるGPTベースの翻訳品質評価メトリックです。このメトリックは、ゼロショットのプロンプティングを使用し、4つのプロンプトバリアントを比較します。私たちの手法は、GPT 3.5以上のモデルでのみ機能し、最先端の精度を達成します。特に、英語からドイツ語、英語からロシア語、中国語から英語の3つの言語ペアで有効です。この研究では、コード、プロンプトテンプレート、およびスコアリング結果を公開し、外部の検証と再現性を可能にします。 #DocumentSummarization #Pocket #Evaluation Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv'23 GPT Summary- 本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 Comment

BERTScoreと同様、評価したいテキストの対数尤度で評価している
BERTScoreよりも相関が高く、instructionによって性能が向上することが示されている

#Pocket #LanguageModel #Evaluation #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 Comment

`LLM-as-a-Judge` という用語を最初に提唱したのも本研究となる（p.2参照）

#LanguageModel #Evaluation Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL'23 GPT Summary- 本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル（LLMs）を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #Article #Survey #Blog #read-later Issue Date: 2025-09-04 信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09 Comment

ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

#Article #Survey #LanguageModel #Evaluation #Blog Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Pocket #LanguageModel #Evaluation #Blog Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

ScientificDiscovery (20)

#MachineLearning #Pocket #LanguageModel #AIAgents #Reasoning #Diversity #One-Line Notes
Issue Date: 2025-11-21 [Paper Note] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity, Alexis Audran-Reiss+, arXiv'25, 2025.11 GPT Summary- AI研究エージェントのパフォーマンスにおけるアイデアの多様性の役割を検討。MLE-benchでの分析により、パフォーマンスの高いエージェントはアイデアの多様性が増加する傾向があることが明らかに。制御実験でアイデアの多様性が高いほどパフォーマンスが向上することを示し、追加の評価指標でも発見が有効であることを確認。 Comment

元ポスト:

Loading…

ideation時点における多様性を向上させる話らしい

#Pocket #ReinforcementLearning #AIAgents #LongHorizon
Issue Date: 2025-11-12 [Paper Note] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction, Guoxin Chen+, arXiv'25, 2025.11 GPT Summary- IterResearchという新しい反復的深層研究パラダイムを提案し、長期的な研究をマルコフ決定過程として再定義。進化するレポートをメモリとして維持し、洞察を統合することで一貫した推論能力を保持。効率意識型ポリシー最適化（EAPO）を開発し、探索を促進。実験により、既存のエージェントに対して平均+14.5ポイントの改善を達成し、2048回のインタラクションでパフォーマンスが劇的に向上。IterResearchは長期的な推論のための効果的な解決策として位置づけられる。 Comment

HF: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

元ポスト:

Loading…

#Pocket #AIAgents #Mathematics
Issue Date: 2025-10-15 [Paper Note] SR-Scientist: Scientific Equation Discovery With Agentic AI, Shijie Xia+, arXiv'25, 2025.10 GPT Summary- LLMを自律的なAI科学者に昇華させる「SR-Scientist」フレームワークを提案。データ分析、方程式実装、評価、最適化を行うツールセットを提供し、最小限の人間介入で方程式を改善。実証結果では、4つの科学分野でベースラインを6%から35%上回り、ノイズに対する堅牢性とドメイン外データへの一般化能力を示す。エージェントの能力向上のための強化学習フレームワークも開発。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #LanguageModel #read-later #IdeaGeneration #One-Line Notes Issue Date: 2025-10-12 [Paper Note] GUIDE: Towards Scalable Advising for Research Ideas, Yaowenqi Liu+, arXiv'25, 2025.07 GPT Summary- AI研究の進展に伴い、自動化された仮説生成や実験設計が可能になっているが、高品質なフィードバックを提供するアドバイジングシステムには依然として課題がある。本研究では、モデルのサイズや信頼度の推定など、効果的なアドバイジングシステムの要因を探求し、比較的小さなモデルが圧縮された文献データベースと構造化された推論フレームワークを用いることで、強力な言語モデルを上回る受理率を達成できることを示した。特に、高信頼度の予測において90%以上の受理率を達成し、仮説生成と実験設計の質を向上させる可能性を示唆している。 Comment

pj page: https://howardliu0830.github.io/GUIDE_blog/

元ポスト:

Loading…

どのように評価したのだろうか

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #TabularData #SyntheticData #numeric #MajorityVoting Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Pocket #AIAgents #read-later #Selected Papers/Blogs #EvolutionaryAlgorithm Issue Date: 2025-09-25 [Paper Note] ShinkaEvolve: Towards Open-Ended And Sample-Efficient Program Evolution, Robert Tjarko Lange+, arXiv'25, 2025.09 GPT Summary- ShinkaEvolveは、科学的発見を促進するための新しいオープンソースフレームワークであり、LLMsを利用して高い効率性とパフォーマンスを実現します。従来のコード進化手法の制限を克服し、親サンプリング技術や新規性拒否サンプリング、バンディットベースのアンサンブル選択戦略を導入。多様なタスクでの評価により、サンプル効率と解の質が向上し、150サンプルで新たな最先端ソリューションを発見しました。ShinkaEvolveは、オープンソースでのアクセス性を提供し、計算問題における発見を民主化します。 Comment

pj page: https://sakana.ai/shinka-evolve/

元ポスト:

Loading…

国際的なプログラミングコンテストでShinkaEvolveのサポートの元、チームが優勝した模様:
-

Loading…

#Multi #Pocket #LanguageModel #AIAgents #Reproducibility #MCP Issue Date: 2025-09-17 [Paper Note] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents, Jiacheng Miao+, arXiv'25 GPT Summary- Paper2Agentは、研究論文をAIエージェントに自動変換するフレームワークで、研究成果の利用や発見を加速します。従来の論文は再利用の障壁を生んでいましたが、Paper2Agentは論文を知識豊富な研究アシスタントとして機能するエージェントに変換します。複数のエージェントを用いて論文と関連コードを分析し、モデルコンテキストプロトコル（MCP）を構築、洗練します。これにより、自然言語を通じて科学的クエリを実行できるエージェントを作成し、実際にゲノム変異やトランスクリプトミクス分析を行うエージェントが元の論文の結果を再現できることを示しました。Paper2Agentは、静的な論文を動的なAIエージェントに変えることで、知識の普及に新たなパラダイムを提供します。 Comment

code: https://github.com/jmiao24/Paper2Agent?tab=readme-ov-file#-demos

ポイント解説:

Loading…

#Pocket #Search #LanguageModel #AIAgents #read-later #TreeSearch Issue Date: 2025-09-10 [Paper Note] An AI system to help scientists write expert-level empirical software, Eser Aygün+, arXiv'25 GPT Summary- AIシステムを用いて質の指標を最大化する専門的な科学ソフトウェアを生成。大規模言語モデルと木探索を活用し、複雑な研究アイデアを統合。バイオインフォマティクスや疫学の分野で新しい手法を発見し、既存のモデルを上回る成果を達成。多様なタスクに対する新しい解決策を提供し、科学的進歩を加速することを目指す。 Comment

元ポスト:

Loading…

#LanguageModel #AIAgents #ProprietaryLLM Issue Date: 2025-08-29 [Paper Note] AI-Researcher: Autonomous Scientific Innovation, Jiabin Tang+, arXiv'25 GPT Summary- AI-Researcherという自律型研究システムを提案し、文献レビューから論文作成までの研究プロセスを自動化。Scientist-Benchを用いてAIの研究能力を評価し、実験により人間レベルの研究論文を生成する成功率を示す。この研究は、自律的な科学的革新の新たな基盤を築く。 Comment

github: https://github.com/HKUDS/AI-Researcher

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #EMNLP #Findings Issue Date: 2025-08-21 [Paper Note] Agent Laboratory: Using LLM Agents as Research Assistants, Samuel Schmidgall+, EMNLP'25 Findings GPT Summary- Agent Laboratoryは、全自動のLLMベースのフレームワークで、研究アイデアから文献レビュー、実験、報告書作成までのプロセスを完了し、質の高い研究成果を生成します。人間のフィードバックを各段階で取り入れることで、研究の質を向上させ、研究費用を84%削減。最先端の機械学習コードを生成し、科学的発見の加速を目指します。 Comment

元ポスト:

Loading…

pj page: https://agentlaboratory.github.io

#GraphBased #Pocket #AIAgents Issue Date: 2025-07-08 [Paper Note] AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench, Edan Toledo+, arXiv'25 GPT Summary- AI研究エージェントは、機械学習の自動化を通じて科学の進展を促進する可能性がある。本研究では、MLE-benchというKaggleコンペティションを用いてエージェントの性能向上に取り組み、検索ポリシーとオペレーターを用いて候補解の空間を探索する方法を提案。異なる検索戦略とオペレーターの組み合わせが高いパフォーマンスに寄与することを示し、MLE-bench liteでの結果を向上させ、Kaggleメダル獲得率を39.6%から47.7%に引き上げた。自動化された機械学習の進展には、これらの要素を共同で考慮することが重要である。 Comment

元ポスト:

Loading…

DeepResearch (18)

#Pocket #LanguageModel #AIAgents #Reasoning #OpenWeight
Issue Date: 2025-11-19 [Paper Note] MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling, MiroMind Team+, arXiv'25, 2025.11 GPT Summary- MiroThinker v1.0は、ツール強化推論と情報探索能力を向上させるオープンソースの研究エージェントで、モデルと環境の相互作用を深めるインタラクションスケーリングを採用。256Kのコンテキストウィンドウを持ち、最大600回のツールコールを実行可能で、従来のエージェントを上回る精度を達成。インタラクションの深さがモデルの性能を向上させることを示し、次世代の研究エージェントにおける重要な要素として位置づけられる。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/miromind-ai/MiroThinker-v1.0-72B

#Pocket #LanguageModel #AIAgents
Issue Date: 2025-10-30 [Paper Note] Tongyi DeepResearch Technical Report, Tongyi DeepResearch Team+, arXiv'25, 2025.10 GPT Summary- 「Tongyi DeepResearch」は、長期的な情報探索のために設計されたエージェント型大規模言語モデルで、エンドツーエンドのトレーニングフレームワークを用いて自律的な深い研究を促進します。完全自動のデータ合成パイプラインにより、人間のアノテーションに依存せず、スケーラブルな推論を実現。305億のパラメータを持ち、複数のベンチマークで最先端のパフォーマンスを達成し、オープンソースとしてコミュニティに提供されます。 Comment

pj page: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #SyntheticData #Diversity #Verification #LongHorizon
Issue Date: 2025-10-21 [Paper Note] Synthesizing Agentic Data for Web Agents with Progressive Difficulty Enhancement Mechanisms, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- Webベースの「ディープリサーチ」エージェントは、長期的なインタラクションを通じて複雑な質問応答タスクを解決することを目指すが、従来の方法は推論の複雑さを捉えきれない。そこで、タスクの複雑さを段階的に増加させる二段階のデータ合成パイプラインを導入し、ベースラインエージェントが質問に挑戦し、事実確認を行う。実験により、提案したデータセットが既存のものよりも効果的な訓練を可能にし、ツール使用アクションの多様性が2倍であることが示された。 Comment

元ポスト:

Loading…

#Pocket #Dataset #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #Live Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #ReinforcementLearning #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #LongHorizon Issue Date: 2025-10-18 [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment

pj page: https://context-folding.github.io

元ポスト:

Loading…

エージェント自身にcontextを管理する能力を学習させる

#Multi #Pocket #LanguageModel #AIAgents #Planning #LongSequence #read-later #memory Issue Date: 2025-09-17 [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究（OEDR）に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #AIAgents #read-later Issue Date: 2025-09-17 [Paper Note] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents, Zile Qiao+, arXiv'25 GPT Summary- 新しいフレームワーク「WebResearcher」を提案し、AIエージェントが外部ソースから知識を自律的に発見・統合する方法を示す。WebResearcherは、深層研究をマルコフ決定過程として再定式化し、報告書に発見を統合することで文脈の問題を克服。また、スケーラブルなデータ合成エンジン「WebFrontier」を用いて高品質なトレーニングデータを生成し、ツール使用能力を向上させる。実験により、WebResearcherは最先端の性能を達成し、商用システムを上回ることが確認された。 Comment

元ポスト:

Loading…

blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

OpenAI DeepResearchとベンチマーク上で同等の性能を実現したopenweightモデル

#Multi #Pocket #Dataset #LanguageModel #ReinforcementLearning #PostTraining #GRPO Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #PostTraining #GRPO #Medical Issue Date: 2025-09-13 [Paper Note] MedResearcher-R1: Expert-Level Medical Deep Researcher via A Knowledge-Informed Trajectory Synthesis Framework, Ailing Yu+, arXiv'25 GPT Summary- 医療分野に特化した深層研究エージェントを提案。医療知識グラフを用いたデータ合成とカスタム医療検索エンジンを統合し、複雑な質問-回答ペアを生成。新たな医療ベンチマークで最先端の結果を達成し、一般的な深層研究タスクでも競争力を維持。ドメイン特化型の革新が小型モデルの優位性を示す。 Comment

HF: https://huggingface.co/AQ-MedAI

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#LanguageModel #AIAgents #LLM-as-a-Judge #SelfCorrection Issue Date: 2025-07-25 [Paper Note] Deep Researcher with Test-Time Diffusion, Rujun Han+, arXiv'25 GPT Summary- TTD-DRは、LLMsを用いた研究報告書生成の新しいフレームワークで、草案から始まり、デノイジングプロセスを通じて情報を動的に取り入れながら洗練される。自己進化アルゴリズムにより高品質なコンテキストを生成し、情報損失を減少させる。TTD-DRは、集中的な検索とマルチホップ推論を必要とするベンチマークで最先端の結果を達成し、既存の深層研究エージェントを上回る性能を示す。 Comment

元ポスト:

Loading…

日本語解説: https://zenn.dev/knowledgesense/articles/5a341158c2c9ab

#Article #LanguageModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

#Article #LanguageModel #AIAgents #OpenWeight Issue Date: 2025-09-17 Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

#Article #LanguageModel #AIAgents #Repository #OpenSource Issue Date: 2025-09-13 OpenManus, Liang+, FoundationAgents, 2025.04 #Article #LanguageModel #AIAgents #Repository #OpenSource Issue Date: 2025-09-13 OpenDeepResearch, LangChain, 2025.07 Comment

blog: https://blog.langchain.com/open-deep-research/

#Article #LanguageModel #AIAgents #Blog #ProprietaryLLM Issue Date: 2025-09-13 Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06 #Article #LanguageModel #AIAgents #OpenSource Issue Date: 2025-03-12 Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

ConceptToTextGeneration (17)

#PersonalizedDocumentSummarization #DocumentSummarization #NaturalLanguageGeneration #Metrics #DataToTextGeneration #DialogueGeneration #PersonalizedGeneration
Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#NeuralNetwork #NaturalLanguageGeneration #Controllable #DataToTextGeneration #ICML
Issue Date: 2017-12-31 [Paper Note] Toward Controlled Generation of Text, Hu+, ICML'17 Comment

VAEは通常のAutoEncoderと比較して、奥が深くて勉強してみておもしろかった。 Reparametrization Trickなどは知らなかった。

管理人による解説資料:
[Controllable Text Generation.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1595121/Controllable.Text.Generation.pdf)

slideshare: https://www.slideshare.net/akihikowatanabe3110/towards-controlled-generation-of-text

#Survey #NaturalLanguageGeneration #Pocket #DataToTextGeneration
Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。

#Survey #NaturalLanguageGeneration #Pocket #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#NeuralNetwork #NaturalLanguageGeneration #Pocket #Dataset #EMNLP Issue Date: 2017-12-31 [Paper Note] Neural Text Generation from Structured Data with Application to the Biography Domain, Remi Lebret+, EMNLP'16, 2016.03 GPT Summary- 大規模なWikipediaの伝記データセットを用いて、テキスト生成のためのニューラルモデルを提案。モデルは条件付きニューラル言語モデルに基づき、固定語彙とサンプル固有の単語を組み合わせるコピーアクションを採用。提案モデルは古典的なKneser-Neyモデルを約15 BLEUポイント上回る性能を示した。 Comment

#Survey #NaturalLanguageGeneration #Pocket #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#NaturalLanguageGeneration #SingleFramework #EMNLP Issue Date: 2017-12-31 [Paper Note] Inducing document plans for concept-to-text generation, Konstas+, EMNLP'13 #NaturalLanguageGeneration #SingleFramework #NAACL Issue Date: 2017-12-31 [Paper Note] Unsupervised concept-to-text generation with hypergraphs, Konstas+, NAACL-HLT'12 #NaturalLanguageGeneration #SingleFramework #COLING Issue Date: 2017-12-31 [Paper Note] Generative alignment and semantic parsing for learning from ambiguous supervision, Kim+, COLING'10 #NaturalLanguageGeneration #Others #ACL #IJCNLP Issue Date: 2017-12-31 [Paper Note] Learning semantic correspondences with less supervision, Liang+, ACL-IJCNLP'09 #NaturalLanguageGeneration #SingleFramework Issue Date: 2017-12-31 [Paper Note] Automatic generation of textual summaries from neonatal intensive care data, Porter+, Artificial Intelligence'09, 2009.05 Comment

BabyTalk論文

#NaturalLanguageGeneration #Others #EMNLP Issue Date: 2017-12-31 [Paper Note] A generative model for parsing natural language to meaning representations, Lu+, EMNLP'08 #Survey #NaturalLanguageGeneration #DataToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#NaturalLanguageGeneration #DataDriven #NAACL Issue Date: 2017-12-31 [Paper Note] Aggregation via set partitioning for natural language generation, Barzilay+, HLT-NAACL'06 #NaturalLanguageGeneration #DataDriven #EMNLP Issue Date: 2017-12-31 [Paper Note] Collective content selection for concept-to-text generation, Barzilay+, HLT_EMNLP'05 #NaturalLanguageGeneration #RuleBased Issue Date: 2017-12-31 [Paper Note] Coral: Using natural language generation for navigational assistance, Dale+, Australasian computer science conference'03 #Article #NaturalLanguageGeneration #SingleFramework Issue Date: 2017-12-31 [Paper Note] A Global Model for Concept-to-Text Generation, Konstas+, Journal of Artificial Intelligence Research, Vol. 48, pp.305--346, 2013.10

GenerativeAI (16)

#Pocket #LanguageModel #read-later #text #AI Detector
Issue Date: 2025-11-16 [Paper Note] EditLens: Quantifying the Extent of AI Editing in Text, Katherine Thai+, arXiv'25, 2025.10 GPT Summary- AIによるテキスト編集の検出に関する研究を行い、AI編集の程度を定量化する類似性指標を提案。これを基に回帰モデルEditLensを訓練し、人間とAIのテキストを高精度で区別。AI編集の影響を分析し、著作権や教育に関する示唆を提供。モデルとデータセットは公開予定。 Comment

元ポスト:

Loading…

興味深い👀

#Metrics #LanguageModel #Evaluation #Selected Papers/Blogs #KeyPoint Notes #Reference Collection
Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#ComputerVision #Pocket #MultiModal
Issue Date: 2023-12-01 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv'23 GPT Summary- 本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Comment

https://huggingface.co/spaces/Vchitect/SEINE

画像 + テキストpromptで、動画を生成するデモ

#Article #AIAgents #Blog #One-Line Notes Issue Date: 2025-11-25 Stanford Agentic Reviewer, Stanford University, 2025.11 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Gemini 3 による知性の新時代, Google, 2025.11 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

#Article #LanguageModel #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-18 Grok 4.1, xAI, 2025.11 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #text #AI Detector Issue Date: 2025-11-16 Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11 Comment

元ポスト:

Loading…

#Article #DocumentSummarization #LanguageModel #Blog #Science Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

#Article #Blog #Financial #ProprietaryLLM Issue Date: 2025-10-28 Advancing Claude for Financial Services, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #AIAgents #Coding #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Shipping with Codex, OpenAI, 2025.10 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

#Article #Pocket #Blog Issue Date: 2025-01-03 Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog Issue Date: 2024-12-24 OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment

#Article #Pocket #QuestionAnswering #AIAgents #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment

元ポスト:

Loading…

#Article #Tutorial #LanguageModel #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

#Article #ComputerVision #MultiModal Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Comment

デモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。

FF14の赤魔導士に変えたら、それっぽいの出てきた

#Article #Tutorial #LanguageModel #Alignment #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

ReviewGeneration (13)

#ACL
Issue Date: 2021-03-17 Unsupervised Opinion Summarization as Copycat-Review Generation, Bražinskas, ACL'20 GPT Summary- 意見要約は、製品レビューから主観的情報を自動的に要約するタスクであり、従来の研究は抽出的手法に焦点を当てていたが、本研究では新しい文を生成する抽象的要約を提案する。教師なし設定での生成モデルを定義し、新規性を制御しながら合意された意見を反映する要約を生成する。階層的変分オートエンコーダモデルを用い、実験により流暢で一貫性のある要約が生成できることを示した。 #NaturalLanguageGeneration #Pocket
Issue Date: 2019-08-17 [Paper Note] User Preference-Aware Review Generation, Wang+, PAKDD'19 #RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #Pocket #WWW
Issue Date: 2019-08-17 [Paper Note] Review Response Generation in E-Commerce Platforms with External Product Information, Zhao+, WWW'19

#RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #Pocket #ACL #Workshop Issue Date: 2019-08-17 [Paper Note] Automatic Generation of Personalized Comment Based on User Profile, Wenhuan Zeng+, ACL'19 SRW GPT Summary- ソーシャルメディアの多様なコメント生成の難しさを考慮し、ユーザープロフィールに基づくパーソナライズされたコメント生成タスク（AGPC）を提案。パーソナライズドコメント生成ネットワーク（PCGN）を用いて、ユーザーの特徴をモデル化し、外部ユーザー表現を考慮することで自然なコメントを生成。実験結果は、モデルの効果を示す。 #RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #WWW Issue Date: 2019-05-31 [Paper Note] Multimodal Review Generation for Recommender Systems, Truong+, WWW'19 Comment

#RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #Pocket #RecSys Issue Date: 2019-08-17 [Paper Note] Improving Explainable Recommendations with Synthetic Reviews, Sixun Ouyang+, RecSys'18 GPT Summary- レコメンダーシステムにおいて、解釈可能な説明を提供することは信頼性向上に重要である。本研究では、ユーザーのレビューを基にした生成モデルを用いて、個別化された推薦説明を作成するフレームワークを提案。Amazonの書籍レビューデータセットを用いて、生成されたレビューが人間のレビューよりも優れた推薦性能を示すことを実証した。これは機械生成による自然言語説明の初の試みである。 #NeuralNetwork #ACL Issue Date: 2019-04-12 [Paper Note] Personalized Review Generation by Expanding Phrases and Attending on Aspect-Aware Representations, Ni+, ACL'18 Comment

Personalized Review Generationタスクを、user, item, short phraseがgivenな時に、それを考慮して完全なレビューを生成するタスクとして定義。

short phraseとしては、item titleやreview summaryなどを利用している。

アイテムのaspectを考慮してレビューを生成できる点が新しい。

モデルとしては、aspect-awareなrepresentationを学習することによって、ユーザ・アイテムのaspectに関する嗜好（e.g. どの部分について言及したいか、など）を捉えたレビューを生成できるようにしている。

各aspectには代表的な単語が紐づいており、aspectに紐づく単語の生成確率をaspect-aware representationから求めたattentionによって制御し、生成時に下駄を履かせている。

PyTorch実装： https://github.com/nijianmo/textExpansion/tree/master/expansionNet

#Pocket #Personalization #ACL Issue Date: 2018-07-25 [Paper Note] Personalized Review Generation by Expanding Phrases and Attending on Aspect-Aware Representations, Ni+, ACL'18 #RecommenderSystems #NeuralNetwork #Pocket #SIGIR Issue Date: 2019-04-12 [Paper Note] Neural Rating Regression with Abstractive Tips Generation for Recommendation, Piji Li+, arXiv'17 GPT Summary- Eコマースサイトの新しい「Tips」機能を活用し、ユーザーの経験や感情を表現する短いテキストを生成する深層学習フレームワーク「NRT」を提案。NRTは、ユーザーとアイテムの潜在表現を基に、正確な評価予測と高品質な抽象的ヒントの生成を実現。実験により、NRTは既存手法に対して顕著な改善を示し、ユーザーの体験や感情を効果的に反映することが確認された。 Comment

Rating Predictionとtips generationを同時に行うことで、両者の性能を向上させた最初の研究。

tipsとは、ユーザの経験や感じたことを、短いテキスト（1文とか）で簡潔に記したもの。

モデルについてはあまりく詳しく読んでいないが、図を見る感じ、user latent factorとitem latent factorをMF layerとseq2seqで共有し、同時学習させていると思われる。

おそらく、MFとtext generationをjointで行うNNモデルはこの研究が初めて（textの情報をMFの改善に使おうという試みは古くからやられているが、generationまでは多分やってない）で、このモデル化の仕方がその後のスタンダードになっている。

#NeuralNetwork #INLG Issue Date: 2019-04-12 [Paper Note] Towards automatic generation of product reviews from aspectsentiment scores, Zang+, INLG'17 Comment

hierarchicalなNNで、long reviewの生成に取り組んだ論文

#NeuralNetwork #EACL Issue Date: 2019-03-08 [Paper Note] Learning to Generate Product Reviews from Attributes, Dong+, EACL'17 Comment

（たぶん）最初のreview generation論文

#RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #CollaborativeFiltering #IJCNLP Issue Date: 2019-02-01 [Paper Note] Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17 Comment

Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。

#Personalization #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Extended Recommendation Framework: Generating the Text of a User Review as a Personalized Summary Poussevin+, CBRecsys'15, 2015.09 Comment

review generationの結果をrating predictionに伝搬することで性能よくしました、という話だと思う

FoundationModel (13)

#NeuralNetwork #MachineLearning #Pocket #TabularData
Issue Date: 2025-11-14 [Paper Note] TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models, Léo Grinsztajn+, arXiv'25, 2025.11 GPT Summary- 次世代の表形式基盤モデルTabPFN-2.5は、最大50,000のデータポイントと2,000の特徴量を持つデータセット向けに設計され、TabPFNv2と比較してデータセルが20倍増加。業界標準のTabArenaで主要な手法となり、以前のモデルを上回る精度を達成。小規模から中規模のデータセットに対して100%の勝率を持ち、大規模データセットでも高い勝率を誇る。商用ユース向けに新しい蒸留エンジンを導入し、低レイテンシーでの展開を実現。これにより、TabPFNエコシステムに基づくアプリケーションのパフォーマンスが向上する。 Comment

TabArenaの2025.11時点でのSoTA
- [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06

元ポスト:

Loading…

#Pretraining #Pocket #LanguageModel #AIAgents #read-later
Issue Date: 2025-09-17 [Paper Note] Scaling Agents via Continual Pre-training, Liangcai Su+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）を用いたエージェントシステムは、複雑な問題解決において進化しているが、ポストトレーニングアプローチではパフォーマンスが低下することが多い。これは、堅牢な基盤モデルの欠如が原因である。そこで、継続的な事前トレーニング（Agentic CPT）を導入し、強力なエージェント基盤モデルを構築することを提案。新たに開発したAgentFounderモデルは、10のベンチマークで最先端のパフォーマンスを達成し、特にBrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEでのPass@1で31.5%を記録した。 Comment

元ポスト:

Loading…

AI Agentのための基盤モデルを継続事前学習によって実現した模様

#ComputerVision #Pocket #MultitaskLearning #MultiModal
Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv'23 GPT Summary- Florence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 Comment

Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。

#Pretraining #Pocket #LanguageModel #Mathematics Issue Date: 2023-10-29 Llemma: An Open Language Model For Mathematics, Zhangir Azerbayev+, N_A, arXiv'23 GPT Summary- 私たちは、数学のための大規模な言語モデルであるLlemmaを提案します。Llemmaは、Proof-Pile-2と呼ばれるデータセットを用いて事前学習され、MATHベンチマークで他のモデルを上回る性能を示しました。さらに、Llemmaは追加のfine-tuningなしでツールの使用や形式的な定理証明が可能です。アーティファクトも公開されています。 Comment

元ツイート:

Loading…

まだ4-shotしてもAcc.50%くらいなのか。

#ComputerVision #Pocket #LanguageModel Issue Date: 2023-07-23 [Paper Note] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning, Lili Yu+, arXiv'23 GPT Summary- CM3Leonは、テキストと画像の生成・補完が可能なマルチモーダル言語モデルで、リトリーバル拡張型のトークンベースのデコーダを使用。CM3アーキテクチャを基に、多様な指示スタイルでのスケーリングとチューニングに優れ、初のテキスト専用モデルから適応されたマルチモーダルモデル。高品質な出力を生成する対照的デコーディング手法を導入し、少ない計算量で最先端の性能を達成。SFT後は、画像編集や生成において高い制御性を示す。 #LanguageModel #OpenWeight Issue Date: 2023-07-22 Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N_A, arXiv'23 GPT Summary- この研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。 Comment

参考:

Loading…

#Article #ComputerVision #OpenWeight #2D (Image) Issue Date: 2025-11-06 OlmoEarth-v1-Large, Ai2, 2025.11 Comment

元ポスト:

Loading…

衛星画像で学習されたモデルらしい

#Article #LanguageModel #Blog #OpenWeight Issue Date: 2025-09-26 Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07 Comment

元ポスト:

Loading…

#Article #LanguageModel #Supervised-FineTuning (SFT) #RLHF #Blog #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#Article #ComputerVision #LanguageModel #MultiModal #MultiLingual Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

Loading…

#Article #EfficiencyImprovement #LanguageModel #MultiModal #Blog Issue Date: 2023-11-01 tsuzumi, NTT’23 Comment

#Article #LanguageModel #Library #Repository Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment

150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。

#Article #NaturalLanguageGeneration #LanguageModel #Blog #Coding Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

Quantization (13)

#Pretraining #Pocket #LanguageModel #Distillation #PostTraining #KeyPoint Notes
Issue Date: 2025-10-19 [Paper Note] BitNet Distillation, Xun Wu+, arXiv'25, 2025.10 GPT Summary- BitNet Distillation（BitDistill）は、フル精度LLMを1.58ビット精度にファインチューニングする軽量なパイプラインで、計算コストを抑えつつ高いタスク特化型パフォーマンスを実現します。主な技術には、SubLNモジュール、MiniLMに基づくアテンション蒸留、継続的な事前学習が含まれ、これによりフル精度モデルと同等の性能を達成し、メモリを最大10倍節約し、CPU上での推論を2.65倍高速化します。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Analysis #Pocket #LanguageModel #Reasoning #Test-Time Scaling #One-Line Notes #MemoryOptimization
Issue Date: 2025-10-15 [Paper Note] Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models, Junhyuck Kim+, arXiv'25, 2025.10 GPT Summary- 4ビット量子化はメモリ最適化に有効ですが、推論モデルには適用できないことを示す。体系的な実験により、モデルサイズとKVキャッシュの影響を発見。小規模モデルは重みを優先し、大規模モデルは生成にメモリを割り当てることで精度を向上。LLMのメモリ最適化はスケールに依存し、異なるアプローチが必要であることを示唆。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #PEFT(Adaptor/LoRA) #Entropy
Issue Date: 2025-10-14 [Paper Note] QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs, Wei Huang+, arXiv'25, 2025.10 GPT Summary- QeRLは、LLMs向けの量子化強化学習フレームワークで、NVFP4量子化とLoRAを組み合わせてRLのロールアウトを加速し、メモリ使用量を削減します。量子化ノイズがポリシーエントロピーを増加させ、探索を強化することを示し、AQNメカニズムでノイズを動的に調整します。実験により、ロールアウトフェーズで1.5倍のスピードアップを達成し、32B LLMのRLトレーニングを単一のH100 80GB GPUで可能にしました。QeRLは、報酬の成長と最終精度で優れた結果を示し、LLMsにおけるRLトレーニングの効率的なフレームワークとしての地位を確立しました。 Comment

pj page: https://github.com/NVlabs/QeRL

元ポスト:

Loading…

解説:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #LanguageModel Issue Date: 2025-09-30 [Paper Note] Pretraining Large Language Models with NVFP4, NVIDIA+, arXiv'25, 2025.09 GPT Summary- 本研究では、NVFP4フォーマットを用いた大規模言語モデル（LLMs）の安定かつ正確なトレーニング手法を提案。ランダムハダマード変換や二次元量子化スキームを取り入れ、偏りのない勾配推定を実現。10兆トークンでのトレーニングにより、FP8と同等の性能を達成し、狭い精度のLLMトレーニングにおける進展を示した。 Comment

元ポスト:

Loading…

解説:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT) #SmallModel Issue Date: 2025-04-19 BitNet b1.58 2B4T Technical Report, Shuming Ma+, arXiv'25 GPT Summary- BitNet b1.58 2B4Tは、20億パラメータを持つオープンソースの1ビット大規模言語モデルで、4兆トークンで訓練されました。言語理解や数学的推論などのベンチマークで評価され、同サイズのフルプレシジョンLLMと同等の性能を示しつつ、計算効率が向上しています。メモリ、エネルギー消費、デコーディングレイテンシが削減され、モデルの重みはHugging Faceで公開されています。 Comment

元ポスト:

Loading…

圧倒的省メモリかつcpuでのinference速度も早そう

#Pocket #LanguageModel #MLSys Issue Date: 2025-07-21 [Paper Note] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, Ji Lin+, MLSys'24 GPT Summary- Activation-aware Weight Quantization（AWQ）を提案し、LLMの低ビット重み量子化を効率化。顕著な重みチャネルを保護することで量子化誤差を削減し、異なるドメインに一般化可能。AWQは言語モデリングやドメイン特化型ベンチマークで優れた性能を示し、4ビットのオンデバイスLLM/VLM向け推論フレームワークTinyChatを実装。これにより、デスクトップおよびモバイルGPUでの処理速度を3倍以上向上させ、70B Llama-2モデルの展開を容易にする。 Comment

日本語解説: https://qiita.com/kyad/items/96a4a2bdec3f0dc09d23

#Analysis #Pocket #LanguageModel Issue Date: 2024-12-02 The Super Weight in Large Language Models, Mengxia Yu+, arXiv'24 GPT Summary- LLMのパラメータの一部がモデルの品質に不均衡に重要であり、1つのパラメータの剪定でテキスト生成能力が大幅に低下することを発見。データフリーの方法で重要なスーパーパラメータを特定し、これにより四捨五入量子化の精度を向上させることができる。スーパーパラメータに関する研究を促進するために、オープンアクセスのLLMに対するインデックスを提供。 Comment

ICLR 2025のOpenreview
https://openreview.net/forum?id=0Ag8FQ5Rr3

#Pocket #LanguageModel #ICML Issue Date: 2024-12-03 SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, Guangxuan Xiao+, ICML'23 GPT Summary- SmoothQuantは、トレーニング不要で8ビットの重みと活性化の量子化を実現するポストトレーニング量子化ソリューションです。活性化の外れ値を滑らかにすることで、量子化の難易度を軽減し、精度を保持しつつ最大1.56倍の速度向上と2倍のメモリ削減を達成しました。これにより、530BのLLMを単一ノードで運用可能にし、LLMsの民主化を促進します。コードは公開されています。 Comment

おそらく量子化手法の現時点のSoTA

#MachineLearning #LanguageModel #ICLR Issue Date: 2023-09-29 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N_A, ICLR'23 GPT Summary- 本研究では、GPTモデルの推論における計算およびストレージコストの問題に取り組み、新しいワンショット重み量子化手法であるGPTQを提案します。GPTQは高い精度と効率性を持ち、1750億のパラメータを持つGPTモデルを4時間のGPU時間で量子化することができます。提案手法は従来の手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。さらに、提案手法は極端な量子化領域でも合理的な精度を提供します。実験結果では、提案手法を使用することでエンドツーエンドの推論速度が約3.25倍から4.5倍向上することが示されています。提案手法の実装はhttps://github.com/IST-DASLab/gptqで利用可能です。 Comment

#Article #LanguageModel #Reasoning #OpenWeight Issue Date: 2025-09-23 Qwen3-Next-series-FP8, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #LanguageModel #Blog Issue Date: 2024-10-26 Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10 #Article #OpenWeight Issue Date: 2024-08-20 4-bit Llama 3.1, NeuralMagic, 2024.08 #Article #EfficiencyImprovement #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-07-22 LLaMA2を3行で訓練 Comment

LLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法

AutomaticPromptEngineering (12)

#ComputerVision #Pocket #LanguageModel #Prompting #MultiModal
Issue Date: 2025-10-14 [Paper Note] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs, Yumin Choi+, arXiv'25, 2025.10 GPT Summary- マルチモーダルプロンプト最適化（MPO）を提案し、テキストと非テキストのプロンプトを共同最適化する新たなアプローチを示す。MPOは、ベイズに基づく選択戦略を用いて候補プロンプトを選定し、画像や動画など多様なモダリティにおいてテキスト専用手法を上回る性能を発揮。これにより、MLLMsの潜在能力を最大限に引き出す重要なステップを確立。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Prompting #ICLR
Issue Date: 2025-09-24 [Paper Note] Evoke: Evoking Critical Thinking Abilities in LLMs via Reviewer-Author Prompt Editing, Xinyu Hu+, ICLR'24, 2023.10 GPT Summary- Evokeという自動プロンプト洗練フレームワークを提案。レビュアーと著者のLLMがフィードバックループを形成し、プロンプトを洗練。難しいサンプルを選択することで、LLMの深い理解を促進。実験では、Evokeが論理的誤謬検出タスクで80以上のスコアを達成し、他の手法を大幅に上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=OXv0zQ1umU

#Pocket #LanguageModel #AIAgents #Prompting
Issue Date: 2025-02-10 PromptWizard: Task-Aware Prompt Optimization Framework, Eshaan Agarwal+, arXiv'24 GPT Summary- PromptWizardは、完全自動化された離散プロンプト最適化フレームワークであり、自己進化的かつ自己適応的なメカニズムを利用してプロンプトの質を向上させる。フィードバック駆動の批評を通じて、タスク特有のプロンプトを生成し、45のタスクで優れたパフォーマンスを実現。限られたデータや小規模なLLMでも効果を発揮し、コスト分析により効率性とスケーラビリティの利点が示された。 Comment

Github: https://github.com/microsoft/PromptWizard?tab=readme-ov-file
元ポスト:

Loading…

初期に提案された
- Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR'23

と比較すると大分性能が上がってきているように見える。

OpenReview: https://openreview.net/forum?id=VZC9aJoI6a
ICLR'25にrejectされている

#ComputerVision #Pocket #LanguageModel #EACL #System Demonstration Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, EACL'24 Sustem Demonstration Track GPT Summary- 本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #Pocket #LanguageModel #Prompting #ACL #Findings Issue Date: 2023-11-13 Prompt Engineering a Prompt Engineer, Qinyuan Ye+, N_A, ACL'24 Findings GPT Summary- プロンプトエンジニアリングは、LLMsのパフォーマンスを最適化するための重要なタスクであり、本研究ではメタプロンプトを構築して自動的なプロンプトエンジニアリングを行います。改善されたパフォーマンスにつながる推論テンプレートやコンテキストの明示などの要素を導入し、一般的な最適化概念をメタプロンプトに組み込みます。提案手法であるPE2は、さまざまなデータセットやタスクで強力なパフォーマンスを発揮し、以前の自動プロンプトエンジニアリング手法を上回ります。さらに、PE2は意味のあるプロンプト編集を行い、カウンターファクトの推論能力を示します。 #Pocket #LanguageModel #Prompting #PMLR Issue Date: 2023-10-09 Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, Chrisantha Fernando+, N_A, PMLR'24, 2024.07 GPT Summary- 本研究では、Promptbreederという自己参照的な自己改善メカニズムを提案し、大規模言語モデル（LLM）の推論能力を向上させるための汎用的なプロンプト戦略を進化させる方法を示しています。Promptbreederは、LLMが自己参照的な方法で進化する変異プロンプトによって制御され、タスクプロンプトの集団を変異させて改善します。この手法は、算術や常識的な推論のベンチマークだけでなく、ヘイトスピーチ分類などの難しい問題に対しても優れた性能を発揮します。 Comment

詳細な解説記事: https://aiboom.net/archives/56319

APEとは異なり、GAを使う。突然変異によって、予期せぬ良いpromptが生み出されるかも…？

#MachineLearning #Pocket #LanguageModel #ICLR Issue Date: 2023-09-09 Large Language Models as Optimizers, Chengrun Yang+, N_A, ICLR'24 GPT Summary- 本研究では、最適化タスクを自然言語で記述し、大規模言語モデル（LLMs）を使用して最適化を行う手法「Optimization by PROmpting（OPRO）」を提案しています。この手法では、LLMが以前の解とその値を含むプロンプトから新しい解を生成し、評価して次の最適化ステップのためのプロンプトに追加します。実験結果では、OPROによって最適化された最良のプロンプトが、人間が設計したプロンプトよりも優れていることが示されました。 Comment

openreview: https://openreview.net/forum?id=Bb4VGOWELI

#NeuralNetwork #Pocket #Chain-of-Thought #Prompting #NAACL #Findings #Surface-level Note Issue Date: 2023-04-25 [Paper Note] Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models, Jiashuo Sun+, NAACL'24 Findings, 2023.04 GPT Summary- Iter-CoTは、LLMsの推論チェーンのエラーを修正し、正確で包括的な推論を実現するための反復的ブートストラッピングアプローチを提案。適度な難易度の質問を選択することで、一般化能力を向上させ、10のデータセットで競争力のある性能を達成。 Comment

Zero shot CoTからスタートし、正しく問題に回答できるようにreasoningを改善するようにpromptをreviseし続けるループを回す。最終的にループした結果を要約し、それらをプールする。テストセットに対しては、プールの中からNshotをサンプルしinferenceを行う。

できそうだなーと思っていたけど、早くもやられてしまった

実装: https://github.com/GasolSun36/Iter-CoT

# モチベーション: 既存のCoT Promptingの問題点

## Inappropriate Examplars can Reduce Performance

まず、既存のCoT prompting手法は、sampling examplarがシンプル、あるいは極めて複雑な（hop-based criterionにおいて; タスクを解くために何ステップ必要かという情報; しばしば人手で付与されている？）サンプルをサンプリングしてしまう問題がある。シンプルすぎるサンプルを選択すると、既にLLMは適切にシンプルな回答には答えられるにもかかわらず、demonstrationが冗長で限定的になってしまう。加えて、極端に複雑なexampleをサンプリングすると、複雑なquestionに対しては性能が向上するが、シンプルな問題に対する正答率が下がってしまう。

続いて、demonstration中で誤ったreasoning chainを利用してしまうと、inference時にパフォーマンスが低下する問題がある。下図に示した通り、誤ったdemonstrationが増加するにつれて、最終的な予測性能が低下する傾向にある。

これら2つの課題は、現在のメインストリームな手法（questionを選択し、reasoning chainを生成する手法）に一般的に存在する。

- Automatic Chain of Thought Prompting in Large Language Models, Zhang+, Shanghai Jiao Tong University, ICLR'23

- Automatic prompt augmentation and selection with chain-of-thought from labeled data, Shum+, The Hong Kong University of Science and Technology, arXiv'23

のように推論時に適切なdemonstrationを選択するような取り組みは行われてきているが、test questionに対して推論するために、適切なexamplarsを選択するような方法は計算コストを増大させてしまう。

これら研究は誤ったrationaleを含むサンプルの利用を最小限に抑えて、その悪影響を防ぐことを目指している。

一方で、この研究では、誤ったrationaleを含むサンプルを活用して性能を向上させる。これは、たとえば学生が難解だが回答可能な問題に取り組むことによって、問題解決スキルを向上させる方法に類似している（すなわち、間違えた部分から学ぶ）。

## Large Language Models can self-Correct with Bootstrapping

Zero-Shot CoTでreasoning chainを生成し、誤ったreasoning chainを生成したpromptを**LLMに推敲させ(self-correction)**正しい出力が得られるようにする。こういったプロセスを繰り返し、correct sampleを増やすことでどんどん性能が改善していった。これに基づいて、IterCoTを提案。

# IterCoT: Iterative Bootstrapping in Chain-of-Thought Prompting

IterCoTはweak bootstrappingとstrong bootstrappingによって構成される。

## Weak bootstrapping

- Initialization

- Training setに対してZero-shot CoTを実施し、reasoning chainとanswerを得

- Bootstrapping

- 回答が誤っていた各サンプルに対して、Revise-Promptを適用しLLMに誤りを指摘し、新しい回答を生成させる。

- 回答が正確になるまでこれを繰り返す。

- Summarization

- 正しい回答が得られたら、Summary-Promptを利用して、これまでの誤ったrationaleと、正解のrationaleを利用し、最終的なreasoning chain (Iter-CoT)を生成する。

- 全体のcontextual informationが加わることで、LLMにとって正確でわかりやすいreasoning chainを獲得する。

- Inference

- questionとIter-Cotを組み合わせ、demonstration poolに加える

- inference時はランダムにdemonstraction poolからサンプリングし、In context learningに利用し推論を行う

## Strong Bootstrapping

コンセプトはweak bootstrappingと一緒だが、Revise-Promptでより人間による介入を行う。具体的には、reasoning chainのどこが誤っているかを明示的に指摘し、LLMにreasoning chainをreviseさせる。

これは従来のLLMからの推論を必要としないannotationプロセスとは異なっている。何が違うかというと、人間によるannnotationをLLMの推論と統合することで、文脈情報としてreasoning chainを修正することができるようになる点で異なっている。

# 実験

Manual-CoT
- Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS'22

Random-CoT
- Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS'22

Auto-CoT
- Active prompting with chain-of-thought for large language models, Diao+, The Hong Kong University of Science and Technology, ACL'24

と比較。

Iter-CoTが11個のデータセット全てでoutperformした。

weak bootstrapingのiterationは4回くらいで頭打ちになった

また、手動でreasoning chainを修正した結果と、contextにannotation情報を残し、最後にsummarizeする方法を比較した結果、後者の方が性能が高かった。このため、contextの情報を利用しsummarizeすることが効果的であることがわかる。

#Pocket #LanguageModel #AIAgents #Factuality #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-24 [Paper Note] Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback, Baolin Peng+, arXiv'23, 2023.02 GPT Summary- LLM-Augmenterシステムを提案し、LLMが外部知識に基づいた応答を生成できるように拡張。フィードバックを用いてプロンプトを改善し、タスク指向の対話と質問応答での有効性を実証。ChatGPTの幻覚を減少させつつ、流暢さや情報量を維持。ソースコードとモデルを公開。 #MachineLearning #Pocket #LanguageModel #Prompting #ICLR Issue Date: 2023-09-05 Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR'23 GPT Summary- 大規模言語モデル（LLMs）は、自然言語の指示に基づいて一般的な用途のコンピュータとして優れた能力を持っています。しかし、モデルのパフォーマンスは、使用されるプロンプトの品質に大きく依存します。この研究では、自動プロンプトエンジニア（APE）を提案し、LLMによって生成された指示候補のプールから最適な指示を選択するために最適化します。実験結果は、APEが従来のLLMベースラインを上回り、19/24のタスクで人間の生成した指示と同等または優れたパフォーマンスを示しています。APEエンジニアリングされたプロンプトは、モデルの性能を向上させるだけでなく、フューショット学習のパフォーマンスも向上させることができます。詳細は、https://sites.google.com/view/automatic-prompt-engineerをご覧ください。 Comment

プロジェクトサイト: https://sites.google.com/view/automatic-prompt-engineer

openreview: https://openreview.net/forum?id=92gvk82DE-

#Article #ComputerVision #Library #Prompting #MultiModal Issue Date: 2023-12-01 multimodal-maestro Comment

#Article #Analysis #Prompting #Blog Issue Date: 2023-10-13 日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10 Comment

OCR (11)

#ComputerVision #Pocket #LanguageModel #MultiModal
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V（ision） : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識（OCR）能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

#Article #ComputerVision #Evaluation #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #TabularData #OpenWeight #read-later #DocParser #VisionLanguageModel
Issue Date: 2025-11-20 NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11 Comment

元ポスト:

Loading…

olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

#Article #Survey #ComputerVision Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #DocParser #VisionLanguageModel Issue Date: 2025-10-24 LightOnOCR-1B: The Case for End-to-End and Efficient Domain-Specific Vision-Language Models for OCR, Taghadouini+, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

#Article #ComputerVision #SmallModel #MultiLingual #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-10-22 dots.ocr, rednote-hilab, 2025.07 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう

#Article #ComputerVision #LanguageModel #MultiLingual #OpenWeight #DocParser Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…

SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07

#Article #ComputerVision #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

関連:

Loading…

literature:

Loading…

karpathy氏のポスト:

Loading…

#Article #ComputerVision #Pretraining #Dataset #QuestionAnswering #ImageCaptioning #VisionLanguageModel Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #Reasoning #VisionLanguageModel Issue Date: 2025-08-08 NuMarkdown-8B-Thinking, numind, 2025.08 Comment

元ポスト:

Loading…

Qwen2.5-VL-7Bをsynthetia doc, Reasoning, Markdown exampleでSFTした後、レイアウトによってrewardを設計したGRPOで学習したとのこと

MIT License

PersonalizedGeneration (10)

#Dataset #ACL
Issue Date: 2023-04-26 LaMP: When Large Language Models Meet Personalization, Selemi+, University of Massachusetts Amherst （w_ Google Research）, ACL'24 Comment

LaMPの作成に利用したテンプレート一覧

実装とleaderboard

https://lamp-benchmark.github.io/leaderboard

#Pocket #Personalization #PersonalizedHeadlineGeneration #TACL
Issue Date: 2025-11-27 [Paper Note] General then Personal: Decoupling and Pre-training for Personalized Headline Generation, Song+, TACL'23, 2023.12 GPT Summary- ユーザーの閲覧履歴に基づくパーソナライズされたヘッドライン生成のために、General Then Personal (GTP)フレームワークを提案。タスクを生成とカスタマイズにデカップリングし、情報自己ブースティングとマスクユーザーモデリングを導入。PENSデータセットでの実験により、GTPが最先端手法を上回ることを示し、デカップリングと事前学習の重要性を強調。人間評価によって効果を検証。 #Pocket #LanguageModel
Issue Date: 2023-08-18 Teach LLMs to Personalize -- An Approach inspired by Writing Education, Cheng Li+, N_A, arXiv'23 GPT Summary- 個別化されたテキスト生成において、大規模言語モデル（LLMs）を使用した一般的なアプローチを提案する。教育の執筆をベースに、多段階かつマルチタスクのフレームワークを開発し、検索、ランキング、要約、統合、生成のステージで構成される個別化されたテキスト生成へのアプローチを採用する。さらに、マルチタスク設定を導入してモデルの生成能力を向上させる。3つの公開データセットでの評価結果は、他のベースラインに比べて大幅な改善を示している。 Comment

研究の目的としては、ユーザが現在執筆しているdocumentのwriting支援

#PersonalizedDocumentSummarization #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note Issue Date: 2023-07-22 [Paper Note] Generating User-Engaging News Headlines, Cai+, ACL'23 GPT Summary- ニュース記事の見出しを個別化するために、ユーザープロファイリングを組み込んだ新しいフレームワークを提案。ユーザーの閲覧履歴に基づいて個別のシグネチャフレーズを割り当て、それを使用して見出しを個別化する。幅広い評価により、提案したフレームワークが多様な読者のニーズに応える個別の見出しを生成する効果を示した。 Comment

なぜPENS dataset [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21
を利用しないで研究したのか？

#Pocket #Personalization #PersonalizedHeadlineGeneration Issue Date: 2023-08-11 [Paper Note] Personalized News Headline Generation System with Fine-grained User Modeling, Jiaohong Yao, MSN'22 GPT Summary- ユーザーの興味に基づいてパーソナライズされたニュースの見出しを生成するために、文レベルの情報を考慮したユーザーモデルを提案する。アテンション層を使用して文とニュースの関連性を計算し、ニュースの内容に基づいて見出しを生成する。実験結果は、提案モデルがベースラインモデルよりも優れたパフォーマンスを示していることを示している。将来の方向性として、情報のレベルと内容を横断する相互作用についても議論されている。 #Pocket #Personalization #PersonalizedHeadlineGeneration Issue Date: 2023-08-11 Personalized Headline Generation with Enhanced User Interest Perception, Zhang+, ICANN'22 GPT Summary- ユーザーのニュース閲覧履歴をモデル化し、個別化されたニュース見出しを生成するための新しいフレームワークを提案する。提案手法は、ユーザーの興味を強調するために候補テキストに関連する情報を活用し、ニュースのエンティティワードを使用して興味表現を改善する。幅広い実験により、提案手法が見出し生成タスクで優れたパフォーマンスを示すことが示されている。 #RecommenderSystems #Pocket #Personalization Issue Date: 2023-08-11 Personalized Chit-Chat Generation for Recommendation Using External Chat Corpora, Chen+, KDD'22 GPT Summary- チットチャットは、ユーザーとの対話において効果的であることが示されています。この研究では、ニュース推薦のための個人化されたチットチャットを生成する方法を提案しています。既存の方法とは異なり、外部のチャットコーパスのみを使用してユーザーの関心を推定し、個人化されたチットチャットを生成します。幅広い実験により、提案手法の効果が示されています。 #PersonalizedDocumentSummarization #Dataset #LanguageModel #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

#PersonalizedDocumentSummarization #DocumentSummarization #NaturalLanguageGeneration #Metrics #DataToTextGeneration #ConceptToTextGeneration #DialogueGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#PersonalizedDocumentSummarization #RecommenderSystems #Snippets #Explanation #Personalization #WI Issue Date: 2025-11-27 [Paper Note] Generating Personalized Snippets for Web Page Recommender Systems, Akihiko+, WI-IAT'14 GPT Summary- ウェブページ推薦システムのために、ユーザーの興味を反映したパーソナライズされたスニペットを生成する新手法を提案。推薦理由を活用し、最大カバレッジ要約モデルを用いてスニペットを作成。実験結果では、提案手法が従来のパーソナライズされた要約モデルよりも効果的であることが示された。 Comment

ジャーナル（日本語）: https://www.jstage.jst.go.jp/article/tjsai/31/5/31_C-G41/_article/-char/en

ChatGPT (10)

#Pocket
Issue Date: 2024-11-02 On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability, Kevin Wang+, N_A, arXiv'24, 2024.11 GPT Summary- 本研究では、OpenAIのo1モデルの計画能力を評価し、実現可能性、最適性、一般化の3つの側面に焦点を当てています。特に、制約の多いタスクや空間的に複雑な環境における強みとボトルネックを特定しました。o1-previewは、構造化された環境での制約遵守においてGPT-4を上回る一方で、冗長なアクションを伴う最適でない解を生成し、一般化に苦労しています。この研究は、LLMsの計画における限界を明らかにし、今後の改善の方向性を示しています。 Comment

o1のplanningの性能について知りたくなったら読む

#Pocket #Evaluation
Issue Date: 2023-07-22 How is ChatGPT's behavior changing over time?, Lingjiao Chen+, N_A, arXiv'23 GPT Summary- GPT-3.5とGPT-4は、大規模言語モデル（LLM）のサービスであり、その性能と振る舞いは時間とともに変動することがわかった。例えば、GPT-4は素数の特定に優れていたが、後のバージョンでは低い正答率となった。また、GPT-3.5はGPT-4よりも優れた性能を示した。さらに、GPT-4とGPT-3.5の両方が時間とともに敏感な質問への回答やコード生成でのミスが増えた。この結果から、LLMの品質を継続的に監視する必要性が示唆される。 Comment

#Pocket #LanguageModel #Education #AES(AutomatedEssayScoring)
Issue Date: 2023-04-28 [Paper Note] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Steffen Herbold+, arXiv'23 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment

#Pocket #Assessment #InformationExtraction Issue Date: 2023-04-25 [Paper Note] Evaluating ChatGPT's Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness, Bo Li+, arXiv'23 GPT Summary- 本研究では、ChatGPTの能力を7つの情報抽出（IE）タスクを通じて評価し、パフォーマンス、説明可能性、キャリブレーション、信頼性を分析しました。標準IE設定ではパフォーマンスが低い一方、オープンIE設定では人間評価で優れた結果を示しました。ChatGPTは高品質な説明を提供するものの、予測に対して過信する傾向があり、キャリブレーションが低いことが明らかになりました。また、元のテキストに対して高い信頼性を示しました。研究のために手動で注釈付けした7つのIEタスクのテストセットと14のデータセットを公開しています。 Comment

情報抽出タスクにおいてChatGPTを評価した研究。スタンダードなIEの設定ではBERTベースのモデルに負けるが、OpenIEの場合は高い性能を示した。
また、ChatGPTは予測に対してクオリティが高く信頼に足る説明をしたが、一方で自信過剰な傾向がある。また、ChatGPTの予測はinput textに対して高いfaithfulnessを示しており、予測がinputから根ざしているものであることがわかる。（らしい）

あまりしっかり読んでいないが、Entity Typing, NER, Relation Classification, Relation Extraction, Event Detection, Event Argument Extraction, Event Extractionで評価。standardIEでは、ChatGPTにタスクの説明と選択肢を与え、与えられた選択肢の中から正解を探す設定とした。一方OpenIEでは、選択肢を与えず、純粋にタスクの説明のみで予測を実施させた。OpenIEの結果を、3名のドメインエキスパートが出力が妥当か否か判定した結果、非常に高い性能を示すことがわかった。表を見ると、同じタスクでもstandardIEよりも高い性能を示している（そんなことある？？？）

つまり、選択肢を与えてどれが正解ですか?ときくより、選択肢与えないでCoTさせた方が性能高いってこと？比較可能な設定で実験できているのだろうか。promptは付録に載っているが、output exampleが載ってないのでなんともいえない。StandardIEの設定をしたときに、CoTさせてるかどうかが気になる。もししてないなら、そりゃ性能低いだろうね、という気がする。

#LanguageModel #Alignment #RLHF #PPO (ProximalPolicyOptimization) #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2024-04-28 Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS'22 GPT Summary- 大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 Comment

#Article #LanguageModel #Blog #Reasoning #ProprietaryLLM #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection Issue Date: 2025-11-13 GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

#Article #EfficiencyImprovement #Pretraining #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment

元ポスト:

Loading…

新たなスピードランが...!!

#Article #Analysis #Pretraining #LanguageModel #Blog #PostTraining Issue Date: 2025-09-29 Why GPT-5 used less training compute than GPT-4.5 （but GPT-6 probably won’t）, EPOCH AI, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #LanguageModel #MultiModal Issue Date: 2023-09-30 OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09 Comment

おう…やべえな…

#Article #LanguageModel #Blog Issue Date: 2023-04-27 HuggingChat, 2023 Comment

closedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出したchatシステム

公開はすでに終了している模様

TextToImageGeneration (10)

#Pocket #LanguageModel #ReinforcementLearning #MultiModal #DiffusionModel #NeurIPS #2D (Image) #text
Issue Date: 2025-11-05 [Paper Note] MMaDA: Multimodal Large Diffusion Language Models, Ling Yang+, NeurIPS'25, 2025.05 GPT Summary- MMaDAは、テキスト推論やマルチモーダル理解、テキストから画像生成に優れた性能を発揮する新しいマルチモーダル拡散基盤モデルです。主な革新点は、モダリティに依存しない統一された拡散アーキテクチャ、混合長チェーン・オブ・ソートによるファインチューニング戦略、そしてUniGRPOという統一ポリシー勾配ベースのRLアルゴリズムです。実験により、MMaDA-8Bは他のモデルを上回る性能を示し、事前トレーニングと事後トレーニングのギャップを埋める効果が確認されました。コードとトレーニング済みモデルはオープンソースで提供されています。 Comment

ポイント解説:

Loading…

元ポスト:

Loading…

#Survey #ComputerVision #Controllable #Pocket #DiffusionModel
Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。 #ComputerVision #Pocket #Dataset #Evaluation #NeurIPS #read-later #Selected Papers/Blogs
Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#ComputerVision #Controllable #Pocket #MultiModal Issue Date: 2025-08-07 [Paper Note] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang+, arXiv'23 GPT Summary- ControlNetは、テキストから画像への拡散モデルに空間的な条件制御を追加するためのニューラルネットワークアーキテクチャであり、事前学習済みのエンコーディング層を再利用して多様な条件制御を学習します。ゼロ畳み込みを用いてパラメータを徐々に増加させ、有害なノイズの影響を軽減します。Stable Diffusionを用いて様々な条件制御をテストし、小規模および大規模データセットに対して堅牢性を示しました。ControlNetは画像拡散モデルの制御における広範な応用の可能性を示唆しています。 Comment

ControlNet論文

#ComputerVision #NaturalLanguageGeneration #LanguageModel #TabularData Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #ComputerVision #NaturalLanguageGeneration #MultiModal #DiffusionModel Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment

#ComputerVision #Pocket #Personalization #DiffusionModel Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv'23 GPT Summary- 拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #Article #ComputerVision #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #Dataset #LanguageModel #Evaluation #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #ComputerVision #Blog #ProprietaryLLM #Editing Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

DialogueGeneration (8)

#Multi #Pocket #Dataset #Conversation
Issue Date: 2025-09-05 Multi-Relational Multi-Party Chat Corpus: 話者間の関係性に着目したマルチパーティ雑談対話コーパス, 津田+, NLP'25 Comment

コーパス: https://github.com/nu-dialogue/multi-relational-multi-party-chat-corpus

元ポスト:

Loading…

#LanguageModel #QuestionAnswering
Issue Date: 2023-04-28 q2d: Turning Questions into Dialogs to Teach Models How to Search, Bitton+, The Hebrew University of Jerusalem （w_ Google Research）, arXiv'23 Comment

#NaturalLanguageGeneration #Metrics #Evaluation #Reference-free #QA-based #Factuality
Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

#PersonalizedDocumentSummarization #DocumentSummarization #NaturalLanguageGeneration #Metrics #DataToTextGeneration #ConceptToTextGeneration #PersonalizedGeneration Issue Date: 2021-06-02 NUBIA, EvalNLGEval'20 Comment

意味的に同等の内容を述べた文間でのexample

BLEU, ROUGE, BERTのスコアは低いが、NUBIAでは非常に高いスコアを出せている。

#Pocket #EMNLP Issue Date: 2019-01-24 [Paper Note] Training Millions of Personalized Dialogue Agents, Pierre-Emmanuel Mazaré+, EMNLP'18, 2018.09 GPT Summary- 新しいデータセットを用いて、500万のペルソナと7億のペルソナベースの対話を提供。これにより、エンドツーエンドの対話システムの性能が向上し、Zhangら（2018）のデータでファインチューニングすることで他のタスクでも最先端の結果を達成。 #NeuralNetwork #Pocket #ACL Issue Date: 2018-02-08 [Paper Note] Personalizing Dialogue Agents: I have a dog, do you have pets too?, Saizheng Zhang+, ACL'18 GPT Summary- プロフィール情報を基にchit-chatを魅力的にするタスクを提案。モデルはプロフィールに基づく条件付けと相手の情報を考慮し、次の発話を予測することで対話を改善。対話者のプロフィール情報を予測するために、個人的な話題で引き込むように訓練された。 #Article #SpeechProcessing #Japanese Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #Dataset #LanguageModel Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

AES(AutomatedEssayScoring) (8)

#Pocket #LanguageModel #Prompting #AIED
Issue Date: 2025-07-29 [Paper Note] Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?, Lui Yoshida, AIED'25 GPT Summary- 本研究では、LLMを用いた自動エッセイ採点におけるルーブリックの詳細さが採点精度に与える影響を調査。TOEFL11データセットを用いて、完全なルーブリック、簡略化されたルーブリック、ルーブリックなしの3条件を比較。結果、3つのモデルは簡略化されたルーブリックでも精度を維持し、トークン使用量を削減。一方、1つのモデルは詳細なルーブリックで性能が低下。簡略化されたルーブリックが多くのLLMにとって効率的な代替手段であることが示唆されるが、モデルごとの評価も重要。 #Pocket #LanguageModel #Prompting #AIED
Issue Date: 2025-07-29 [Paper Note] The Impact of Example Selection in Few-Shot Prompting on Automated Essay Scoring Using GPT Models, Lui Yoshida, AIED'24 GPT Summary- 本研究では、GPTモデルを用いた少数ショットプロンプティングにおける例の選択が自動エッセイ採点（AES）のパフォーマンスに与える影響を調査。119のプロンプトを用いて、GPT-3.5とGPT-4のモデル間でのスコア一致を二次重み付きカッパ（QWK）で測定。結果、例の選択がモデルによって異なる影響を及ぼし、特にGPT-3.5はバイアスの影響を受けやすいことが判明。慎重な例の選択により、GPT-3.5が一部のGPT-4モデルを上回る可能性があるが、GPT-4は最も高い安定性とパフォーマンスを示す。これにより、AESにおける例の選択の重要性とモデルごとのパフォーマンス評価の必要性が強調される。 #Dataset #Japanese
Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL'24, 2024.03 GPT Summary- 第二言語学習の文翻訳演習の自動評価タスクを提案し、評価基準に基づいて学生の回答を採点する。日本語と英語の間で3,498の学生の回答を含むデータセットを作成。ファインチューニングされたBERTモデルは約90%のF1スコアで正しい回答を分類するが、誤った回答は80%未満。少数ショット学習を用いたGPT-3.5はBERTより劣る結果を示し、提案タスクが大規模言語モデルにとっても難しいことを示す。 Comment

#General #RepresentationLearning Issue Date: 2023-07-18 Improving Domain Generalization for Prompt-Aware Essay Scoring via Disentangled Representation Learning, ACL'23 GPT Summary- 自動エッセイスコアリング（AES）は、エッセイを評価するためのモデルですが、既存のモデルは特定のプロンプトにしか適用できず、新しいプロンプトに対してはうまく汎化できません。この研究では、プロンプトに依存しない特徴とプロンプト固有の特徴を抽出するためのニューラルAESモデルを提案し、表現の汎化を改善するための分離表現学習フレームワークを提案しています。ASAPとTOEFL11のデータセットでの実験結果は、提案手法の有効性を示しています。 #Pocket #LanguageModel #Education #ChatGPT Issue Date: 2023-04-28 [Paper Note] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Steffen Herbold+, arXiv'23 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment

#Article #Pretraining #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-11-28 Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring, Funayama+, 2024.09 GPT Summary- 自動短答スコアリング（SAS）では、異なるルーブリックと参照回答に基づいてスコアを付けるが、新しいプロンプトごとにモデルを再訓練する必要がありコストがかかる。本研究では、既存のルーブリックと回答を用いて新しいプロンプトでファインチューニングする二段階アプローチを提案。重要なフレーズを学習することで、特に訓練データが限られている場合にスコアリング精度を向上させることを実験で示した。 Comment

[Perplexity(hallucinationに注意)]( https://www.perplexity.ai/search/tian-fu-sitalun-wen-wodu-mi-ne-3_TrRyxTQJ.2Bm2fJLqvTQ#0)

#Article #Pocket #Japanese Issue Date: 2024-11-28 国語記述問題自動採点システムの開発と評価, Yutaka Ishii+, 日本教育工学会, 2024.05 #Article #LanguageModel #Education Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment

著者によるポスト:

Loading…

著者によるブログ:

https://mizumot.com/lablog/archives/1805

Pruning (7)

#EfficiencyImprovement #Pocket #LanguageModel #Test-Time Scaling #Decoding #Parallel
Issue Date: 2025-10-12 [Paper Note] DeepPrune: Parallel Scaling without Inter-trace Redundancy, Shangqing Tu+, arXiv'25, 2025.10 GPT Summary- DeepPruneという新しいフレームワークを提案し、並列スケーリングの計算非効率を解決。80%以上の推論トレースが同一の回答を生成する問題に対処し、焦点損失とオーバーサンプリング技術を用いた判定モデルで同等性を予測。オンラインの貪欲クラスタリングで冗長な経路をプルーニングし、80%以上のトークン削減を達成しつつ、精度を維持。効率的な並列推論の新基準を確立。 Comment

pj page: https://deepprune.github.io

HF: https://huggingface.co/collections/THU-KEG/deepprune-68e5c1ea71f789a6719b2c1c

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #LanguageModel #Transformer #Attention #LongSequence #Architecture
Issue Date: 2025-09-16 [Paper Note] Adaptive Computation Pruning for the Forgetting Transformer, Zhixuan Lin+, COLM'25 GPT Summary- Forgeting Transformer（FoX）は、忘却ゲートを用いたソフトマックスアテンションを特徴とし、従来のTransformerと比較して優れた性能を示す。FoXの特性を活かし、適応計算プルーニング（ACP）を提案し、計算を動的にプルーニングすることで、FLOPsとメモリアクセスを約70%削減。これにより、アテンションの実行時間を50%から70%短縮し、トレーニングスループットを10%から40%向上させた。性能の劣化はなく、長い文脈長ではさらなる計算コストの節約が可能である。 Comment

code: https://github.com/zhixuan-lin/forgetting-transformer

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=xNj14CY5S1#discussion

先行研究:
- [Paper Note] Forgetting Transformer: Softmax Attention with a Forget Gate, Zhixuan Lin+, ICLR'25

#Pocket #LanguageModel #Distillation #NeurIPS
Issue Date: 2025-03-16 Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS'24 GPT Summary- 本論文では、既存の大規模言語モデル（LLMs）をプルーニングし、少量のトレーニングデータで再トレーニングする手法を提案。深さ、幅、注意、MLPプルーニングを知識蒸留と組み合わせた圧縮ベストプラクティスを開発し、Nemotron-4ファミリーのLLMを2-4倍圧縮。これにより、トレーニングに必要なトークン数を最大40倍削減し、計算コストを1.8倍削減。Minitronモデルは、ゼロからトレーニングした場合と比較してMMLUスコアが最大16%改善され、他のモデルと同等の性能を示す。モデルの重みはオープンソース化され、補足資料も提供。 Comment

OpenReview: https://openreview.net/forum?id=9U0nLnNMJ7&referrer=%5Bthe%20profile%20of%20Pavlo%20Molchanov%5D(%2Fprofile%3Fid%3D~Pavlo_Molchanov1)

（あとでメモを追記）

#EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-04-22 The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N_A, arXiv'24 GPT Summary- 一般的なオープンウェイトの事前学習されたLLMのレイヤー剪定戦略を研究し、異なる質問応答ベンチマークでのパフォーマンスの低下を最小限に抑えることを示しました。レイヤーの最大半分を削除することで、最適なブロックを特定し、微調整して損傷を修復します。PEFT手法を使用し、実験を単一のA100 GPUで実行可能にします。これにより、計算リソースを削減し、推論のメモリとレイテンシを改善できることが示唆されます。また、LLMがレイヤーの削除に対して堅牢であることは、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性を示唆しています。 Comment

Loading…

VRAMに載せるのが大変なので、このような枝刈り技術が有効だと分かるのはありがたい。LoRAや量子化も利用しているっぽい。

#LanguageModel Issue Date: 2023-07-13 Pruning Pre-trained Language Models Without Fine-Tuning, ACL'23 GPT Summary- 本研究では、Pre-trained Language Models（PLMs）の過パラメータ化の問題を解決するために、一次元のプルーニングを使用したシンプルで直感的な圧縮手法であるStatic Model Pruning（SMP）を提案します。SMPは、下流のタスクにPLMsを適応させるために一次元のプルーニングのみを使用し、微調整を必要としないため、他の手法よりも効率的です。徹底的な実験結果は、SMPが一次元およびゼロ次元の手法よりも大幅に改善されていることを示しています。また、SMPは低い疎密度にも適用可能であり、ゼロ次元の手法を上回ります。 #Article #DocumentSummarization #InformationRetrieval #AIAgents #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

Editing (7)

#Pocket #Dataset #LanguageModel #Coding #mid-training #COLM #One-Line Notes
Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

#Pocket #Dataset #LanguageModel #Evaluation #RewardModel #One-Line Notes
Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#Article #ComputerVision #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #SpeechProcessing #Blog #OpenWeight Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

#Article #ComputerVision #DiffusionModel #VisionLanguageModel #Encoder Issue Date: 2025-09-24 Qwen-Image-Edit-2509, Qwen Team, 2025.09 Comment

テクニカルレポート: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

#Article #ComputerVision #TextToImageGeneration #Blog #ProprietaryLLM Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

#Article #ComputerVision #OpenWeight #VisionLanguageModel Issue Date: 2025-08-19 Qwen-Image-Edit, Qwen, 2025.05 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

Imageを入力して、テキストで条件づけることで編集できるOpenWeightモデル
https://github.com/user-attachments/assets/8c4ed7a1-1604-4365-bdbf-ef64ad8298ce" />

参考:25/08/20 とりまQwenImageEditを試す
https://six-loganberry-ba7.notion.site/25-08-20-QwenImageEdit-255f7e7600e980f48e09cc7252ea1677

元ポスト:

Loading…

Image Edit Arenaで２位:

Loading…

DataDistillation (6)

#Pocket #DataGeneration #SyntheticData #ICML
Issue Date: 2025-05-07 R.I.P.: Better Models by Survival of the Fittest Prompts, Ping Yu+, ICML'25 GPT Summary- トレーニングデータの品質がモデルの性能に与える影響を考慮し、低品質な入力プロンプトがもたらす問題を解決するために、Rejecting Instruction Preferences（RIP）というデータ整合性評価手法を提案。RIPは、拒否された応答の品質と選択された好みペアとの報酬ギャップを測定し、トレーニングセットのフィルタリングや高品質な合成データセットの作成に利用可能。実験結果では、RIPを用いることでLlama 3.1-8B-Instructでの性能が大幅に向上し、Llama 3.3-70B-Instructではリーダーボードでの順位が上昇した。 Comment

元ポスト:

Loading…

スレッドで著者が論文の解説をしている。

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #Reasoning #PostTraining
Issue Date: 2025-02-07 LIMO: Less is More for Reasoning, Yixin Ye+, arXiv'25 GPT Summary- LIMOモデルは、わずか817のトレーニングサンプルで複雑な数学的推論を効果的に引き出し、AIMEで57.1%、MATHで94.8%の精度を達成。従来のモデルよりも少ないデータで優れたパフォーマンスを示し、一般化を促す「Less-Is-More Reasoning Hypothesis」を提案。LIMOはオープンソースとして提供され、データ効率の良い推論の再現性を促進する。 Comment

元ポスト:

Loading…

#Attention #Zero/FewShotLearning
Issue Date: 2023-07-14 Dataset Distillation with Attention Labels for Fine-tuning BERT, ACL'23 GPT Summary- 本研究では、データセットの蒸留を使用して、元のデータセットのパフォーマンスを保持しながら、ニューラルネットワークを迅速にトレーニングするための小さなデータセットを作成する方法に焦点を当てています。具体的には、事前学習済みのトランスフォーマーを微調整するための自然言語処理タスクの蒸留されたfew-shotデータセットの構築を提案しています。実験結果では、注意ラベルを使用してfew-shotデータセットを作成し、BERTの微調整において印象的なパフォーマンスを実現できることを示しました。例えば、ニュース分類タスクでは、わずか1つのサンプルとわずか1つの勾配ステップのみで、元のデータセットの98.5％のパフォーマンスを達成しました。 Comment

Datadistillationしたら、データセットのうち1サンプルのみで、元のデータセットの98.5%の性能を発揮できたという驚異的な研究（まえかわ君）

#LanguageModel #Alignment #Supervised-FineTuning (SFT) #NeurIPS Issue Date: 2023-05-22 LIMA: Less Is More for Alignment, Chunting Zhou+, N_A, NeurIPS'23 GPT Summary- 本研究では、65BパラメータのLLaMa言語モデルであるLIMAを訓練し、強化学習や人間の好みモデリングなしに、厳選された1,000のプロンプトとレスポンスのみで標準的な教師あり損失で微調整しました。LIMAは、幅広いクエリに対応する驚くべき強力なパフォーマンスを示し、トレーニングデータに現れなかった未知のタスクにも一般化する傾向があります。制御された人間の研究では、LIMAのレスポンスは、GPT-4、Bard、DaVinci003と比較して優れていることが示されました。これらの結果から、大規模言語モデルのほとんどの知識は事前トレーニング中に学習され、高品質の出力を生成するためには限られた指示調整データしか必要ないことが示唆されます。 Comment

LLaMAのようなオープンでパラメータ数が少ないモデルに対して、少量のサンプルでfinetuningするとGPT4に迫れるというのはgamechangerになる可能性がある

openreview: https://openreview.net/forum?id=KBMOKmX2he

#Pretraining #LanguageModel Issue Date: 2023-05-21 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N_A, arXiv'23 GPT Summary- 本論文では、言語モデルの性能に影響を与える事前学習データのドメインの混合比について、DoReMiという手法を提案する。DoReMiは、小さなプロキシモデルを使用してドメインの重みを生成し、再サンプリングして大きなモデルをトレーニングすることで、効率的にドメインの重みを見つけることができる。実験では、DoReMiはThe PileやGLaMデータセットで高い精度を発揮し、few-shot下流精度を6.5％改善することができる。 Comment

#Article #Dataset #InstructionTuning Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

ContrastiveLearning (6)

#RecommenderSystems #Embeddings #InformationRetrieval #Pocket #LanguageModel #RepresentationLearning #InstructionTuning #ICLR #Generalization #Decoder
Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#Pocket #LanguageModel #NeurIPS #Routing
Issue Date: 2025-10-24 [Paper Note] RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models, Shuhao Chen+, NeurIPS'24, 2024.09 GPT Summary- 複数のLLMを組み合わせるためのルーティング手法「RouterDC」を提案。RouterDCはエンコーダとLLM埋め込みから成り、2つの対照的学習損失を用いて訓練。実験により、RouterDCは既存の手法を大きく上回り、分布内タスクで+2.76%、分布外タスクで+1.90%の性能向上を示した。ソースコードは公開されている。 Comment

openreview: https://openreview.net/forum?id=7RQvjayHrM¬eId=YrqLVNAOot

#RecommenderSystems #Contents-based #Transformer #pretrained-LM
Issue Date: 2023-07-18 UniTRec: A Unified Text-to-Text Transformer and Joint Contrastive Learning Framework for Text-based Recommendation, ACL'23 GPT Summary- 本研究では、事前学習済み言語モデル（PLM）を使用して、テキストベースの推薦の性能を向上させるための新しいフレームワークであるUniTRecを提案します。UniTRecは、ユーザーの履歴の文脈をより良くモデル化するために統一されたローカル-グローバルアテンションTransformerエンコーダを使用し、候補のテキストアイテムの言語の複雑さを推定するためにTransformerデコーダを活用します。幅広い評価により、UniTRecがテキストベースの推薦タスクで最先端のパフォーマンスを発揮することが示されました。

#Sentence #Embeddings #Pocket #LanguageModel #RepresentationLearning #Catastrophic Forgetting #Selected Papers/Blogs Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP'21 GPT Summary- この論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment

#ComputerVision #MultiModal #ICML Issue Date: 2023-04-27 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 Comment

CLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル

#Embeddings #InformationRetrieval #Pocket #QuestionAnswering #EMNLP #Selected Papers/Blogs #Encoder #KeyPoint Notes Issue Date: 2025-09-28 [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04 GPT Summary- 密な表現を用いたパッセージ検索の実装を示し、デュアルエンコーダーフレームワークで学習。評価の結果、Lucene-BM25を上回り、検索精度で9%-19%の改善を達成。新たな最先端のQA成果を確立。 Comment

NumericReasoning (6)

#Pocket #LanguageModel
Issue Date: 2024-11-09 Number Cookbook: Number Understanding of Language Models and How to Improve It, Haotong Yang+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）の数値理解および処理能力（NUPA）を調査し、41の数値タスクを含むベンチマークを導入。多くのタスクでLLMsが失敗することを確認し、NUPA向上のための技術を用いて小規模モデルを訓練。ファインチューニングによりNUPAが改善されるが、すべてのタスクには効果がないことが判明。思考の連鎖技術の影響も探求。研究はLLMsのNUPA改善に向けた初歩的なステップを示す。 Comment

元ポスト:

Loading…

#NaturalLanguageGeneration #Pocket #DataToTextGeneration #Prompting
Issue Date: 2024-04-04 Prompting for Numerical Sequences: A Case Study on Market Comment Generation, Masayuki Kawarada+, N_A, arXiv'24 GPT Summary- LLMsは、構造化データに対するプロンプト生成に関する研究が進んでいるが、時系列数値データに関する詳細な調査が不足している。本研究では、株価の数値系列を入力として市場コメントを生成するタスクに焦点を当て、さまざまな入力表現を探究する。実験結果は、プログラミング言語に似たプロンプトがより良い結果をもたらすことを示しており、数値系列からテキストを生成する際の効果的なプロンプト作成について示唆を提供している。 Comment

#Pocket #Dataset #LanguageModel #InstructionTuning #Mathematics
Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

#Survey Issue Date: 2023-07-18 A Survey of Deep Learning for Mathematical Reasoning, ACL'23 GPT Summary- 数学的な推論とディープラーニングの関係についての調査論文をレビューし、数学的な推論におけるディープラーニングの進歩と将来の研究方向について議論しています。数学的な推論は機械学習と自然言語処理の分野で重要であり、ディープラーニングモデルのテストベッドとして機能しています。また、大規模なニューラル言語モデルの進歩により、数学的な推論に対するディープラーニングの利用が可能になりました。既存のベンチマークと方法を評価し、将来の研究方向についても議論しています。 #LanguageModel #Chain-of-Thought Issue Date: 2023-07-11 Teaching Arithmetic to Small Transformers, Nayoung Lee+, N_A, arXiv'23 GPT Summary- 本研究では、GPT-4のような大規模言語モデルが、教師なしのトークン予測目的に明示的にエンコードされていないにもかかわらず、算術演算や基本的な関数を効率的に学習できることを示しています。訓練データのフォーマットの変更やchain-of-thoughtスタイルのデータの使用により、精度や収束速度が改善されます。また、訓練中の算術とテキストデータの相互作用やモデルのスケールの影響も研究されています。この研究は、高品質な指導的なデータが算術能力の引き出しにおいて重要であることを強調しています。 Comment

結局next token predictionで学習させているみたいだけど、本当にそれで算術演算をモデルが理解しているのだろうか?という疑問がいつもある

#DataToTextGeneration #Financial #ACL #numeric #Encoder-Decoder Issue Date: 2025-11-27 [Paper Note] Learning to Generate Market Comments from Stock Prices, Murakami+, ACL'17 GPT Summary- 株価から市場コメントを生成する新しいエンコーダ-デコーダモデルを提案。モデルは短期・長期の株価変化をエンコードし、適切な算術演算を選択して数値を生成。実験により、最良モデルが人間の生成したテキストに近い流暢さと情報量を持つことが確認された。

VideoGeneration/Understandings (6)

#ComputerVision #Pocket #Attention #LongSequence #VisionLanguageModel #Sparse
Issue Date: 2025-10-04 [Paper Note] VideoNSA: Native Sparse Attention Scales Video Understanding, Enxin Song+, arXiv'25, 2025.10 GPT Summary- VideoNSAは、ビデオ理解のためにNative Sparse Attentionを適用し、長い時間スケールでの一貫性を向上させる手法。216Kのビデオ指示データセットでQwen2.5-VLをエンドツーエンドでトレーニングし、テキストには密な注意、ビデオにはNSAを使用。トークン圧縮や従来のスパースベースラインと比較して、長いビデオ理解や時間的推論で性能が向上。アブレーション分析により、信頼性のあるスケーリングや注意の最適配分などの重要な発見が得られた。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #MultiModal #Reasoning #OpenWeight #CurriculumLearning #VisionLanguageModel
Issue Date: 2025-08-28 [Paper Note] Ovis2.5 Technical Report, Shiyin Lu+, arXiv'25 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment

元ポスト:

Loading…

#ComputerVision #MachineLearning #Pocket #LanguageModel #Transformer #MultiModal #Architecture #VisionLanguageModel
Issue Date: 2025-07-06 [Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

#Article #ComputerVision #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #Transformer #Blog #VariationalAutoEncoder #OpenWeight #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-12 RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08 Comment

TL;DRは下記。

> We introduce RynnVLA-001, a vision-language-action model built upon large-scale video generative pre-training.
> - RynnVLA-001 is pretrained on ~12M ego-centric manipulation videos.
> - We unify next-frame prediction and next-action prediction into a single transformer.
> - We train a lightweight VAE to accurately compress action chunks into action embeddings.
> - Our RynnVLA-001 outperforms Pi-0 and GR00T-N1.5, in terms of both real-world task success rate and instruction-following capability.

まず、11.93Mの一人称視点での人間が操作（特に手の操作）をする動画と、244Kのrobotが操作をする動画でTransformerを事前学習する。このとき、actionラベルは一切用いず、pixelの情報から物理世界のダイナミクスを理解させる。続いて、Action Chunks（複数のアクションの少量のかたまり）を、dense embeddingにエンコードするVAEを学習する。チャンクを用いる理由は、ピクセルの変化が微小な場合、同じアクションが連続して予測されてしまいstuckしめしまう現象を防ぐこと、予測の効率が良いからとのこと。これによりVLAは単一のembedding vectorを予測するだけで、一貫性のあるアクション系列にデコードできる。最後に、step1で学習したvideo generationモデルと、step2で学習したVAEによるaction representationを統合する。具体的には、next frame prediction（visual tokenを予測; cross entropy loss）とnext action prediction（action edbeddingを予測する）を統合して学習する。action embeddingはcontinuousなベクトルなので異なるヘッドを用意して学習する（L1 Loss)。inference時はRGBのobservationと、テキストによるinstructionを入力として受け取り、action embeddingを予測する。action edbeddingはVAE decoderに渡され、low levelなaction系列に変換される。robotは予測されたアクションを実行し、observationが変化するのでまた予測する、といったiterationを実施する。visual tokenによる予測は不要なので、計算効率の観点から実施しない。

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base

#Article #ComputerVision #LanguageModel #MultiModal #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-07-29 Wan2.2, Alibaba Wan, 2025.07 Comment

元ポスト:

Loading…

テクニカルペーパー:
https://arxiv.org/abs/2503.20314

CommentGeneration (5)

#Pocket #Personalization #ACL #Workshop
Issue Date: 2019-09-11 [Paper Note] Automatic Generation of Personalized Comment Based on User Profile, Wenhuan Zeng+, ACL'19 SRW GPT Summary- ソーシャルメディアの多様なコメント生成の難しさを考慮し、ユーザーのプロフィールに基づくパーソナライズされたコメント生成タスク（AGPC）を提案。パーソナライズドコメント生成ネットワーク（PCGN）を用いて、ユーザーの特徴をモデル化し、外部ユーザー表現を考慮することで自然で人間らしいコメントを生成することに成功した。 #NeuralNetwork #Pocket #ACL
Issue Date: 2019-08-24 [Paper Note] Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model, Wei Li+, arXiv'19 GPT Summary- 自動記事コメント生成のために、ニュースをトピック相互作用グラフとしてモデル化し、グラフからシーケンスへのモデルを提案。これにより、記事の構造やトピックの関連性を理解し、より一貫性のある情報量の多いコメントを生成。Tencent Kuaibaoから収集した大規模なニュース-コメントコーパスを用いた実験で、提案モデルが強力なベースラインを上回る性能を示した。 #NeuralNetwork #Pocket #WWW
Issue Date: 2019-08-24 [Paper Note] Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures, Wen Hua Lin+, WWW'18 GPT Summary- 深層ニューラルネットワークを用いた画像キャプショニングは進展しているが、生成される文は浅く、ユーザーのスタイルや意図を反映していない。これに対処するため、ネットユーザースタイルコメント（NSC）を提案し、ファッション写真に対して特徴的なコメントを自動生成する。新たに構築した「NetiLook」データセットを用い、コメントの多様性を評価する指標を提案し、トピックモデルとニューラルネットワークを組み合わせることで、画像キャプショニングの精度と多様性を向上させることを実証した。

#ComputerVision #Pocket #CVPR Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, CVPR'17 Comment

画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。

InstagramのPostの簡易化などに応用できる。

Postを生成するためには、自身の言葉で、画像についての説明や、contextといったことを説明しなければならず、image captioningをする際にPersonalization Issueが生じることを指摘。

official implementation: https://github.com/cesc-park/attend2u

#Article #ComputerVision #Pocket Issue Date: 2019-09-27 Cross-domain personalized image captioning, Long+, 2019

DataGeneration (5)

#Pocket #DataDistillation #SyntheticData #ICML
Issue Date: 2025-05-07 R.I.P.: Better Models by Survival of the Fittest Prompts, Ping Yu+, ICML'25 GPT Summary- トレーニングデータの品質がモデルの性能に与える影響を考慮し、低品質な入力プロンプトがもたらす問題を解決するために、Rejecting Instruction Preferences（RIP）というデータ整合性評価手法を提案。RIPは、拒否された応答の品質と選択された好みペアとの報酬ギャップを測定し、トレーニングセットのフィルタリングや高品質な合成データセットの作成に利用可能。実験結果では、RIPを用いることでLlama 3.1-8B-Instructでの性能が大幅に向上し、Llama 3.3-70B-Instructではリーダーボードでの順位が上昇した。 Comment

元ポスト:

Loading…

スレッドで著者が論文の解説をしている。

#LanguageModel #ICLR
Issue Date: 2023-04-25 WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft_Peking University, ICLR'24 GPT Summary- 本論文では、LLMを用いて複雑な指示データを自動生成する手法Evol-Instructを提案。初期の指示セットを段階的に書き換え、生成したデータでLLaMAをファインチューニングし、WizardLMモデルを構築。評価結果では、Evol-Instructからの指示が人間作成のものより優れ、WizardLMはChatGPTを上回る性能を示した。AI進化による指示生成がLLM強化の有望なアプローチであることを示唆。 Comment

#Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2023-10-28 Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N_A, arXiv'23 GPT Summary- 私たちは、小さな言語モデルを作成するために、教師モデルからの優先データを使用する手法を提案しています。この手法により、自然なプロンプトに対するモデルの応答が改善されます。提案手法を用いて学習されたZephyr-7Bモデルは、チャットベンチマークで最先端の性能を発揮し、人間の注釈を必要としません。詳細はGitHubで利用可能です。 Comment

Blog: https://huggingface.co/blog/Isamu136/understanding-zephyr

#MachineLearning #LanguageModel #Transformer #DataAugmentation #Supervised-FineTuning (SFT) Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

#LanguageModel Issue Date: 2023-04-12 ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks, Gilardi+, University of Zurich, NAS'23 Comment

Annotation (5)

#Survey #Pocket #LanguageModel
Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv'24 GPT Summary- GPT-4などの大規模言語モデル（LLMs）を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 Comment

Data AnnotationにLLMを活用する場合のサーベイ

#DocumentSummarization #NaturalLanguageGeneration #Pocket #Dataset #LanguageModel
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#Pocket #LanguageModel
Issue Date: 2023-07-22 LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs, Tongshuang Wu+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、クラウドソーシングタスクにおいて人間のような振る舞いを再現できる可能性がある。しかし、現在の取り組みは単純なタスクに焦点を当てており、より複雑なパイプラインを再現できるかどうかは不明である。LLMsの成功は、リクエスターの理解力やサブタスクのスキルに影響を受ける。人間とLLMsのトレーニングの組み合わせにより、クラウドソーシングパイプラインの再現が可能であり、LLMsは一部のタスクを完了させながら、他のタスクを人間に任せることができる。

#MachineTranslation #Pocket #LanguageModel #TransferLearning #MultiLingual #ACL Issue Date: 2023-05-04 Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, ACL'23 GPT Summary- - 多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つ- スパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要- マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行った- EasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示した- すべてのコードとデータが公開される #Analysis #NaturalLanguageGeneration #Pocket #Evaluation Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

ImageCaptioning (5)

#ComputerVision #Pocket #SmallModel #OpenWeight #VisionLanguageModel
Issue Date: 2025-09-29 [Paper Note] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning, Long Xing+, arXiv'25, 2025.09 GPT Summary- 画像キャプショニングにおいて、従来の監視型ファインチューニング（SFT）の限界を克服するため、検証可能な報酬を用いた強化学習（RLVR）を提案。新しいトレーニングフレームワーク「キャプショニング強化学習（CapRL）」を導入し、キャプションの質をその有用性で再定義。CapRLは、視覚非依存のLLMの精度に基づく客観的な報酬を得る二段階のパイプラインを採用。CapRL-3Bによる事前学習は、12のベンチマークで大幅な性能向上を実現し、Qwen2.5-VL-72Bと同等のパフォーマンスを達成。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189

公式ポスト:

Loading…

#Hallucination
Issue Date: 2023-08-16 Object hallucination in image captioning, Rohbach+, EMNLP'18 GPT Summary- 現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。 #DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #Evaluation #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。

#Article #ComputerVision #Pretraining #Dataset #QuestionAnswering #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #Survey #ComputerVision #NaturalLanguageGeneration #LanguageModel #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

PersonalizedHeadlineGeneration (5)

#Pocket #PersonalizedGeneration #Personalization #TACL
Issue Date: 2025-11-27 [Paper Note] General then Personal: Decoupling and Pre-training for Personalized Headline Generation, Song+, TACL'23, 2023.12 GPT Summary- ユーザーの閲覧履歴に基づくパーソナライズされたヘッドライン生成のために、General Then Personal (GTP)フレームワークを提案。タスクを生成とカスタマイズにデカップリングし、情報自己ブースティングとマスクユーザーモデリングを導入。PENSデータセットでの実験により、GTPが最先端手法を上回ることを示し、デカップリングと事前学習の重要性を強調。人間評価によって効果を検証。 #PersonalizedDocumentSummarization #PersonalizedGeneration #Personalization #ACL #Surface-level Note
Issue Date: 2023-07-22 [Paper Note] Generating User-Engaging News Headlines, Cai+, ACL'23 GPT Summary- ニュース記事の見出しを個別化するために、ユーザープロファイリングを組み込んだ新しいフレームワークを提案。ユーザーの閲覧履歴に基づいて個別のシグネチャフレーズを割り当て、それを使用して見出しを個別化する。幅広い評価により、提案したフレームワークが多様な読者のニーズに応える個別の見出しを生成する効果を示した。 Comment

なぜPENS dataset [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21
を利用しないで研究したのか？

#Pocket #PersonalizedGeneration #Personalization
Issue Date: 2023-08-11 [Paper Note] Personalized News Headline Generation System with Fine-grained User Modeling, Jiaohong Yao, MSN'22 GPT Summary- ユーザーの興味に基づいてパーソナライズされたニュースの見出しを生成するために、文レベルの情報を考慮したユーザーモデルを提案する。アテンション層を使用して文とニュースの関連性を計算し、ニュースの内容に基づいて見出しを生成する。実験結果は、提案モデルがベースラインモデルよりも優れたパフォーマンスを示していることを示している。将来の方向性として、情報のレベルと内容を横断する相互作用についても議論されている。

#Pocket #PersonalizedGeneration #Personalization Issue Date: 2023-08-11 Personalized Headline Generation with Enhanced User Interest Perception, Zhang+, ICANN'22 GPT Summary- ユーザーのニュース閲覧履歴をモデル化し、個別化されたニュース見出しを生成するための新しいフレームワークを提案する。提案手法は、ユーザーの興味を強調するために候補テキストに関連する情報を活用し、ニュースのエンティティワードを使用して興味表現を改善する。幅広い実験により、提案手法が見出し生成タスクで優れたパフォーマンスを示すことが示されている。 #PersonalizedDocumentSummarization #Dataset #LanguageModel #PersonalizedGeneration #Personalization #ACL #Surface-level Note Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

Finetuning (5)

#MachineLearning #Pocket #LanguageModel #EvolutionaryAlgorithm
Issue Date: 2025-10-07 [Paper Note] Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning, Xin Qiu+, arXiv'25, 2025.09 GPT Summary- 進化戦略（ES）を用いて、事前学習済みの大規模言語モデル（LLMs）の全パラメータをファインチューニングする初の成功事例を報告。ESは数十億のパラメータに対して効率的に探索でき、サンプル効率やロバスト性、パフォーマンスの安定性において既存の強化学習（RL）手法を上回ることを示す。これにより、LLMファインチューニングの新たな方向性が開かれる。 Comment

元ポスト:

Loading…

続報:

Loading…

#NeuralNetwork #Analysis #Pocket #LanguageModel #Selected Papers/Blogs
Issue Date: 2025-07-24 [Paper Note] Subliminal Learning: Language models transmit behavioral traits via hidden signals in data, Alex Cloud+, arXiv'25 GPT Summary- サブリミナル学習は、言語モデルが無関係なデータを通じて特性を伝達する現象である。実験では、特定の特性を持つ教師モデルが生成した数列データで訓練された生徒モデルが、その特性を学習することが確認された。データが特性への言及を除去してもこの現象は発生し、異なるベースモデルの教師と生徒では効果が見られなかった。理論的結果を通じて、全てのニューラルネットワークにおけるサブリミナル学習の発生を示し、MLP分類器での実証も行った。サブリミナル学習は一般的な現象であり、AI開発における予期しない問題を引き起こす可能性がある。 Comment

元ポスト:

Loading…

#NaturalLanguageGeneration #Metrics #Pocket #Evaluation #EMNLP
Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

#NeuralNetwork #ComputerVision #Pocket #ICML #Selected Papers/Blogs #OOD #Generalization #Encoder #Encoder-Decoder #KeyPoint Notes #Souping Issue Date: 2025-11-28 [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

#Article #Analysis #Blog #Tokenizer #Encoder Issue Date: 2025-08-02 日本語ModernBERTの開発: トークナイザと性能の関係編（3_3）, SBIntuitions, 2025.05 Comment

元ポスト:

Loading…

SyntheticDataGeneration (5)

#Pocket #LanguageModel #ReinforcementLearning #SyntheticData #Reasoning #GRPO
Issue Date: 2025-08-10 [Paper Note] MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy, Shaoxiong Zhan+, arXiv'25 GPT Summary- MathSmithという新しいフレームワークを提案し、LLMの数学的推論を強化するために新しい問題をゼロから合成。既存の問題を修正せず、PlanetMathから概念と説明をランダムにサンプリングし、データの独立性を確保。9つの戦略を用いて難易度を上げ、強化学習で構造的妥当性や推論の複雑さを最適化。実験では、MathSmithが既存のベースラインを上回り、高難易度の合成データがLLMの推論能力を向上させる可能性を示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Alignment #SyntheticData #ICLR #Selected Papers/Blogs
Issue Date: 2025-06-25 [Paper Note] Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR'25 GPT Summary- 高品質な指示データはLLMの整合に不可欠であり、Magpieという自己合成手法を提案。Llama-3-Instructを用いて400万の指示と応答を生成し、30万の高品質なインスタンスを選定。Magpieでファインチューニングしたモデルは、従来のデータセットを用いたモデルと同等の性能を示し、特に整合ベンチマークで優れた結果を得た。 Comment

OpenReview: https://openreview.net/forum?id=Pnk7vMbznK

#Pocket #LanguageModel #ReinforcementLearning #SyntheticData #CodeGeneration
Issue Date: 2025-02-12 ACECODER: Acing Coder RL via Automated Test-Case Synthesis, Huaye Zeng+, arXiv'25 GPT Summary- 本研究では、コードモデルのトレーニングにおける強化学習（RL）の可能性を探求し、自動化された大規模テストケース合成を活用して信頼できる報酬データを生成する手法を提案します。具体的には、既存のコードデータから質問とテストケースのペアを生成し、これを用いて報酬モデルをトレーニングします。このアプローチにより、Llama-3.1-8B-Insで平均10ポイント、Qwen2.5-Coder-7B-Insで5ポイントの性能向上が見られ、7Bモデルが236B DeepSeek-V2.5と同等の性能を達成しました。また、強化学習を通じてHumanEvalやMBPPなどのデータセットで一貫した改善を示し、特にQwen2.5-Coder-baseからのRLトレーニングがHumanEval-plusで25%以上、MBPP-plusで6%の改善をもたらしました。これにより、コーダーモデルにおける強化学習の大きな可能性が示されました。

#Pocket #Dataset #AIAgents #SyntheticData #Evaluation Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #QuestionAnswering #SyntheticData Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv'24 GPT Summary- 新手法「Source2Synth」を提案し、LLMに新しいスキルを教える。人間の注釈に依存せず、実世界のソースに基づいた合成データを生成し、低品質な生成物を廃棄してデータセットの質を向上。マルチホップ質問応答と表形式の質問応答に適用し、WikiSQLで25.51%、HotPotQAで22.57%の性能向上を達成。 Comment

Loading…

MultiHopQAの合成データ生成方法

TableQAの合成データ生成方法

SentimentAnalysis (4)

#NeuralNetwork #Tutorial #Slide #EMNLP
Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16 #NeuralNetwork #Document #Embeddings #EMNLP
Issue Date: 2017-12-28 [Paper Note] Document Modeling with Gated Recurrent Neural Network for Sentiment Classification, Tang+, EMNLP'15 Comment

word level -> sentence level -> document level のrepresentationを求め、documentのsentiment classificationをする話。

documentのRepresentationを生成するときに参考になるやも。

sentenceのrepresentationを求めるときは、CNN/LSTMを使う。

document levelに落とすことは、bi-directionalなGatedRNN(このGatedRNNはLSTMのoutput-gateが常にonになっているようなものを使う。sentenceのsemanticsに関する情報を落としたくないかららしい。)を使う。

sentiment classificationタスクで評価し、(sentence levelのrepresentationを求めるときは)LSTMが最も性能がよく、documentのrepresentationを求めるときは、standardなRNNよりもGatedRNNのほうが性能よかった。

#Article #NeuralNetwork #RepresentationLearning
Issue Date: 2021-06-01 Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015 Comment

#Article #Survey #OpinionMining Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008

Planning (4)

#Multi #Pocket #LanguageModel #AIAgents #LongSequence #read-later #DeepResearch #memory
Issue Date: 2025-09-17 [Paper Note] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research, Zijian Li+, arXiv'25 GPT Summary- 本論文では、AIエージェントがウェブ情報を統合してレポートを作成するオープンエンド深層研究（OEDR）に取り組み、WebWeaverという新しい二重エージェントフレームワークを提案。プランナーが証拠取得とアウトライン最適化を交互に行い、ライターが情報を階層的に検索してレポートを構成することで、長いコンテキストの問題を軽減。提案手法は主要なOEDRベンチマークで新たな最先端を確立し、高品質なレポート生成における人間中心のアプローチの重要性を示した。 Comment

元ポスト:

Loading…

#AIAgents #Prompting #Reasoning #IJCAI #Workshop #IdeaGeneration
Issue Date: 2025-08-30 [Paper Note] MK2 at PBIG Competition: A Prompt Generation Solution, Xu+, IJCAI WS AgentScen'25, 2025.08 Comment

元ポスト:

Loading…

Patentからmarket-readyなプロダクトのコンセプトを生成し評価するタスク(PBIG)に取り組んでいる。
Reasoningモデルはコストとレスポンスの遅さから利用せず（iterationを重ねることを重視）、LLMのアシストを受けながらpromptを何度もhuman in the loopでiterationしながら品質を高めていくアプローチをとり、リーダーボードで1st placeを獲得した模様。

#LanguageModel
Issue Date: 2023-05-21 Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, Hanxu Hu+, N_A, arXiv'23 GPT Summary- 本論文では、LLMsを使用して複雑な計画タスクを解決するための新しいベンチマークであるNatural Language Planning（NLP）を提案し、CoSという新しい手法を導入して、LLMsがシンボリック表現をより理解しやすくすることを示した。CoSはChatGPTやInstructGPTでの入力トークン数を削減し、Brick Worldで60.8％の精度を達成するなど、性能の向上を実現した。 Comment

OpenReview: https://openreview.net/forum?id=B0wJ5oCPdB

#LanguageModel Issue Date: 2023-04-25 LLM+P: Empowering Large Language Models with Optimal Planning Proficiency, Liu+, University of Texas at Austin, arXiv'23 Comment

CodeGeneration (4)

#Pocket #LanguageModel #ReinforcementLearning #SyntheticData #SyntheticDataGeneration
Issue Date: 2025-02-12 ACECODER: Acing Coder RL via Automated Test-Case Synthesis, Huaye Zeng+, arXiv'25 GPT Summary- 本研究では、コードモデルのトレーニングにおける強化学習（RL）の可能性を探求し、自動化された大規模テストケース合成を活用して信頼できる報酬データを生成する手法を提案します。具体的には、既存のコードデータから質問とテストケースのペアを生成し、これを用いて報酬モデルをトレーニングします。このアプローチにより、Llama-3.1-8B-Insで平均10ポイント、Qwen2.5-Coder-7B-Insで5ポイントの性能向上が見られ、7Bモデルが236B DeepSeek-V2.5と同等の性能を達成しました。また、強化学習を通じてHumanEvalやMBPPなどのデータセットで一貫した改善を示し、特にQwen2.5-Coder-baseからのRLトレーニングがHumanEval-plusで25%以上、MBPP-plusで6%の改善をもたらしました。これにより、コーダーモデルにおける強化学習の大きな可能性が示されました。 #LanguageModel
Issue Date: 2023-05-20 CodeT5+: Open Code Large Language Models for Code Understanding and Generation, Yue Wang+, N_A, arXiv'23 GPT Summary- 本研究では、コードのためのエンコーダーデコーダーLLMsのファミリーである「CodeT5+」を提案し、様々なダウンストリームコードタスクに柔軟に適合することができるようにしました。また、事前学習オブジェクティブの混合を提案することで、事前学習とファインチューニングの不一致を緩和し、スパンデノイジング、コントラスティブラーニング、テキストコードマッチング、因果LM事前学習タスクを含めました。CodeT5+は、異なる設定で20以上のコード関連ベンチマークで徹底的に評価され、最先端のモデルパフォーマンスを観察しました。特に、instruction-tuned CodeT5+ 16Bは、他のオープンなコードLLMsに対して、HumanEvalコード生成タスクで新しい最先端の結果を達成しました。 Comment

#Pocket #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs
Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #Dataset #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

STS (SemanticTextualSimilarity) (4)

#Embeddings #InformationRetrieval #Search #ICLR
Issue Date: 2025-01-28 SoftMatcha: A Fast and Soft Pattern Matcher for Billion-Scale Corpus Searches, Deguchi+, ICLR'25 Comment

ICLR2025にacceptされた模様
https://openreview.net/forum?id=Q6PAnqYVpo

openreview: https://openreview.net/forum?id=Q6PAnqYVpo

https://arxiv.org/abs/2503.03703

#Dataset
Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv'17 GPT Summary- 日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Comment

github: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset

単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。

#Article #NeuralNetwork #Embeddings #Word #RepresentationLearning
Issue Date: 2024-11-20 Zipf 白色化：タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 GPT Summary- 単語埋め込み空間の歪みを修正することでタスクのパフォーマンスが向上することを示す。既存のアプローチは単語頻度が均一であると仮定しているが、実際にはZipfの法則に従う非均一な分布である。Zipfに基づく頻度で重み付けされたPCAホワイトニングを行うことで、パフォーマンスが大幅に向上し、ベースラインを超える。情報幾何学的な観点から、低頻度の単語を強調する理論を提案し、人気の自然言語処理手法がこの理論に基づいて機能することを示す。 Comment

元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ]( https://arxiv.org/abs/2411.00680)

#Article #LanguageModel Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment

AutomaticSpeechRecognition(ASR) (4)

#NeuralNetwork #EfficiencyImprovement #Pocket #EMNLP #Encoder-Decoder
Issue Date: 2025-08-22 [Paper Note] LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation, Keisuke Kamahori+, EMNLP'25 GPT Summary- LiteASRは、現代の自動音声認識モデルのエンコーダを低ランク圧縮する手法で、推論コストを大幅に削減しつつ転写精度を維持します。主成分分析を用いて低ランク行列の乗算を近似し、自己注意機構を最適化することで、Whisper large-v3のエンコーダサイズを50%以上圧縮し、Whisper mediumと同等のサイズでより良い転写精度を実現しました。 Comment

元ポスト:

Loading…

現代のASRモデルはencoderが計算効率の上でボトルネックとなっていたが、Forward Passにおける activatrion Y を PCA （式2, 3）に基づいて2つの低ランク行列の積（とバイアス項の加算; 式5）によって近似し計算効率を大幅に向上させた、という話な模様。weightを低ランクに写像するV_kとバイアス項のY_M（データセット全体に対するactivation Yの平均）はcalibrfationデータによって事前に計算可能とのこと。また、PCAのrank kがattention headの次元数より小さい場合、self-attentionの計算もより（QWKへ写像するWを低ランク行列で近似することで）効率的な手法を採用でき、そちらについても提案されている模様。（ざっくりしか読めていないので誤りがあるかもしれない。）

https://github.com/user-attachments/assets/38c8aa6a-cad3-42d1-af6a-9102ed1df3f5" />

https://github.com/user-attachments/assets/f8fa8cd1-2b6a-405a-88ec-3bfd2158dffb" />

#Metrics #Pocket #Evaluation #AACL #SimulST(SimultaneousSpeechTranslation)
Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20 GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22

#Article #ComputerVision #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #SpeechProcessing #Blog Issue Date: 2024-11-07 ほぼリアルタイム！？爆速で動作する日本語特化の文字起こしAI！『kotoba-whisper-v2.0』, 遼介大堀, 2024.11 Comment

whisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。

公式によると、whisper-large-v3よりも6.3倍のスループットとのこと。また、qiita記事中ではwhisper large-v2に対して約6.0倍のスループットであることが言及されている。

学習に用いられたデータは、ReasonSpeechデータ（日本語のテレビの録音データ） ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 をWERに基づくフィルタリングによって良質なデータのみを抽出することで作成されたデータの模様

公式のモデルカードも参照のこと: https://huggingface.co/kotoba-tech/kotoba-whisper-v2.0

日本のテレビ番組のデータで学習されているので、それを念頭に置いた上で、自分が適用したいデータとの相性を考えると良さそうである。

また、動作速度が速いのはシンプルにありがたい。

ConceptErasure (4)

#Pocket #LanguageModel #EMNLP
Issue Date: 2025-11-04 [Paper Note] Precise In-Parameter Concept Erasure in Large Language Models, Yoav Gur-Arieh+, EMNLP'25, 2025.05 GPT Summary- PISCES（Precise In-parameter Suppression for Concept EraSure）を提案し、LLMsから機密情報や著作権保護コンテンツを正確に除去する新しいフレームワークを構築。特徴ベースのパラメータ内編集を用いて、ターゲット概念に関連する特徴を特定し除去。実験により、消去精度を7.7%低下させつつ、特異性と堅牢性をそれぞれ最大31%および38%向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Evaluation #EMNLP #read-later #Selected Papers/Blogs
Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #KnowledgeEditing
Issue Date: 2025-08-26 [Paper Note] CRISP: Persistent Concept Unlearning via Sparse Autoencoders, Tomer Ashuach+, arXiv'25 GPT Summary- CRISPは、LLMにおける持続的な概念の忘却を実現するためのパラメータ効率の良い手法であり、スパースオートエンコーダ（SAE）を用いて有害な知識を効果的に除去します。実験により、CRISPはWMDPベンチマークの忘却タスクで従来の手法を上回り、一般的およびドメイン内の能力を保持しつつ、ターゲット特徴の正確な抑制を達成することが示されました。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #KnowledgeEditing #AISTATS Issue Date: 2025-04-03 Fundamental Limits of Perfect Concept Erasure, Somnath Basu Roy Chowdhury+, AISTATS'25 GPT Summary- 概念消去は、性別や人種などの情報を消去しつつ元の表現を保持するタスクであり、公平性の達成やモデルのパフォーマンスの解釈に役立つ。従来の技術は消去の堅牢性を重視してきたが、有用性とのトレードオフが存在する。本研究では、情報理論的視点から概念消去の限界を定量化し、完璧な消去を達成するためのデータ分布と消去関数の制約を調査。提案する消去関数が理論的限界を達成し、GPT-4を用いたデータセットで既存手法を上回ることを示した。 Comment

元ポスト:

Loading…

TTS (4)

#ComputerVision #Pocket #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #AudioLanguageModel
Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

#ComputerVision #Pocket #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #4D (Video) #Omni #audio #text
Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

#Article #ComputerVision #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #SmallModel Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS

Safeguard (4)

#ComputerVision #Pocket #Dataset #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live
Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #LanguageModel #AIAgents #API #Safety #PostTraining
Issue Date: 2025-10-22 [Paper Note] Detecting Adversarial Fine-tuning with Auditing Agents, Sarah Egler+, arXiv'25, 2025.10 GPT Summary- ファインチューニングAPIの悪用に対する検出メカニズムを提案。ファインチューニング監査エージェントを導入し、有害なファインチューニングを事前に検出可能であることを示す。1400以上の監査を通じて、56.2%の敵対的ファインチューニング検出率を達成。良性ファインチューニングによる安全性の低下も課題として残るが、今後の研究の基盤を提供。監査エージェントは公開済み。 Comment

元ポスト:

Loading…

#Article #LanguageModel #Reasoning #OpenWeight #Safety #One-Line Notes
Issue Date: 2025-10-30 gpt-oss-safeguard, OpenAI, 2025.10 Comment

元ポスト:

Loading…

blog: https://openai.com/index/introducing-gpt-oss-safeguard/

#Article #LanguageModel #OpenWeight #Safety Issue Date: 2025-09-23 Qwen3-Guard, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

DomainAdaptation (3)

#Single #DocumentSummarization #Document #Supervised #Extractive #PRICAI #KeyPoint Notes
Issue Date: 2018-01-01 [Paper Note] Learning from Numerous Untailored Summaries, Kikuchi+, PRICAI'16 GPT Summary- NYTACを利用して監視型要約システムを訓練し、5つのドメイン適応手法を導入。ターゲットデータでファインチューニングした手法が最良の結果を示し、抽出的オラクル要約に基づくインスタンス選択手法が要約性能を向上させることを実証。 Comment

#MachineLearning #ACL #Selected Papers/Blogs
Issue Date: 2017-12-31 [Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 Comment

#Article #DocumentSummarization #Document #StructuredLearning #Supervised #Extractive
Issue Date: 2017-12-31 [Paper Note] 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011.11 Comment

構造学習を利用した文書要約モデル

[Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 なども利用し転移学習を行なっている。

DataAugmentation (3)

#Pocket #Distillation #NAACL #Verification
Issue Date: 2024-12-02 Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, NAACL'25 GPT Summary- 逆思考は推論において重要であり、我々は大規模言語モデル（LLMs）向けにReverse-Enhanced Thinking（RevThink）フレームワークを提案。データ拡張と学習目標を用いて、前向きと後向きの推論を構造化し、マルチタスク学習で小型モデルを訓練。実験では、ゼロショット性能が平均13.53%向上し、知識蒸留ベースラインに対して6.84%の改善を達成。少ないデータでのサンプル効率も示し、一般化能力が高いことが確認された。 Comment

## 手法概要

Original QuestionからTeacher Modelでreasoningと逆質問を生成（Forward Reasoning, Backward Question）し、逆質問に対するReasoningを生成する（Backward Reasoning）。
その後、Forward Reasoningで回答が誤っているものや、Teacher Modelを用いてBackward ReasoningとOriginal Questionを比較して正しさをverificationすることで、学習データのフィルタリングを行う。
このようにして得られたデータに対して、3種類の項をlossに設けて学習する。具体的には

- Original Questionから生成したForward Reasoningに対するクロスエントロピー
- Original Questionから生成したBackward Questionに対するクロスエントロピー
- Backward Questionから生成したBackward Reasoningに対するクロスエントロピー

の平均をとる。

また、original questionと、backward reasoningが一貫しているかを確認するためにTeacher Modelを利用した下記プロンプトでverificationを実施し、一貫性があると判断されたサンプルのみをSFTのデータとして活用している。

Teacherモデルから知識蒸留をするためSFTが必要。あと、正解が一意に定まるようなQuestionでないとbackward reasoningの生成はできても、verificationが困難になるので、適用するのは難しいかもしれない。

#MachineLearning #LanguageModel #Transformer #Supervised-FineTuning (SFT) #DataGeneration
Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

#Article #Library #Repository
Issue Date: 2023-01-21 nlpaug Comment

Data Augmentationのためのオープンソースライブラリ

Assessment (3)

#Pocket #ChatGPT #InformationExtraction
Issue Date: 2023-04-25 [Paper Note] Evaluating ChatGPT's Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness, Bo Li+, arXiv'23 GPT Summary- 本研究では、ChatGPTの能力を7つの情報抽出（IE）タスクを通じて評価し、パフォーマンス、説明可能性、キャリブレーション、信頼性を分析しました。標準IE設定ではパフォーマンスが低い一方、オープンIE設定では人間評価で優れた結果を示しました。ChatGPTは高品質な説明を提供するものの、予測に対して過信する傾向があり、キャリブレーションが低いことが明らかになりました。また、元のテキストに対して高い信頼性を示しました。研究のために手動で注釈付けした7つのIEタスクのテストセットと14のデータセットを公開しています。 Comment

#Article #LanguageModel
Issue Date: 2023-05-04 ChatBot Arena, lmsys org, 2023.05 Comment

Loading…

過去のデータについては ChatBot Arenaのデータセットなどもある

#Article #LanguageModel
Issue Date: 2023-04-30 PandaLM Comment

NaturalLanguageUnderstanding (3)

Issue Date: 2023-07-18 [TACL] Efficient Long-Text Understanding with Short-Text Models, TACL'23 GPT Summary- 本研究では、長いシーケンスを処理するためのシンプルなアプローチであるSLEDを提案しています。SLEDは、既存の短文の事前学習言語モデルを再利用し、入力を重なり合うチャンクに分割して処理します。制御された実験により、SLEDが長いテキスト理解に有効であり、専用の高価な事前学習ステップが必要な専門モデルと競合することが示されました。 #InformationRetrieval #LanguageModel #KnowledgeGraph #Factuality
Issue Date: 2023-07-14 Direct Fact Retrieval from Knowledge Graphs without Entity Linking, ACL'23 GPT Summary- 従来の知識取得メカニズムの制限を克服するために、我々はシンプルな知識取得フレームワークであるDiFaRを提案する。このフレームワークは、入力テキストに基づいて直接KGから事実を取得するものであり、言語モデルとリランカーを使用して事実のランクを改善する。DiFaRは複数の事実取得タスクでベースラインよりも優れた性能を示した。 #Article #RecommenderSystems #Dataset
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions GPT Summary- データセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。

QuestionGeneration (3)

#Pocket #Dataset #LanguageModel #AIAgents #Evaluation
Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#Education #EducationalDataMining
Issue Date: 2023-07-15 Covering Uncommon Ground: Gap-Focused Question Generation for Answer Assessment, ACL'23 GPT Summary- 本研究では、教育的な対話における情報のギャップに焦点を当て、自動的に質問を生成する問題に取り組んでいます。良い質問の要素を明確にし、それを満たすモデルを提案します。また、人間のアノテーターによる評価を行い、生成された質問の競争力を示します。 #NaturalLanguageGeneration #Education #AdaptiveLearning #KnowledgeTracing #Personalization
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

ZeroshotHyperparameterTransfer (3)

#Pretraining #Pocket #LanguageModel #MoE(Mixture-of-Experts)
Issue Date: 2025-08-14 [Paper Note] $μ$-Parametrization for Mixture of Experts, Jan Małaśnicki+, arXiv'25 GPT Summary- 本研究では、Mixture-of-Experts（MoE）モデルに対する$\mu$-Parameterization（$\mu$P）を提案し、ルーターとエキスパートの特徴学習に関する理論的保証を提供します。また、エキスパートの数と粒度のスケーリングが最適な学習率に与える影響を実証的に検証します。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #Transformer #Optimizer #ICML #read-later
Issue Date: 2025-08-31 [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24 GPT Summary- モデルのスケーリングには、パラメータ化やオプティマイザの選択が重要である。本研究では、パラメータとデータの整合性に関する新しい視点を提案し、広範なオプティマイザと学習率の組み合わせで数万のモデルを訓練した結果、最適な学習率スケーリングが重要であることを発見。新しい層ごとの学習率の処方は従来の方法を上回る性能を示し、Adamのイプシロンパラメータの適切なスケーリングが必要であることを明らかにし、数値的に安定した新しいAdamバージョンであるAdam-atan2を提案した。 #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #Transformer #NeurIPS #read-later
Issue Date: 2025-08-28 [Paper Note] Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer, Greg Yang+, NeurIPS'21 GPT Summary- ハイパーパラメータチューニングは高コストであり、特に大規模なニューラルネットワークにおいて負担が大きい。新たに提案するmuTransferは、最大更新パラメータ化（muP）を利用し、小さなモデルでチューニングしたHPをフルサイズモデルにゼロショットで転送する手法である。実験により、1300万パラメータのモデルからBERT-largeを超える性能を達成し、4000万パラメータからはGPT-3を上回る結果を得た。チューニングコストはそれぞれ事前学習コストの同等または7%に抑えられた。 Comment

openreview: https://openreview.net/forum?id=Bx6qKuBM2AD

muP:
- [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, PMLR'21

InteractivePersonalizedSummarization (2)

#PersonalizedDocumentSummarization #DocumentSummarization #IntegerLinearProgramming (ILP) #Personalization #ACL #interactive #In-Depth Notes
Issue Date: 2017-12-28 [Paper Note] Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL'17, 2017.08 GPT Summary- ユーザーフィードバックを活用した抽出的マルチドキュメント要約システムを提案。インタラクティブにフィードバックを取得し、ILPフレームワークを用いて要約の質を向上。最小限の反復で高品質な要約を生成し、シミュレーション実験で効果を分析。 Comment

#Multi #PersonalizedDocumentSummarization #DocumentSummarization #Personalization #EMNLP #Selected Papers/Blogs #interactive #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP'11, 2011.07 Comment

OpinionMining (2)

#DocumentSummarization #review
Issue Date: 2023-05-08 Mining and summarizing customer reviews, Hu+, KDD'04 Comment

#Article #Survey #SentimentAnalysis
Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008

CollaborativeFiltering (2)

#RecommenderSystems #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration) #Reasoning
Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 GPT Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment

元ポスト:

Loading…

Reasoning LLMをRecSysに応用する初めての研究（らしいことがRelated Workに書かれている）

#RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #ReviewGeneration #IJCNLP
Issue Date: 2019-02-01 [Paper Note] Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17 Comment

Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。

InformationExtraction (2)

#Pocket #Assessment #ChatGPT
Issue Date: 2023-04-25 [Paper Note] Evaluating ChatGPT's Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness, Bo Li+, arXiv'23 GPT Summary- 本研究では、ChatGPTの能力を7つの情報抽出（IE）タスクを通じて評価し、パフォーマンス、説明可能性、キャリブレーション、信頼性を分析しました。標準IE設定ではパフォーマンスが低い一方、オープンIE設定では人間評価で優れた結果を示しました。ChatGPTは高品質な説明を提供するものの、予測に対して過信する傾向があり、キャリブレーションが低いことが明らかになりました。また、元のテキストに対して高い信頼性を示しました。研究のために手動で注釈付けした7つのIEタスクのテストセットと14のデータセットを公開しています。 Comment

#Article #Blog
Issue Date: 2024-01-16 LLMにおける情報抽出（文章から必要な事柄を読み取る）タスクについての調査, AIDB

Poisoning (2)

#MachineLearning #LanguageModel
Issue Date: 2023-07-11 On the Exploitability of Instruction Tuning, Manli Shu+, N_A, arXiv'23 GPT Summary- 大規模な言語モデル（LLMs）を使用して、指示の調整を行う効果的な手法を提案する。敵対者が特定の指示に従う例をトレーニングデータに注入することで、指示の調整を悪用する方法を調査する。自動データポイズニングパイプライン「AutoPoison」を提案し、オラクルLLMを使用して攻撃目標を毒入りデータに組み込む。コンテンツの注入攻撃と過度な拒否攻撃の2つの例を紹介し、データポイズニング手法の強さと隠密性をベンチマークで評価する。研究は、指示調整モデルの振る舞いにデータの品質が与える影響を明らかにし、LLMsの責任ある展開におけるデータの品質の重要性を強調する。 Comment

#Pocket #LanguageModel #ICML
Issue Date: 2023-05-04 Poisoning Language Models During Instruction Tuning, Alexander Wan+, N_A, ICML'23 GPT Summary- - Instruction-tuned LMs（ChatGPT、FLAN、InstructGPTなど）は、ユーザーが提出した例を含むデータセットでfinetuneされる。- 本研究では、敵対者が毒入りの例を提供することで、LMの予測を操作できることを示す。- 毒入りの例を構築するために、LMのbag-of-words近似を使用して入出力を最適化する。- 大きなLMほど毒入り攻撃に対して脆弱であり、データフィルタリングやモデル容量の削減に基づく防御は、テストの正確性を低下させながら、中程度の保護しか提供しない。

GrammaticalErrorCorrection (2)

#Analysis #Pocket #LanguageModel
Issue Date: 2024-08-14 Prompting open-source and commercial language models for grammatical error correction of English learner text, Christopher Davis+, N_A, arXiv'24 GPT Summary- LLMsの進歩により、流暢で文法的なテキスト生成が可能になり、不文法な入力文を与えることで文法エラー修正（GEC）が可能となった。本研究では、7つのオープンソースと3つの商用LLMsを4つのGECベンチマークで評価し、商用モデルが常に教師ありの英語GECモデルを上回るわけではないことを示した。また、オープンソースモデルが商用モデルを上回ることがあり、ゼロショットのプロンプティングがフューショットのプロンプティングと同じくらい競争力があることを示した。 Comment

元ポスト:

Loading…

#Dataset
Issue Date: 2023-07-18 Enhancing Grammatical Error Correction Systems with Explanations, ACL'23 GPT Summary- 文法エラー修正システムの性能向上のために、エビデンスワードと文法エラータイプが注釈付けされた大規模なデータセットであるEXPECTを紹介する。このデータセットを使用して、説明可能なGECシステムのベースラインと分析を提案し、人間の評価によってその有用性を確認する。

AutoML (2)

#MachineLearning #Pocket #Dataset #LanguageModel #AIAgents #Evaluation
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#MachineLearning #Pocket
Issue Date: 2023-08-10 MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks, Lei Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、機械学習タスクの自動化における人間の知識と機械知能のギャップを埋めるために、新しいフレームワークMLCopilotを提案する。このフレームワークは、最先端のLLMsを使用して新しいMLタスクのソリューションを開発し、既存のMLタスクの経験から学び、効果的に推論して有望な結果を提供することができる。生成されたソリューションは直接使用して競争力のある結果を得ることができる。

Deduplication (2)

#ComputerVision #Embeddings #Pocket
Issue Date: 2025-08-16 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic deduplication, Amro Abbas+, arXiv'23 GPT Summary- SemDeDupは、事前学習モデルの埋め込みを用いて意味的に重複するデータペアを特定し削除する手法。LAIONのサブセットで50%のデータ削除を実現し、トレーニング時間を半分に短縮。分布外性能も向上し、C4データセットでも効率性を改善。質の高い埋め込みを活用することで、データ削減と学習加速を両立。 Comment

embedding空間において近傍のサンプル(near-duplicates)を削除することで、学習効率が向上します、という話な模様。
https://github.com/user-attachments/assets/11511a7e-feaa-4e7b-8276-628fe5099be9" />

openreview: https://openreview.net/forum?id=IRSesTQUtb¬eId=usQjFYYAZJ

openreviewによると、embedding空間においてnear-duplicatesを削除するというアイデアは興味深いが、提案手法は既存研究のアイデアを組み合わせているに留まっており（多くのブログポストやdeduplicationのためのライブラリも存在する）新規性が明確ではない点や、実験結果が不足している（i.e., 全てのケースでSoTAというわけでもなく、大規模モデルでの実験やstrong baselineの不在（実験結果はrandom pruningに対してoutperformすることが主に示されている）など、論文の主張をサポートするための結果が足りない）という指摘がされている。
実用的にはwell-writtenでexampleも豊富とのことなので、Deduplicationの理解を深めるのに良さそう。

先行研究:
- （画像）[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22
- （テキスト）[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22

[Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22 では、分類が難しい画像のデータという観点にフォーカスしており、[Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 では、テキストの表層的な情報の一致に基づいてDeduplicationを実施している。

#Pretraining #Pocket #LanguageModel #ACL #Selected Papers/Blogs
Issue Date: 2025-09-04 [Paper Note] Deduplicating Training Data Makes Language Models Better, Katherine Lee+, ACL'22 GPT Summary- 既存の言語モデルデータセットには重複した例が多く含まれ、訓練されたモデルの出力の1%以上が訓練データからコピーされている。これを解決するために、重複排除ツールを開発し、C4データセットからは60,000回以上繰り返される文を削除。重複を排除することで、モデルの記憶されたテキスト出力を10倍減少させ、精度を維持しつつ訓練ステップを削減。また、訓練とテストの重複を減らし、より正確な評価を実現。研究の再現とコードは公開されている。 Comment

下記スライドのp.9にまとめが記述されている:
https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws?slide=9

NeuralArchitectureSearch (2)

#NeuralNetwork #MachineLearning #Pocket #ICLR
Issue Date: 2025-09-27 [Paper Note] STAR: Synthesis of Tailored Architectures, Armin W. Thomas+, ICLR'25, 2024.11 GPT Summary- 新しいアプローチ（STAR）を提案し、特化したアーキテクチャの合成を行う。線形入力変動システムに基づく探索空間を用い、アーキテクチャのゲノムを階層的にエンコード。進化的アルゴリズムでモデルの品質と効率を最適化し、自己回帰型言語モデリングにおいて従来のモデルを上回る性能を達成。 Comment

openreview: https://openreview.net/forum?id=HsHxSN23rM

#EfficiencyImprovement #Pocket #LanguageModel #SmallModel #Reference Collection
Issue Date: 2025-08-26 [Paper Note] Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search, Yuxian Gu+, arXiv'25 GPT Summary- Jet-Nemotronは新しいハイブリッドアーキテクチャの言語モデルで、フルアテンションモデルと同等以上の精度を持ちながら生成スループットを大幅に改善します。Post Neural Architecture Search（PostNAS）を用いて開発され、事前トレーニングされたモデルから効率的にアテンションブロックを探索します。Jet-Nemotron-2Bモデルは、他の先進モデルに対して高い精度を達成し、生成スループットを最大53.6倍向上させました。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

解説:

Loading…

続報:

Loading…

コードとチェックポイントがリリース

code: https://github.com/NVlabs/Jet-Nemotron
HF: https://huggingface.co/collections/jet-ai/jet-nemotron-68ac76e8356b5399ef83ac9c

IdeaGeneration (2)

#Pocket #LanguageModel #ScientificDiscovery #read-later #One-Line Notes
Issue Date: 2025-10-12 [Paper Note] GUIDE: Towards Scalable Advising for Research Ideas, Yaowenqi Liu+, arXiv'25, 2025.07 GPT Summary- AI研究の進展に伴い、自動化された仮説生成や実験設計が可能になっているが、高品質なフィードバックを提供するアドバイジングシステムには依然として課題がある。本研究では、モデルのサイズや信頼度の推定など、効果的なアドバイジングシステムの要因を探求し、比較的小さなモデルが圧縮された文献データベースと構造化された推論フレームワークを用いることで、強力な言語モデルを上回る受理率を達成できることを示した。特に、高信頼度の予測において90%以上の受理率を達成し、仮説生成と実験設計の質を向上させる可能性を示唆している。 Comment

pj page: https://howardliu0830.github.io/GUIDE_blog/

元ポスト:

Loading…

どのように評価したのだろうか

#AIAgents #Planning #Prompting #Reasoning #IJCAI #Workshop
Issue Date: 2025-08-30 [Paper Note] MK2 at PBIG Competition: A Prompt Generation Solution, Xu+, IJCAI WS AgentScen'25, 2025.08 Comment

元ポスト:

Loading…

SpatialUnderstanding (2)

#ComputerVision #Embeddings #Pocket #Dataset #MultiModal #NeurIPS #Encoder
Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder（PE）は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

解説:

Loading…

#Article #Survey #ComputerVision #MultiModal #Repository #VisionLanguageModel
Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

RelevanceJudgment (1)

#Article #DocumentSummarization #InformationRetrieval #Snippets #QueryBiased #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003.09 Comment

SpokenLanguageGeneration (1)

#Article #Library #SpokenLanguageProcessing
Issue Date: 2023-05-04 Bark Comment

テキストプロンプトで音声生成ができるモデル。MIT License

KnowledgeTracing (1)

#NaturalLanguageGeneration #Education #AdaptiveLearning #Personalization #QuestionGeneration
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

Out-of-DistributionDetection (1)

#pretrained-LM
Issue Date: 2023-07-18 Is Fine-tuning Needed? Pre-trained Language Models Are Near Perfect for Out-of-Domain Detection, ACL'23 GPT Summary- 本研究では、ファインチューニングなしで事前学習された言語モデルを使用してOOD検出を行う効果を調査しました。さまざまなタイプの分布シフトにおいて、ファインチューニングされたモデルを大幅に上回るほぼ完璧なOOD検出性能を示しました。

InstructionGeneration (1)

#Pocket #LanguageModel #InstructionTuning
Issue Date: 2023-10-26 Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models, Zhihan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の性能を向上させるための新しい手法であるAuto-Instructを提案しています。この手法では、LLMsが生成する指示の品質を自動的に向上させるために、多様な候補の指示を生成し、スコアリングモデルでランク付けします。実験結果では、Auto-Instructが人間による指示や既存のLLM生成指示を上回ることが示されています。また、他のLLMsでも顕著な汎化性能を示すことも確認されています。 Comment

LayoutGeneration (1)

#ComputerVision #Pocket
Issue Date: 2023-11-14 LayoutPrompter: Awaken the Design Ability of Large Language Models, Jiawei Lin+, N_A, NeurIPS'23 GPT Summary- LayoutPrompterは、大規模言語モデル（LLMs）を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 Comment

Conditional Graphic Layout Generation

DemonstrationSelection (1)

#Pocket #In-ContextLearning
Issue Date: 2024-08-28 Revisiting Demonstration Selection Strategies in In-Context Learning, Keqin Peng+, N_A, ACL'24 GPT Summary- LLMsは幅広いタスクを実行する能力を持ち、わずかな例でタスクを説明できることが示されている。しかし、ICLのパフォーマンスはデモンストレーションの選択によって大きく異なり、その要因はまだ明確ではない。本研究では、データとモデルの両面からこの変動に寄与する要因を再検討し、デモンストレーションの選択がデータとモデルの両方に依存することを見出した。さらに、"TopK + ConE"というデータとモデルに依存したデモンストレーション選択手法を提案し、ICLのための効果的なレシピを生み出していることを示した。提案手法は異なるモデルスケールで言語理解および生成タスクの両方で一貫した改善をもたらし、一般性と安定性に加えて以前の手法の効果的な説明を提供している。 Comment

ICLで利用するデモンストレーションの選択は、BM25やDense Retrieverなどを用いて、テストサンプルと類似したサンプルをretrieveすることで実施されてきた。これらはテストサンプルのみに着目した手法であるが、実際には有効なデモンストレーションはモデルによって変化するため、利用するモデルも考慮した方が良いよね、というお話

ベースラインの一覧を見ると、どういった方法がスタンダードなのかがわかる。そして意外とRandomでもそれなりに強いので、実装コストなどと相談しながらどの手法を採用するかは検討した方が良さそう。

CTRPrediction (1)

#RecommenderSystems #UserModeling #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #WWW
Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

AWS (1)

#Article #ComputerVision #Dataset #LanguageModel #MultiModal #Blog #Japanese
Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

DiseaseNameRecognition (1)

#LanguageModel #Supervised-FineTuning (SFT) #Japanese #OOD
Issue Date: 2025-07-10 [Paper Note] Toward Cross-Hospital Deployment of Natural Language Processing Systems: Model Development and Validation of Fine-Tuned Large Language Models for Disease Name Recognition in Japanese, Shimizu+, JMIR'25 Comment

元ポスト:

Loading…

TimeSeriesDataProcessing (1)

#Article #LanguageModel
Issue Date: 2025-08-18 How well can AI predict the future?, Prophet Arena, 2025.08 Comment

元ポスト:

Loading…

IRT (1)

#Pocket #Dataset #LanguageModel #Evaluation #COLM
Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

TextToSQL (1)

#Pocket #LanguageModel #ReinforcementLearning #COLM #GRPO #On-Policy
Issue Date: 2025-10-08 [Paper Note] Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL, Mohammadreza Pourreza+, COLM'25, 2025.03 GPT Summary- Text-to-SQLタスクにおいて、部分的報酬を用いた強化学習（RL）アプローチを提案。スキーマリンクやAIフィードバックなどの報酬を設計し、LLMsの推論スキルを向上させる。RLトレーニングを受けた14Bパラメータモデルは、他のモデルを上回る精度を達成し、提案手法の有効性を示す。 Comment

openreview: https://openreview.net/forum?id=HbwkIDWQgN#discussion

元ポスト:

Loading…

PII (1)

#Article #LanguageModel #SmallModel #OpenWeight #Japanese
Issue Date: 2025-10-14 LFM2-350M-PII-Extract-JP, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

MemoryOptimization (1)

#Analysis #Pocket #LanguageModel #Quantization #Reasoning #Test-Time Scaling #One-Line Notes
Issue Date: 2025-10-15 [Paper Note] Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models, Junhyuck Kim+, arXiv'25, 2025.10 GPT Summary- 4ビット量子化はメモリ最適化に有効ですが、推論モデルには適用できないことを示す。体系的な実験により、モデルサイズとKVキャッシュの影響を発見。小規模モデルは重みを優先し、大規模モデルは生成にメモリを割り当てることで精度を向上。LLMのメモリ最適化はスケールに依存し、異なるアプローチが必要であることを示唆。 Comment

元ポスト:

Loading…

AutomaticPromptOptimization (1)

#EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #In-ContextLearning #read-later #One-Line Notes
Issue Date: 2025-10-21 [Paper Note] Prompt-MII: Meta-Learning Instruction Induction for LLMs, Emily Xiao+, arXiv'25, 2025.10 GPT Summary- PROMPT-MIIという新しい指示誘導モデルを提案し、トレーニング例をコンパクトなプロンプトに縮小することで、インコンテキスト学習（ICL）と同等のパフォーマンスを実現。3,000以上の分類データセットでトレーニングし、90の未見タスクで評価した結果、下流モデルの品質を4-9 F1ポイント向上させ、必要なトークン数を3-13倍削減。 Comment

元ポスト:

Loading…

Standardization (1)

#Article #AIAgents #Selected Papers/Blogs
Issue Date: 2025-10-25 Building the Open Agent Ecosystem Together: Introducing OpenEnv, openenv, 2025.10 Comment

元ポスト:

Loading…

Environment Hub: https://huggingface.co/openenv

ImageSynthesis (1)

#Article #ComputerVision #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

ImageSegmentation (1)

#ComputerVision #Pocket #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Grounding
Issue Date: 2025-11-25 [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい

Others (145)

#ComputerVision #Pocket #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel
Issue Date: 2025-11-27 [Paper Note] Qwen3-VL Technical Report, Shuai Bai+, arXiv'25, 2025.11 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #Reasoning #Routing
Issue Date: 2025-11-25 [Paper Note] xRouter: Training Cost-Aware LLMs Orchestration System via Reinforcement Learning, Cheng Qian+, arXiv'25, 2025.10 GPT Summary- xRouterは、コストとパフォーマンスのトレードオフを考慮したルーティングシステムで、学習されたルーターが直接回答するか外部モデルを呼び出す。強化学習により訓練され、手動ルールの必要がない。多様なベンチマークでコスト削減とタスク完了率の向上を実現し、LLMオーケストレーションの進展に寄与することを目指す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #WorldModels #VisionLanguageActionModel #UMM #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション（VLA）モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002

元ポスト:

Loading…

VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。

#Pocket #ReinforcementLearning #AIAgents #read-later Issue Date: 2025-11-20 [Paper Note] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning, Mingyue Cheng+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）を用いたエージェントの構築において、強化学習（RL）の適用は初期段階であり、課題が多い。本論文では、LLMエージェントのためのRL手法を再検討し、マルコフ決定過程（MDP）フレームワークを拡張。さらに、柔軟でユーザーフレンドリーな訓練フレームワーク「Agent-R1」を提案し、Multihop QAタスクでその効果を検証した。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #Attention Issue Date: 2025-11-17 [Paper Note] Optimizing Mixture of Block Attention, Guangxuan Xiao+, arXiv'25, 2025.11 GPT Summary- Mixture of Block Attention (MoBA)は、LLMにおける長いコンテキスト処理を効率化するが、その設計原則やGPU実装が不十分である。本研究では、MoBAのメカニズムを分析し、クエリとキーの親和性に基づくブロックの識別能力が性能に影響することを明らかにする。改善策として、小さなブロックサイズの使用とキーに対する短い畳み込みの適用を提案。これを実現するために、FlashMoBAを導入し、効率的なMoBA実行を可能にするCUDAカーネルを開発。FlashMoBAは、最大14.7倍のスピードアップを達成し、理論に基づく改善を実用化した。 Comment

元ポスト:

Loading…

flash_attention2に対して最大で14.7倍👀どういう条件、実験だろうか

#Pocket #AIAgents #MultiModal #Reasoning #SmallModel #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-11-10 [Paper Note] DeepEyesV2: Toward Agentic Multimodal Model, Jack Hong+, arXiv'25, 2025.11 GPT Summary- DeepEyesV2は、テキストや画像の理解に加え、外部ツールを活用するエージェント的なマルチモーダルモデルを構築する方法を探求。二段階のトレーニングパイプラインを用いてツール使用行動を強化し、多様なトレーニングデータセットをキュレーション。RealX-Benchという新たなベンチマークを導入し、実世界のマルチモーダル推論を評価。DeepEyesV2は、タスクに応じたツール呼び出しを行い、強化学習により文脈に基づくツール選択を実現。コミュニティへの指針提供を目指す。 Comment

pj page: https://visual-agent.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…

VLM(Qwen2.5-VL-7B)をバックボーンとしSFT（tooluseに関するcoldstart)→RL(RLVR+format reward)で学習することで、VLMによるAI Agentを構築。画像をcropしcropした画像に対するマルチモーダルな検索や、適切なtooluseの選択などに基づいて応答できる。

事前の実験によってまずQwen2.5-VL-7Bに対してRLのみでtooluse能力（コーディング能力）を身につけられるかを試したところ、Reward Hackingによって適切なtooluse能力が獲得されなかった（3.2節; 実行可能ではないコードが生成されたり、ダミーコードだったりなど）。
このためこのcoldstartを解消するためにSFTのための学習データを収集（3.3節）。これには、
- 多様なタスクと画像が含まれており
- verifiableで構造化されたOpen-endなQAに変換でき
- ベースモデルにとって簡単すぎず（8回のattemptで最大3回以上正解したものは除外）
- ツールの利用が正解に寄与するかどうかに基づきサンプルを分類する。tooluseをしても解答できないケースをSFTに、追加のtooluseで解答できるサンプルをRL用に割り当て

ようなデータを収集。さらに、trajectoryはGemini2.5, GPT4o, Claude Sonnet4などのstrong modelから収集した。

RealX-Benchと呼ばれるベンチマークも作成しているようだがまだ読めていない。

proprietary modelの比較対象が少し古め。ベースモデルと比較してSFT-RLによって性能は向上。Human Performanceも掲載されているのは印象的である。

ただ、汎用モデルでこの性能が出るのであれば、DeepSearchに特化したモデルや？GPT5, Claude-4.5-Sonnetなどではこのベンチマーク上ではHuman Performanceと同等かそれ以上の性能が出るのではないか？という気がする。

#NeuralNetwork #Pocket #Transformer #AAAI #LearningPhenomena Issue Date: 2025-11-09 [Paper Note] The Strong Lottery Ticket Hypothesis for Multi-Head Attention Mechanisms, Hikari Otsuka+, arXiv'25, 2025.11 GPT Summary- 強いロッタリーチケット仮説（SLTH）は、ランダムに初期化されたニューラルネットワーク内に高性能なサブネットワークが存在することを示唆していますが、トランスフォーマーアーキテクチャにおける理解は不足しています。本研究では、マルチヘッドアテンション（MHA）内の強いロッタリーチケットの存在を理論的に分析し、特定の条件下で任意のMHAを高い確率で近似するサブネットワークが存在することを証明します。また、この理論を用いて正規化層のないトランスフォーマーにSLTHを拡張し、近似誤差が隠れ次元の増加に伴い指数関数的に減少することを実証的に示しました。 Comment

元ポスト:

Loading…

#Pocket #AIAgents #NeurIPS Issue Date: 2025-11-07 [Paper Note] Thought Communication in Multiagent Collaboration, Yujia Zheng+, NeurIPS'25 Spotlight, 2025.10 GPT Summary- 自然言語の曖昧さが集合知の可能性を制限する中、思考コミュニケーションという新しいパラダイムを提案。エージェントが直接相互作用できるようにし、潜在変数モデルとして形式化。非パラメトリックな設定で、エージェント間の共有思考とプライベート思考を特定可能。理論に基づき、潜在的な思考を抽出し、共有パターンを割り当てるフレームワークを開発。実験により理論を検証し、思考コミュニケーションの利点を示す。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #LongSequence #Architecture #NeurIPS #Selected Papers/Blogs #memory #Test-time Learning Issue Date: 2025-11-05 [Paper Note] Titans: Learning to Memorize at Test Time, Ali Behrouz+, NeurIPS'25, 2024.12 GPT Summary- 再帰モデルと注意機構を組み合わせた新しいニューラル長期メモリモジュールを提案。これにより、短期的な依存関係を正確にモデル化しつつ、長期的な記憶を保持。新アーキテクチャ「Titans」は、言語モデリングや常識推論などのタスクで従来のモデルよりも優れた性能を示し、2Mを超えるコンテキストウィンドウサイズにも対応可能。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents #Coding #NeurIPS #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-11-05 [Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル（LLMs）の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

#ComputerVision #Pocket #MultiModal #Reasoning #SelfCorrection #NeurIPS #VisionLanguageModel Issue Date: 2025-11-05 [Paper Note] VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning, Haozhe Wang+, NeurIPS'25, 2025.04 GPT Summary- スロースロース思考システムは、明示的な反省を通じて難しい問題を解決する可能性を示しているが、マルチモーダル推論能力はファストスロース思考モデルと同等である。本研究では、強化学習を用いて視覚と言語のモデルのスロースロース思考能力を向上させることを目指し、選択的サンプルリプレイ（SSR）と強制的再考を導入。これにより、モデルVL-RethinkerはMathVista、MathVerseでそれぞれ80.4%、63.5%の最先端スコアを達成し、他のベンチマークでも優れた性能を示した。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #MultiModal #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-05 [Paper Note] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning, Fangxun Shu+, arXiv'25, 2025.11 GPT Summary- SAIL-RLは、マルチモーダル大規模言語モデルの推論能力を向上させる強化学習フレームワークで、二重報酬システムを用いて推論の質を評価します。これにより、過剰思考や不足思考の問題を解決し、推論とマルチモーダル理解のベンチマークを改善。商業モデルに対して競争力のあるパフォーマンスを示し、幻覚を減少させることに成功しました。 Comment

元ポスト:

Loading…

個々のrewardを応答が持つ性質に応じて切り替える（直接回答するか、思考するかのjudgeの正しさなど）JudgeRewardと思考の品質を3つの次元（logical coherence, factual grounding, answer consistency)から（LLMをベースに）評価するThinkingRewardの二つを用いてRLする（=dual reward mechanism)ことで、推論の質を担保しながらoverthinkingを防ぐ。通常のRLVRによるRewardとフォーマットによる報酬も組み合わせ、複数の個別のRewardを乗算して最終的なRewardを決定することで、reward hackingに対して頑健にする（式1）。

#Pocket #AIAgents #Personalization #TheoryOfMind Issue Date: 2025-11-01 [Paper Note] TOM-SWE: User Mental Modeling For Software Engineering Agents, Xuhui Zhou+, arXiv'25, 2025.10 GPT Summary- ToM-SWEは、ユーザーのメンタル状態をモデル化する心の理論エージェントとソフトウェアエンジニアリングエージェントを組み合わせた二重エージェントアーキテクチャで、指示の不明確さを克服し、ユーザーの目標や好みを推測します。これにより、タスク成功率とユーザー満足度が向上し、特に状態を持つSWEベンチマークで59.7%の成功率を達成しました。プロの開発者の86%がToM-SWEを有用と感じ、ユーザーモデリングの重要性が示されました。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #PostTraining #On-Policy #Stability Issue Date: 2025-11-01 [Paper Note] DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization, Gang Li+, arXiv'25, 2025.05 GPT Summary- 本研究では、GRPOの二項報酬設定における制限を分析し、識別的制約最適化（DisCO）フレームワークを提案。DisCOは、識別的目的を採用し、非クリッピングRL代理目的を使用することで、難易度バイアスを排除し、トレーニングの安定性を向上させる。実験結果では、DisCOがGRPOおよびそのバリエーションを大幅に上回り、数学的推論能力を向上させることが示された。 Comment

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #ContextWindow #LongSequence #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-21 [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10 GPT Summary- 本研究では、長いコンテキストを持つ大規模言語モデル（LLMs）の実用性を向上させるため、Glyphというフレームワークを提案し、テキストを画像に変換して視覚と言語のモデル（VLMs）で処理します。このアプローチにより、3-4倍のトークン圧縮を実現し、精度を維持しつつ処理速度を約4倍向上させます。さらに、128KコンテキストのVLMが1Mトークンのテキストタスクを処理可能になることを示しました。 Comment

元ポスト:

Loading…

所見:

Loading…

#ComputerVision #MachineLearning #Pocket #MultiModal #DiffusionModel #SSM (StateSpaceModel) #UMM Issue Date: 2025-10-21 [Paper Note] End-to-End Multi-Modal Diffusion Mamba, Chunhao Lu+, arXiv'25, 2025.10 GPT Summary- MDM（Multi-modal Diffusion Mamba）という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment

元ポスト:

Loading…

#Pocket #LongSequence #SSM (StateSpaceModel) #Selected Papers/Blogs #Generalization #memory Issue Date: 2025-10-18 [Paper Note] To Infinity and Beyond: Tool-Use Unlocks Length Generalization in State Space Models, Eran Malach+, arXiv'25, 2025.10 GPT Summary- 状態空間モデル（SSM）は、長文生成において効率的な代替手段であるが、真の長文生成問題を解決できないことが明らかにされた。外部ツールへのインタラクティブなアクセスを許可することで、この制限を克服できることが示され、SSMは問題依存のトレーニングデータを用いて任意の問題に一般化できる。ツールを強化したSSMは、算術や推論、コーディングタスクにおいて優れた長さの一般化を達成し、トランスフォーマーに対する効率的な代替手段となる可能性がある。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…

#Pocket #AIAgents #Generalization #Test-time Learning Issue Date: 2025-10-17 [Paper Note] Training-Free Group Relative Policy Optimization, Yuzheng Cai+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLM）の専門的なドメインでのパフォーマンス向上のため、Training-Free GRPOを提案。これは、パラメータ更新なしでLLMエージェントの性能を向上させ、少ないトレーニングデータで高品質な経験的知識を蒸留する手法。数学的推論やウェブ検索タスクでの実験により、Training-Free GRPOが小型LLMを上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents #Test-Time Scaling #ComputerUse #VisionLanguageModel Issue Date: 2025-10-05 [Paper Note] GTA1: GUI Test-time Scaling Agent, Yan Yang+, arXiv'25, 2025.07 GPT Summary- GTA1というGUIエージェントは、ユーザーの指示を分解し、視覚要素と相互作用しながらタスクを自律的に完了します。計画の選択と視覚ターゲットとの正確な相互作用という2つの課題に対処するため、テスト時スケーリングを用いて最適なアクション提案を選び、強化学習を通じて基づけを改善します。実験により、GTA1は基づけとタスク実行の両方で最先端の性能を示しました。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #MultiModal #OpenWeight #OpenSource #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-04 [Paper Note] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training, Xiang An+, arXiv'25, 2025.09 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment

元ポスト:

Loading…

各種ベンチでQwen2.5-VL超え

pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

ポイント解説:

Loading…

#Pocket #Scaling Laws #RecurrentModels Issue Date: 2025-10-03 [Paper Note] xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity, Maximilian Beck+, arXiv'25, 2025.10 GPT Summary- スケーリング法則はLLMsの性能予測に重要であり、トランスフォーマーとxLSTMのスケーリング挙動を比較。xLSTMは文脈の長さに対して線形の複雑さを持ち、トレーニングおよび推論においてトランスフォーマーよりも有利にスケールすることが示された。特に、文脈が増えるとxLSTMの利点が拡大する。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #InformationRetrieval #Pocket #MultiModal #SmallModel #Encoder Issue Date: 2025-10-03 [Paper Note] ModernVBERT: Towards Smaller Visual Document Retrievers, Paul Teiletche+, arXiv'25, 2025.10 GPT Summary- マルチモーダル埋め込みモデルは文書検索において効率的な代替手段として普及しているが、再利用アプローチが検索性能のボトルネックとなることがある。本研究では、視覚文書検索モデルを改善するための原則的なレシピを確立し、注意マスキングや画像解像度などが性能に影響を与える要因であることを示した。これに基づき、250Mパラメータのコンパクトな視覚-言語エンコーダーModernVBERTを開発し、文書検索タスクで大規模モデルを上回る性能を達成した。モデルとコードは公開されている。 Comment

元ポスト:

Loading…

MIT Licence
HF: https://huggingface.co/ModernVBERT

ポイント解説:

Loading…

#Pocket #ContextWindow #Attention #memory Issue Date: 2025-09-30 [Paper Note] Short window attention enables long-term memorization, Loïc Cabannes+, arXiv'25, 2025.09 GPT Summary- SWAXというハイブリッドアーキテクチャは、スライディングウィンドウアテンションとxLSTM線形RNN層を組み合わせており、短いウィンドウが長期的な記憶をより良く訓練することを示す。SWAXはウィンドウサイズを確率的に変更し、短い・長いコンテキストの両方で優れた性能を発揮する。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #MachineLearning #Pocket #ReinforcementLearning #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-27 [Paper Note] Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals, Qinsi Wang+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- 大規模言語モデル（LLMs）の強化学習微調整（RFT）におけるサンプル効率の低下を改善するため、モデル固有の信号「角度集中」を特定。これに基づき、勾配駆動型角度情報ナビゲート強化学習フレームワーク（GAIN-RL）を提案し、トレーニングデータを動的に選択することで効率を向上。実証評価では、GAIN-RLがトレーニング効率を2.5倍以上向上させ、元のデータの半分でより良いパフォーマンスを達成したことが示された。 Comment

元ポスト:

Loading…

ヒューリスティックや特定の難易度に基づくラベルからRLのサンプルをサンプリングするのではなく、モデル自身の現在の学習の状態に基づいて動的に選択し学習効率を向上させるアプローチな模様。

#ComputerVision #Pocket #VisionLanguageModel #ContextEngineering Issue Date: 2025-09-18 [Paper Note] VisionZip: Longer is Better but Not Necessary in Vision Language Models, Senqiao Yang+, CVPR'25 GPT Summary- VisionZipは、視覚トークンの冗長性を削減し、効率を向上させるための新しい手法であり、画像や動画の理解タスクに適用可能。実験により、従来の手法よりも5%以上の性能向上を達成し、推論速度も大幅に改善。トークンの長さを増やすのではなく、より良い視覚特徴の抽出に焦点を当てることを提案。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #Transformer #MultiLingual #Encoder Issue Date: 2025-09-10 [Paper Note] mmBERT: A Modern Multilingual Encoder with Annealed Language Learning, Marc Marone+, arXiv'25 GPT Summary- mmBERTは、1800以上の言語で3兆トークンのデータを用いて事前学習されたエンコーダ専用の言語モデルであり、低リソース言語を短い減衰フェーズに含めることでパフォーマンスを向上させた。新しい要素を導入し、OpenAIのo3やGoogleのGemini 2.5 Proと同等の分類性能を達成。mmBERTは分類および検索タスクで以前のモデルを大幅に上回ることを示した。 Comment

blog: https://huggingface.co/blog/mmbert
HF: https://huggingface.co/jhu-clsp/mmBERT-checkpoints

- modernbert-ja-130m, SB Intuitions, 2025.02

と比較して日本語の性能はどうかなあ

元ポスト:

Loading…

解説:

Loading…

#Multi #Pocket #AIAgents Issue Date: 2025-09-10 [Paper Note] Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate, Andrea Wynn+, arXiv'25 GPT Summary- マルチエージェントディベートはAIの推論能力向上に有望だが、時には有害であることが判明。従来の研究が同質のエージェントに焦点を当てる中、モデルの能力の多様性が相互作用に与える影響を探求。実験により、ディベートが精度低下を引き起こす可能性を示し、強力なモデルでも弱いモデルを上回る状況で同様の結果が得られた。エージェントは誤った答えにシフトし、合意を優先する傾向があり、これがディベートの効果を損なうことを示唆している。 Comment

元ポスト:

Loading…

元ポストを読んだ限り、マルチエージェントシステムにdebateをさせても必ずしも性能改善するわけではないよ、という話のようである。
複数のstrong llmの中にweak llmが混在すると、モデルはおべっかによって同意するようにalignmentされる傾向があるので、良い方向に議論が収束するとは限らず、コンセンサスをとるような仕組みではなく、批判をする役目を設けるように設計するなどの工夫が必要、というような話らしい。

#EfficiencyImprovement #Pocket #Decoding #read-later Issue Date: 2025-09-05 [Paper Note] Set Block Decoding is a Language Model Inference Accelerator, Itai Gat+, arXiv'25 GPT Summary- Set Block Decoding（SBD）を提案し、次トークン予測とマスクトークン予測を統合して生成を加速。SBDは複数の未来のトークンを並行してサンプリング可能で、従来の手法よりも速度向上を実現。アーキテクチャ変更なしで既存モデルをファインチューニングし、フォワードパスの数を3-5倍削減しつつ同等のパフォーマンスを達成。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #AIAgents Issue Date: 2025-08-31 [Paper Note] AWorld: Orchestrating the Training Recipe for Agentic AI, Chengyue Yu+, arXiv'25 GPT Summary- AWorldというオープンソースシステムを導入し、エージェントと環境の相互作用を効率化。経験収集を14.6倍加速し、Qwen3-32Bベースのエージェントを訓練してGAIAの精度を21.59%から32.23%に向上。最難関レベルで商用モデルを超える性能を達成。 Comment

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #Pocket #Hallucination #SelfImprovement #VisionLanguageModel Issue Date: 2025-08-28 [Paper Note] Self-Rewarding Vision-Language Model via Reasoning Decomposition, Zongxia Li+, arXiv'25 GPT Summary- Vision-Language Models (VLMs)は視覚的幻覚や言語的ショートカットに悩まされることが多い。これらの問題は、ポストトレーニング手法が中間の視覚的推論に対する指導を欠いているために生じる。本研究では、外部の視覚的監視に依存せずに視覚的推論を改善する自己報酬法Vision-SR1を提案。モデルは視覚的知覚と言語的推論を2段階に分解し、自己完結型の視覚的知覚を生成し、その後に言語的推論を行うことで報酬を計算する。実験により、Vision-SR1が視覚的推論を改善し、幻覚を軽減することが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #ReinforcementLearning #RLVR #DualLearning Issue Date: 2025-08-21 [Paper Note] DuPO: Enabling Reliable LLM Self-Verification via Dual Preference Optimization, Shuaijie She+, arXiv'25 GPT Summary- DuPOは、注釈なしのフィードバックを生成する二重学習に基づく好み最適化フレームワークで、強化学習の高価なラベル依存と二重タスクペアの制限に対処。プライマルタスクの入力を分解し、未知の部分を再構築する二重タスクを構築することで、非可逆タスクへの適用範囲を広げる。実験により、翻訳品質や数学的推論の精度が大幅に向上し、DuPOはスケーラブルで一般的なLLM最適化の手法として位置付けられる。 Comment

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #Pocket #MultiModal #SpeechProcessing #Reasoning #OpenWeight #VisionLanguageActionModel Issue Date: 2025-08-12 [Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25 GPT Summary- アクション推論モデル（ARMs）であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment

`Action Reasoning Models (ARMs)`

元ポスト:

Loading…

blog: https://allenai.org/blog/molmoact

関連:

Loading…

#Article #ComputerVision #OpenWeight #VisionLanguageModel Issue Date: 2025-09-23 Qwen3-VL, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:

Loading…

Qwen3 VL cookbook:
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

元ポスト:

Loading…

続報:

Loading…

#Article #ComputerVision #MultiModal #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-09-18 granite-docling-258M, IBM, 2025.09 Comment

元ポスト:

Loading…

Apache 2.0, 言語は英語のみ

#Article #ReinforcementLearning #read-later Issue Date: 2025-09-14 Online versus Offline RL for LLMs A deep dive into the online-offline performance gap in LLM alignment..., CAMERON R. WOLFE, PH.D., 2025.09 Comment

元ポスト:

Loading…

#Article #Embeddings #MultiLingual #OpenWeight Issue Date: 2025-09-05 Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings, Google, 2025.09 Comment

HF: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

元ポスト:

Loading…

解説:

Loading…

解説:

Loading…

#Article #ComputerVision #Slide #Chip #VisionLanguageModel #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-01 AIロボティクス検討会第1回事務局資料, 経済産業省, 2025.08 Comment

元ポスト:

Loading…

Nvidiaの投資額が文字通り桁違いの5000億ドル

#Article #ComputerVision #EfficiencyImprovement #Blog #SmallModel #VisionLanguageModel Issue Date: 2025-08-30 fastvlm-webgpu, Apple, 2025.08 Comment

元ポスト:

Loading…

pj page: https://fastvlm.net

#Article #AIAgents #Blog #ComputerUse Issue Date: 2025-08-27 NEC、暗黙知をデータ化し学習・活用することでWeb業務を自動化するエージェント技術「cotomi Act」を開発〜世界初、人間を超えるWebタスク成功率80.4％を達成〜, NEC, 2025.08 Comment

元ポスト:

Loading…

WebArena:
- WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

#Article #ReinforcementLearning #python #Repository #GRPO #On-Policy #MinimalCode Issue Date: 2025-08-19 reasoning-minimal, torotoki, 2025.08 Comment

TRLのGRPOTrainer、および独自定義のReward（フォーマット/acc）を用いたミニマルなGRPOの実装。GRPOを実施する際には参照のこと。

#Article #EfficiencyImprovement #Attention #python #Repository #read-later #MinimalCode Issue Date: 2025-08-19 simple-paged-attention, torotoki, 2025.06 Comment

CUDA + C++によるミニマルなpaged-attentionの実装。アルゴリズムの理解+実装理解の参考に非常に良さそう。

PagedAttentionは現在の主要なLLM Inference/Serving EngineのひとつであるvLLM で（提案|実装）された技術であり、元論文は下記:
- [Paper Note] Efficient Memory Management for Large Language Model Serving with PagedAttention, Woosuk Kwon+, SOSP'23

この辺もあわせて読むとおもしろいかもしれない:
https://nttdocomo-developers.jp/entry/2024/12/19/090000_6

#Article #Blog #Reasoning #OpenWeight Issue Date: 2025-08-11 Breakdown: Kimi K2, DeepSeek-R1, Qwen3 （+Coder）, and GLM-4.5, TuringPost, 2025.08 Comment

元ポスト:

Loading…

中国初のOpenLLMについて、それぞれの強みとおすすめのユースケースがまとまっている

ポスト中で紹介されているのは下記
- Kimi K2: Open Agentic Intelligence, moonshotai, 2025.07
- GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07
- DeepSeek-R1, DeepSeek, 2025.01
- Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08
- Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08

以下のようなものもある:
- MiniMax-M1, MiniMax, 2025.06
- Hunyuan-A13B-Instruct, tencent, 2025.06

#Article #AIAgents #Coding #Slide Issue Date: 2025-07-25 AI時代のソフトウェア開発を考える（2025_07版） _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07 Comment

Vibe Codingによってソフトウェアエンジニアリングの課題は解決されたわけではなく、昔からある問題は依然として存在し（技術的負債、レビューなど）、道具が変わりこれらが顕在化するスピードが急速に速まっただけ、という話な模様。
どの領域に、どのAIを使うか（委託, 伴走）なども考察されている。ロジックの複雑さが小さいものは委託（補完など）、ロジックの複雑さが高く競合との差別化が重要なエリアには伴走、といった使い方。AIは自走するが迷走、暴走もするのでガードレールがより一層重要。自分自身の能力の向上も不可欠。

#Article #AIAgents #Blog #Coding #SoftwareEngineering Issue Date: 2025-06-23 AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06 Comment

元ポスト:

Loading…

#Article #AIAgents #Blog #read-later Issue Date: 2025-06-21 Single vs Multi-Agent System?, PHILSCHMID, 2025.06 Comment

元ポスト:

Loading…

#Article #python #LLMServing Issue Date: 2025-06-20 Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06 Comment

vLLM, SGLangよりもデコーディングが早い模様（図は下記ブログより引用）

ブログ: https://zhihaojia.medium.com/compiling-llms-into-a-megakernel-a-path-to-low-latency-inference-cf7840913c17

元ポスト:

Loading…

#Article #Multi #AIAgents #Blog #read-later #ContextEngineering Issue Date: 2025-06-17 Don’t Build Multi-Agents, Cognition, 2025.06 Comment

元ポスト:

Loading…

まとめ:

Loading…

#Article #AIAgents #python #Blog #API #ComputerUse Issue Date: 2025-01-04 browser-use やばいです, Syoitu, 2024.12 Comment

すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。

#Article #MultiLingual #OpenWeight Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 Comment

CohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。

8BモデルのArenaHardでの評価

32BモデルのArenaHardでの評価

#Article #OpenWeight Issue Date: 2024-08-24 Phi 3.5, Microsoft, 2024.08 #Article #OpenWeight Issue Date: 2024-07-30 Gemma2, Google Deepmind, 2024 Comment

Reasoning, Math, CodeGenerationに強み

#Article #ComputerVision #Transformer #TabularData Issue Date: 2023-12-01 Table Transformer Demo Comment

PDF中のテーブルとその構造（行列セル）をdetectするモデル

Exampleは以下のような感じ（日本語だとどれくらいできるのかな...）

#Article #Sentence #Embeddings Issue Date: 2023-10-07 Japanese Simple SimCSE Comment

日本語の事前学習言語モデルと、日本語の学習データを利用してSimCSEを学習し網羅的に評価をした結果が記載されている。Supervised SimCSE, UnsupervisednSimCSEの両方で実験。また、学習するデータセットを変更したときの頑健性も検証。性能が良かったモデルはSentenceTransformersから利用可能な形で公開されている。

#Article #EfficiencyImprovement #MachineLearning #Transformer #Attention Issue Date: 2023-07-23 FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, 2023 GPT Summary- FlashAttention-2は、長いシーケンス長におけるTransformerのスケーリングの問題に対処するために提案された手法です。FlashAttention-2は、非対称なGPUメモリ階層を利用してメモリの節約とランタイムの高速化を実現し、最適化された行列乗算に比べて約2倍の高速化を達成します。また、FlashAttention-2はGPTスタイルのモデルのトレーニングにおいても高速化を実現し、最大225 TFLOPs/sのトレーニング速度に達します。 Comment

Flash Attention1よりも2倍高速なFlash Attention 2

Flash Attention1はこちらを参照
https://arxiv.org/pdf/2205.14135.pdf

QK Matrixの計算をブロックに分けてSRAMに送って処理することで、3倍高速化し、メモリ効率を10-20倍を達成。

#Article #NeuralNetwork #EfficiencyImprovement #Transformer #ACL Issue Date: 2021-06-10 FastSeq: Make Sequence Generation Faster, Yan+, ACL’21 Comment

BART, DistilBART, T5, GPT2等のさまざまなTransformer-basedな手法で、4-9倍Inference speedを向上させる手法を提案。

Article (1015)

LanguageModel (479)

#Article #NLP #ReinforcementLearning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs
Issue Date: 2025-11-27 [Paper Note] INTELLECT-3: Technical Report, Prime Intellect Team, 2025.11 Comment

HF: https://huggingface.co/PrimeIntellect/INTELLECT-3

元ポスト:

Loading…

著者ポスト:

Loading…

完全にオープンソースでデータやフレームワーク、評価も含め公開されているとのこと。素晴らしい

#Article #NLP #AIAgents #Blog #ProprietaryLLM #Selected Papers/Blogs
Issue Date: 2025-11-25 Claude-Opus-4.5: Introducing advanced tool use on the Claude Developer Platform, Anthropic, 2025.11 Comment

元ポスト:

Loading…

AnthropicがClaude-Opus-4.5をリリース。AgenticなユースケースでClaudeがベンチマーク上の首位をGemini3 Proから奪還

システムカード:
https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf

人間と比較した時のパフォーマンスの解説:

Loading…

EpochAIによるFrontierMath Tier1-3での評価:

Loading…

o3(high), Grok4と同等程度で、Gemini3 Pro, GPT-5.1(high)には劣る

ベンチマーク上でのコーディング能力やagenticなツール呼び出し能力の差は縮まっている:

Loading…

Artificial Analysisの評価:

Loading…

#Article #NLP #Evaluation #LongSequence
Issue Date: 2025-11-24 Context Arena, DillonUzar, 2025.04 Comment

元ポスト:

Loading…

関連:

Loading…

#Article #Analysis #NLP #ReinforcementLearning #Safety #RewardHacking #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-11-22 From shortcuts to sabotage: natural emergent misalignment from reward hacking, Anthropic, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Blog #Japanese Issue Date: 2025-11-21 大規模言語モデルの次期バージョン PLaMo 3 シリーズにおける8B, 31Bの小規模モデルによる事前学習の検証, PFN, 2025.11 Comment

元ポスト:

Loading…

コーディング能力で大幅に性能向上している模様:

Loading…

- Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08

#Article #NLP #Dataset #Evaluation #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight #OpenSource #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Olmo 3: Charting a path through the model flow to lead open-source AI, Ai2, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

post-LN transformer

OLMo2:
- OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3

ポイント解説:

Loading…

official livestream video:

Loading…

解説:

Loading…

Qwen3-32Bと同等の性能を達成している。そしてそれがオープンソース、素晴らしい。読むべし！！

Olmo3のライセンスに関する以下のような懸念がある:

Loading…

#Article #Tutorial #NLP #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #NLP #Dataset #AIAgents #Evaluation #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Survey #NLP #Dataset #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #AIAgents #GenerativeAI #Blog #ProprietaryLLM #SoftwareEngineering Issue Date: 2025-11-19 Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

#Article #NLP #GenerativeAI #Blog #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Gemini 3 による知性の新時代, Google, 2025.11 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

#Article #NLP #OpenWeight #OpenSource #read-later #Selected Papers/Blogs #DeepResearch Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

#Article #NLP #GenerativeAI #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-18 Grok 4.1, xAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #GenerativeAI #Blog #text #AI Detector Issue Date: 2025-11-16 Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #ReinforcementLearning #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 [IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #Blog #ICLR #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-15 ICLR 2026 - Submissions, Pangram Labs, 2025.11 Comment

元ポスト:

Loading…

ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果（検出性能は完璧な結果ではない点に注意）

この辺の議論が興味深い:

Loading…

関連:

Loading…

oh...

パイプライン解説:

Loading…

母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:

Loading…

ICLR公式が対応検討中とのこと:

Loading…

ICLRからの続報:

Loading…

元ポスト:

Loading…

自分たちの環境と目的を考えた時に、複数の選択肢を列挙し、それぞれの利点と欠点を明文化した上で最適なものを選択する。そしてそれを実現する上で見つかった挙動のおかしな部分について、怪しい部分にあたりをつけて、仮説を立てて、中身を確認し、時には一度問題ないと判断した部分にも立ち返りさらに深掘りし、原因を明確にする、といったデバッグ作業（の一つのケース）について詳述されている。

#Article #NLP #ChatGPT #Blog #Reasoning #ProprietaryLLM #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection Issue Date: 2025-11-13 GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

#Article #Pretraining #NLP #Dataset #SyntheticData #Reasoning #One-Line Notes Issue Date: 2025-11-12 SYNTH: the new data frontier, pleias, 2025.11 Comment

元ポスト:

Loading…

SoTAなReasoning能力を備えたSLMを学習可能な事前学習用合成データ

元ポスト:

Loading…

#Article #DocumentSummarization #NLP #GenerativeAI #Blog #Science Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

#Article #Analysis #NLP #ReinforcementLearning #Blog #PEFT(Adaptor/LoRA) #PostTraining #read-later Issue Date: 2025-11-10 RL Learning with LoRA: A Diverse Deep Dive, kalomaze's kalomazing blog, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #AIAgents #Coding #Video Issue Date: 2025-11-09 Lessons from the Trenches on Building Usable Coding Agents - Graham Neubig, Graham Neubig, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Blog #Reasoning #OpenWeight #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-07 Introducing Kimi K2 Thinking, MoonshotAI, 2025.11 Comment

HF: https://huggingface.co/moonshotai

元ポスト:

Loading…

coding系ベンチマークでは少しGPT5,Claude Sonnet-4.5に劣るようだが、HLE, BrowseCompなどではoutperform

tooluseのベンチマークであるtau^2 Bench TelecomではSoTA

Loading…

モデルの図解:

Loading…

INT4-QATに関する解説:

Loading…

INT4-QATの解説:

Loading…

Kimi K2 DeepResearch:

Loading…

METRによる50% timehorizonの推定は54分:

Loading…

METRでの評価でClaude 3.7 Sonnetと同等のスコア:

Loading…

openweightモデルがproprietaryモデルに追いつくのはsoftwere engineeringタスク（agenticなlong horizon+reasoningタスク）9ヶ月程度を要しているとのこと

#Article #Tutorial #NLP #Blog #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11 Comment

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

#Article #Tutorial #NLP #Evaluation #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #Blog #OpenWeight Issue Date: 2025-11-01 Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10 Comment

タイトルの通りな模様

元ポスト:

Loading…

#Article #ComputerVision #NLP #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 LongCat-Flash-Omni Technical Report, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

text, image/video, audioをinputし、audioを生成するomniモデル

#Article #Tutorial #Pretraining #NLP #Slide #Japanese Issue Date: 2025-11-01 LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #Pretraining #NLP #Dataset #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #Blog #Selected Papers/Blogs Issue Date: 2025-10-31 Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #NLP #AIAgents #One-Line Notes #Security Issue Date: 2025-10-31 Introducing Aardvark: OpenAI’s agentic security researcher, OpenAI, 2025.10 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #NLP #Attention #OpenWeight #Architecture #read-later #Hybrid Issue Date: 2025-10-31 [Paper Notes] KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE, Kimi Team, 2025.10 Comment

HF: https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

アーキテクチャ解説:

Loading…

#Article #NLP #Reasoning #OpenWeight #Safety #One-Line Notes #Safeguard Issue Date: 2025-10-30 gpt-oss-safeguard, OpenAI, 2025.10 Comment

元ポスト:

Loading…

blog: https://openai.com/index/introducing-gpt-oss-safeguard/

#Article #NLP #AIAgents #ProprietaryLLM #SoftwareEngineering Issue Date: 2025-10-30 Introducing SWE-1.5: Our Fast Agent Model, Cognition, 2025.10 Comment

元ポスト:

Loading…

windsurfから利用可能とのこと

#Article #NLP #Library #ReinforcementLearning #Blog #Distillation #On-Policy #reading Issue Date: 2025-10-30 Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Blog #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-10-30 Marin 32B Retrospective, marin-community, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #GenerativeAI #Blog #Health Issue Date: 2025-10-28 How we are building the personal health coach, Patel+, 2025.10 Comment

元ポスト:

Loading…

fitbitユーザなので普通に気になる

#Article #NLP #DiffusionModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-28 LLaDA 2.0, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #Blog #RecursiveModels Issue Date: 2025-10-27 Recursive Language Models, Zhang+, MIT CSAIL, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Blog #OpenWeight #Selected Papers/Blogs #Reference Collection Issue Date: 2025-10-26 MiniMax-M2: Intelligence, Performance & Price Analysis, Artificial Analysis, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

モデルが公開:
https://huggingface.co/MiniMaxAI/MiniMax-M2

proprietaryモデルになるもんだと思ってた、、、これを公開するの凄すぎでは、、、

公式ポスト:

Loading…

MITライセンス

SGLangでもサポートされている:

Loading…

AnthropicのAPIの利用をお勧めする理由:

Loading…

アーキテクチャ解説:

Loading…

解説:

Loading…

#Article #NLP #ReinforcementLearning #Blog #Tokenizer #Stability #RetokenizationDrift Issue Date: 2025-10-24 No More Retokenization Drift: Returning Token IDs via the OpenAI Compatible API Matters in Agent RL, vLLM Blog, 2025.10 Comment

#Article #NLP #AIAgents #Blog #Safety Issue Date: 2025-10-23 Introducing ControlArena: A library for running AI control experiments, AISI, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Dataset #TabularData #Mathematics #MultiLingual #DataFiltering #One-Line Notes Issue Date: 2025-10-22 FindWiki, Guilherme Penedo, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiLingual #OpenWeight #DocParser #OCR Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…

SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07

#Article #Analysis #Pocket #NLP #Geometric Issue Date: 2025-10-22 When Models Manipulate Manifolds: The Geometry of a Counting Task, Gurnee+, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #Pretraining #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment

元ポスト:

Loading…

新たなスピードランが...!!

#Article #NLP #Blog #ProprietaryLLM Issue Date: 2025-10-22 NTT版大規模言語モデル「tsuzumi 2」, NTT人間情報研究所, 2025.10 Comment

#Article #NLP #Mathematics #PostTraining #Proofs #Simplification Issue Date: 2025-10-22 ProofOptimizer: Training Language Models to Simplify Proofs without Human Demonstrations, Gu+, 2025.10 Comment

pj page: https://proof-optimizer.github.io

LLMの通常利用時の応答も（おそらくベンチマークに最適化されているせいで）長すぎると思っているけど、数学の証明も長いんだなあ、と感じた

#Article #NLP #Reasoning #Test-Time Scaling #read-later #One-Line Notes #Test-time Learning Issue Date: 2025-10-21 Knowledge Flow: Scaling Reasoning Beyond the Context Limit, Zhuang+, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

関連:

Loading…

literature:

Loading…

karpathy氏のポスト:

Loading…

#Article #Pretraining #MachineLearning #NLP #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment

元ポスト:

Loading…

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

#Article #EfficiencyImprovement #NLP #Blog #read-later Issue Date: 2025-10-20 modded-nanogpt medium world record: Re-using intermediate activations in the output latents, shimu's blog, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Evaluation #Blog #Reasoning #LongSequence Issue Date: 2025-10-17 Evaluating Long Context （Reasoning） Ability, wh., 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LongSequence #RecursiveModels Issue Date: 2025-10-17 Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities, Zhang+, 2025.10 Comment

blog: https://alexzhang13.github.io/blog/2025/rlm/
super basic implementation:

Loading…

元ポスト:

Loading…

#Article #Tutorial #NLP #Robotics #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #SmallModel #OpenWeight #Japanese #PII Issue Date: 2025-10-14 LFM2-350M-PII-Extract-JP, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-10-14 Ring-1T, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

inclusionAIから続々とfrontierなモデルが出てきている。

テクニカルレポートが公開:
- [Paper Note] Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model, Ling Team+, arXiv'25, 2025.10

#Article #NLP #SSM (StateSpaceModel) Issue Date: 2025-10-13 MAMBA-3: IMPROVED SEQUENCE MODELING USING STATE SPACE PRINCIPLES, 2025.10 Comment

元ポスト:

Loading…

解説:

Loading…

#Article #MLOps #AIAgents #Blog #SoftwareEngineering Issue Date: 2025-10-13 Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフーテックブログ, 2024.12 #Article #NLP #AIAgents #Evaluation #OpenWeight Issue Date: 2025-10-12 K2 Vendor Verifier, MoonshotAI, 2025.09 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

#Article #Survey #GenerativeAI #Blog #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Tutorial #NLP #Blog #read-later Issue Date: 2025-10-11 A History of Large Language Models, Gregory Gundersen, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #ReinforcementLearning #Repository #PEFT(Adaptor/LoRA) Issue Date: 2025-10-10 Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #SmallModel #OpenWeight #SSM (StateSpaceModel) Issue Date: 2025-10-09 Jamba Reasoning 3B, AI21Labs, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Blog #SmallModel #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-10-08 LFM2-8B-A1B: An Efficient On-device Mixture-of-Experts, LiquidAI, 2025.10 Comment

HF: https://huggingface.co/LiquidAI/LFM2-8B-A1B

元ポスト:

Loading…

日本語もサポートしているとのこと

#Article #NLP #Dataset #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #OpenWeight #Japanese Issue Date: 2025-10-07 エージェント機能が大幅に強化されたPLaMo 2.1 Primeの提供開始, PFN, 2025.10 Comment

#Article #EfficiencyImprovement #NLP #ReinforcementLearning #AIAgents #Repository #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-10-05 PipelineRL, Piche+, ServiceNow, 2025.04 Comment

code: https://github.com/ServiceNow/PipelineRL

元ポスト:

Loading…

Inflight Weight Updates

続報:

Loading…

論文:
- [Paper Note] PipelineRL: Faster On-policy Reinforcement Learning for Long Sequence Generation, Alexandre Piché+, arXiv'25, 2025.09

続報:

Loading…

#Article #Blog #read-later Issue Date: 2025-10-05 Frontier AI performance becomes accessible on consumer hardware within a year, EPOCH AI, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #DiffusionModel #Coding #SmallModel #OpenWeight #OpenSource Issue Date: 2025-10-05 CODA: Coding LM via Diffusion Adaption, Chen+, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Salesforce/CoDA-v0-Instruct

cc-by-nc-4.0

#Article #Tutorial #NLP #AIAgents #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 PFN LLMセミナー, PFN, 2025.10 Comment

元ポスト:

Loading…

#Article #Analysis #Pretraining #NLP #DiffusionModel Issue Date: 2025-10-04 Diffusion Language Models are Super Data Learners, Ni+, 2025.10 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Pretraining #NLP #DiffusionModel #Blog #MoE(Mixture-of-Experts) #read-later Issue Date: 2025-10-03 OpenMoE 2: Sparse Diffusion Language Models, Ni+, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #OpenWeight #UMM Issue Date: 2025-10-03 Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer, inclusionAI, 2025.10 Comment

HF: https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

元ポスト:

Loading…

#Article #NLP #SpeechProcessing #Blog #OpenWeight #Editing Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

#Article #NLP #Blog #PEFT(Adaptor/LoRA) #API #PostTraining #KeyPoint Notes Issue Date: 2025-10-03 Tinker is a training API for {developers, builders, researchers}, THINKING MACHINES, 2025.10 Comment

元ポスト:

Loading…

（Llamaのライセンスはユーザ数がアクティブユーザが7億人を超えたらMetaの許諾がないと利用できなくなる気がするが、果たして、とふと思った）

この前のブログはこのためのPRも兼ねていたと考えられる:
- LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09

所見:

Loading…

Asyncな設定でRLしてもSyncな場合と性能は同等だが、学習が大幅に高速化されて嬉しいという話な模様（おまけにrate limitが現在は存在するので今後よりブーストされるかも

#Article #NLP #Transformer #LongSequence #SmallModel #OpenWeight #SSM (StateSpaceModel) Issue Date: 2025-10-02 IBM Granite 4.0: hyper-efficient, high performance hybrid models for enterprise, IBM, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #Blog #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09 Comment

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Article #Pretraining #NLP #ReinforcementLearning Issue Date: 2025-10-01 RLP: Reinforcement as a Pretraining Objective, Hatamizadeh+, 2025.09 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

所見:

Loading…

解説:

Loading…

#Article #NLP #OpenWeight #read-later Issue Date: 2025-09-30 GLM-4.6: Advanced Agentic, Reasoning and Coding Capabilies, Zhipu AI, 2025.09 Comment

元ポスト:

Loading…

続報:

Loading…

Artificial Intelligenceによる評価:

Loading…

OpenWeightモデルの中でトップレベルのベンチスコア

#Article #NLP #Blog #ProprietaryLLM Issue Date: 2025-09-30 Introducing Claude Sonnet 4.5, Anthropic, 2025.09 Comment

元ポスト:

Loading…

Claude Sonnet 4.5 発表関連情報まとめ:
記事: https://zenn.dev/schroneko/articles/claude-sonnet-4-5
元ポスト:

Loading…

ブログを読むとImagine with Claudeの方がむしろ気になる...（残念ながら課金していない）
https://claude.ai/login?returnTo=%2Fimagine

Artificial Intelligenceによる評価:

Loading…

#Article #NLP #Attention #Blog #read-later Issue Date: 2025-09-30 LLM のアテンションと外挿, 佐藤竜馬, 2025.09 Comment

元ポスト:

Loading…

#Article #OpenWeight Issue Date: 2025-09-29 Ring-1T-preview, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Attention #OpenWeight #Reference Collection #Sparse Issue Date: 2025-09-29 DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, DeepSeek-AI, 2025.09 Comment

元ポスト:

Loading…

DeepSeek Sparse Attentionポイント解説:

Loading…

解説:

Loading…

DSA図解:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…

#Article #Tutorial #NLP #Reasoning #One-Line Notes Issue Date: 2025-09-29 Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05 Comment

元ポスト:

Loading…

#Article #Evaluation #Blog #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Analysis #Pretraining #NLP #ChatGPT #Blog #PostTraining Issue Date: 2025-09-29 Why GPT-5 used less training compute than GPT-4.5 （but GPT-6 probably won’t）, EPOCH AI, 2025.09 Comment

元ポスト:

Loading…

#Article #MachineLearning #Infrastructure #GenerativeAI #Slide #read-later #One-Line Notes Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment

元ポスト:

Loading…

KVCacheサイズとデータ転送量の部分はパフォーマンスチューニングの際に重要なのですぐにでも活用できそう。前半部分は私にとっては難しかったので勉強したい。

#Article #NLP #Blog #Reasoning #ProprietaryLLM Issue Date: 2025-09-28 Continuing to bring you our latest models, with an improved Gemini 2.5 Flash and Flash-Lite release, Google Deepmind, 2025.09 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #NLP #Attention #Blog #SoftwareEngineering #One-Line Notes Issue Date: 2025-09-28 We reverse-engineered Flash Attention 4, Modal Blog, 2025.09 Comment

元ポスト:

Loading…

Flash Attention4は数学的なトリックよりも非同期処理の複雑なパイプライン、Blackwellに最適化、とのこと

#Article #Pocket #NLP #ReinforcementLearning #Test-Time Scaling #Selected Papers/Blogs #Aggregation-aware #KeyPoint Notes Issue Date: 2025-09-27 RECURSIVE SELF-AGGREGATION UNLOCKS DEEP THINKING IN LARGE LANGUAGE MODELS, Venkatraman+, preprint, 2025.09 Comment

RLOO:
- [Paper Note] Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs, Arash Ahmadian+, ACL'24, 2024.02

元ポスト:

Loading…

concurrent work:
- [Paper Note] The Majority is not always right: RL training for solution aggregation, Wenting Zhao+, arXiv'25

#Article #Analysis #MachineLearning #NLP #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

#Article #NLP #FoundationModel #Blog #OpenWeight Issue Date: 2025-09-26 Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07 Comment

元ポスト:

Loading…

#Article #MachineTranslation #NLP #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #OpenWeight #Japanese #DocParser Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #NLP #Coding #OpenWeight #mid-training #PostTraining #One-Line Notes Issue Date: 2025-09-25 CWM: An Open-Weights LLM for Research on Code Generation with World Models, Copet+, 2025.09 Comment

元ポスト:

Loading…

GRPOに対するモダンなtweakがまとまっている模様:

Loading…

DeepSeek-R1で提案されてから細かな調整が重ねられて来た。

#Article #NLP #Blog #ProprietaryLLM #MoE(Mixture-of-Experts) Issue Date: 2025-09-24 Qwen3-Max: Just Scale it, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

現在はnon-thinkingモデルのみのようだがthinkingモデルも学習中で、GPQA, HMMT, AIME25でのベンチマーク結果のみ掲載されている。

HMMTというのは以下な模様:
- HMMT. HMMT 2025, 2025.09

#Article #MachineTranslation #NLP #MultiModal #Blog #ProprietaryLLM Issue Date: 2025-09-24 Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It！, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #OpenWeight #Safety #Safeguard Issue Date: 2025-09-23 Qwen3-Guard, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #OpenWeight #Omni #Reference Collection Issue Date: 2025-09-23 Qwen3-Omni, Qwen Team, 2025.09 Comment

テクニカルレポート: https://github.com/QwenLM/Qwen3-Omni/blob/main/assets/Qwen3_Omni.pdf

公式ポスト:

Loading…

元ポスト:

Loading…

ポイント解説:

Loading…

日本語で音声to音声可能:

Loading…

Artificial Analysisによる評価:

Loading…

#Article #NLP #Quantization #Reasoning #OpenWeight Issue Date: 2025-09-23 Qwen3-Next-series-FP8, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-09-23 DeepSeek-V3.1-Terminus, deepseek-ai, 2025.09 Comment

元ポスト:

Loading…

vLLMでデプロイする時のtips:

Loading…

#Article #Tutorial #NLP #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight #read-later #Selected Papers/Blogs #ModelMerge Issue Date: 2025-09-22 LongCat-Flash-Thinking, meituan-longcat, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #NLP #MultiModal #Blog #Reasoning #VisionLanguageModel Issue Date: 2025-09-21 Grok 4 Fast, xAI, 2025.09 Comment

ベンチマークに対する評価結果以外の情報はほぼ記述されていないように見える（RL使いました程度）

Artificial Analysisによる評価:

Loading…

コスト性能比の所見:

Loading…

#Article #NLP #Reasoning #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-09-20 Ring-flash-2.0, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #Dataset #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #ComputerVision #NLP #MultiModal #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-09-18 Magistral-Small-2509, MistralAI, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-09-18 Ling-flash-2.0, inclusionAI, 2025.09 Comment

100B-A6.1B, 20Tトークンで学習, SFT+マルチステージRL, 40Bパラメータ以下のモデルの中でSoTA, 200+tokens/secのデコーディング速度

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #NLP #SmallModel #TTS Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS

#Article #NLP #AIAgents #OpenWeight #DeepResearch Issue Date: 2025-09-17 Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

#Article #NLP #Dataset #Evaluation #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #Survey #Blog #Reasoning #COLM Issue Date: 2025-09-15 Large reasoning models research at COLM 2025 - State of research in scaling reasoning, the current paradigm for improving LLMs, PRAKASH KAGITHA, 2025.09 Comment

COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。

元ポスト:

Loading…

ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。

#Article #NLP #AIAgents #Repository #OpenSource #DeepResearch Issue Date: 2025-09-13 OpenManus, Liang+, FoundationAgents, 2025.04 #Article #NLP #AIAgents #Repository #OpenSource #DeepResearch Issue Date: 2025-09-13 OpenDeepResearch, LangChain, 2025.07 Comment

blog: https://blog.langchain.com/open-deep-research/

#Article #NLP #AIAgents #Blog #ProprietaryLLM #DeepResearch Issue Date: 2025-09-13 Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06 #Article #Pretraining #NLP #Dataset #SyntheticData #Blog Issue Date: 2025-09-13 Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+（HuggingFace）, 2024.03 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

#Article #NLP #Dataset #Evaluation #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #SmallModel #OpenWeight Issue Date: 2025-09-12 Ring-mini-2.0, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #NLP #SmallModel #OpenWeight Issue Date: 2025-09-11 Ling V2, inclusionAI, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

blog: https://huggingface.co/blog/im0qianqian/ling-mini-2-fp8-mixed-precision-training-solution

元ポスト:

Loading…

#Article #Tutorial #NLP #AIAgents #Blog #ContextEngineering Issue Date: 2025-09-11 Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #python #Blog #read-later #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-09-11 Defeating Nondeterminism in LLM Inference, Horace He in collaboration with others at Thinking Machines, 2025.09 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

vLLMにおいてinferenceをdeterministicにする方法が、vLLMのissue number 24583に記載されているので参照のこと。

transformersでの実装例:

Loading…

#Article #NLP #ReinforcementLearning #Repository #LLMServing #Inference Issue Date: 2025-09-11 Checkpoint Engine, MoonshotAI, 2025.09 Comment

元ポスト:

Loading…

#Article #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #read-later #VisionLanguageModel Issue Date: 2025-09-10 ERNIE-4.5-21B-A3B-Thinking, Baidu, 2025.09 Comment

元ポスト:
-

Loading…

テクニカルレポート: https://ernie.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

何が決め手でこのやうな小規模モデルで高い性能が出るのだろう？テクニカルレポートを読んだらわかるんだろうか。

#Article #NLP #Dataset #Evaluation #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #NLP #Dataset #Evaluation #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #NLP #Dataset #Evaluation #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #Pretraining #NLP #Dataset #Repository #Selected Papers/Blogs Issue Date: 2025-09-07 FinePDFs, HuggingFaceFW, 2025.09 Comment

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

#Article #EfficiencyImprovement #NLP #DiffusionModel Issue Date: 2025-09-07 Fast-dLLM v2: Efficient Block-Diffusion Large Language Model, Wu+, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #Pocket #NLP #Dataset #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #Dataset #Evaluation #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #ReinforcementLearning #Blog #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 From f（x） and g（x） to f（g（x））: LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09 Comment

元ポスト:

Loading…

この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24

#Article #Pocket #NLP #Hallucination #Selected Papers/Blogs Issue Date: 2025-09-06 Why Language Models Hallucinate, Kalai+, 2025.09 Comment

著者ポスト:

Loading…

解説:

Loading…

所見:

Loading…

#Article #Pretraining #NLP #Dataset #Japanese Issue Date: 2025-09-06 FineWeb2 Edu Japanese, Yuichi Tateno, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #OpenWeight Issue Date: 2025-09-05 Kimi-K2-Instruct-0905, MoonshotAI, 2025.09 Comment

以前と比較してSWE Bench系の性能が大幅に向上しているように見える

元ポスト:

Loading…

公式ポスト:

Loading…

Artificial Analysisによるベンチマーキング結果:

Loading…

Agenticな能力が顕著に改善している旨が記述されている。

Creative Short Story Benchmarkと呼ばれるでSoTA:

Loading…

ベンチマーク:
https://github.com/lechmazur/writing

キャラクター、object, tone, Attributeなどのストーリーを構成する要素のみを指定して、600-800程度のストーリーを記述させるベンチマークで、評価は18個のルーブリック（8こすのルーブリックでnarrativeとしての品質を評価し、残りで構成やrequirementsを満たしているかなどの評価をする）に基づく複数LLMによるLLM-as-a-Judgeによるスコアリング結果を集約することで実施している模様。
スコアリングに利用されているLLMは下記:

- Claude Opus 4.1 (no reasoning)
- DeepSeek V3.1 Reasoner
- Gemini 2.5 Pro
- GPT-5 (low reasoning)
- Grok 4
- Kimi K2
- Qwen 3 235B A22B 25-07 Think

複数LLMを利用しているとはいえ、評価対象のモデルもgradeで利用するモデルに含まれているのは気になるところ。あとはnarrativeの品質評価はLLMでどこまでできるのだろうか。

#Article #NLP #python #Blog #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-09-03 Inside vLLM: Anatomy of a High-Throughput LLM Inference System, Aleksa Gordić blog, 2025.08 Comment

めっちゃ良さそう

#Article #NLP #MultiLingual #OpenWeight #OpenSource Issue Date: 2025-09-03 APERTUS: DEMOCRATIZING OPEN AND COMPLIANT LLMS FOR GLOBAL LANGUAGE ENVIRONMENTS, Apertus Team, 2025.09 Comment

HF: https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059

元ポスト:

Loading…

Apache 2.0 + Apertus LLM Acceptable Use Policy

解説:

Loading…

#Article #Survey #ComputerVision #NLP #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Library #ReinforcementLearning #Repository #PostTraining Issue Date: 2025-09-02 slime, THUDM & Zhihu, 2025.09 Comment

元ポスト:

Loading…

GLM-4.5のRL学習に利用されたフレームワーク

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

#Article #ComputerVision #NLP #Library #ReinforcementLearning #Repository #PostTraining #VisionLanguageModel Issue Date: 2025-09-01 RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09 Comment

元ポスト:

Loading…

#Article #Survey #NLP #AIAgents #ScientificDiscovery Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

#Article #MachineTranslation #NLP #OpenWeight #Selected Papers/Blogs Issue Date: 2025-09-01 Hunyuan-MT-7B, Tencent, 2025.09 Comment

テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

元ポスト:

Loading…

#Article #Pretraining #NLP #Dataset #Supervised-FineTuning (SFT) #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #NLP #Evaluation #Blog #Reasoning Issue Date: 2025-08-31 Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #NLP #OpenWeight #MoE(Mixture-of-Experts) #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-08-31 LongCat-Flash-Chat, meituan-longcat, 2025.08 Comment

テクニカルレポート: https://github.com/meituan-longcat/LongCat-Flash-Chat/blob/main/tech_report.pdf

元ポスト:

Loading…

Agent周りのベンチで高性能なnon thinkingモデル。毎秒100+トークンの生成速度で、MITライセンス。Dynamic Activation...?

しかし中国は本当に次々に色々な企業から基盤モデルが出てくるなぁ…すごい

- [Paper Note] Scaling Exponents Across Parameterizations and Optimizers, Katie Everett+, ICML'24

解説:

Loading…

解説:

Loading…

#Article #Education Issue Date: 2025-08-31 LLMは教育をどう変えるか：主要3社の「学習モード」比較考察, Kawamoto, 2025.08 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP Issue Date: 2025-08-29 つくって納得、つかって実感！大規模言語モデルことはじめ, Recruit, 2025.08 Comment

元ポスト:

Loading…

LLM入門にとても良さそう

#Article #NLP #Chain-of-Thought #Blog #Reasoning #CovarianceShift Issue Date: 2025-08-27 「推論する生成AI」は事前学習されていない課題を正しく推論することができない（共変量シフトに弱い）, TJO, 2025.08 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #OpenWeight #VisionLanguageModel Issue Date: 2025-08-27 MiniCPM-V-4_5, openbmb, 2025.08 Comment

元ポスト:

Loading…

#Article #RecommenderSystems #CTRPrediction Issue Date: 2025-08-27 Self-Monitoring Large Language Models for Click-Through Rate Prediction, Zhou+, ACM Transactions on Information Systems, 2025.08 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Article #NLP #Attention #Blog Issue Date: 2025-08-26 Why Stacking Sliding Windows Can't See Very Far, Guangxuan Xiao , 2025.08 Comment

元ポスト:

Loading…

#Article #SpeechProcessing #LongSequence #MultiLingual #OpenWeight #TTS Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment

元ポスト:

Loading…

> Unsupported language – the model is trained only on English and Chinese data; outputs in other languages are unsupported and may be unintelligible or offensive.

日本語は対応していないので注意

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様？

#Article #Pretraining #NLP #Dataset Issue Date: 2025-08-25 TxT360, LLM360, 2024.10 #Article #NLP #Reasoning #OpenWeight Issue Date: 2025-08-22 Command A Reasoning: Enterprise-grade control for AI agents, Cohere, 2025.08 Comment

HF: https://huggingface.co/CohereLabs/command-a-reasoning-08-2025

元ポスト:

Loading…

Agent関連ベンチでR1, gptoss超え。DeepResearchベンチでプロプライエタリLLMと比べてSoTA。safety関連ベンチでR1, gptoss超え。
す、すごいのでは、、？

CC-BY-NC 4.0なので商用利用不可

サマリ:

Loading…

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-08-21 DeepSeek-V3.1-Base, deepseek-ai, 2025.08 Comment

元ポスト:

Loading…

数日前からモデル自体は公開されていたが、モデルカードが追加された

- hybrid thinking
- post-trainingによるtool calling capability向上
- token efficiencyの向上

解説:

Loading…

解説:

Loading…

サマリ:

Loading…

#Article #EfficiencyImprovement #python #Blog #LLMServing #Decoding #SpeculativeDecoding Issue Date: 2025-08-21 vLLMのSpeculative Decodingによる推論高速化を試す, Aratako, 2025.05 #Article #NLP #Evaluation #Coding #Reasoning Issue Date: 2025-08-21 Aider LLM Leaderboards, 2024.12 Comment

データセット: https://github.com/Aider-AI/polyglot-benchmark

#Article #NLP #Evaluation #OpenWeight #ProprietaryLLM #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08 Comment

元ポスト:

Loading…

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

#Article #NLP #SmallModel #OpenWeight #OpenSource Issue Date: 2025-08-20 OLMo-2-0425-1B-early-training, allenai, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Repository #Coding Issue Date: 2025-08-19 DeepCode, Data Intelligence Lab@HKU, 2025.08 Comment

#Article #NLP #Alignment #Japanese #RewardModel Issue Date: 2025-08-18 ca-reward-3b-ja, cyberagent, 2025.05 Comment

元ポスト:

Loading…

#Article #TimeSeriesDataProcessing #NLP Issue Date: 2025-08-18 How well can AI predict the future?, Prophet Arena, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #SmallModel #OpenWeight Issue Date: 2025-08-15 Introducing Gemma 3 270M: The compact model for hyper-efficient AI, Google, 2025.05 Comment

元ポスト:

Loading…

#Article #Pocket #NLP #Evaluation Issue Date: 2025-08-14 Concept Poisoning: Probing LLMs without probes, Betley+, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Library #RLHF #RLVR Issue Date: 2025-08-13 RLVR_RLHF libraries, 2025.08 Comment

RLVR,RLHFに関する現在のライブラリがまとまっているスレッド

#Article #Analysis #NLP #ReinforcementLearning #Blog #read-later Issue Date: 2025-08-12 ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #DiffusionModel #Selected Papers/Blogs Issue Date: 2025-08-09 Diffusion Language Models are Super Data Learners, Jinjie Ni and the team, 2025.08 Comment

dLLMは学習データの繰り返しに強く、データ制約下においては十分な計算量を投入してepochを重ねると、性能向上がサチらずにARモデルを上回る。

Loading…

続報:
- Diffusion Language Models are Super Data Learners, Ni+, 2025.10

#Article #NLP #LongSequence #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-08-08 Qwen3-235B-A22B-Instruct-2507, Qwen Team, 2025.08 Comment

性能向上した上に1M tokens を扱える。

元ポスト:

Loading…

Dual Chunk Attention (DCA), MInference...?という技術により品質を維持しながらinference速度アップとのこと、

DCAは全体の系列をmanageableなチャンクに分割して処理しながら全体のcoherenceを維持する手法で、MInferenceは鍵となるtokenの交互作用にのみフォーカスするsparse attentionとのこと。

#Article #Tools #NLP #Evaluation #Blog Issue Date: 2025-08-08 Agent Maze, LlamaIndex, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #MultiModal #ProprietaryLLM #KeyPoint Notes #Reference Collection Issue Date: 2025-08-07 GPT-5 System Card, OpenAI, 2025.08 Comment

日本語性能。MMLUを専門の翻訳家を各言語に翻訳。

longContextの性能が非常に向上しているらしい
-

Loading…

gpt-ossではAttentionSinkが使われていたが、GPT-5では使われているだろうか？もし使われているならlong contextの性能向上に寄与していると思われる。

50% time horizonもscaling lawsに則り進展:
-

Loading…

METR's Autonomy Evaluation Resources
- https://metr.github.io/autonomy-evals-guide/gpt-5-report/
-

Loading…

HLEに対するツール利用でのスコアの比較に対する所見:

Loading…

Document Understandingでの評価をしたところOutput tokenが大幅に増えている:

Loading…

GPT5 Prompting Guide:
https://cookbook.openai.com/examples/gpt-5/gpt-5_prompting_guide

GPT-5: Key characteristics, pricing and model card
- https://simonwillison.net/2025/Aug/7/gpt-5/
-

Loading…

- SWE Bench リーダーボード: https://www.swebench.com

まとめ:

Loading…

所見:
-

Loading…

OpenHandsでの評価:

Loading…

SWE Bench Verifiedの性能は71.8%。全部の500サンプルで評価した結果だと思うので公式の発表より低めではある。

AttentionSinkについて:

Loading…

o3と比較してGPT5は約1/3の時間でポケモンレッド版で8個のバッジを獲得した模様:

Loading…

より温かみのあるようなalignmentが実施された模様:

Loading…

GPT5はlong contextになるとmarkdownよりめxmlの方が適していると公式ドキュメントに記載があるらしい:

Loading…

Smallow LLM Leaderboard v2での性能:

Loading…

GPT5の性能が際立って良く、続いてQwen3, gptossも性能が良い。

#Article #NLP #AIAgents #Evaluation #Blog #Game Issue Date: 2025-08-06 Introducing Kaggle Game Arena, Meg Risdal, 2025.08 Comment

元ポスト:

Loading…

#Article #Tools #NLP #AIAgents #Blog #Coding #ProprietaryLLM Issue Date: 2025-08-06 Claude Opus 4.1, Anthropic, 2025.08 Comment

元ポスト:

Loading…

#Article #Blog #Architecture Issue Date: 2025-08-06 The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07 Comment

Qwen3とGPT-OSSの比較はこちら:

Loading…

#Article #Tutorial #SyntheticData #Slide #ACL #Selected Papers/Blogs Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight #MoE(Mixture-of-Experts) #AttentionSinks #read-later #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-08-05 gpt-oss-120b, OpenAI, 2025.08 Comment

blog: https://openai.com/index/introducing-gpt-oss/

HF:
https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md

アーキテクチャで使われている技術まとめ:
-

Loading…

- こちらにも詳細に論文がまとめられている

Loading…

他Open Weight Modelとのベンチマークスコア比較:
-

Loading…

- long context
-

Loading…

- Multihop QA

解説:

Loading…

learned attention sinks, MXFP4の解説:

Loading…

Sink Valueの分析:

Loading…

Qwen3との深さと広さの比較:
- The Big LLM Architecture Comparison, Sebastian Laschka, 2025.07

Phi4と同じtokenizerを使っている？:

Loading…

post-training / pre-trainingの詳細はモデルカード中に言及なし:
-

Loading…

cookbook全体: https://cookbook.openai.com/topic/gpt-oss

gpt-oss-120bをpythonとvLLMで触りながら理解する: https://tech-blog.abeja.asia/entry/gpt-oss-vllm

指示追従能力（IFEVal)が低いという指摘:

Loading…

#Article #EfficiencyImprovement #Library #python #LLMServing Issue Date: 2025-08-03 LMCache, LMCache, 2025.07 Comment

元ポスト:

Loading…

KV Cacheを色々なところにキャッシュしておいて、prefixだけでなく全てのreused可能なものをキャッシュすることで、TTFTとスループットを大幅に向上するらしい。特にlong contextなタスクで力を発揮し、vLLMと組み合わせると下記のようなパフォーマンス向上結果

#Article #NLP #Coding #OpenWeight Issue Date: 2025-08-03 XBai-o4, MetaStoneAI, 2025.08 Comment

元ポスト:

Loading…

LiveCodeBenchでo3-mini-2015-01-31(medium)と同等らしい

#Article #NLP #ActivationSteering/ITI #Personality Issue Date: 2025-08-02 Persona vectors: Monitoring and controlling character traits in language models, Anthropic, 2025.08 Comment

元ポスト:

Loading…

Full Paper: https://arxiv.org/abs/2507.21509

#Article #EfficiencyImprovement #NLP #Coding #Reasoning #MoE(Mixture-of-Experts) Issue Date: 2025-08-02 Qwen3-Coder-30B-A3B-Instruct, QwenTeam, 2025.08 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #NLP #DiffusionModel Issue Date: 2025-08-01 Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference, ByteDance Seed, Comment

元ポスト:

Loading…

#Article #NLP #Blog #PostTraining Issue Date: 2025-07-31 大規模言語モデルPLaMo 2シリーズの事後学習, PFN, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #Evaluation Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-07-31 Qwen3-30B-A3B-Thinking-2507, Qwen Team, 2025.07 Comment

元ポスト:

Loading…

mediumサイズのモデルがさらに性能向上

#Article #NLP #Reasoning #OpenWeight #Selected Papers/Blogs Issue Date: 2025-07-29 GLM-4.5: Reasoning, Coding, and Agentic Abililties, Zhipu AI Inc., 2025.07 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b

詳細なまとめ:

Loading…

#Article #ComputerVision #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VideoGeneration/Understandings Issue Date: 2025-07-29 Wan2.2, Alibaba Wan, 2025.07 Comment

元ポスト:

Loading…

テクニカルペーパー:
https://arxiv.org/abs/2503.20314

#Article #Survey #NLP #ReinforcementLearning #Blog Issue Date: 2025-07-27 9 new policy optimization techniques, Kseniase, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-07-26 Qwen3-235B-A22B-Thinking-2507, QwenTeam, 2025.07 Comment

とうとうベンチマーク上はo4-miniと同等に...

#Article #ComputerVision #Document #NLP #DocParser #VisionLanguageModel Issue Date: 2025-07-25 LLM APIs Are Not Complete Document Parsers, Jerry Liu, 2025.07 Comment

元ポスト:

Loading…

#Article #Coding #SoftwareEngineering Issue Date: 2025-07-25 anycoder, akhaliq, 2025.07 Comment

こんなことができる模様。サイトのリニューアルに使ってみようかしら、、、

Loading…

#Article #EfficiencyImprovement #NLP #LLMServing #Decoding #SpeculativeDecoding Issue Date: 2025-07-24 Speculative Decoding：Faster Inference Without Paying for More GPU, ELYZA, 2025.07 #Article #NLP #Prompting #Slide #Attack Issue Date: 2025-07-23 プロンプトインジェクション2.0 : 進化する防御機構とその回避手法, yuasa, 2025.07 #Article #NLP #AIAgents #Repository #Coding Issue Date: 2025-07-23 Qwen Code, Qwen Team, 2025.07 #Article #Tutorial #NLP #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #NLP #OpenWeight Issue Date: 2025-07-22 Qwen3-235B-A22B-Instruct-2507, QwenTeam, 2025.07 Comment

Loading…

関連ポスト:

Loading…

解説ポスト:

Loading…

関連ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-06-17 MiniMax-M1, MiniMax, 2025.06 Comment

元ポスト:

Loading…

vLLMでのservingが推奨されており、コンテキストは1M、456BのMoEアーキテクチャでactivation weightは46B

公式ポスト:

Loading…

Agentもリリースした模様:

Loading…

#Article #NLP #Zero/FewShotLearning #Selected Papers/Blogs Issue Date: 2025-06-15 [Paper Note] Language Models are Unsupervised Multitask Learners, Radford+, OpenAI, 2019 Comment

#Article #Unsupervised #NLP #Supervised-FineTuning (SFT) Issue Date: 2025-06-12 [Paper Note] Unsupervised Elicitation of Language Models, Wen+, Anthropic, 2025.06 Comment

元ポスト:

Loading…

#Article #Embeddings #NLP #RepresentationLearning #OpenWeight Issue Date: 2025-06-06 Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06 Comment

元ポスト:

Loading…

QwenTeam post:

Loading…

#Article #Tutorial #Pretraining #MachineLearning #NLP #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #SmallModel #Slide Issue Date: 2025-05-28 SSII2025 [OS1-03] PFNにおけるSmall Language Modelの開発, 鈴木脩司, 画像センシングシンポジウム, 2025.05 Comment

元ポスト:

Loading…

同じようにPruningとKnowledge Distilationを実施した事例として下記が挙げられる
- Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04

#Article #Analysis #NLP #Mathematics #SmallModel #RLVR Issue Date: 2025-05-27 Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05 Comment

元ポスト:

Loading…

参考（考察）:

Loading…

参考（考察）:

Loading…

こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500（Qwen2.5においてコンタミの可能性がある）の性能を示している。

#Article #Tutorial #ComputerVision #NLP #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #Tutorial #ComputerVision #NLP #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #Dataset #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #NLP #AIAgents #Blog #Coding Issue Date: 2025-05-18 OpenAI-Codex, OpenAI, 2025.05 Comment

Loading…

#Article #Pocket #NLP #AIAgents #Coding #ScientificDiscovery Issue Date: 2025-05-17 AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05 Comment

blog post: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

#Article #NLP #Library #ReinforcementLearning #python Issue Date: 2025-05-16 verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04 Comment

注意点（超重要）:

Loading…

- 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07

でも言われているように、ライブラリにはバグがあるのが普通なのね、、、。

#Article #NLP #InstructionTuning #PostTraining #Selected Papers/Blogs Issue Date: 2025-05-12 Stanford Alpaca: An Instruction-following LLaMA Model, Taori +, 2023.03 Comment

今更ながらメモに追加。アカデミアにおけるOpenLLMに対するInstruction Tuningの先駆け的研究。

#Article #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #GRPO Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

#Article #NLP #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #RecommenderSystems #Blog Issue Date: 2025-04-28 Improving Recommendation Systems & Search in the Age of LLMs, eugeneyan, 2025.04 #Article #NLP #AIAgents #Blog #Repository Issue Date: 2025-04-26 Deepwiki, Cognition, 2025.04 Comment

#Article #ComputerVision #Pocket #NLP #AIAgents #MultiModal #Blog #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 Introducing UI-TARS-1.5, ByteDance, 2025.04 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment

paper: https://arxiv.org/abs/2501.12326

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-04-12 Seed-Thinking-v1.5, ByteDance, 2025.04 Comment

DeepSeek-R1を多くのベンチで上回る200B, 20B activated paramのreasoning model

最近のテキストのOpenWeightLLMはAlibaba, DeepSeek, ByteDance, Nvidiaの4強という感じかな…？（そのうちOpenAIがオープンにするReasoning Modelも入ってきそう）。

#Article #Survey #ComputerVision Issue Date: 2025-04-11 Large Vision Language Model （LVLM）に関する最新知見まとめ（Part 1）, Daiki Shiono, 2024.11 #Article #NLP #Dataset #Evaluation #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #Dataset #AIAgents #Evaluation #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #NLP #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

#Article #NLP #DiffusionModel #OpenWeight Issue Date: 2025-04-08 Dream-v0-Instruct-7B, Dream-org, 2025.04 Comment

OpenWeightな拡散言語モデル

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #OpenWeight #Reference Collection Issue Date: 2025-04-05 Llama 4 Series, Meta, 2025.04 Comment

Downloads: https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4

Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

解説ポスト:

Loading…

Artificial Analysisによる性能検証:

Loading…

MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等

Update:

Loading…

性能に関して不可解な点が多そうなので様子見をしても良いかも。

性能検証（Math-Perturb):

Loading…

日本語にあまり強くないという情報も
元ポスト:

Loading…

#Article #NLP #OpenWeight #SoftwareEngineering Issue Date: 2025-04-02 openhands-lm-32b-v0.1, all-hands, 2025.03 Comment

Qwen Coder 2.5 Instruct 32Bに基づく最先端のSWEタスクが実行可能なモデル

#Article #RecommenderSystems #Survey #NLP #Blog Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #ComputerVision #NLP #MultiModal #OpenWeight Issue Date: 2025-03-25 Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #Blog #Selected Papers/Blogs Issue Date: 2025-03-25 言語モデルの物理学, 佐藤竜馬, 2025.03 Comment

必読

#Article #ComputerVision #EfficiencyImprovement #Pretraining #NLP #Transformer #Supervised-FineTuning (SFT) #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

#Article #Survey #Embeddings #Pocket #NLP #Blog #PositionalEncoding Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment

元ポスト: https://huggingface.co/posts/Kseniase/498106595218801

RoPEについてサーベイが必要になったら見る

#Article #Tools #Pocket #NLP #Chain-of-Thought #Blog #Reasoning Issue Date: 2025-03-23 The "think" tool: Enabling Claude to stop and think in complex tool use situations, Anthropic, 2025.03 Comment

"考える"ことをツールとして定義し利用することで、externalなthinkingを明示的に実施した上でタスクを遂行させる方法を紹介している

#Article #NLP #Reasoning #ProprietaryLLM #SSM (StateSpaceModel) Issue Date: 2025-03-22 Hunyuan T1, Tencent, 2025.03 Comment

元ポスト:

Loading…

reasoningモデルかつ、TransformerとMambaのハイブリッドで、MoEを採用しているとのこと。

TransformerとMambaのハイブリッドについて（WenhuChen氏のポスト）:

Loading…

Self-Attention Layerを削減することでInference時の計算量とメモリを大幅に削減できる（Self-Attentionは全体のKV Cacheに対してAttentionを計算するため）。

#Article #NLP #Dataset #Reasoning Issue Date: 2025-03-21 Sudoku-bench, SakanaAI, 2025.03 GPT Summary- Sudoku-Benchは、CTCで紹介された独自のルールを持つ数独パズルを特徴とし、AI推論モデルの評価に最適なベンチマークです。このリポジトリでは、数独ベンチデータセット、LLM評価用のベースラインコード、SudokuPadツール、推論トレースなどを提供します。 Comment

元ポスト:

Loading…

既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-03-19 Llama Nemotron, Nvidia, 2025.03 Comment

Nvidiaによる初めてのreasoning model。
元ポスト:

Loading…

Artificial Analysisにやるベンチマーク:

Loading…

（画像は元ポストより引用）

システムプロンプトを変えることでreasoningをon/offできる模様

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-03-18 EXAONE-Deep-32B, LG AI Research, 2025.03 Comment

元ポスト:

Loading…

EXAONE AI Model License Agreement 1.1 - NC
商用利用不可

#Article #ComputerVision #NLP #MultiModal #OpenWeight Issue Date: 2025-03-18 SmolDocling-256M, IBM Research, 2025.03 Comment

Apache-2.0ライセンス。言語はEnglishのみな模様

マルチモーダルなImage-To-Textモデル。サンプルはこちら

#Article #ComputerVision #NLP #MultiModal #ProprietaryLLM Issue Date: 2025-03-17 ERNIE4.5_X1, Baidu, 2025.03 Comment

解説ポスト:

Loading…

- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額

らしい

このモデルは6月30日にオープン（ウェイト？）になるとスレッドで述べられている。

#Article #ComputerVision #NLP #MultiModal #OpenWeight #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03 Comment

元ポスト:

Loading…

VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。

モデル構成、学習の詳細、および評価:

Loading…

ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

を参照のこと。

#Article #NLP #Supervised-FineTuning (SFT) #Slide Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning：PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment

#Article #NLP #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-03-14 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3 Comment

真なる完全なるオープンソース（に近い？）OLMOの最新作

#Article #AIAgents #Slide Issue Date: 2025-03-14 AI_Agent_の作り方_近藤憲児, Kenji KONDO, 2025.03 #Article #NLP #AIAgents #Blog #ComputerUse Issue Date: 2025-03-12 OpenAI API での Computer use の使い方, npaka, 2025.03 Comment

OpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。

公式: https://platform.openai.com/docs/guides/tools-computer-use

#Article #NLP #AIAgents #OpenSource #DeepResearch Issue Date: 2025-03-12 Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02 #Article #NLP #OpenWeight Issue Date: 2025-03-12 Introducing Gemma 3: The most capable model you can run on a single GPU or TPU, Google, 2025.03 Comment

Gemmaライセンス

解説ポスト:

Loading…

解説ポスト:

Loading…

#Article #NLP #Reasoning #MultiLingual #OpenWeight Issue Date: 2025-03-12 Reasoning with Reka Flash, Reka, 2025.03 Comment

Weights: https://huggingface.co/RekaAI/reka-flash-3

Apache-2.0

< /reasoning >を強制的にoutputさせることでreasoningを中断させることができ予算のコントロールが可能とのこと

#Article #Tutorial #NLP #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #NLP #ReinforcementLearning #Reasoning #OpenWeight Issue Date: 2025-03-06 QwQ-32B: Embracing the Power of Reinforcement Learning, Qwen Team, 2025.03 Comment

元ポスト:

Loading…

- START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv'25

Artificial Analysisによるベンチマークスコア:

Loading…

おそらく特定のタスクでDeepSeekR1とcomparable, 他タスクでは及ばない、という感じになりそうな予感

#Article #Library #AIAgents Issue Date: 2025-03-06 smolagents, HuggingFace, 2025.03 GPT Summary- smolagentsは、数行のコードで強力なエージェントを構築できるライブラリで、シンプルなロジック、コードエージェントのサポート、安全な実行環境、ハブ統合、モデルやモダリティに依存しない設計が特徴。テキスト、視覚、動画、音声入力をサポートし、さまざまなツールと統合可能。詳細はローンチブログ記事を参照。 #Article #MachineLearning #NLP #ReinforcementLearning #Blog #GRPO Issue Date: 2025-03-05 GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03 Comment

他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。

#Article #NLP #OpenWeight Issue Date: 2025-03-04 microsoft_Phi-4-multimodal-instruct, Microsoft, 2025.02 Comment

MIT License

#Article #Pretraining #MachineLearning #Supervised-FineTuning (SFT) Issue Date: 2025-03-04 The Ultra-Scale Playbook: Training LLMs on GPU Clusters, HuggingFace, 2025.02 Comment

HuggingFaceによる数1000のGPUを用いたAIモデルのトレーニングに関するオープンソースのテキスト

#Article #MachineLearning #NLP #Library #ReinforcementLearning #python #Reasoning Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #AIAgents Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment

元ポスト:

Loading…

#Article #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #GRPO Issue Date: 2025-02-19 強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02 Comment

元ポスト:

Loading…

#Article #NLP #Reasoning #OpenWeight Issue Date: 2025-02-17 Mistral-24B-Reasoning, yentinglin, 2025.02 Comment

Apache-2.0

#Article #Pretraining #NLP #Slide Issue Date: 2025-02-12 LLMの事前学習のためのテキストデータの収集と構築, Shun Kiyono, 2015.02 Comment

詳細は著書に記載とのこと。興味深い。

#Article #Embeddings #NLP #RepresentationLearning #pretrained-LM #Japanese Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 Comment

ＭIT Licence

元ポスト:

Loading…

- ModernBERT, AnswerDotAI, 2024.12

#Article #python Issue Date: 2025-02-12 Docling, DS4SD, 2024.07 Comment

Unstructuredとどちらが良いだろうか？

#Article #NLP #ReinforcementLearning #Blog #Distillation Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02 #Article #python #LLMServing #Selected Papers/Blogs Issue Date: 2025-02-12 SGlang, sgl-project, 2024.01 GPT Summary- SGLangは、大規模言語モデルと視覚言語モデルのための高速サービングフレームワークで、バックエンドとフロントエンドの共同設計により迅速なインタラクションを実現します。主な機能には、高速バックエンドランタイム、柔軟なフロントエンド言語、広範なモデルサポートがあり、オープンソースの活発なコミュニティに支えられています。 Comment

- Open R1, HuggingFace, 2025.01

のUpdate2でMath Datasetの生成に利用されたLLM Servingフレームワーク。利用前と比較してスループットが2倍になったとのこと。

CPU, external storageを利用することでTTFTを改善するようになったようで、最大80%TTFTが削減されるとの記述がある。

Loading…

（原理的には元来可能だが計算効率の最適化に基づく誤差によって実装上の問題で実現できていなかった) Deterministic Inferenceをサポート:

Loading…

#Article #NLP #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-02-07 Unsloth で独自の R1 Reasoningモデルを学習, npaka, 2025.02 Comment

非常に実用的で参考になる。特にどの程度のVRAMでどの程度の規模感のモデルを使うことが推奨されるのかが明言されていて参考になる。

#Article #NLP #Supervised-FineTuning (SFT) #FoundationModel #RLHF #Blog #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#Article #ComputerVision #NLP #MultiModal #OpenWeight #UMM Issue Date: 2025-01-28 Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01 Comment

DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License

#Article #NLP #Repository #OpenSource Issue Date: 2025-01-26 Open R1, HuggingFace, 2025.01 Comment

HFによるDeepSeekR1を完全に再現する取り組み

Update1: https://huggingface.co/blog/open-r1/update-1

Update2: https://huggingface.co/blog/open-r1/update-2

512機のH100を利用…

Update3: https://huggingface.co/blog/open-r1/update-3

#Article #NLP #Dataset #Supervised-FineTuning (SFT) #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #NLP #Library #AIAgents #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 Comment

Llamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。

#Article #NLP #Library #SyntheticData Issue Date: 2025-01-25 distilabel, 2023.11 Comment

高品質な合成データをLLMで生成するためのフレームワーク

#Article #NLP #Supervised-FineTuning (SFT) #Blog #PostTraining Issue Date: 2025-01-25 How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12 Comment

SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。

#Article #NLP #Alignment #Supervised-FineTuning (SFT) #Blog #DPO #PostTraining Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment

元ポスト:

Loading…

#Article #Chain-of-Thought #python #StructuredData Issue Date: 2025-01-25 Structured Outputs OpenAI Platform, 2025.01 Comment

pydanticを用いて、CoT＋構造化されたoutputを実施するサンプル

#Article #NLP #OpenWeight Issue Date: 2025-01-21 DeepSeek-R1-Distill-Qwen, DeepSeek, 2025.01 Comment

MIT Licence

#Article #NLP #OpenWeight Issue Date: 2025-01-21 DeepSeek-R1, DeepSeek, 2025.01 Comment

参考:

Loading…

参考: https://horomary.hatenablog.com/entry/2025/01/26/204545

DeepSeek-R1の論文読んだ？【勉強になるよ】
, asap: https://zenn.dev/asap/articles/34237ad87f8511

こちらのポストの図解がわかりやすい:

Loading…

最新モデル: DeepSeek-R1-0528
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

#Article #NLP #Dataset #InstructionTuning Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #NLP #Blog Issue Date: 2025-01-05 DeepSeek-V2のアーキテクチャを徹底解説：MLA と DeepSeekMoE, kernelian, 2024.05 Comment

- DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, Damai+, ACL'24, 2024.08

も参照のこと。

#Article #ComputerVision #NLP #Dataset #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #AIAgents #Blog Issue Date: 2025-01-05 AI Agents 2024 Rewind - A Year of Building and Learning, VICTOR DIBIA, 2025.01 #Article #AIAgents #Blog Issue Date: 2025-01-05 AI Agent Era, 福島良典 | LayerX, 2024.12 #Article #Blog Issue Date: 2025-01-05 LLMがオワコン化した2024年, らんぶる, 2025.01 Comment

LLMを（呼び出す|呼び出される）SaaS企業が今後どのような戦略で動いていくかが考察されており興味深かった。

#Article #NLP #Library #python #Repository #API Issue Date: 2025-01-03 LiteLLM, BerriAI, 2023.08 Comment

様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ

- aisuite, andrewyng, 2024.11

とどちらがいいんだ・・・？

#Article #NLP #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 Comment

元ポスト:

Loading…

#Article #Survey #ComputerVision #NLP #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

#Article #NLP #Dataset #Evaluation #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Tutorial #NLP #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 Comment

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

#Article #Pocket #NLP #OpenWeight Issue Date: 2024-12-28 Deep-seek-v3, deepseek-ai, 2024.12 Comment

参考（モデルの図解）:

Loading…

参考:

Loading…

#Article #Tutorial #NLP #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Survey #NLP #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Tutorial #Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article #Pocket #NLP Issue Date: 2024-12-24 Qwen2.5 Technical Reportの中に潜る, AbejaTech Blog, 2024.12 #Article #NLP #GenerativeAI #Blog Issue Date: 2024-12-24 OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment

#Article #Sentence #NLP #Tokenizer Issue Date: 2024-12-24 Large Concept Models: Language Modeling in a Sentence Representation Space, Meta, 2024.12 GPT Summary- 本研究では、言語やモダリティに依存しない「大規模概念モデル」を提案し、概念を高次の意味表現として扱います。最大200言語をサポートするSONAR文埋め込み空間を用い、自己回帰的な文予測を行うモデルを訓練しました。16億パラメータのモデルから70億パラメータにスケールアップし、生成タスクに対する実験評価を実施。結果として、ゼロショット一般化性能が向上し、既存のLLMsを上回ることを示しました。トレーニングコードは公開されています。 Comment

#Article #Tools #NLP #Dataset #Blog #OpenWeight #Japanese Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #Pocket #Blog #Reasoning #SelfCorrection Issue Date: 2024-12-22 OpenAI o1を再現しよう（Reasoningモデルの作り方）, はち, 2024.12 Comment

Reflection after Thinkingを促すためのプロンプトが興味深い

#Article #NLP #Alignment #Slide Issue Date: 2024-12-19 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization （NeurIPS 2024） , 2024.12 Comment

- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04

も参照のこと。

#Article #MachineLearning #NLP #Alignment #RLHF #Blog #DPO Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Comment

めちゃめちゃ勉強になる…

#Article #Pocket #Blog #Test-Time Scaling Issue Date: 2024-12-17 Scaling test-time-compute, Huggingface, 2024.12 Comment

これは必読

#Article #EfficiencyImprovement #Pocket #Blog Issue Date: 2024-12-17 Fast LLM Inference From Scratch, Andrew Chan, 2024.12 Comment

ライブラリを使用せずにC++とCUDAを利用してLLMの推論を実施する方法の解説記事

#Article #NLP #SpokenLanguageProcessing #OpenWeight #OpenSource Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment

- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

マルチモーダルなLLMの基本的な概念については上記参照のこと。

#Article #NLP #ProprietaryLLM Issue Date: 2024-12-10 OpenAI o1 System Card, OpenAI, 2024.12 #Article #NLP #OpenWeight Issue Date: 2024-12-06 Llama3.3-70B, Meta, 2024.12 Comment

3.1-70Bよりも性能向上し、3.1-405Bの性能により近く。

（画像は元ポストより引用）

#Article #ComputerVision #NLP #MultiModal #FoundationModel #MultiLingual Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

Loading…

#Article #RecommenderSystems #Pocket #Blog Issue Date: 2024-12-03 Augmenting Recommendation Systems With LLMs, Dave AI, 2024.08 #Article #Survey #NLP #Dataset #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #Survey #NLP #Repository #SelfCorrection Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Comment

self-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。

元ポスト:

Loading…

#Article #Pretraining #NLP #Supervised-FineTuning (SFT) #AES(AutomatedEssayScoring) Issue Date: 2024-11-28 Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring, Funayama+, 2024.09 GPT Summary- 自動短答スコアリング（SAS）では、異なるルーブリックと参照回答に基づいてスコアを付けるが、新しいプロンプトごとにモデルを再訓練する必要がありコストがかかる。本研究では、既存のルーブリックと回答を用いて新しいプロンプトでファインチューニングする二段階アプローチを提案。重要なフレーズを学習することで、特に訓練データが限られている場合にスコアリング精度を向上させることを実験で示した。 Comment

[Perplexity(hallucinationに注意)]( https://www.perplexity.ai/search/tian-fu-sitalun-wen-wodu-mi-ne-3_TrRyxTQJ.2Bm2fJLqvTQ#0)

#Article #NLP #Library #python #Repository #API Issue Date: 2024-11-28 aisuite, andrewyng, 2024.11 Comment

#Article #Pretraining #NLP #OpenWeight #Japanese Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 Comment

MoE Layerについては
- Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24

も参照のこと

#Article #Survey #ComputerVision #Pocket #NLP #Slide Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #NLP #Dataset #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #Survey #NLP #Blog #OpenWeight #OpenSource Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article #EfficiencyImprovement #Pocket #Slide Issue Date: 2024-11-14 TensorRT-LLMによる推論高速化, Hiroshi Matsuda, NVIDIA AI Summit 2024.11 Comment

元ポスト:

Loading…

非常に興味深いので後で読む

#Article #NLP #Evaluation #Coding Issue Date: 2024-11-13 Copilot Arena, CMU and UC Berkeley, 2024.11 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

#Article #NLP #OpenWeight #Japanese Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Comment

プレスリリース: https://www.sbintuitions.co.jp/news/press/20241108_01/

MoEを利用したLLMについては、Mixtral of Experts, Albert Q. Jiang+, N/A, arXiv'24 を参照のこと。

#Article #EfficiencyImprovement #NLP #Library #Repository #MinimalCode Issue Date: 2024-11-05 Lingua, Meta Comment

#Article #EfficiencyImprovement #NLP #Quantization #Blog Issue Date: 2024-10-26 Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10 #Article #NLP #Prompting #Repository Issue Date: 2024-10-20 Prompt-Engineering-Guide, DAIR.AI Comment

LLMのsettingから、few-shot, self-consistencyなどのprompting技術、さまざまなタスクの実例などが網羅的にまとまっている

#Article #NLP #Dataset #AIAgents #Evaluation Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-10-08 Unsloth Comment

single-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ

#Article #Pocket #Slide Issue Date: 2024-10-05 今日から始める大規模言語モデルのプロダクト活用, y_matsuwitter, 2024.10 #Article #NLP #OpenWeight #Japanese Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article #NLP #OpenWeight #Japanese Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment

日本語データでfinetuningされてGemma2

#Article #Pocket #NLP #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

#Article #InformationRetrieval #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #Tools Issue Date: 2024-09-29 NotebookLM, Google Comment

ソーステキストをアップロードし、それらを参照可能なLLMの元作業が可能で、クエリによって引用つきのRAGのようなものが行えるらしい。2人の対話形式のpodcastも自動生成可能で、UI/UXの面で画期的らしい？

#Article #ComputerVision #NLP #MultiModal #OpenWeight #VisionLanguageModel Issue Date: 2024-09-27 Molmo, AI2, 2024.09 GPT Summary- Molmoは、オープンデータを活用した最先端のマルチモーダルAIモデルであり、特に小型モデルが大規模モデルを上回る性能を示す。Molmoは、物理的および仮想的な世界とのインタラクションを可能にし、音声ベースの説明を用いた新しい画像キャプションデータセットを導入。ファインチューニング用の多様なデータセットを使用し、非言語的手がかりを活用して質問に答える能力を持つ。Molmoファミリーのモデルは、オープンウェイトでプロプライエタリシステムに対抗する性能を発揮し、今後すべてのモデルウェイトやデータを公開予定。 Comment

#Article #ComputerVision #NLP #Blog #OpenWeight Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。

#Article #Tutorial #EfficiencyImprovement #Pocket Issue Date: 2024-09-25 LLMの効率化・高速化を支えるアルゴリズム, Tatsuya Urabe, 2024.09 #Article #NLP #OpenWeight #Japanese Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 Comment

LLM-JP-Evalでの評価結果はこちら: https://huggingface.co/llm-jp/llm-jp-3-1.8b

1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと（確かに、3.8Bのモデルとの差があまりないように見える
元ポスト:

Loading…

アーキテクチャはLlama2とのことなので、vLLMでも動作させられる模様

#Article #NLP #Dataset #Japanese Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 Comment

LLM-jp-3 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 の学習に利用されているコーパス

#Article #NLP Issue Date: 2024-09-25 Improving Language Understanding by Generative Pre-Training, OpenAI, 2018.06 GPT Summary- 自然言語理解のタスクにおいて、ラベルなしテキストコーパスを用いた生成的事前学習と識別的微調整を行うことで、モデルの性能を向上させるアプローチを提案。タスクに応じた入力変換を利用し、モデルアーキテクチャの変更を最小限に抑えつつ、12のタスク中9つで最先端の成果を大幅に改善。特に、常識推論で8.9%、質問応答で5.7%、テキストの含意で1.5%の改善を達成。 Comment

初代GPT論文

日本語解説: https://qiita.com/Toyamanokinsan/items/adff5e927fe26148c69c

#Article #NLP #Chain-of-Thought #Reasoning #Test-Time Scaling #KeyPoint Notes Issue Date: 2024-09-13 OpenAI o1, 2024.09 Comment

Jason Wei氏のポスト:

Loading…

note（詳細編）: https://note.com/hatti8/n/n867c36ffda45?sub_rt=share_pb

#Article #NLP #Prompting #Post Issue Date: 2024-09-08 A few prompt engineering tips that Ilya Sutskever picked up at OpenAI, Ilya Sutskever, 2024.09 #Article #Tutorial #ComputerVision #MachineLearning #NLP #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #NLP #InstructionTuning #OpenWeight #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Comment

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明：

Loading…

#Article #Embeddings #NLP #RepresentationLearning #Japanese Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment

元ツイート:

Loading…

最大sequence長は1012なので、より長い系列をBERTで埋め込みたい場合はRetrievaBERT RetrievaBERTの公開, 2024 （最大sequence長2048）も検討の余地がある。

開発者の方からテクニカルレポートが出た
https://arxiv.org/abs/2409.07737

#Article #Analysis #OpenWeight #Slide #Japanese Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment

英日翻訳や日本特有の知識を問われるようなQAにおいて、日本語データによる学習の効果があることが示唆されている模様。
たとえば、論文紹介 / The Llama 3 Herd of Models, 2024.08 に示されている通り、Llama2における日本語データの割合は0.2%とかなので、英語圏のOpenLLMにおいて、日本語データの比率がどれだけ少ないかがわかる。

#Article #Tutorial #Slide Issue Date: 2024-09-01 大規模言語モデル（LLM）の技術と最新動向, Ikuya Yamada, 2024.06 Comment

LLMの原理の基礎的な内容について、丁寧かつコンパクトにまとまっている。

>ファインチューニングは新しい知識の学習ではなく知識の使い方を学習させるのに向いている

これをきちんと念頭に置いておかないと落とし穴にハマると思う。引用元の論文読みたい(Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N/A, EMNLP'24 )。

#Article #NLP #Library #python #Repository #LLMServing Issue Date: 2024-08-31 NanoFlow, 2024.08 Comment

元ポスト:

Loading…

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 も参照のこと

#Article #Dataset #Repository Issue Date: 2024-08-30 Firecrawl, 2024.09 Comment

sitemapなしでWebサイト全体をクローリングできるAPI。LLMで利用可能なマークダウンや、構造化データに変換もしてくれる模様。

#Article #Tutorial #NLP #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

#Article #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #Repository Issue Date: 2024-08-25 Liger-Kernel, 2024.08 Comment

LLMを学習する時に、ワンライン追加するだけで、マルチGPUトレーニングのスループットを20%改善し、メモリ使用量を60%削減するらしい

元ツイート:

Loading…

これだけでいい

#Article #NLP #ProprietaryLLM Issue Date: 2024-08-24 Grok-2, X, 2024.08 Comment

chatbot arenaで5月時点のGPT4o超え。miniでもなんとllama3.1-705B超え

Loading…

#Article #InformationRetrieval #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #NLP #ProprietaryLLM #Japanese Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment

#Article #NLP #OpenWeight Issue Date: 2024-07-25 Llama 3.1, 2024.07 Comment

Llama系のモデルをFP8で学習する場合のレシピ

Loading…

#Article #NLP #OpenWeight Issue Date: 2024-07-11 大規模言語モデルの開発, 2024 #Article #NLP #OpenWeight Issue Date: 2024-07-09 calm3-22B, 2024 Comment

#Article #Tutorial #Pretraining #NLP #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 Comment

LLMの事前学習における知見がまとまっている記事とのこと

#Article #NaturalLanguageGeneration #NLP #AIAgents #Repository Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 Comment

LLMによるOpenSourceなソフトウェア生成エージェントプラットフォーム

full timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。
参考:

Loading…

Open化される前の最初のDevinのツイート

Loading…

#Article #Tutorial #NLP Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #NLP #RAG(RetrievalAugmentedGeneration) #LongSequence Issue Date: 2024-07-03 RetrievaBERTの公開, 2024 Comment

#Article #NLP #OpenWeight Issue Date: 2024-07-03 Llama 3 Swallow #Article #NLP #Transformer #PositionalEncoding Issue Date: 2024-05-24 RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N_A, Neurocomputing, 2024 GPT Summary- 位置符号化はtransformerアーキテクチャで有効であり、本論文ではRotary Position Embedding（RoPE）という新しい手法を提案している。RoPEは、回転行列を使用して絶対位置を符号化し、同時に相対位置依存性を自己注意構成に組み込む。RoPEを使用したRoFormerは、長いテキスト分類ベンチマークデータセットで他の手法を上回ることが実験で示されており、Huggingfaceに統合されている。 Comment

RoPEを提案した論文

#Article #Library #Repository Issue Date: 2024-04-29 mergekit-evolve Comment

Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N/A, Nature Machine Intelligence'25 のように進化的アルゴリズムでモデルマージができるライブラリ
解説記事: https://note.com/npaka/n/nad2ff954ab81

大きなVRAMが無くとも、大きめのSRAMがあれば動作するらしい

#Article #EfficiencyImprovement #NLP #Library #Repository Issue Date: 2024-04-28 AirLLM, 2024.04 Comment

Loading…

#Article #NLP #OpenWeight Issue Date: 2024-04-18 LLaMA3, Meta, 2024.04 Comment

ライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい

元ツイート:

Loading…

LLaMA3がChatBot ArenaでTop 5になったとのこと。また、英語においては、GPT4-1106-preview, GPT-4-turbo-2024-0409と同等の性能を達成。これはすごい…

Loading…

nejumi-leaderboard Nejumi LLMリーダーボードにLLaMA3の評価結果が掲載された模様（画像は下記ツイートより引用）

Loading…

context: 8192

#Article #Tutorial #NLP #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

#Article #ComputerVision #NLP #MultiModal Issue Date: 2024-04-14 Grok-1.5 Vision Preview, 2024 Comment

#Article #Pocket #Blog #MultiLingual Issue Date: 2024-04-12 The State of Multilingual AI, Sebastian Ruder, 2024 #Article #NLP #OpenWeight Issue Date: 2024-04-10 Mixtral-8x22B-v0.1, 2024 Comment

Apache-2.0ライセンス, 日本語非対応

#Article #NLP #OpenWeight #ProprietaryLLM Issue Date: 2024-04-10 Command R+, Cohere, 2024 Comment

#Article #NLP #OpenWeight Issue Date: 2024-04-08 Gemma: Open Models Based on Gemini Research and Technology, 2024 Comment

Mistral Mistral 7B, Albert Q. Jiang+, N/A, arXiv'23 よりも高い性能を示している：

#Article #Tutorial #NLP Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Pocket #Blog Issue Date: 2024-04-02 Mamba Explained #Article #Survey #Tools #NLP Issue Date: 2024-03-22 Awesome LM with Tools Comment

Toolを利用するLMに関するNeubig氏のグループによるSurvey。

#Article #ComputerVision #NLP #Library #Alignment #TextualInversion Issue Date: 2024-03-21 repeng Comment

Loading…

#Article #NLP #Blog Issue Date: 2024-03-18 Open Release of Grok-1 March 17, 2024 Comment

Grok-1.5がリリース
https://x.ai/blog/grok-1.5

各種ベンチマークの性能、特にMathの性能が向上し、コンテキスト長が128kに

#Article #Tutorial #Survey #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Survey #NLP #Blog Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment

2024年3月時点で知っておくべきLLMに関するスレッド

#Article #NLP Issue Date: 2024-02-27 Mistral Large Comment

#Article #Tutorial #Survey #InformationRetrieval #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Comment

めちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。

#Article #NaturalLanguageGeneration #NLP #Blog Issue Date: 2024-01-01 Decoding Strategies that You Need to Know for Response Generation Comment

こちらの記事ではHuggingFaceでの実装や他のdecoding方法等、より実装面での詳細が記述されている：

https://note.com/npaka/n/n9a8c85f2ef7a

#Article #Blog Issue Date: 2023-12-20 ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた #Article #FoundationModel Issue Date: 2023-12-19 TokyoTechLLM Comment

Llama2の日本語性能を継続事前学習で引き上げたLLM。2023年12月時点の日本語オープンソースLLMの中で最高性能とのこと。

開発者の方による詳細はこちら:
https://zenn.dev/tokyotech_lm/articles/d6cb3a8fdfc907

すごい読み応え…checkpointの容量のデカさや、A100x8 60ノード使った話や、ノード不良やスケジュール管理の話、独自に実装をゴリゴリ加えたものではなく最終的に完成度の高さからMegatronLMを採用した話など、バグった規模感と試行錯誤や実体験に基づくエピソード満載。

参考:
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた

#Article #Tutorial #EfficiencyImprovement #NLP Issue Date: 2023-12-15 optimize-llm, HuggingFace Comment

LLMをoptimizeする実用的なチュートリアル

こちらも有用なので参照のこと

【GPU inference】

https://huggingface.co/docs/transformers/main/perf_infer_gpu_one

#Article #EfficiencyImprovement #NLP #Attention Issue Date: 2023-12-14 【続】Flash Attentionを使ってLLMの推論を高速・軽量化できるか？ Comment

Flash Attentionを使ってLLMの推論を高速・軽量化できるか？
https://qiita.com/jovyan/items/11deb9d4601e4705a60d

こちらの記事も非常に勉強になる

#Article #Blog Issue Date: 2023-12-13 大規模モデルを支える分散並列学習のしくみ Part1 #Article #Pretraining #Pocket #NLP #Dataset #InstructionTuning #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #NLP #Blog #ProprietaryLLM Issue Date: 2023-12-07 Gemini, Google, 2023.12 Comment

テクニカルレポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Gemini Summary

Loading…

#Article #Blog Issue Date: 2023-12-05 もし明日、上司に「GPT-4を作れ」と言われたら？ Stability AIのシニアリサーチサイエンティストが紹介する「LLM構築タイムアタック」 Comment

StabilityAI Japan秋葉さん（元PFN）のW&B Conferenceでの発表に関する記事。
LLM構築タイムアタックでLLMをもし構築することになったら！？
のざっくりとしたプロセスや、次ページでOpenAIのGPT4のテクニカルレポートのクレジットから各チームの規模感を推定して、どの部分にどの程度の人員が割かれていたのかというのをベースに、各パートでどんなことがやられていそうかという話がされている。

LLM構築タイムアタックで、まずGPUを用意します！（ここが一番大変かも）の時点で、あっ察し（白目　という感じがして面白かった。

#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment

実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用

#Article #EfficiencyImprovement #Tools #NLP #Repository Issue Date: 2023-11-21 GPT4All, 2023 Comment

#Article #NLP #Evaluation #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tutorial #NLP #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #Tutorial #Dataset #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

JGLUEのexample付きの詳細、構築の経緯のみならず、最近の英語・日本語LLMの代表的な評価データ（方法）がまとまっている（AlpacaEval, MTBenchなど）。また、LLMにおける自動評価の課題（図は資料より引用）が興味深く、LLM評価で生じるバイアスについても記述されている。Name biasなどはなるほどと思った。

日本語LLMの今後の評価に向けて、特にGPT4による評価を避け、きちんとアノテーションしたデータを用意しfinetuningした分類器を用いるという視点、参考にしたい。

#Article #NLP #Library #Supervised-FineTuning (SFT) #Repository Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment

簡単に利用できるLLaMAのfinetuning frameworkとのこと。
元ツイート:

Loading…

LLaMAベースなモデルなら色々対応している模様

#Article #NLP #Hallucination #Factuality #Repository Issue Date: 2023-11-14 Hallucination Leaderboard, 2023 Comment

Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。

元ツイート:

Loading…

#Article #Tutorial #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #Tutorial #NLP #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #Tutorial #NLP Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 Comment

#Article #EfficiencyImprovement #NLP #MultiModal #FoundationModel #Blog Issue Date: 2023-11-01 tsuzumi, NTT’23 Comment

#Article #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2023-10-29 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討, PFN Blog, 2023.10 Comment

#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #NLP #DiffusionModel #Blog Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ Comment

Gradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。

#Article #NLP #Prompting #Blog Issue Date: 2023-10-29 LLMのプロンプト技術まとめ Comment

ざっと見たが現時点で主要なものはほぼ含まれているのでは、という印象
実際のプロンプト例が載っているので、理解しやすいかもしれない。

#Article #Tools #NLP #Library #Evaluation #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #Tools #NLP #Library #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment

#Article #NLP #Evaluation #Blog Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） Comment

JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボードなどもある

#Article #NLP #Blog Issue Date: 2023-10-25 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました, 2023 #Article #NLP Issue Date: 2023-10-15 OpenSource LLM Comment

zephyr-7B-alpha
- 1/10のパラメータでLLaMA2-70Bw-chat超え
https://weel.co.jp/media/zephyr-7b-alpha

- zephyr-7B-β
　- MTBenchでllama2-70B-chat超え
　- Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N/A, arXiv'23

Zephyr-7B-betaが早くもTheBloke氏によってGPTQで量子化され、なんとモデル自体は4.5G程度しかVRAMを消費しない…
https://huggingface.co/TheBloke/zephyr-7B-beta-GPTQ

#Article #Tutorial #NLP Issue Date: 2023-10-10 Large Language Model （in 2023）, OpenAI Comment

LLMの研究開発動向を俯瞰するのに有用らしい

#Article #NLP #Repository Issue Date: 2023-10-09 MentalLLaMA, 2023 Comment

メンタルヘルスの分析に対してinstruction tuningしたはじめてのLLM

#Article #NLP Issue Date: 2023-10-07 Yasa-1 Comment

参考:

Loading…

#Article #NLP #Evaluation Issue Date: 2023-10-02 Nejumi LLMリーダーボード Comment

JGLUEを使ったLLMの日本語タスクベンチマーク

v4が公開:
https://wandb.ai/llm-leaderboard/nejumi-leaderboard4/reports/Nejumi-LLM-4--VmlldzoxMzc1OTk1MA

元ポスト:

Loading…

#Article #NLP #Evaluation Issue Date: 2023-09-30 LLM-as-a-judge #Article #ComputerVision #NLP #ChatGPT #MultiModal Issue Date: 2023-09-30 OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09 Comment

おう…やべえな…

#Article #NLP #Library #AIAgents Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment

#Article #Tutorial Issue Date: 2023-09-29 GGML_GGUF_GPTQの違い Comment

量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ

よくわからんが筆者の言葉を引用すると

>llama.cppならGGUF、TransformerならGPTQって感じ？

ということなので、これらは量子化を行うための技術を提供するライブラリであり、GGUF/GGMLはllama.cppで利用可能で、GPTQはより汎用的に利用可能な手法だと思われる。

GPTQについて論文をざっくり読んでメモった GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23

#Article #NLP Issue Date: 2023-09-05 SNLP2023:Is GPT-3 a Good Data Annotator? Comment

この辺の話はもはや Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N/A, EMNLP'23 を使えばいいのでは、という気がする。

#Article #Tools #NLP #Library Issue Date: 2023-09-05 LangChain Cheet Sheet Comment

#Article #Tutorial #NLP Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment

#Article #Tutorial #NLP #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

#Article #NLP #Library Issue Date: 2023-08-29 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました Comment

#Article #NLP #Library Issue Date: 2023-08-28 zeno-build Comment

MTでのテクニカルレポート
https://github.com/zeno-ml/zeno-build/tree/main/examples/analysis_gpt_mt/report

#Article #Survey #NLP Issue Date: 2023-08-27 Anti-hype LLM Reading list Comment

LLMのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist

#Article #NLP #STS (SemanticTextualSimilarity) Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment

#Article #NLP #Chain-of-Thought #Prompting #Faithfulness Issue Date: 2023-07-23 Measuring Faithfulness in Chain-of-Thought Reasoning, Anthropic, 2023 GPT Summary- 大規模言語モデル（LLMs）は、Chain-of-Thought（CoT）推論を生成することで質問に答える性能を向上させるが、その推論が実際の推論を忠実に表しているかは不明である。本研究では、CoT推論の忠実さを調査し、CoTに介入することでモデルの予測がどのように変化するかを調べる。結果は、モデルのサイズやタスクによってCoTの忠実さが異なることを示唆している。 #Article #NLP #Library #ReinforcementLearning Issue Date: 2023-07-23 trl_trlx Comment

TRL - 強化学習によるLLMの学習のためのライブラリ
https://note.com/npaka/n/nbb974324d6e1

trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみる
https://www.ai-shift.co.jp/techblog/3583

#Article #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #Quantization #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-07-22 LLaMA2を3行で訓練 Comment

LLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法

#Article #NLP Issue Date: 2023-07-22 Quantized LLaMA2 Comment

LLaMA2をローカルで動作させるために、QLoRAで量子化したモデル

#Article #NLP Issue Date: 2023-07-22 LLongMA2 Comment

LLaMA2のcontext windowを8kにして訓練。オリジナルのLLaMA2と同等の性能で8k contextを利用可能。

元ツイート:

Loading…

#Article #NLP #Dataset #DialogueGeneration Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

#Article #NLP #Explanation #Evaluation Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations GPT Summary- 本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article #MachineLearning #Tools #Supervised-FineTuning (SFT) #Blog #Repository Issue Date: 2023-07-11 Auto train advanced Comment

Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。

#Article #Survey #ComputerVision #NLP #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

#Article #NLP #Blog #LongSequence Issue Date: 2023-07-01 How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023 Comment

LLMのcontext長を伸ばす際の方法と得られた知見がまとめられている

#Article #MachineLearning #Tools #Supervised-FineTuning (SFT) #FoundationModel Issue Date: 2023-06-26 LM Flow Comment

一般的なFoundation Modelのファインチューニングと推論を簡素化する拡張可能なツールキット。継続的なpretragning, instruction tuning, parameter efficientなファインチューニング,alignment tuning,大規模モデルの推論などさまざまな機能をサポート。

Loading…

#Article #NLP #Library #Blog Issue Date: 2023-06-25 OpenLLaMA 13B, 2023 Comment

#Article #Tutorial #NLP #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Comment

experimentalな手法でprompt engineeringする際のoverview

#Article #Survey #NLP Issue Date: 2023-05-12 open LLM Leaderboard #Article #PsychologicalScience Issue Date: 2023-05-11 Can AI language models replace human participants?, Trends in Cognitive Sciences, 2023 GPT Summary- 最近の研究では、言語モデルが人間のような判断を行うことが示されています。この研究では、言語モデルが心理学の研究において人間の代わりになる可能性や条件について探求し、AIを参加者として使用する際の注意点をまとめています。 #Article #NLP #Library #FoundationModel #Repository Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment

150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。

#Article #NaturalLanguageGeneration #NLP #FoundationModel #Blog #Coding Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

#Article #NLP #Library #Blog Issue Date: 2023-05-06 MPT-7B, 2023 Comment

Loading…

ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。

#Article #Pretraining #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Evaluation #Blog #Reasoning Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05 #Article #NLP #Assessment Issue Date: 2023-05-04 ChatBot Arena, lmsys org, 2023.05 Comment

Loading…

過去のデータについては ChatBot Arenaのデータセットなどもある

#Article #NeuralNetwork #NLP #Library #Transformer Issue Date: 2023-05-04 OpenLLaMA Comment

LLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様

#Article #Survey #NLP Issue Date: 2023-05-04 LLM ecosystem graphs Comment

様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページ

Percy Liangのグループが運用してるっぽい？

#Article #NLP #Assessment Issue Date: 2023-04-30 PandaLM Comment

#Article #NLP #ChatGPT #Blog Issue Date: 2023-04-27 HuggingChat, 2023 Comment

closedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出したchatシステム

公開はすでに終了している模様

#Article #NLP #LongSequence Issue Date: 2023-04-27 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System, 2023 Comment

4/27時点だと記述されていなかったと思うが、現時点では定量評価が追加されている模様？

#Article #Survey #NLP Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment

参考になる

現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそう

LLM Worksheet：

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0

#Article #NeuralNetwork #EfficiencyImprovement #NLP #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Slide #PostTraining #Selected Papers/Blogs Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Comment

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft

#Article #Tools #InformationRetrieval #NLP #Library #AIAgents Issue Date: 2023-04-21 LangChain Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da

#Article #NLP #Education #AES(AutomatedEssayScoring) Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment

著者によるポスト:

Loading…

著者によるブログ:

https://mizumot.com/lablog/archives/1805

#Article #NLP #Supervised-FineTuning (SFT) Issue Date: 2023-03-30 Publicly available instruction-tuned models #Article #Tools #NLP #Library Issue Date: 2023-03-11 20B params chatgpt alternative Comment

元ツイート
Apache2.0で公開

Loading…

#Article #TimeSeriesDataProcessing #MachineLearning #Transformer Issue Date: 2022-12-29 Are Transformers Effective for Time Series Forecasting? Comment

Linear Layerに基づくシンプルな手法がTransformerベースの手法に時系列予測で勝ったという話

#Article #NeuralNetwork #NLP Issue Date: 2021-09-09 GPT-3から我々は何を学べば良いのか, 山本和英, Japio year book 2020 Comment

GPT-3でどこまでできそうなのか？というざっくりとした肌感が掴めたから良かった

#Article #RecommenderSystems #NeuralNetwork #CIKM #SequentialRecommendation Issue Date: 2021-05-25 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, Sun+, CIKM2019 Comment

BERTをrecsysのsequential recommendationタスクに転用してSoTA。
しっかり読んで無いけどモデル構造はほぼBERTと一緒。
異なる点は、Training時にNext Sentence Predictionは行わずClozeのみ行なっているという点。Clozeとは、実質Masked Language Modelであり、sequenceの一部を[mask]に置き換え、置き換えられたアイテムを左右のコンテキストから予測するタスク。異なる点としては、sequential recommendationタスクでは、次のアイテムを予測したいので、マスクするアイテムの中に、sequenceの最後のアイテムをマスクして予測する事例も混ぜた点。

もう一個異なる点として、BERT4Recはend-to-endなモデルで、BERTはpretraining modelだ、みたいなこと言ってるけど、まあ確かに形式的にはそういう違いはあるけど、なんかその違いを主張するのは違和感を覚える…。
sequential recommendationで使うuser behaviorデータでNext item predictionで学習したいことが、MLMと単に一致していただけ、なのでは…。

BERT4Recのモデル構造。next item predictionしたいsessionの末尾に [mask] をconcatし、[MASK]部分のアイテムを予測する構造っぽい？

オリジナルはtensorflow実装

pytorchの実装はこちら： https://github.com/jaywonchung/BERT4Rec-VAE-Pytorch/tree/master/models

#Article #NeuralNetwork #Tools #NLP #Dataset #Library #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #Tutorial #NLP #Slide Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

#Article #NeuralNetwork #Survey #NLP #Slide #Selected Papers/Blogs Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

Tutorial (135)

#Article #ComputerVision #NLP #Blog #ScientificDiscovery #Japanese #Robotics
Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #NLP #LanguageModel #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs
Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #NLP #LanguageModel #ReinforcementLearning #Slide #Selected Papers/Blogs
Issue Date: 2025-11-15 [IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Blog #ACL Issue Date: 2025-11-15 ACL2025@ウィーン参加報告, shirotaro, 2025.10 #Article #NLP #LanguageModel #Blog #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11 Comment

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

#Article #ComputerVision #Slide #ObjectLocalization #Geometric #Mapping Issue Date: 2025-11-04 Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #AIAgents #Slide #Test-Time Scaling #One-Line Notes Issue Date: 2025-11-01 戦えるAIエージェントの作り方, Takuya Akiba, SakanaAI, 2025.10 Comment

元ポスト:

Loading…

SakanaAIの研究を中心に、特に推論時スケーリング（test time scaling)の話が紹介されている。

#Article #Pretraining #NLP #LanguageModel #Slide #Japanese Issue Date: 2025-11-01 LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Dataset #LanguageModel #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Transformer #Blog #One-Line Notes Issue Date: 2025-10-30 Everything About Transformers, Krupa Dave, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #ICCV Issue Date: 2025-10-29 From Egocentric Perception to Embodied Intelligence: Building the World in First Person, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #ICCV Issue Date: 2025-10-29 Multimodal Reasoning for Human-Centric Generative Models, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #MultiModal #ICCV Issue Date: 2025-10-29 Native Multimodal Models: Architecture, Post-Training, and Evaluation, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #AIAgents #Blog Issue Date: 2025-10-27 LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10 Comment

元ポスト:

Loading…

langchain, langgraphを用いたReActエージェントの実装方法のチュートリアルと、さまざまなフレームワークで記述されたエージェントの差分を吸収して統一されたプラットフォーム上でエージェントを実装できる（framework-agnosticな)NeMo Agent Toolkitによる実装

ReAct:
- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23

#Article #ComputerVision #MachineLearning #DiffusionModel #read-later #ScoreMatching Issue Date: 2025-10-20 Generative Modeling by Estimating Gradients of the Data Distribution, Yang Song, 2021.05 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Context Engineering in Manus, Lance's Blog, 2025.10 Comment

元ポスト:

Loading…

- Reduce
- Offload
- Isolate

図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。

#Article #NLP #LanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Video #memory Issue Date: 2025-10-13 Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #read-later Issue Date: 2025-10-11 A History of Large Language Models, Gregory Gundersen, 2025.10 Comment

元ポスト:

Loading…

#Article #ChatGPT #Blog Issue Date: 2025-10-08 OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 PFN LLMセミナー, PFN, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #ReinforcementLearning #One-Line Notes #ReplayBuffer Issue Date: 2025-10-04 Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03 Comment

Policy Gradientに基づいたアルゴリズムは（たとえばREINFORCE系）、現在のポリシーに基づいて期待値を最大化していくことが前提になるため、基本的にはリプレイバッファが使えないが（過去の経験が影響すると現在の戦略の良さがわからなくなる）、工夫をすると使えるようになるよ、といった話の解説

#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-09-29 Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #MachineLearning #read-later #FlowMatching Issue Date: 2025-09-15 Flow Matching in 5 Minutes, wh., 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Blog #ContextEngineering Issue Date: 2025-09-11 Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09 Comment

元ポスト:

Loading…

#Article Issue Date: 2025-09-08 All of Statistics - A Concise Course in Statistical Inference, Larry Wasserman, Springer Science & Business Media, 2013 Comment

元ポスト:

Loading…

とても良い統計学の教科書らしい。勉強したい

#Article #Dataset #Blog Issue Date: 2025-09-07 オープンデータセットのライセンスガイド, サナミ, 2024.12 #Article #ComputerVision #MachineLearning #Video #read-later Issue Date: 2025-09-04 【論文解説】高速・高品質な生成を実現するFlow Map Models（Part 1: 概要編）, Masato Ishii （Sony AI）, 2025.09 #Article #NLP #LanguageModel Issue Date: 2025-08-29 つくって納得、つかって実感！大規模言語モデルことはじめ, Recruit, 2025.08 Comment

元ポスト:

Loading…

LLM入門にとても良さそう

#Article #NLP #LanguageModel #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Article #AIAgents #Blog Issue Date: 2025-08-25 Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #SSM (StateSpaceModel) Issue Date: 2025-08-14 チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi+, 2024.11 #Article #LanguageModel #SyntheticData #Slide #ACL #Selected Papers/Blogs Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

#Article #LLM-as-a-Judge #RewardModel Issue Date: 2025-07-17 [Personal Note] LLM-as-a-judge _ Reward Model #Article #LanguageModel #Coding #SoftwareEngineering #MCP Issue Date: 2025-07-14 advanced-mcp-features, epicweb-dev, 2025.06 Comment

MCPの勉強に良いかもしれないのでメモ

#Article #read-later #NormalizingFlow Issue Date: 2025-07-09 Normalizing Flow入門第1回変分推論, Tatsuya Yatagawa, 2021.01 Comment

この辺のポストも合わせて理解したい:

Loading…

#Article #NLP #LanguageModel #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment

元ポスト:

Loading…

学習/評価スクリプトなどがリリース:

Loading…

#Article #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #ReinforcementLearning #Blog #Off-Policy #On-Policy Issue Date: 2025-06-19 Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06 Comment

元ポスト:

Loading…

on-policy RLでは、現在の状態からポリシーに従ってアクションを選択して、実際に選択したアクションのrewardとQ値をシグナルにしてポリシーを更新するけど、off-policy RLでは、未来において現在の（Q関数で）Q値が最大となるアクションを選択した場合に得られる価値はどんなもん？というQ関数の学習が甘い状態だととあるアクションを過大評価してしまう（=バイアス）ようなシグナルに基づいて更新されるから、系列が長くなるとバイアスが蓄積して適切なQ関数が学習できなくなってdepth方向にスケールしづらいんだよ、という話っぽい？

#Article #Pretraining #MachineLearning #NLP #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

#Article #Slide #ACL Issue Date: 2025-05-11 ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08 Comment

業界のトレンドを把握するのに非常に参考になる:
- Reasoning, KnowledgeGraph, KnowledgeEditing, Distillation
- PEFT, Bias, Fairness, Ethics
- Multimodal(QA, Benchmarking, Summarization)
などなど。

投稿数5000件は多いなあ…

#Article #Blog Issue Date: 2025-04-18 研究者向けの技術研修資料を公開します, CyberAgent, 2025.04 Comment

気になる

#Article #NLP #LanguageModel #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #NLP #LanguageModel #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 Comment

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Pretraining #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article #NLP Issue Date: 2024-12-15 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12 #Article #GenerativeAI #Repository Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 Comment

Google Cloudで生成AI（Gemini+Vertex AI）を動かすためのサンプルコード集

元ポスト:

Loading…

#Article Issue Date: 2024-11-27 エンジニア研修まとめ, gcchaan, 2024.11 Comment

様々な企業のエンジニアの新卒研修の資料などがまとまっている。学術機関の講義なども含まれている。現在も更新されている模様。
量がすごい。

#Article #ComputerVision #NLP #SSM (StateSpaceModel) Issue Date: 2024-11-27 チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi, 2024.11 #Article #NLP #Prompting Issue Date: 2024-11-13 LLM Prompt Tuning Playbook, 2024.11 Comment

- Prompt-Engineering-Guide, DAIR.AI も参照のこと

#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #Video #VCS #git Issue Date: 2024-11-04 システム開発プロジェクト応用第一第5,6回 Gitによるバージョン管理, 内田公太, 2020.01 Comment

VCSの歴史から原理、実用的な使い方まで、Gitについて体系的にまとまっている。普段何気なく使っているが、改めて勉強すると、なるほど、と思うことが多い。

- VCSの歴史、モチベーション（複数並列するバージョンを適切に管理したい）
- ワークツリー、インデックス、リポジトリ（HEAD）の違い
- 基本的なgitコマンドから、普段あまり使わないハンク（hunk）の選択的なaddなどのコマンド
- コミットオブジェクト（ワークツリーのスナップショットを保持したもの≠前回のコミットに対する差分）
- HEAD/Detached HEADの原理
- Gitタグ
- checkoutの原理（ワークツリーとインデックスをHEADの内容に更新する）
- ブランチ、ブランチとHEADの関係性
- マージ方式（2way マージ、3wayマージ）
　- 2wayマージは元ファイルを参照しないのでマージ時に特定の編集がなかったことになってしまう）
　- 3wayマージは元ファイルも見て差分を計算するのでこのようなことが起こらない
- 競合の原理、競合解決時のファイル内容
　- Fast-Forwardマージ（ポインタを動かすだけで事足りる場合に利用）
- cherry pick（任意のコミットをとってくる）
　- （cherry pickを連続して利用する）リベース（ベースを付け替える操作）
　- 歴史を修正する
　　- git reflogで起点とするコミットIDを見つけ、git rebase -iでコミット順変更orメッセージ変更、git commit --amendでコミット修正
- 状態のリセット
　- soft: HEADを指定したコミットにリセット
　- mixed: インデックスをリセット
　- hard: インデックスとワークツリーをリセット
- git stash
- コミット粒度とメッセージ
　- 単一の関心事項のみを含むような粒度でコミットしよう（一言で説明できる粒度）
　　- cherry pickが容易になる
　　- 別ブランチの脆弱性への対応のみを適用したい、など
　　- 現在形で書く。そうすると、後からcherry pickするときに内容の判断をしやすい。
　

神講義

#Article #EfficiencyImprovement #Pocket #LanguageModel Issue Date: 2024-09-25 LLMの効率化・高速化を支えるアルゴリズム, Tatsuya Urabe, 2024.09 #Article #ComputerVision #MachineLearning #NLP #LanguageModel #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #LanguageModel #Slide Issue Date: 2024-09-01 大規模言語モデル（LLM）の技術と最新動向, Ikuya Yamada, 2024.06 Comment

#Article #NLP #LanguageModel #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

#Article #Pretraining #NLP #LanguageModel #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 Comment

LLMの事前学習における知見がまとまっている記事とのこと

#Article #NLP #LanguageModel Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #RecommenderSystems #Blog Issue Date: 2024-04-26 推薦・機械学習勉強会, Wantedly Comment

WantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。

#Article #NLP #LanguageModel #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

#Article #NLP #LanguageModel Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Survey #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Survey #InformationRetrieval #LanguageModel #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #EfficiencyImprovement #NLP #LanguageModel Issue Date: 2023-12-15 optimize-llm, HuggingFace Comment

LLMをoptimizeする実用的なチュートリアル

こちらも有用なので参照のこと

【GPU inference】

https://huggingface.co/docs/transformers/main/perf_infer_gpu_one

#Article #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-22 Deconstructing RAG Comment

RAGにおける様々な戦略がまとまっている（リンク付き

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #Dataset #LanguageModel #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #NLP #LanguageModel Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 Comment

#Article #NLP #LanguageModel Issue Date: 2023-10-10 Large Language Model （in 2023）, OpenAI Comment

LLMの研究開発動向を俯瞰するのに有用らしい

#Article #LanguageModel Issue Date: 2023-09-29 GGML_GGUF_GPTQの違い Comment

量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ

GPTQについて論文をざっくり読んでメモった GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23

#Article #NLP #LanguageModel Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

#Article #NLP #LanguageModel #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Comment

experimentalな手法でprompt engineeringする際のoverview

#Article #MachineLearning #Self-SupervisedLearning Issue Date: 2023-04-26 A Cookbook of Self-Supervised Learning, 2023 Comment

MetaによるSelf Supervised Learningの教科書

#Article #RecommenderSystems #Embeddings #EfficiencyImprovement #Library Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Comment

dynamic embeddingを使った推薦システムの構築方法の解説

（理解が間違っているかもしれないが）推薦システムは典型的にはユーザとアイテムをベクトル表現し、関連度を測ることで推薦をしている。この枠組みをめっちゃスケールさせるととんでもない数のEmbeddingを保持することになり、メモリ上にEmbeddingテーブルを保持して置けなくなる。特にこれはonline machine learning（たとえばユーザのセッションがアイテムのsequenceで表現されたとき、そのsequenceを表すEmbeddingを計算し保持しておき、アイテムとの関連度を測ることで推薦するアイテムを決める、みたいなことが必要）では顕著である（この辺の理解が浅い）。しかし、ほとんどのEmbeddingはrarely seenなので、厳密なEmbeddingを保持しておくことに実用上の意味はなく、それらを単一のベクトルでできるとメモリ節約になって嬉しい（こういった処理をしてもtopNの推薦結果は変わらないと思われるので）。
これがdynamic embeddingのモチベであり、どうやってそれをTFで実装するか解説している。

#Article #Survey #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

#Article #NeuralNetwork #MachineLearning Issue Date: 2023-01-21 tuning_playbook, Google Research Comment

Googleが公開したDeep Learningモデル学習のノウハウ。必読

日本語訳
https://github.com/Valkyrja3607/tuning_playbook_ja

#Article #RecommenderSystems Issue Date: 2022-12-19 推薦システムにおいて線形モデルがまだまだ有用な話 #Article #NeuralNetwork #Library #Transformer Issue Date: 2022-12-01 BetterTransformer, Out of the Box Performance for Hugging Face Transformers Comment

たった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事

better_model = BetterTransformer.transform(model)

#Article #NeuralNetwork #ComputerVision Issue Date: 2022-10-27 CNN vs. ViT, 牛久先生 Comment

・Swin Transformer, Depth-wise conv, ConvNeXt, ViTとCNNのロバスト性の違いの話があり勉強になる

・最終的な結論が、CNNもTransformerも変わらない（明確な勝者はいない; 今のところ引き分け）というのはおもしろかった

depth-wise conv, point-wise convの解説記事： https://agirobots.com/depthwise-pointwise-convolution/

通常のCNNのフィルタによるfeature map計算を、空間方向（depth-wise conv）とチャネル方向（point-wise conv; 1x1 conv）に分解することで大幅にパラメータ数削減

#Article #NeuralNetwork #NLP #Transformer Issue Date: 2022-09-06 Transformerの最前線〜畳込みニューラルネットワークの先へ〜, 牛久先生, 2022 #Article #Tools #Library Issue Date: 2022-08-03 pandas tips Comment

◆遅くないpandasの書き方

https://naotaka1128.hatenadiary.jp/entry/2021/12/07/083000#iterrows-%E3%81%AF%E7%B5%B6%E5%AF%BE%E3%81%AB%E4%BD%BF%E3%82%8F%E3%81%AA%E3%81%84-apply%E3%82%82

iterrows, applyを使うな、あたりは非常に参考になった。numpy配列に変換してループを回すか、np.vectorizeを使ってループを排除する。

#Article #LearningAnalytics Issue Date: 2022-03-03 ①ラーニングアナリティクスの研究動向 ─エビデンスに基づく教育の実現に向けて─, 京都大学, 緒方先生, 情報処理 Vol.59 No.9 Sep. 2018 Comment

緒方先生によるLAのチュートリアル

主な研究テーマ：

①行動予測：教育・学習活動において蓄積された大量のデータを元に，機械学習を用いて予測モデルを作成し，学習者の成績や能力，ドロップアウト等の行動を予測する研究

②介入モデル：いつどこでどのような内容をどのような方法で学習者に伝えると，効果的な情報提供となるか，という研究

③オープン学習者モデル：学習データを用いて学習スタイルや特徴を推測し，それをシステム内だけにとどめるのではなく，学習者にできる限り見える形で提示する，オープン学習者モデルの研究

④推薦：学習者個人の特徴にあわせて，教材や問題，カリキュラム等を推薦する研究

⑤ティーチングアナリティクス：教師の教育活動のデータを分析する研究

⑥教育評価の自動化：収集したデータの分析を元に，学習者の評価を自動的に行う研究

2021年版スライド：

https://www.let.media.kyoto-u.ac.jp/wp-content/uploads/2021/07/603b542fafc54003eb4a1a42bb92069f.pdf

典型的な研究事例：

・At-risk学生の発見と成績予測(early-warning)

・学生の成績予測

　- 教員が早期に単位を落としそうな学生を発見

　- 学生は成績予測を確認して、学びに向かう態度を改善

・教育データを用いた予測

- 教育データからACADEMIC Successの予測（e.g. career success, academic achievement）

・Open learner model (student model)

・Recommendation and personalized learning

- ALEKSのようなシステム

- BKT, DKT等を用いた推薦

・Learning analytics dashboard

・Writing (Text) analytics

　- Academic writingの文章を分析

　- eポートフォリオ/Essay/Journalを分析、成績や感情を予測

・Emotional learning analytics

・Multimodal learning analytics

　- Gaze (eye tracking)

　- Bio sensors (heart rate)

　- Pen, click stream

　- Motion sensor (gestures)

　- Audio/Video

・Collaborative learning analytics

　- Group formation

　- Social network analysis

　- Interaction analytics

・Ubiquitous Learning analytics

　- SCROLL:誰がいつどこで何を学習したかという学習ログを分析

・Learning analytics and self-regulated learning

・Learning analytics for teaching / learning design

・Assessment analytics

　- create exams

　- Peer evaluation

#Article #Pocket #Coding #Slide Issue Date: 2022-03-02 良いコードとは何か - エンジニア新卒研修スライド公開, CyberZ, 森 #Article #MachineLearning #Slide Issue Date: 2022-02-07 NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022 Comment

NeurIPS 2021での技術トレンドがまとめられている

1. アーキテクチャの改善

2. マルチモーダルモデル

3. Temporal Adaptation

4. Retrieval Augmentation

5. ベンチマーク見直し

6. データセット見直し

7. Human-Centered AI

#Article #Blog #Coding Issue Date: 2021-11-25 Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer （Kaito）, 2021 Comment

オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。

#Article #Blog #Coding Issue Date: 2021-11-25 イラストで理解するSOLID原則, baby-degu, 2021 Comment

オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。

#Article #RecommenderSystems #CTRPrediction #Blog Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Comment

なぜクリック率を上げたいのかという説明が非常に参考になる：

>しかしその広告を掲載する側から考えればクリック率の低い広告を出すことは売上が下がってしまうため，クリック率が>低いとなかなか広告を表示することができなくなってしまいます．

その際よく使われるのはeCPMという指標です．

eCPMはその広告を1000回表示していくらの売上を上げることができるかという指標であり，

クリック率1000クリック単価で求められます．

>EPCMが高い広告のほうが表示されやすいため，クリック率を上げることで同じクリック単価でたくさんのユーザを自社のランディングページに誘導することができるようになります．

>例えば今回のケースではクリック率1.2%でクリック単価が60円ですので，eCPMは720円です。

ここでクリック率が0.1％上がるとeCPMは780円になります．

>そのときクリック単価を56円にしてもeCPMは726円になるため，つまりクリック率が0.1%上がると同じだけのランディングページへの誘導を得るための単価を4円下げることができます．

>例えばそのランディングページでの商品の購入が1%で行われるとすると，商品を1つ売るためのコストが400円も下がる事になります．

>ケースバイケースではありますが，このようにクリック率を上げることはウェブ広告を通してものを売るために非常に重要な要素になります．

#Article #AdaptiveLearning #LearningAnalytics Issue Date: 2021-10-29 ラーニング・アナリティクスとは何か？, 武田俊之, コンピュータ＆エデュケーション VOL.38, 2015 Comment

Learning Analyticsの全体像について、コンパクトにまとまっている。

特に、そのアプローチに関するコンセプトの特徴（e.g. 学習者中心、デーア駆動）や、フレームワーク、xAPIといったデータの測定・収集方法などについて、まとめられている。

#Article #NLP #Blog #Legal Issue Date: 2021-10-26 自然言語系AIサービスと著作権侵害, 柿沼太一, 2021 #Article #MachineLearning #Pocket #Infrastructure Issue Date: 2021-10-19 Hidden Technical Debt in Machine Learning Systems, Sculley+, Google Comment

よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ、の図

#Article #MachineLearning #Pocket Issue Date: 2021-10-16 実臨床・Webサービス領域での機械学習研究開発の標準化 Comment

並列して走る機械学習案件をどのように効果的に捌いているか説明。

①タイトな締切
→ 高速化で対処
→ よく使う機能をML自身に実装する
②並行して走る案件
→ 並列化
　→ Kubernetesを用いて、タスクごとに異なるノードで分散処理（e.g CVのFoldごとにノード分散、推論ユーザごとにノード分散）要件に合わせて、メモリ優先、CPU優先などのノードをノードプールから使い分ける
　
③属人化
→ 標準化
　→ よく使う機能はMLシステム自身に実装
　→ 設定ファイルで学習、推論の挙動を制御

#Article Issue Date: 2021-07-16 【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法-, omiita #Article #RecommenderSystems #Pocket Issue Date: 2021-07-02 Continuously Improving Recommender Systems for Competitive Advantage Using NVIDIA Merlin and MLOps, Nvidia, 2021.01 Comment

Recommender System運用のためのアーキテクチャに関する情報

#Article #Tools #Library Issue Date: 2021-06-29 optuna_tips #Article #BeamSearch #Blog Issue Date: 2021-06-24 beam search解説 _ コード付き, jonki, 2020.05 Comment

ビームサーチについて、コード付きで説明してくれており、大変わかりやすい。

heapqを使って実装している。また、ビームサーチをbatchに対して行う方法についても書いてある（ただ、一部に対してしかbatchでの処理は適用できていない）。

自分もバッチに対して効率的にビームサーチするにはどのように実装すれば良いのかよくわからないので、誰か教えて欲しい。

#Article #Tools #NLP #Library #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #Pocket #ReinforcementLearning #Blog #Off-Policy Issue Date: 2021-06-07 ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する, aiueola, 2021.05 #Article #NeuralNetwork #Tools #Library #python Issue Date: 2021-06-06 TRTorch Comment

pytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。

#Article #Tools #Library #python Issue Date: 2021-06-05 pytorch tips Comment

【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】

https://trap.jp/post/1122/

- scatter_add, einsum, Bilinear あたりが説明されている

【NLLossの細かい挙動】

https://tatsukawa.hatenablog.com/entry/2020/04/06/054700

【PyTorchで絶対nanを出したいマン】

https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12

PyTorchでnanが出てしまう原因とその対策が色々書いてある

【pipで様々なCuda versionのpytorchをinstallする方法】

https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1

#Article Issue Date: 2021-06-03 ResNetからSkip Connectionを取り除く研究についてのサーベイ, 徳永拓之, LeapMind株式会社 Comment

Skip Connectionは

- 推論時のメモリ消費量が増える
- 推論時に計算量の割に実際の計算が重たくなりがち（特にDNN専用アクセラレーターにおいてその傾向がありがち）

というデメリットがあり、SkipConnection無しで性能を出したいことから、様々な研究が行われている模様。

ResNetを学習し、それを教師としてPlainCNNを学習するResidual Distillationが決定版らしい（普通のDistillationでは最終層の類似度のみを用いるが、生徒ネットワークの中間層の出力を教師ネットワークに入れてからbackpropして勾配を得る）。

50層のPlainCNNで、ResNet50とほぼ同等のtop-1 accuracyを達成。
メモリ消費量は20%弱削減され、実行速度は20〜30%程度高速になる。

#Article #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

Learner Modelingに関するチュートリアル。Learner Modelingの典型的なコンテキストや、KCにどのような種類があるか（KLI Frameworkに基づいた場合）、learner modeling techniques (BKTやPFA等)のチュートリアルなどが記載されている。

knowledgeをmodelingする際に利用されるデータの典型的な構造

donain modelingの典型的なアプローチ

モデルのaspectと、model purposes, learning processesのrelevanceを図示したもの。色が濃いほうが重要度が高い

Learner ModelingのMetrics

cross validation方法の適用方法（同じ学習者内と、異なる学習者間での違い。学習者内での予測性能を見たいのか、学習者間での汎化性能を見たいのかで変わるはず）

BKT、PFAや、それらを用いるContext（どのモデルをどのように自分のcontextに合わせて選択するか）、KLI Frameworkに基づくKCの構成のされ方、モデル評価方法等を理解したい場合、読んだほうが良さそう？

ざっとしか見ていないけど、重要な情報がめちゃめちゃ書いてありそう。後でしっかり読む・・・。

#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 EfficientNet解説, omiita （オミータ）, 2019 Comment

既存画像認識モデルの構造は変化させず、広さ、深さ、解像度を複合スケーリングすることで、従来よりも少ないパラメータ数、かつ学習速度でSoTAを達成。広さ、深さ、解像度はそれぞれ性能に互いに影響しあっており、従来のように別々にスケーリングするのではなく、3つのバランスをとりながらスケーリングする。スケーリングする際は、結果的にはそれぞれをある値で定数倍すれば良く、そのある値は最大メモリや最大FLOPS数以下（およびFLOPSが2のΦ乗で増加するような）といった制約下でAccuracyが最大化される値をグリッドサーチで見つける（らしい。ざっくりとした理解）。
転移学習しても多くのタスクでSoTA達成した。

#Article #NLP #Dataset #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #RecommenderSystems #Tools #Dataset #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

機械学習による予測精度ではなく、機械学習モデルによって生じる意思決定を、過去の蓄積されたデータから評価する（Off policy Evaluation）の、tutorialおよび実装、データセットについて紹介。
このような観点は実務上あるし、見落としがちだと思うので、とても興味深い。

#Article #RecommenderSystems #CollaborativeFiltering #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

#Article #MachineLearning #Slide #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Comment

k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。

yahooのNGTといった実装も転がっている（Apache-2.0 License）：

https://techblog.yahoo.co.jp/data_solution/ngtpython/

ScaNNという手法もあるらしい（SoTA）
https://ai-scholar.tech/articles/vector-search/scann

#Article #MachineLearning #Blog Issue Date: 2020-01-16 Key trends from NeurIPS 2019, Chip Huyen, 2019 #Article #NLP #LanguageModel #Slide Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

#Article #NLP #Slide Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #Survey #Dataset Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

#Article #RecommenderSystems #Explanation #Selected Papers/Blogs Issue Date: 2019-01-23 Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011 Comment

D論： http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf

#Article #NeuralNetwork #Tools #NLP Issue Date: 2018-11-16 AllenNLP （Official Tutorials） Comment

https://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8

#Article #NeuralNetwork #MachineLearning #NLP Issue Date: 2018-06-29 The Annotated Transformer, harvardnlp, 2018.04 #Article #NeuralNetwork #MachineLearning #NLP #Slide Issue Date: 2018-02-19 ニューラルネット勉強会（LSTM編）, Seitaro Shinagawa, 2016 Comment

LSTMの基礎から、実装する上でのTipsがまとまっている。

zero padding, dropoutのかけかた、normalizationの手法など。

#Article #MachineLearning #Slide #CurriculumLearning Issue Date: 2018-02-12 Curriculum Learning（関東CV勉強会）, Yoshitaka Ushiku, 2015.05 Comment

牛久先生によるCurriculum Learningチュートリアル

#Article #MachineTranslation #NLP #Alignment #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

#Article #NeuralNetwork #NLP #Slide #Selected Papers/Blogs Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi, 2013.09 #Article #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 From RankNet to LambdaRank to LambdaMART: An Overview, Burges, Microsoft Research Technical Report, 2010 #Article #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回自然言語処理勉強会@東京 #Article #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011 #Article #MachineLearning #OnlineLearning Issue Date: 2017-12-31 オンライン学習 Comment

## 目次

定式化

評価法：Regretなど

パーセプトロン

Passive Aggressive Algorithm

(アルゴリズムと損失の限界の評価）

Confidence Weighted Algorithm

Pegasos

Coordinate Descent

バッチ、オンライン、ストリームの比較

ビッグデータへの対応

#Article #NeuralNetwork #EfficiencyImprovement Issue Date: 2017-12-31 Efficient Methods and Hardware for Deep Learning, Han, Stanford University, 2017.05 #Article #MachineLearning #UserModeling #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Machine Learning for User Modeling, User modeling and User-adapted Interaction, [Webb+, 2001], 2001.03 Comment

Library (81)

#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Distillation #On-Policy #reading
Issue Date: 2025-10-30 Unlocking On-Policy Distillation for Any Model Family, Patiño+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs
Issue Date: 2025-10-25 Introducing torchforge – a PyTorch native library for scalable RL post-training and agentic development, PyTorch team at Meta, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #Repository #PostTraining
Issue Date: 2025-09-02 slime, THUDM & Zhihu, 2025.09 Comment

元ポスト:

Loading…

GLM-4.5のRL学習に利用されたフレームワーク

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

#Article #ComputerVision #NLP #LanguageModel #ReinforcementLearning #Repository #PostTraining #VisionLanguageModel Issue Date: 2025-09-01 RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09 Comment

元ポスト:

Loading…

#Article #ReinforcementLearning #Blog #Selected Papers/Blogs #On-Policy #KeyPoint Notes #Reference Collection #train-inference-gap Issue Date: 2025-08-26 Your Efficient RL Framework Secretly Brings You Off-Policy RL Training, Yao+, 2025.08 Comment

元ポスト:

Loading…

アップデートがあった模様:

Loading…

さらにアップデート:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

vLLMがtrain inference mismatchを防ぐアップデートを実施:

Loading…

#Article #NLP #LanguageModel #RLHF #RLVR Issue Date: 2025-08-13 RLVR_RLHF libraries, 2025.08 Comment

RLVR,RLHFに関する現在のライブラリがまとまっているスレッド

#Article #EfficiencyImprovement #LanguageModel #python #LLMServing Issue Date: 2025-08-03 LMCache, LMCache, 2025.07 Comment

元ポスト:

Loading…

#Article #LanguageModel #LLMServing Issue Date: 2025-07-21 LMDeploy, OpenMMLab, 2023.07 #Article #NLP #ReinforcementLearning #AIAgents #PostTraining Issue Date: 2025-07-04 rLLM, Agentica, 2025.06 Comment

元ポスト:

Loading…

v0.2がリリースされ、任意のagentia programの学習がサポートされた模様（マルチエージェントや複雑なワークフローに基づくものなど）:

Loading…

#Article #EfficiencyImprovement #NLP #LanguageModel #Repository #PostTraining Issue Date: 2025-06-25 Nemo-RL, Nvidia, 2025.05 #Article #NLP #LanguageModel #ReinforcementLearning #python Issue Date: 2025-05-16 verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04 Comment

注意点（超重要）:

Loading…

- 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07

でも言われているように、ライブラリにはバグがあるのが普通なのね、、、。

#Article #NLP #Supervised-FineTuning (SFT) #Blog #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #AIAgents #Blog Issue Date: 2025-05-06 Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents Issue Date: 2025-03-16 The TypeScript Agent Framework, mastra, 2025.03 Comment

日本語解説: https://zenn.dev/yosh1/articles/mastra-ai-agent-framework-guide

#Article #LanguageModel #AIAgents Issue Date: 2025-03-06 smolagents, HuggingFace, 2025.03 GPT Summary- smolagentsは、数行のコードで強力なエージェントを構築できるライブラリで、シンプルなロジック、コードエージェントのサポート、安全な実行環境、ハブ統合、モデルやモダリティに依存しない設計が特徴。テキスト、視覚、動画、音声入力をサポートし、さまざまなツールと統合可能。詳細はローンチブログ記事を参照。 #Article #MachineLearning #NLP #LanguageModel #ReinforcementLearning #python #Reasoning Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 Comment

Llamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。

#Article #NLP #LanguageModel #SyntheticData Issue Date: 2025-01-25 distilabel, 2023.11 Comment

高品質な合成データをLLMで生成するためのフレームワーク

#Article #NLP #LanguageModel #python #Repository #API Issue Date: 2025-01-03 LiteLLM, BerriAI, 2023.08 Comment

様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ

- aisuite, andrewyng, 2024.11

とどちらがいいんだ・・・？

#Article #Embeddings #Word #Repository Issue Date: 2024-12-28 floret, explosion, 2021 Comment

fasttextを拡張したもの。本家fasttextがアーカイブ化してしまったので、代替手段に良さそう。

元ポスト:

Loading…

#Article #EfficiencyImprovement #NLP #Transformer #pretrained-LM Issue Date: 2024-12-20 ModernBERT, AnswerDotAI, 2024.12 GPT Summary- ModernBERTは、エンコーダ専用のトランスフォーマーモデルで、従来のBERTに比べて大幅なパレート改善を実現。2兆トークンで訓練され、8192シーケンス長を持ち、分類タスクやリトリーバルで最先端の結果を示す。速度とメモリ効率も優れており、一般的なGPUでの推論に最適化されている。 Comment

日本語解説: https://zenn.dev/dev_commune/articles/3f5ab431abdea1?utm_source=substack&utm_medium=email

#Article #NLP #LanguageModel #python #Repository #API Issue Date: 2024-11-28 aisuite, andrewyng, 2024.11 Comment

#Article #ComputerVision #Repository #OCR Issue Date: 2024-11-27 YomiToku, Kotaro Kinoshita, 2024.11 Comment

いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0

元ツイート:

Loading…

#Article #EfficiencyImprovement #NLP #LanguageModel #Repository #MinimalCode Issue Date: 2024-11-05 Lingua, Meta Comment

#Article #python Issue Date: 2024-10-07 Streamlit, 2020.12 Comment

データを用いたアプリを簡単に作れるpythonライブラリ

データ/モデルを用いたvisualization等を実施するアプリを、数行で作れてしまう。綺麗なUIつき。便利。

#Article #python #Blog Issue Date: 2024-09-12 Pluggyとは, 2023.02 Comment

pluggyに関する概要が説明されている。

公式の説明を読むとpytestで採用されており、pluggyは関数フックを可能にし、プラグインをインストールするだけでホストプログラムの動作を拡張、または変更できるようになる代物とのこと（=プラガブル？）。

pluggyがなぜ有用なのかの説明については、Pythonでは、他のプログラムやライブラリの動作を変更するための既存のメカニズムとして、メソッドのオーバーライドやモンキーパッチが存在するが、複数の関係者が同じプログラムの変更に参加したい場合、これらが問題を引き起こすので、pluggyはこれらのメカニズムに依存せず、より構造化されたアプローチを可能にし、状態や動作の不必要な露出を避けるとのこと。これにより、ホストとプラグインの間が疎結合になるので、問題が軽減されるとのこと。

#Article #NLP #LanguageModel #python #Repository #LLMServing Issue Date: 2024-08-31 NanoFlow, 2024.08 Comment

元ポスト:

Loading…

DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 も参照のこと

#Article #MachineLearning #Repository #API Issue Date: 2024-08-25 LitServe, 2024.04 Comment

FastAPIより2倍早いAPIライブラリ。LLMやVisionなど多くのモーダルに対応し、マルチワーカーでオートスケーリングやバッチングやストリーミングにも対応。PyTorchモデルだけでなく、JAXなど様々なフレームワークのモデルをデプロイ可能
元ツイート:

Loading…

画像は元ツイートより引用

#Article #RecommenderSystems #Survey #Repository Issue Date: 2024-08-07 list of recommender systems Comment

推薦システムに関するSaaS, OpenSource, Datasetなどがまとめられているリポジトリ

#Article #EfficiencyImprovement #python #Blog #OpenWeight #LLMServing Issue Date: 2024-08-05 DeepSpeed, vLLM, CTranslate2 で rinna 3.6b の生成速度を比較する, 2024.06 Comment

[vllm]( https://github.com/vllm-project/vllm)を使うのが一番お手軽で、inference速度が速そう。PagedAttentionと呼ばれるキャッシュを利用して高速化しているっぽい。

（図はブログ中より引用）

こちらも参照のこと

vLLMの仕組みをざっくりと理解する： https://dalab.jp/archives/journal/vllm/#PagedAttention

vLLMでReasoning ModelをServingするときは、`--enable-reasoning`等の追加オプションを指定する必要がある点に注意
https://docs.vllm.ai/en/stable/features/reasoning_outputs.html

#Article #NLP #OpenWeight Issue Date: 2024-08-01 OpenLLM: Self-Hosting LLMs Made Easy Comment

OpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ

#Article #LanguageModel #Repository Issue Date: 2024-04-29 mergekit-evolve Comment

大きなVRAMが無くとも、大きめのSRAMがあれば動作するらしい

#Article #EfficiencyImprovement #NLP #LanguageModel #Repository Issue Date: 2024-04-28 AirLLM, 2024.04 Comment

Loading…

#Article #ComputerVision #NLP #LanguageModel #Alignment #TextualInversion Issue Date: 2024-03-21 repeng Comment

Loading…

#Article #RecommenderSystems #Repository Issue Date: 2024-01-15 Recommenders Comment

古典的な手法から、Deepな手法まで非常に幅広く網羅された推薦アルゴリズムのフレームワーク。元々Microsoft配下だった模様。

現在もメンテナンスが続いており、良さそう

#Article #ComputerVision #NLP #Prompting #MultiModal #AutomaticPromptEngineering Issue Date: 2023-12-01 multimodal-maestro Comment

#Article #python Issue Date: 2023-11-19 lifestar Comment

非常に高速なpythonのASGIライブラリ。WSGIとは異なり非同期処理なためリアルタイムアプリケーションに向いているっぽい。

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Repository Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment

簡単に利用できるLLaMAのfinetuning frameworkとのこと。
元ツイート:

Loading…

LLaMAベースなモデルなら色々対応している模様

#Article #Transformer #Blog Issue Date: 2023-11-13 Transformers.js, 2023 Comment

ブラウザ上でTransformerベースの様々なモデルを動作させることができるライブラリ

#Article #Tools #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #Tools #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment

#Article #NLP #LanguageModel #AIAgents Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment

#Article #Tools #NLP #LanguageModel Issue Date: 2023-09-05 LangChain Cheet Sheet Comment

#Article #NLP #LanguageModel Issue Date: 2023-08-29 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました Comment

#Article #NLP #LanguageModel Issue Date: 2023-08-28 zeno-build Comment

MTでのテクニカルレポート
https://github.com/zeno-ml/zeno-build/tree/main/examples/analysis_gpt_mt/report

#Article #NLP #LanguageModel #ReinforcementLearning Issue Date: 2023-07-23 trl_trlx Comment

TRL - 強化学習によるLLMの学習のためのライブラリ
https://note.com/npaka/n/nbb974324d6e1

trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみる
https://www.ai-shift.co.jp/techblog/3583

#Article #NLP #LanguageModel #Blog Issue Date: 2023-06-25 OpenLLaMA 13B, 2023 Comment

#Article #EfficiencyImprovement #NLP #Transformer #python Issue Date: 2023-05-11 Assisted Generation: a new direction toward low-latency text generation, 2023 Comment

1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしい

assistant modelをロードしgenerateに引数として渡すだけ

#Article #NLP #LanguageModel #FoundationModel #Repository Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment

150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。

#Article #NLP #LanguageModel #Blog Issue Date: 2023-05-06 MPT-7B, 2023 Comment

Loading…

ChatGPTのLLMと比較すると、ざっと例を見た感じ質問応答としての能力はそこまで高くなさそうな印象。
finetuningしない限りはGPT3,GPT4で良さげ。

#Article #NLP #SpokenLanguageProcessing #SpokenLanguageGeneration Issue Date: 2023-05-04 Bark Comment

テキストプロンプトで音声生成ができるモデル。MIT License

#Article #NeuralNetwork #NLP #LanguageModel #Transformer Issue Date: 2023-05-04 OpenLLaMA Comment

LLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様

#Article #Embeddings #InformationRetrieval #Search #Repository Issue Date: 2023-04-27 Awesome Vector Search Engine Comment

ベクトルの類似度を測るサービスやライブラリ等がまとまったリポジトリ

#Article #InformationRetrieval Issue Date: 2023-04-26 Contrirver #Article #RecommenderSystems #Tutorial #Embeddings #EfficiencyImprovement Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Comment

dynamic embeddingを使った推薦システムの構築方法の解説

#Article #Embeddings #NLP #RepresentationLearning #SpokenLanguageProcessing Issue Date: 2023-04-25 CLAP Comment

テキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル

たとえばゼロショットでaudio分類ができる

#Article #Tools #InformationRetrieval #NLP #AIAgents Issue Date: 2023-04-22 Llamaindex Comment

- LlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた

- https://dev.classmethod.jp/articles/llama-index-insert-index/

#Article #Tools #InformationRetrieval #NLP #LanguageModel #AIAgents Issue Date: 2023-04-21 LangChain Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da

#Article #Tools #NLP #LanguageModel Issue Date: 2023-03-11 20B params chatgpt alternative Comment

元ツイート
Apache2.0で公開

Loading…

#Article #python #Blog Issue Date: 2023-01-23 Polars, 2023 Comment

pandasより100倍高速で複雑なクエリも見やすく書けてindexも存在しないのでバグも出にくいという優れものらしい

#Article #NLP #DataAugmentation #Repository Issue Date: 2023-01-21 nlpaug Comment

Data Augmentationのためのオープンソースライブラリ

#Article #ComputerVision #MachineLearning #NLP #Explanation #Transformer #Blog Issue Date: 2022-12-01 Transformers Interpret, 2022 Comment

#Article #NeuralNetwork #Tutorial #Transformer Issue Date: 2022-12-01 BetterTransformer, Out of the Box Performance for Hugging Face Transformers Comment

たった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事

better_model = BetterTransformer.transform(model)

#Article #Tutorial #Tools Issue Date: 2022-08-03 pandas tips Comment

#Article #RecommenderSystems #CollaborativeFiltering #FactorizationMachines #Repository Issue Date: 2021-07-03 pytorch-fm, 2020 Comment

下記モデルが実装されているすごいリポジトリ。論文もリンクも記載されており、Factorization Machinesを勉強する際に非常に参考になると思う。MITライセンス。各手法はCriteoのCTRPredictionにおいて、AUC0.8くらい出ているらしい。

- Logistic Regression

- Factorization Machine

- Field-aware Factorization Machine

- Higher-Order Factorization Machines

- Factorization-Supported Neural Network

- Wide&Deep

- Attentional Factorization Machine

- Neural Factorization Machine

- Neural Collaborative Filtering

- Field-aware Neural Factorization Machine

- Product Neural Network

- Deep Cross Network

- DeepFM

- xDeepFM

- AutoInt (Automatic Feature Interaction Model)

- AFN(AdaptiveFactorizationNetwork Model)

#Article #Tutorial #Tools Issue Date: 2021-06-29 optuna_tips #Article #NeuralNetwork #Tools #python #Blog Issue Date: 2021-06-12 pytorch_lightning tips Comment

PyTorch Lightning 2021 (for MLコンペ)
https://qiita.com/fam_taro/items/df8656a6c3b277f58781

#Article #Tutorial #Tools #NLP #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #Embeddings #MachineLearning #Tools #KnowledgeGraph #Repository Issue Date: 2021-06-10 OpenKE, 2021 Comment

Wikipedia, Freebase等のデータからKnowledge Embeddingを学習できるオープンソースのライブラリ

#Article #NeuralNetwork #Tutorial #Tools #python Issue Date: 2021-06-06 TRTorch Comment

pytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。

#Article #Tutorial #Tools #python Issue Date: 2021-06-05 pytorch tips Comment

【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】

https://trap.jp/post/1122/

- scatter_add, einsum, Bilinear あたりが説明されている

【NLLossの細かい挙動】

https://tatsukawa.hatenablog.com/entry/2020/04/06/054700

【PyTorchで絶対nanを出したいマン】

https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12

PyTorchでnanが出てしまう原因とその対策が色々書いてある

【pipで様々なCuda versionのpytorchをinstallする方法】

https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1

#Article #EfficiencyImprovement #python #Blog Issue Date: 2021-06-03 intel MKL Comment

intel CPUでpythonの数値計算を高速化するライブラリ(numpyとかはやくなるらしい; Anacondaだとデフォルトで入ってるとかなんとか)

#Article #NeuralNetwork #Tools #NLP #Dataset #LanguageModel #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #NeuralNetwork #Tools #NLP Issue Date: 2019-09-22 【黒橋研】BERT日本語Pretrainedモデル Comment

【huggingface transformersで使える日本語モデルのまとめ】

https://tech.yellowback.net/posts/transformers-japanese-models

#Article #RecommenderSystems #Selected Papers/Blogs Issue Date: 2019-09-11 Implicit Comment

Implicitデータに対するCollaborative Filtering手法がまとまっているライブラリ

Bayesian Personalized Ranking, Logistic Matrix Factorizationなどが実装。

Implicitの使い方はこの記事がわかりやすい：

https://towardsdatascience.com/building-a-collaborative-filtering-recommender-system-with-clickstream-data-dffc86c8c65

ALSの元論文の日本語解説

https://cympfh.cc/paper/WRMF

#Article #RecommenderSystems Issue Date: 2018-01-01 mrec Comment

実装：python

※ Mendeleyによるpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #Tools Issue Date: 2018-01-01 LensKit Comment

実装されているアルゴリズム：協調フィルタリング、Matrix Factorizationなど

実装：Java

使用方法：コマンドライン、Javaライブラリとして利用

※ 推薦システム界隈で有名な、GroupLens研究グループによるJava実装

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #Tools Issue Date: 2018-01-01 MyMediaLite Comment

実装されているアルゴリズム：協調フィルタリング、Matrix Factorizationなど

実装：C#

使用方法：コマンドライン、C#ライブラリとして利用

※ ライブラリとして使用する場合は、C#による実装が必要

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #CollaborativeFiltering #FactorizationMachines Issue Date: 2018-01-01 fastFM Comment

実装されているアルゴリズム：Factorization Machines

実装：python

使用方法：pythonライブラリとして利用

※ Factorization Machinesに特化したpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #Tools #CollaborativeFiltering #FactorizationMachines Issue Date: 2018-01-01 LibRec Comment

実装されているアルゴリズム：協調フィルタリング、Factorization Machines、

　　　　　　　　　　　　　　Restricted Boltzman Machineなど、計70種類のアルゴリズムが実装

実装：Java

使用方法：コマンドライン、Javaライブラリとして利用

※ 実装されているアルゴリズムの豊富さが強み

※ 実装されているアルゴリズムのリスト（ https://www.librec.net/dokuwiki/doku.php?id=AlgorithmList）

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems Issue Date: 2018-01-01 Surprise, Nicolas Hug Comment

実装されているアルゴリズム：協調フィルタリング、Matrix Factorizationなど

実装：python

使用方法：pythonライブラリとして利用

※ pythonで利用できる数少ない推薦システムライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

Survey (74)

#Article #NLP #Dataset #LanguageModel #AIAgents
Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #Repository #VisionLanguageModel #SpatialUnderstanding
Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

#Article #ComputerVision #Slide #read-later #ICCV
Issue Date: 2025-11-01 ICCV 2025 Report, Kataoka+, LIMIT.Lab, cvpaper.challenge, Visual Geometry Group （VGG）, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #WorldModels Issue Date: 2025-11-01 Awesome World Models, Siqiao Huang, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #OCR Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #GenerativeAI #Blog #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Slide #Robotics #CoRL Issue Date: 2025-10-05 CoRL2025速報, robotpaper.challenge, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Reasoning #COLM Issue Date: 2025-09-15 Large reasoning models research at COLM 2025 - State of research in scaling reasoning, the current paradigm for improving LLMs, PRAKASH KAGITHA, 2025.09 Comment

COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。

元ポスト:

Loading…

ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。

#Article #NLP #Blog #LLM-as-a-Judge #read-later Issue Date: 2025-09-04 信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09 Comment

ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

#Article #ComputerVision #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #ScientificDiscovery Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

#Article #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-13 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications, Kawaharazuka+, 2025.08 Comment

元ポスト:

Loading…

#Article #Video #CVPR Issue Date: 2025-07-28 【学会聴講報告】CVPR2025からみるVision最先端トレンド, Yuki Ono （Sony Corporation）, 2025.07 Comment

関連:
- CVPR 2025 速報, Kataoka+, 2025.06

元ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #Blog Issue Date: 2025-07-27 9 new policy optimization techniques, Kseniase, 2025.07 Comment

元ポスト:

Loading…

#Article #ComputerVision #Slide #CVPR Issue Date: 2025-06-26 CVPR 2025 速報, Kataoka+, 2025.06 Comment

元ポスト:

Loading…

すごいまとめだ…

#Article #ComputerVision #LanguageModel Issue Date: 2025-04-11 Large Vision Language Model （LVLM）に関する最新知見まとめ（Part 1）, Daiki Shiono, 2024.11 #Article #RecommenderSystems #NLP #LanguageModel #Blog Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #Embeddings #Pocket #NLP #LanguageModel #Blog #PositionalEncoding Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment

元ポスト: https://huggingface.co/posts/Kseniase/498106595218801

RoPEについてサーベイが必要になったら見る

#Article #Attention #Blog Issue Date: 2025-03-18 15 types of attention mechanisms, Kseniase, 2025.03 Comment

Luongらのアテンションやsoft, globalアテンションなど、古くからあるattentionも含まれている。

#Article #ComputerVision #NLP #LanguageModel #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

#Article #NLP #LanguageModel #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #NLP #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #LanguageModel #Repository #SelfCorrection Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Comment

self-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。

元ポスト:

Loading…

#Article #ComputerVision #Pocket #NLP #LanguageModel #Slide Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #NLP #LanguageModel #Blog #OpenWeight #OpenSource Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article #GenerativeAI #Blog Issue Date: 2024-10-01 生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所先端技術ラボ, 2024.09 Comment

ソフトウェア開発で利用され始めている生成AIのプロダクト群と、それらに関連するソースコード生成やテストコード生成、エージェントによる自動システム開発等の研究動向、今後の展望について具体的に記述されている。

SIerやITベンダー内では、実際に活用しているところも一部あるようだが、まだ検証や改革の途中の模様。要件定義に対するLLMの活用も模索されているようだが、産業側もアカデミックも研究段階。

web系では、サイバーやLINEヤフーが全社的にすでにGithub Copilotを導入しているとのこと。

Devin AIのように、Github上のオープンソースのIssueをもとにしたベンチマークで、2294件中13.86%のIssueを解決した、みたいな話を見ると、そのうちコードを書く仕事はIssueを立てる仕事に置き換わるんだろうなあ、という所感を得た（小並感

#Article #RecommenderSystems #Library #Repository Issue Date: 2024-08-07 list of recommender systems Comment

推薦システムに関するSaaS, OpenSource, Datasetなどがまとめられているリポジトリ

#Article #Tools #NLP #LanguageModel Issue Date: 2024-03-22 Awesome LM with Tools Comment

Toolを利用するLMに関するNeubig氏のグループによるSurvey。

#Article #Tutorial #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #NLP #LanguageModel #Blog Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment

2024年3月時点で知っておくべきLLMに関するスレッド

#Article #Tutorial #InformationRetrieval #LanguageModel #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #ComputerVision #MachineLearning #NLP Issue Date: 2023-11-22 ML Papers Explained Comment

#Article #NaturalLanguageGeneration #NLP #Dataset #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #NLP #LanguageModel Issue Date: 2023-08-27 Anti-hype LLM Reading list Comment

LLMのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist

#Article Issue Date: 2023-08-12 人工知能研究の新潮流2 -基盤モデル・生成AIのインパクト- Comment

280ページにものぼる現在のトレンドをまとめた日本語資料

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

#Article #ContextWindow Issue Date: 2023-07-01 Extending Context is Hard…but not Impossible Comment

Open source LLMのcontext lengthをどのように大きくするかに関する議論

#Article #NLP #LanguageModel Issue Date: 2023-05-12 open LLM Leaderboard #Article #RecommenderSystems #GenerativeAI Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment

Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ

#Article #NLP #LanguageModel Issue Date: 2023-05-04 LLM ecosystem graphs Comment

様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページ

Percy Liangのグループが運用してるっぽい？

#Article #RecommenderSystems #InformationRetrieval #Personalization Issue Date: 2023-04-28 Measuring the impact of online personalisation: Past, present and future Comment

Personalizationに関するML, RecSys, HCI, Personalized IRといったさまざまな分野の評価方法に関するSurvey

ML + RecSys系では、オフライン評価が主流であり、よりaccuracyの高い推薦が高いUXを実現するという前提に基づいて評価されてきた。一方HCIの分野ではaccuracyに特化しすぎるとUXの観点で不十分であることが指摘されており、たとえば既知のアイテムを推薦してしまったり、似たようなアイテムばかりが選択されユーザにとって有用ではなくなる、といったことが指摘されている。このため、ML, RecSys系の評価ではdiversity, novelty, serendipity, popularity, freshness等の新たなmetricが評価されるように変化してきた。また、accuracyの工場がUXの向上に必ずしもつながらないことが多くの研究で示されている。

一方、HCIやInformation Systems, Personalized IRはuser centricな実験が主流であり、personalizationは

- 情報アクセスに対するコストの最小化

- UXの改善

- コンピュータデバイスをより効率的に利用できるようにする

という3点を実現するための手段として捉えられている。HCIの分野では、personalizationの認知的な側面についても研究されてきた。

たとえば、ユーザは自己言及的なメッセージやrelevantなコンテンツが提示される場合、両方の状況においてpersonalizationされたと認知し、後から思い出せるのはrelevantなコンテンツに関することだという研究成果が出ている。このことから、自己言及的なメッセージングでユーザをstimulusすることも大事だが、relevantなコンテンツをきちんと提示することが重要であることが示されている。また、personalizationされたとユーザが認知するのは、必ずしもpersonalizationのプロセスに依存するのではなく、結局のところユーザが期待したメッセージを受け取ったか否かに帰結することも示されている。

user-centricな評価とオフライン評価の間にも不一致が見つかっている。たとえば

- オフラインで高い精度を持つアルゴリズムはニッチな推薦を隠している

- i.e. popularityが高くrelevantな推薦した方がシステムの精度としては高く出るため

- オフライン vs. オンラインの比較で、ユーザがアルゴリズムの精度に対して異なる順位付けをする

といったことが知られている。

そのほかにも、企業ではofflineテスト -> betaテスターによるexploratoryなテスト -> A/Bテストといった流れになることが多く、Cognitive Scienceの分野の評価方法等にも触れている。

#Article #InformationRetrieval #Personalization Issue Date: 2023-04-28 User Profiles for Personalized Information Access, Gauch+, The adaptive Web: methods and strategies of Web personalization, 2007 Comment

IR分野におけるuser profileの構築方法についてまとめられたsurvey

- 加重キーワード

- セマンティックネットワーク

- 加重コンセプト

について記述されている。また、プロファイルの構築方法についても詳述されている。

#Article #NLP #LanguageModel Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment

参考になる

現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそう

LLM Worksheet：

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0

#Article #Tutorial #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

#Article #RecommenderSystems #Pretraining Issue Date: 2022-12-01 A Paper List for Recommend-system PreTrained Models #Article #RecommenderSystems #CTRPrediction Issue Date: 2021-10-29 2010年代前半のAIの巨人達のCTR Prediction研究 #Article #NeuralNetwork #Pocket #NLP Issue Date: 2021-06-17 Pre-Trained Models: Past, Present and Future, Han+, AI Open‘21 GPT Summary- 大規模な事前学習モデル（PTMs）は、AI分野での成功を収め、知識を効果的に捉えることができる。特に、転移学習や自己教師あり学習との関係を考察し、PTMsの重要性を明らかにする。最新のブレークスルーは、計算能力の向上やデータの利用可能性により、アーキテクチャ設計や計算効率の向上に寄与している。未解決問題や研究方向についても議論し、PTMsの将来の研究の進展を期待する。 #Article #NeuralNetwork #NLP Issue Date: 2021-06-09 A survey of Transformers, Lin+, AI Open‘22 GPT Summary- トランスフォーマーの多様なバリアント（X-formers）に関する体系的な文献レビューを提供。バニラトランスフォーマーの紹介後、新しい分類法を提案し、アーキテクチャの修正、事前学習、アプリケーションの観点からX-formersを紹介。今後の研究の方向性も概説。 Comment

Transformersの様々な分野での亜種をまとめた論文

#Article #Dataset #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #NeuralNetwork #ComputerVision #NLP Issue Date: 2021-05-19 MLP-like Architecture Comment

まあでもTransformerとcomparableなら、Transformer一強では無くなったよね

#Article #RecommenderSystems #SequentialRecommendation Issue Date: 2020-11-13 Sequence-Aware Recommender Systems, ACM Computing Surveys, Vol. 1, No. 1, Article 1, 2018 Comment

評価方法の議論が非常に参考になる。特に、Survey執筆時点において、コミュニティの中でデータ分割方法について標準化されたものがないといった話は参考になる。

#Article #MachineLearning #NLP #Blog Issue Date: 2020-01-13 10 ML & NLP Research Highlights of 2019, Sebastian Ruder, 2020 #Article #NeuralNetwork #NLP #LanguageModel #Slide #Selected Papers/Blogs Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

#Article #Tutorial #Dataset Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

#Article #AdaptiveLearning #EducationalDataMining #LearningAnalytics #Selected Papers/Blogs Issue Date: 2018-12-22 Educational Data Mining and Learning Analytics, Baker+, 2014 Comment

Ryan BakerらによるEDM Survey

#Article #RecommenderSystems #AdaptiveLearning Issue Date: 2018-12-22 Recommender Systems for Technology Enhanced Learning: Research Trends and Applications, Manouselis+, 2014 Comment

最近のトレンドやアプリケーションを知りたい場合はこちら

#Article #RecommenderSystems #AdaptiveLearning Issue Date: 2018-12-22 Panorama of recommender systems to support learning, Drachsler+, 2015 Comment

教育分野に対するRecsysのSurvey

#Article #RecommenderSystems #AdaptiveLearning Issue Date: 2018-12-22 Recommender Systems in Technology Enhanced Learning, Manouselis+, Recommender Systems Handbook, 2011 #Article #AdaptiveLearning Issue Date: 2018-12-22 [Paper Note] Personal recommender systems for learners in lifelong learning networks: the requirements, techniques and model, Drachsler+, Int. J. Learning Technology, 2008 #Article #RecommenderSystems #Education #TechnologyEnhancedLearning Issue Date: 2018-03-30 Recommender Systems in Technology Enhanced Learning, Manouselis+, Recommender Systems Handbook: A Complete Guide for Research Scientists and Practitioners, 2011 #Article #RecommenderSystems #Education #TechnologyEnhancedLearning Issue Date: 2018-03-30 [Paper Note] Context-Aware Recommender Systems for Learning: A Survey and Future Challenges, Verbert+, IEEE TRANSACTIONS ON LEARNING TECHNOLOGIES, VOL. 5, NO. 4, OCTOBER-DECEMBER 2012 #Article #SentimentAnalysis #NLP #OpinionMining Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008 #Article #InformationRetrieval #RelevanceFeedback #ImplicitFeedback Issue Date: 2018-01-01 [Paper Note] Evaluating implicit measures to improve web search, Fox+, ACM Transactions on Imformation Systems, 2005 #Article #InformationRetrieval #RelevanceFeedback #ExplicitFeedback Issue Date: 2018-01-01 [Paper Note] A survey on the use of relevance feedback for information access systems., Ruthven+, The Knowledge Engineering Review, 2003 #Article #InformationRetrieval #LearningToRank #Online/Interactive Issue Date: 2018-01-01 Fast and Reliable Online Learning to Rank for Information Retrieeval, Katja Hofmann, Doctoral Thesis, 2013 #Article #InformationRetrieval #LearningToRank Issue Date: 2018-01-01 [Paper Note] Learning to Rank for Information Retriefval, Liu+, 2009 #Article #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] 利用者の好みをとらえ活かす-嗜好抽出技術の最前線, 土方嘉徳, 2007 #Article #RecommenderSystems #Selected Papers/Blogs Issue Date: 2018-01-01 推薦システムのアルゴリズム, 神嶌, 2016 #Article #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] A Survey on Challenges and Methods in News Recommendation, O¨zgo¨bek+, 2014 #Article #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] A Survey and Critique of Deep Learning on Recommender Systems, Lei Zheng #Article #DocumentSummarization #NLP Issue Date: 2017-12-31 A survey on Automatic Text Summarization, Das+, 2007.11 #Article #NeuralNetwork #TimeSeriesDataProcessing Issue Date: 2017-12-31 [Paper Note] Artificial neural networks in business: Two decades of research, Tkac+, Applied Soft Computing 2016.01 Comment

ビジネスドメイン(e.g. Stock market price prediction)におけるニューラルネットワークの活用事例をまとめたSurvey。

時系列データの取り扱いなどの参考になるかも。

#Article #InformationRetrieval #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalised Information retrieval: survey and classification, Rami+, User Modeling and User-Adapted Interaction, 2012.05 Comment

（以下は管理人が当時作成したスライドでのメモのスクショ）

完全に途中で力尽きている感

Dataset (74)

#Article #NLP #Education #AIAgents #Evaluation #Financial #Legal
Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #Blog #read-later
Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Evaluation #Blog
Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Survey #NLP #LanguageModel #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #Robotics #4D (Video) #EmbodiedAI #One-Line Notes Issue Date: 2025-11-13 Egocentric-10K, Build AI, 2025.11 Comment

元ポスト:

Loading…

工場での主観視点での作業動画の大規模データセット。Apache 2.0!?

#Article #Pretraining #NLP #LanguageModel #SyntheticData #Reasoning #One-Line Notes Issue Date: 2025-11-12 SYNTH: the new data frontier, pleias, 2025.11 Comment

元ポスト:

Loading…

SoTAなReasoning能力を備えたSLMを学習可能な事前学習用合成データ

元ポスト:

Loading…

#Article #Tutorial #Pretraining #NLP #LanguageModel #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #VisionLanguageModel Issue Date: 2025-10-29 Nemotron-VLM-Dataset-v2, Nvidia, 2025.10 Comment

元ポスト:

Loading…

#Article #Evaluation #SpeechProcessing Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #TabularData #Mathematics #MultiLingual #DataFiltering #One-Line Notes Issue Date: 2025-10-22 FindWiki, Guilherme Penedo, 2025.10 Comment

元ポスト:

Loading…

#Article #NeuralNetwork #MachineLearning #Pocket #Transformer #AIAgents #Evaluation #SoftwareEngineering #GPUKernel Issue Date: 2025-10-22 FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09 Comment

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Article #NLP #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Evaluation #Blog #Mathematics Issue Date: 2025-09-24 HMMT. HMMT 2025, 2025.09 Comment

サイト内部の説明によると、ハーバード、MIT、そして近隣の学校の学生たちによって運営されている世界で最大、かつ最も権威のある高校生向けの国際的な数学のコンペティション、とのこと。

#Article #NLP #MultiLingual #Japanese #Cultural #One-Line Notes Issue Date: 2025-09-24 Nemotron-Personas-Japan: Synthesized Data for Sovereign AI, Nvidia, 2025.09 Comment

dataset: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan

元ポスト:

Loading…

アメリカやインドの合成されたペルソナもある:

Loading…

#Article #ComputerVision #NLP #LanguageModel #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #LanguageModel #Evaluation #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #SyntheticData #Blog Issue Date: 2025-09-13 Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+（HuggingFace）, 2024.03 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

#Article #NLP #LanguageModel #Evaluation #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #NLP #LanguageModel #Evaluation #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #NLP #LanguageModel #Evaluation #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #Tutorial #Blog Issue Date: 2025-09-07 オープンデータセットのライセンスガイド, サナミ, 2024.12 #Article #Pretraining #NLP #LanguageModel #Repository #Selected Papers/Blogs Issue Date: 2025-09-07 FinePDFs, HuggingFaceFW, 2025.09 Comment

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

#Article #ComputerVision #Pocket #NLP #LanguageModel #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #LanguageModel #Evaluation #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #Japanese Issue Date: 2025-09-06 FineWeb2 Edu Japanese, Yuichi Tateno, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #Pretraining #NLP #Blog #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09 Comment

HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision

元ポスト:

Loading…

#Article #AIAgents #Evaluation #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #Pretraining #NLP #LanguageModel Issue Date: 2025-08-25 TxT360, LLM360, 2024.10 #Article #SpeechProcessing #AutomaticSpeechRecognition(ASR) #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment

元ポスト:

Loading…

#Article #ComputerVision #Pretraining #NLP #QuestionAnswering #ImageCaptioning #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #NLP #LanguageModel #Evaluation Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Verification Issue Date: 2025-07-17 Asymmetry of verification and verifier’s law, Jason Wei, 2025.07 Comment

元ポスト:

Loading…

#Article #MachineTranslation #NLP #SyntheticData #Blog Issue Date: 2025-07-09 PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07 #Article #Tutorial #Pretraining #NLP #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #TimeSeriesDataProcessing #MachineLearning #Evaluation Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #NLP #LanguageModel #Evaluation #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #LanguageModel #AIAgents #Evaluation #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-03-21 Sudoku-bench, SakanaAI, 2025.03 GPT Summary- Sudoku-Benchは、CTCで紹介された独自のルールを持つ数独パズルを特徴とし、AI推論モデルの評価に最適なベンチマークです。このリポジトリでは、数独ベンチデータセット、LLM評価用のベースラインコード、SudokuPadツール、推論トレースなどを提供します。 Comment

元ポスト:

Loading…

既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。

#Article #NLP #LanguageModel #AIAgents Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #NLP #LanguageModel #InstructionTuning Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #ComputerVision #NLP #LanguageModel #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #LanguageModel #Evaluation #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Tools #NLP #LanguageModel #Blog #OpenWeight #Japanese Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #Survey #NLP #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #InstructionTuning #SyntheticData #PostTraining Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment

元ポスト:

Loading…

Orca-AgenInstruct-1M microsoft/orca-agentinstruct-1M-v1, Microsoft, 2024.11 よりもSmolLMのSFTで各種ベンチで高い性能を獲得

#Article #MachineTranslation #NLP #Zero/Few/ManyShotPrompting Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #NLP #LanguageModel #AIAgents #Evaluation Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #NLP #LanguageModel #Japanese Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 Comment

LLM-jp-3 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 の学習に利用されているコーパス

#Article #LanguageModel #Repository Issue Date: 2024-08-30 Firecrawl, 2024.09 Comment

sitemapなしでWebサイト全体をクローリングできるAPI。LLMで利用可能なマークダウンや、構造化データに変換もしてくれる模様。

#Article #Pretraining #Pocket #NLP #LanguageModel #InstructionTuning #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #Tutorial #LanguageModel #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #Survey #NaturalLanguageGeneration #NLP #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #MachineLearning #SpeechProcessing Issue Date: 2023-08-16 CommonVoice Comment

音声対応のアプリケーションをトレーニングするために誰でも使用できるオープンソースの多言語音声データセット

#Article #NLP #LanguageModel #DialogueGeneration Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

#Article #RecommenderSystems #NLP #NaturalLanguageUnderstanding Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions GPT Summary- データセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。 #Article #RecommenderSystems #NLP Issue Date: 2023-05-06 SNAP: Web data: Amazon reviews #Article #NLP #InstructionTuning #DataDistillation Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

#Article #Education #AdaptiveLearning #EducationalDataMining #ScorePrediction Issue Date: 2022-08-23 Score Prediction dataset #Article #RecommenderSystems #CTRPrediction Issue Date: 2021-06-01 Criteo Dataset, Display Advertising Challenge, Kaggle, 2014 Comment

Criteo Dataset ( https://www.kaggle.com/c/criteo-display-ad-challenge/data)

DeepFM等のモデルで利用されているCTR Predictionのためのデータセット

# Data Description

- train.csv: 7日間のcriteoのtraffic recordの一部。個々の行が1 impに対応している。click, non-clickのラベル付き。chronologically order. click, non-clickのexampleはデータセットのサイズを縮小するために異なるrateでサブサンプルされている。

- training: trainingデータと同様の作成データだが、trainingデータの翌日のデータで構成されている。

# Data Fields

- Label - Target variable that indicates if an ad was clicked (1) or not (0).

- I1-I13 - A total of 13 columns of integer features (mostly count features).

- C1-C26 - A total of 26 columns of categorical features. The values of these features have been hashed onto 32 bits for anonymization purposes.

13種類のinteger featureと、26種類のcategorical featuresがある。

Avazu Data ( https://www.kaggle.com/c/avazu-ctr-prediction/data)

# File descriptions

- train - Training set. 10 days of click-through data, ordered chronologically. Non-clicks and clicks are subsampled according to different strategies.

- test - Test set. 1 day of ads to for testing your model predictions.

sampleSubmission.csv - Sample submission file in the correct format, corresponds to the All-0.5 Benchmark.

# Data fields

- id: ad identifier

- click: 0/1 for non-click/click

- hour: format is YYMMDDHH, so 14091123 means 23:00 on Sept. 11, 2014 UTC.

- C1 -- anonymized categorical variable

- banner_pos

- site_id

- site_domain

- site_category

- app_id

- app_domain

- app_category

- device_id

- device_ip

- device_model

- device_type

- device_conn_type

- C14-C21 -- anonymized categorical variables

基本的には click/non-click のラベルと、そのclick時の付帯情報によって構成されている模様

#Article #Survey #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #Tutorial #NLP #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #RecommenderSystems #Tutorial #Tools #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

#Article #RecommenderSystems #Blog Issue Date: 2020-08-29 Open Bandit Dataset, ZOZO RESEARCH, 2020 Comment

Open Bandit pipelineも参照
資料: https://speakerdeck.com/usaito/off-policy-evaluationfalseji-chu-toopen-bandit-dataset-and-pipelinefalseshao-jie

#Article #NeuralNetwork #Tools #NLP #LanguageModel #Library #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #RecommenderSystems #Selected Papers/Blogs Issue Date: 2019-04-12 Recommender System Datasets, Julian McAuley Comment

#Article #Tutorial #Survey Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

#Article #DocumentSummarization #NLP #Update Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset, 2006.10 Comment

DUC 2007: https://duc.nist.gov/duc2007/tasks.html

Evaluation (56)

#Article #NLP #Dataset #Education #AIAgents #Financial #Legal
Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #VisionLanguageModel #OCR #One-Line Notes
Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #LongSequence
Issue Date: 2025-11-24 Context Arena, DillonUzar, 2025.04 Comment

元ポスト:

Loading…

関連:

Loading…

#Article #NLP #Dataset #LanguageModel #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #AIAgents #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Tutorial #NLP #LanguageModel #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #Dataset #SpeechProcessing Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NeuralNetwork #MachineLearning #Pocket #Dataset #Transformer #AIAgents #SoftwareEngineering #GPUKernel Issue Date: 2025-10-22 FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #LanguageModel #Blog #Reasoning #LongSequence Issue Date: 2025-10-17 Evaluating Long Context （Reasoning） Ability, wh., 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #OpenWeight Issue Date: 2025-10-12 K2 Vendor Verifier, MoonshotAI, 2025.09 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Robotics #VisionLanguageActionModel Issue Date: 2025-09-29 RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies, Atreya+, 2025.09 Comment

元ポスト:

Loading…

#Article #Dataset #Blog #Mathematics Issue Date: 2025-09-24 HMMT. HMMT 2025, 2025.09 Comment

#Article #ComputerVision #NLP #Dataset #LanguageModel #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #Dataset #LanguageModel #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #NLP #Dataset #LanguageModel #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #NLP #Dataset #LanguageModel #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #ComputerVision #Pocket #NLP #Dataset #LanguageModel #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #Dataset #LanguageModel #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Dataset #AIAgents #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Reasoning Issue Date: 2025-08-31 Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-08-29 Introducing Research-Eval: A Benchmark for Search-Augmented LLMs, Reka, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Coding #Reasoning Issue Date: 2025-08-21 Aider LLM Leaderboards, 2024.12 Comment

データセット: https://github.com/Aider-AI/polyglot-benchmark

#Article #NLP #LanguageModel #OpenWeight #ProprietaryLLM #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08 Comment

元ポスト:

Loading…

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

#Article #Pocket #NLP #LanguageModel Issue Date: 2025-08-14 Concept Poisoning: Probing LLMs without probes, Betley+, 2025.08 Comment

元ポスト:

Loading…

#Article #Tools #NLP #LanguageModel #Blog Issue Date: 2025-08-08 Agent Maze, LlamaIndex, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Blog #Game Issue Date: 2025-08-06 Introducing Kaggle Game Arena, Meg Risdal, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Slide #Japanese #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment

#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #TimeSeriesDataProcessing #MachineLearning #Dataset Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #TimeSeriesDataProcessing #Blog Issue Date: 2025-05-09 時系列データのvalidationに関する質問に回答します, カレーちゃん, 2022.07 Comment

元スレッド:

Loading…

めちゃめちゃ参考になる・・・

#Article #NLP #Dataset #LanguageModel #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #Dataset #LanguageModel #AIAgents #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #ComputerVision #NLP #Dataset #LanguageModel Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #Dataset #LanguageModel #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Survey #NLP #LanguageModel #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Survey #NLP #Dataset #LanguageModel #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #LanguageModel #Coding Issue Date: 2024-11-13 Copilot Arena, CMU and UC Berkeley, 2024.11 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

#Article #NLP #Dataset #LanguageModel #AIAgents Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #Pocket #NLP #LanguageModel #Blog #LLM-as-a-Judge Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Blog #A/B Testing Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

>推薦モデルの良し悪しをより高い確度で評価できる実験を、より簡単に実行できる状態を作ることでした。平たく言えば「いかにA/Bテストしやすい推薦システムを設計するか」が最も重要だった訳です。

オフライン評価とオンライン評価の相関がない系の話で、A/Bテストを容易に実施できる環境になかった、かつCTRが実際に向上したモデルがオフライン評価での性能が現行モデルよりも悪く、意思決定がなかなかできなかった、という話。

うーんやはり、推薦におけるオフライン評価ってあまりあてにできないよね、、、
そもそも新たなモデルをデプロイした時点で、テストした時とデータの分布が変わるわけだし、、、

Off-Policy Evaluationの話は勉強したい。

あと、定性評価は重要

#Article #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tutorial #Dataset #LanguageModel Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #Tools #NLP #LanguageModel #Library #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #NLP #LanguageModel #Blog Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） Comment

JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボードなどもある

#Article #NLP #LanguageModel Issue Date: 2023-10-02 Nejumi LLMリーダーボード Comment

JGLUEを使ったLLMの日本語タスクベンチマーク

v4が公開:
https://wandb.ai/llm-leaderboard/nejumi-leaderboard4/reports/Nejumi-LLM-4--VmlldzoxMzc1OTk1MA

元ポスト:

Loading…

#Article #NLP #LanguageModel Issue Date: 2023-09-30 LLM-as-a-judge #Article #DocumentSummarization #Metrics #NLP #Reference-based Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。 #Article #NLP #LanguageModel #Explanation Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations GPT Summary- 本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Blog #Reasoning Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05 #Article #Tutorial #NLP #Dataset #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

Supervised-FineTuning (SFT) (40)

#Article #ComputerVision #NLP #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #OCR #One-Line Notes
Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #ReinforcementLearning #ChatGPT #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache
Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment

元ポスト:

Loading…

新たなスピードランが...!!

#Article #MachineLearning #Blog #PEFT(Adaptor/LoRA) #SoftwareEngineering #KeyPoint Notes
Issue Date: 2025-10-06 Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10 Comment

2023年当時のFinetuningの設計について概観した後、TinkerのAPIの設計について説明。そのAPIの設計のstepごとにTinker側にデータを送るという設計について、一見すると課題があることを指摘（step単位の学習で数百msの通信オーバヘッドが生じて、その間Tinker側のGPUは待機状態になるため最大限GPUリソースを活用できない。これは設計ミスなのでは・・・？という仮説が成り立つという話）。が、仮にそうだとしても、実はよくよく考えるとその課題は克服する方法あるよ、それを克服するためにLoRAのみをサポートしているのもうなずけるよ、みたいな話である。

解決方法の提案（というより理論）として、マルチテナントを前提に特定ユーザがGPUを占有するのではなく、複数ユーザで共有するのではないか、LoRAはadapterの着脱のオーバヘッドは非常に小さいのでマルチテナントにしても（誰かのデータの勾配計算が終わったらLoRAアダプタを差し替えて別のデータの勾配計算をする、といったことを繰り返せば良いので待機時間はかなり小さくなるはずで、）GPUが遊ぶ時間が生じないのでリソースをTinker側は最大限に活用できるのではないか、といった考察をしている。

ブログの筆者は2023年ごろにFinetuningができるサービスを展開したが、データの準備をユーザにゆだねてしまったがために成功できなかった旨を述べている。このような知見を共有してくれるのは大変ありがたいことである。

#Article #Tutorial #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #ReinforcementLearning #OpenWeight #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

#Article #Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #OpenWeight #OpenSource #GRPO #read-later #RLVR #Selected Papers/Blogs Issue Date: 2025-09-10 [Paper Note] K2-Think: A Parameter-Efficient Reasoning System, Institute of Foundation Models, Mohamed bin Zayed University of Artificial Intelligence, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Dataset #LanguageModel #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #Unsupervised #NLP #LanguageModel Issue Date: 2025-06-12 [Paper Note] Unsupervised Elicitation of Language Models, Wen+, Anthropic, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #Library #Blog #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-05-11 ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #Reasoning #SmallModel #OpenWeight #GRPO Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment

元ポスト:

Loading…

こちらの解説が非常によくまとまっている:

Loading…

が、元ポストでもテクニカルペーパー中でもo3-miniのreasoning traceをSFTに利用してCoTの能力を強化した旨が記述されているが、これはOpenAIの利用規約に違反しているのでは…？

#Article #NLP #LanguageModel #Alignment #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #NLP #LanguageModel #Alignment #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

#Article #ComputerVision #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

#Article #NLP #LanguageModel #Slide Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning：PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment

#Article #Pretraining #MachineLearning #LanguageModel Issue Date: 2025-03-04 The Ultra-Scale Playbook: Training LLMs on GPU Clusters, HuggingFace, 2025.02 Comment

HuggingFaceによる数1000のGPUを用いたAIモデルのトレーニングに関するオープンソースのテキスト

#Article #NLP #LanguageModel #ReinforcementLearning #Blog #GRPO Issue Date: 2025-02-19 強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning Issue Date: 2025-02-07 Unsloth で独自の R1 Reasoningモデルを学習, npaka, 2025.02 Comment

非常に実用的で参考になる。特にどの程度のVRAMでどの程度の規模感のモデルを使うことが推奨されるのかが明言されていて参考になる。

#Article #NLP #LanguageModel #FoundationModel #RLHF #Blog #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#Article #NLP #Dataset #LanguageModel #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #NLP #LanguageModel #Blog #PostTraining Issue Date: 2025-01-25 How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12 Comment

SFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。

#Article #NLP #LanguageModel #Alignment #Blog #DPO #PostTraining Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #LanguageModel #Alignment #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Tutorial #Pretraining #Pocket #NLP #LanguageModel #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article #Pretraining #NLP #LanguageModel #AES(AutomatedEssayScoring) Issue Date: 2024-11-28 Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring, Funayama+, 2024.09 GPT Summary- 自動短答スコアリング（SAS）では、異なるルーブリックと参照回答に基づいてスコアを付けるが、新しいプロンプトごとにモデルを再訓練する必要がありコストがかかる。本研究では、既存のルーブリックと回答を用いて新しいプロンプトでファインチューニングする二段階アプローチを提案。重要なフレーズを学習することで、特に訓練データが限られている場合にスコアリング精度を向上させることを実験で示した。 Comment

[Perplexity(hallucinationに注意)]( https://www.perplexity.ai/search/tian-fu-sitalun-wen-wodu-mi-ne-3_TrRyxTQJ.2Bm2fJLqvTQ#0)

#Article #NLP #Dataset #LanguageModel #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #EfficiencyImprovement #Pretraining #NLP #One-Line Notes #Reference Collection Issue Date: 2024-11-07 ZeRO: DeepSpeedの紹介, レトリバ, 2021.07 Comment

ZeROの説明がわかりやすい

こちらの記事もわかりやすい

https://zenn.dev/turing_motors/articles/d00c46a79dc976

DeepSpeedのコンフィグの一覧

https://www.deepspeed.ai/docs/config-json/

transformersにおけるdeepspeedのドキュメント:
https://huggingface.co/transformers/v4.9.2/main_classes/deepspeed.html

参考: deepspeedの使い方まとめ
https://note.com/fukudawataru/n/n5152e6f587c8

結論: つまづいたらDeepSpeedのIssueをエラーメッセージで検索かけるのが一番効果的

#Article #EfficiencyImprovement #NLP #LanguageModel #InstructionTuning Issue Date: 2024-10-08 Unsloth Comment

single-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ

#Article #EfficiencyImprovement #NLP #LanguageModel #Repository Issue Date: 2024-08-25 Liger-Kernel, 2024.08 Comment

LLMを学習する時に、ワンライン追加するだけで、マルチGPUトレーニングのスループットを20%改善し、メモリ使用量を60%削減するらしい

元ツイート:

Loading…

これだけでいい

#Article #Pretraining #Blog Issue Date: 2024-04-26 The End of Finetuning — with Jeremy Howard of Fast.ai, 2023.11 #Article #Tutorial #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #NLP #LanguageModel #Library #Repository Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment

簡単に利用できるLLaMAのfinetuning frameworkとのこと。
元ツイート:

Loading…

LLaMAベースなモデルなら色々対応している模様

#Article #EfficiencyImprovement #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2023-10-29 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討, PFN Blog, 2023.10 Comment

#Article #Tutorial #NLP #LanguageModel Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

#Article #EfficiencyImprovement #NLP #LanguageModel #Quantization #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-07-22 LLaMA2を3行で訓練 Comment

LLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法

#Article #MachineLearning #Tools #LanguageModel #Blog #Repository Issue Date: 2023-07-11 Auto train advanced Comment

Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。

#Article #MachineLearning #Tools #LanguageModel #FoundationModel Issue Date: 2023-06-26 LM Flow Comment

Loading…

#Article #Pretraining #Pocket #LanguageModel #ReinforcementLearning #Chain-of-Thought #Evaluation #Blog #Reasoning Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05 #Article #NeuralNetwork #EfficiencyImprovement #NLP #LanguageModel #PEFT(Adaptor/LoRA) #Slide #PostTraining #Selected Papers/Blogs Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Comment

huggingfaceがすでにLoRAを実装している
https://github.com/huggingface/peft

#Article #NLP #LanguageModel Issue Date: 2023-03-30 Publicly available instruction-tuned models

GenerativeAI (35)

#Article #Conversation #read-later #Selected Papers/Blogs
Issue Date: 2025-11-26 Estimating AI productivity gains from Claude conversations, Anthropic, 2025.11 Comment

元ポスト:

Loading…

うーん気になる！

#Article #NLP #AIAgents #Blog #One-Line Notes
Issue Date: 2025-11-25 Stanford Agentic Reviewer, Stanford University, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #ProprietaryLLM #Selected Papers/Blogs #2D (Image)
Issue Date: 2025-11-21 Introducing Nano Banana Pro, Google, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

#Article #LanguageModel #AIAgents #Blog #ProprietaryLLM #SoftwareEngineering Issue Date: 2025-11-19 Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

#Article #NLP #LanguageModel #Blog #ProprietaryLLM #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-11-19 Gemini 3 による知性の新時代, Google, 2025.11 Comment

所見:

Loading…

GPT5.1に対して各種ベンチマークで上回る性能。

所見:

Loading…

Oriol Vinyals氏のコメント:

Loading…

LiveCodeBench ProでもSoTA:

Loading…

Gemini Pro 3 Developer Guide:
https://ai.google.dev/gemini-api/docs/gemini-3?hl=ja

元ポスト:

Loading…

GAIA Verified （Browser Use?)でもSoTA:

Loading…

所見:

Loading…

content window,pricingなどの情報:

Loading…

一般的なユースケースでのBest Practice:

Loading…

パラメータ数に関する考察:

Loading…

韓国語でのベンチマークに関するポスト:

Loading…

自身のハーネス、ユースケース、タスクではうまくいかなかったよという話（でもただのサンプル数1だよ、という話が記載されている）:

Loading…

結局のところベンチマークはあくまで参考程度であり、自分たちのタスク、データセットで性能を測らねばわからない。

Artificial Intelligenceによる評価:

Loading…

MCP Universeでtop:

Loading…

- [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25

Live SWE Agentと呼ばれるself-evolvingな枠組みを採用した場合（＝scaffoldをbashのみから自己進化させる）のSWE Bench Vevifiedにやる評価でもSoTA:

Loading…

ハーネスについてはこちらを読むと良さそう:
- [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05

EpochAIによる評価:

Loading…

ECIでtop。ECIは39のベンチマークから算出されるスコア、らしい。

Scale AIのVisual Tool BenchでもSoTA:

Loading…

- Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10

CriPtと呼ばれるベンチマークにおける評価でもSoTA:

Loading…

- [Paper Note] Probing the Critical Point (CritPt) of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09

Loading…

IQ130らしい（果たして）:

Loading…

GPQA DiamondでSoTA:

Loading…

#Article #Blog Issue Date: 2025-11-19 AI in Practice Survey 2025, Theory Ventures, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #ProprietaryLLM #Selected Papers/Blogs Issue Date: 2025-11-18 Grok 4.1, xAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #text #AI Detector Issue Date: 2025-11-16 Third-Party Pangram Evaluations, Pangram., Destiny Akinode, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-11-12 Mapping the AI Supply Chain, Cen+, Stanford University, 2025.11 Comment

元ポスト:

Loading…

#Article #DocumentSummarization #NLP #LanguageModel #Blog #Science Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

#Article #Blog #read-later Issue Date: 2025-11-10 AI progress and recommendations, OpenAI, 2025.11 Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Health Issue Date: 2025-10-28 How we are building the personal health coach, Patel+, 2025.10 Comment

元ポスト:

Loading…

fitbitユーザなので普通に気になる

#Article #NLP #Blog #Financial #ProprietaryLLM Issue Date: 2025-10-28 Advancing Claude for Financial Services, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #ChatGPT #Blog Issue Date: 2025-10-23 Introducing ChatGPT Atlas, OpenAI, 2025.10 Comment

元ポスト:

Loading…

ブラウザのサイドバーでchatgptにサイトに関して質問できたり、agenticな使い方もできる模様？

#Article #NLP #AIAgents #Coding #Video #SoftwareEngineering #One-Line Notes Issue Date: 2025-10-12 Shipping with Codex, OpenAI, 2025.10 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

#Article #Survey #LanguageModel #Blog #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Blog Issue Date: 2025-10-03 The browser that works for you, Perplexity, 2025.10 Comment

めちゃ使いたい

元ポスト:

Loading…

#Article #MachineLearning #LanguageModel #Infrastructure #Slide #read-later #One-Line Notes Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment

元ポスト:

Loading…

#Article Issue Date: 2025-09-08 style-bert-vits2-Anneli, kaunista, 2025.09 Comment

元ポスト:

Loading…

AivisSpeechと呼ばれる音声合成AIがデフォルトモデルとしていたモデルが非公開となり、その経緯が詳細に記載されている。

#Article #Blog #Coding Issue Date: 2025-09-07 Writing Code Was Never The Bottleneck, ordep.dev, 2025.06 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-01-06 Japan as an international hub for AI, Jerry Chi and Ilya Kulyatin, 2025.01 #Article #Pocket #NLP #Blog Issue Date: 2025-01-03 Things we learned about LLMs in 2024, Simon Willson's blog, 2024.12 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog Issue Date: 2024-12-24 OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment

#Article #Repository Issue Date: 2024-12-20 Genesis, Genesis-Embodied-AI, 2024.12 Comment

新たな物理AIエンジン。デモ動画がすごい
https://genesis-embodied-ai.github.io

参考: https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_wtf-new-open-source-physics-ai-engine-absolutely-activity-7275404749858865152-Iprb?utm_source=share&utm_medium=member_ios

#Article #Tutorial #Repository Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 Comment

Google Cloudで生成AI（Gemini+Vertex AI）を動かすためのサンプルコード集

元ポスト:

Loading…

#Article #ComputerVision #OpenWeight Issue Date: 2024-10-05 MovieGen, Meta, 2024.10 #Article #Survey #Blog Issue Date: 2024-10-01 生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所先端技術ラボ, 2024.09 Comment

#Article #Pocket #NLP #QuestionAnswering #AIAgents #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #LanguageModel #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

#Article #ComputerVision #NLP #MultiModal Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Comment

デモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。

FF14の赤魔導士に変えたら、それっぽいの出てきた

#Article #Blog Issue Date: 2023-11-17 生成系 AI でプロダクトの価値を高めるには, 2023 Comment

AWS久保さんの資料。後で読む

#Article #Tutorial #NLP #LanguageModel #Alignment #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #Blog #Game Issue Date: 2023-07-11 Open Source AI Game Jam, 2023 Comment

GenerativeAIを使ってゲームを作る取り組み

#Article #RecommenderSystems #Survey Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment

Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ

#Article #Tools #Blog #Coding Issue Date: 2023-01-21 CodeGPT: The VSCode Extension with ChatGPT-Like Functionalities Comment

VSCodeの拡張で、//から始まるPromptをエディタ上で記載することで対応するコードをGPT3が生成してくれる模様。便利そう

DocumentSummarization (33)

#Article #NLP #LanguageModel #GenerativeAI #Blog #Science
Issue Date: 2025-11-12 Project AELLA: Custom LLMs to process 100 Million Research Papers, ssam Hogan, 2025.11 Comment

100M+の論文に対してAIによる要約を作成し構造化した上でvisualizeすることでよりscientificな情報へのアクセシビリティを高めたい、という話に見える

#Article #InformationRetrieval #NLP #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #Metrics #NLP #Evaluation #Reference-based
Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。

#Article #NeuralNetwork #NaturalLanguageGeneration #NLP #ACL Issue Date: 2021-06-03 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL’16 Comment

解説資料: http://www.lr.pi.titech.ac.jp/~sasano/acl2016suzukake/slides/08.pdf

#Article #NeuralNetwork #NaturalLanguageGeneration #NLP #ACL Issue Date: 2021-06-02 Pointing the Unknown Words, Gulcehre+, ACL’16 Comment

解説スライド: https://www.slideshare.net/hytae/pointing-the-unknown-words

#Article #Document #NLP #Extractive Issue Date: 2018-01-17 [Paper Note] Machine-made index for technical literature: an experiment, IBM Journal of Research and Development, 1958 Comment

初期の要約研究。Luhnらの研究よりはcitation countが少ない。

#Article #NLP #Alignment #SIGIR #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99 Comment

参照要約 - 原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。

outputはこんな感じ。

#Article #NLP #Alignment #SIGIR Issue Date: 2018-01-11 [Paper Note] The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment

#Article #Multi #Single #Document #Unsupervised #GraphBased #NLP #Extractive #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] LexRank: Graph-based Lexical Centrality as Salience in Text Summarization, Erkan+, Journal of Artificial Intelligence Research, 2004 Comment

#Article #Document #Classic #NLP Issue Date: 2018-01-01 [Paper Note] The automatic creation of literature abstracts, Luhn, IBM Journal of Research Development, 1958 Comment

文書要約研究初期の研究

#Article #Document #StructuredLearning #DomainAdaptation #Supervised #NLP #Extractive Issue Date: 2017-12-31 [Paper Note] 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011.11 Comment

構造学習を利用した文書要約モデル

[Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 なども利用し転移学習を行なっている。

#Article #Supervised #NLP Issue Date: 2017-12-31 [Paper Note] Text Summarization using a trainable summarizer and latent semantic analysis, Yeh+, Information Processing and Management 2005.01 #Article #Survey #NLP Issue Date: 2017-12-31 A survey on Automatic Text Summarization, Das+, 2007.11 #Article #NLP #Snippets #SIGIR Issue Date: 2017-12-28 [Paper Note] Web page summarization using clickthrough data, Sun et al., SIGIR’05, 2005.08 #Article #NLP #Snippets #QueryBiased #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Learning query-biased web page summarization, Wang et al., CIKM’07, 2007.11 Comment

#Article #NLP #Snippets #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Enhanced web document summarization using hyperlinks, Delort et al., HT’03, 2003.08 Comment

#Article #InformationRetrieval #NLP #RelevanceJudgment #Snippets #QueryBiased #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003.09 Comment

#Article #NLP #Update #Dataset Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset, 2006.10 Comment

DUC 2007: https://duc.nist.gov/duc2007/tasks.html

#Article #NLP #Update #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Update Summary Update, Copeck et al., TAC’08 Comment

被引用数は少ないが、良い論文からreferされているイメージ

#Article #NLP #Update #EACL #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] DualSum: a Topic-Model based approach for update summarization, Delort et al., EACL’12 Comment

#Article #NLP #Update #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Document Update Summarization Using Incremental Hierarchical Clustering, Wang+, CIKM’10 Comment

#Article #NLP #Update #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Incremental Update Summarization: Adaptive Sentence Selection based on Prevalence and Novelty, McCreadie et al., CIKM’14 Comment

#Article #NLP #Update #CIKM #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Update Summarization using Semi-Supervised Learning Based on Hellinger Distance, Wang et al., CIKM’15, 2015.10 Comment

#Article #NLP #Update #SIGIR #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] TimedTextRank: Adding the Temporal Dimension to Multi-Document Summarization, Xiaojun Wan, SIGIR’07, 2007.07 Comment

#Article #NLP #Update #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] The LIA Update Summarization Systems at TAC-2008, Boudin et al. TAC’08, 2008.11 Comment

#Article #NLP #Update #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization, Boudin et al., COLING’08, 2008.08 Comment

#Article #NLP #IntegerLinearProgramming (ILP) #Update #NAACL #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Improving Update Summarization via Supervised ILP and Sentence Reranking, Li et al. NAACL’15, 2015.05 Comment

#Article #NLP #Update #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Update Summarization Based on Co-Ranking with Constraints, Wiaojun Wan, COLING’12, 2012.12 Comment

#Article #Single #PersonalizedDocumentSummarization #NLP #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Segmentation Based, Personalized Web Page Summarization Model, [Journal of advances in information technology, vol. 3, no.3, 2012], 2012.08 Comment

#Article #PersonalizedDocumentSummarization #NLP #Personalization #ACL #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Automatic Text Summarization based on the Global Document Annotation, Nagao+, COLING-ACL;98, 1998.08 Comment

#Article #PersonalizedDocumentSummarization #NLP #Personalization #NAACL #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A Study for Documents Summarization based on Personal Annotation, Zhang+, HLT-NAACL-DUC’03, 2003.05 Comment

（過去に管理人が作成したスライドでの論文メモのスクショ）

重要論文だと思われる。

#Article #GraphBased #Comments #NLP #Extractive #SIGIR #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07 Comment

https://dl.acm.org/citation.cfm?id=1390385

#Article #PersonalizedDocumentSummarization #RecommenderSystems #Personalization #Selected Papers/Blogs #One-Line Notes Issue Date: 2017-12-28 [Paper Note] User-model based personalized summarization, Diaz+, Information Processing and Management 2007.11 Comment

PDSの先駆けとなった重要論文。必ずreferすべき。

RAG(RetrievalAugmentedGeneration) (29)

#Article #Blog #SoftwareEngineering
Issue Date: 2025-10-23 Production RAG: what I learned from processing 5M+ documents, Abdellatif Abdelfattah, 2025.10 Comment

元ポスト:

Loading…

関連:
- zerank-1, zeroentropy, 2025.07

#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #Pruning #Blog #SoftwareEngineering #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #MachineTranslation #NLP #LanguageModel #AIAgents #Mathematics #SmallModel #OpenWeight #Japanese #DocParser
Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #AWS #Blog #SoftwareEngineering Issue Date: 2025-07-17 Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Library #AIAgents Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 Comment

Llamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。

#Article #Tutorial #InformationRetrieval #NLP #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 Comment

元ポスト:

Loading…

#Article #InformationRetrieval #Pocket #Blog Issue Date: 2024-12-01 BM42: New Baseline for Hybrid Search, Qdrant, 2024.07 #Article #Tutorial #InformationRetrieval #NLP Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #InformationRetrieval #Pocket #NLP #LanguageModel #Blog Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #Pocket #NLP #QuestionAnswering #AIAgents #GenerativeAI #Repository Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment

元ポスト:

Loading…

#Article #Embeddings #InformationRetrieval #NLP #Blog Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Comment

#Article #Repository Issue Date: 2024-08-29 kotaemon, 2024.05 Comment

RAGのための美しいユーザと開発者向けのUI。カスタマイズも可能らしい

#Article #InformationRetrieval #Pocket #NLP #LanguageModel #Blog Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #NLP #LanguageModel #LongSequence Issue Date: 2024-07-03 RetrievaBERTの公開, 2024 Comment

#Article #Tutorial #Survey #InformationRetrieval #NLP #LanguageModel #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #InformationRetrieval #NLP #LanguageModel Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Comment

めちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。

#Article #QuestionAnswering Issue Date: 2024-01-16 日本語WikipediaQAデータセット（Retrievalプロセス付き） #Article Issue Date: 2023-12-23 GPTsより精度の高いRAGシステムの構築 #Article #InformationRetrieval #NLP #Blog Issue Date: 2023-12-21 Structured Hierarchical Retrieval, llama-index Comment

元ツイート:

Loading…

#Article #InformationRetrieval #Blog Issue Date: 2023-12-21 Build a search engine, not a vector DB #Article #InformationRetrieval #NLP #LanguageModel #Blog Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment

実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用

#Article #Tutorial #Blog Issue Date: 2023-11-22 Deconstructing RAG Comment

RAGにおける様々な戦略がまとまっている（リンク付き

#Article #NLP #LanguageModel #Evaluation #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #NLP #Blog Issue Date: 2023-11-15 ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました, 2023 Comment

#Article #Pocket #Blog Issue Date: 2023-11-13 Boosting RAG: Picking the Best Embedding & Reranker models #Article #Tutorial #InformationRetrieval #NLP #LanguageModel Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #Tools #NLP #LanguageModel #Library #Evaluation #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #Tools #NLP #LanguageModel #Library #Blog Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment

Analysis (23)

#Article #NLP #LanguageModel #ReinforcementLearning #Safety #RewardHacking #PostTraining #read-later #Selected Papers/Blogs #KeyPoint Notes
Issue Date: 2025-11-22 From shortcuts to sabotage: natural emergent misalignment from reward hacking, Anthropic, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #ICLR #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-11-15 ICLR 2026 - Submissions, Pangram Labs, 2025.11 Comment

元ポスト:

Loading…

ICLR'26のsubmissionとreviewに対してLLMが生成したものが否かをDetectionした結果（検出性能は完璧な結果ではない点に注意）

この辺の議論が興味深い:

Loading…

関連:

Loading…

oh...

パイプライン解説:

Loading…

母国語でレビューを書いて英語に翻訳している場合もAI判定される場合があるよという話:

Loading…

ICLR公式が対応検討中とのこと:

Loading…

ICLRからの続報:

Loading…

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #LanguageModel #Blog #OpenWeight Issue Date: 2025-11-01 Open-weight models lag state-of-the-art by around 3 months on average, EPOCH AI, 2025.10 Comment

タイトルの通りな模様

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Selected Papers/Blogs Issue Date: 2025-10-31 Emergent Introspective Awareness in Large Language Models, Jack Lindsey, Anthropic, 2025.10 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

#Article #Pocket #NLP #LanguageModel #Geometric Issue Date: 2025-10-22 When Models Manipulate Manifolds: The Geometry of a Counting Task, Gurnee+, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #NLP #ReinforcementLearning #Repository #Mathematics #Scaling Laws #read-later #reading #One-Line Notes Issue Date: 2025-10-11 RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10 Comment

元ポスト:

Loading…

AI2のResearcherからの所見:

Loading…

元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀

RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

#Article #Pretraining #NLP #LanguageModel #DiffusionModel Issue Date: 2025-10-04 Diffusion Language Models are Super Data Learners, Ni+, 2025.10 Comment

元ポスト:

Loading…

#Article #ReinforcementLearning #Blog #read-later Issue Date: 2025-10-03 Information Bandwidth in Reinforcement Learning Understanding Sample Efficiency Through Signal Density, Yingru Li, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #ChatGPT #Blog #PostTraining Issue Date: 2025-09-29 Why GPT-5 used less training compute than GPT-4.5 （but GPT-6 probably won’t）, EPOCH AI, 2025.09 Comment

元ポスト:

Loading…

#Article #MachineLearning #NLP #LanguageModel #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

#Article #NLP #Attention #Blog Issue Date: 2025-09-26 様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析, ABEJA Tech Blog, 2025.09 Comment

元ポスト:

Loading…

以下の研究を参考に分析している:
- [Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02

RoPEは以下:
- RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N/A, Neurocomputing, 2024

#Article #ComputerVision #Blog #Backbone Issue Date: 2025-09-13 画像モデルのバックボーンとして最初に何を選ぶべきか？, ちくわぶ, 2025.09 Comment

こちらの論文を参考にしている:
- [Paper Note] Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks, Micah Goldblum+, NeurIPS'23

Backbone選定の際は参照のこと。2024年以後のモデルは含まれていない点に注意。

#Article #NLP #LanguageModel #ReinforcementLearning #Blog #Composition #read-later #Selected Papers/Blogs Issue Date: 2025-09-06 From f（x） and g（x） to f（g（x））: LLMs Learn New Skills in RL by Composing Old Ones, Yuan+, 2025.09 Comment

元ポスト:

Loading…

この辺のICLの話と似ている
- What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N/A, ACL'24

#Article #MachineLearning #Pocket #DiffusionModel Issue Date: 2025-09-05 Speed-Accuracy Relations for Diffusion Models: Wisdom from Nonequilibrium Thermodynamics and Optimal Transport, Ikeda+, Physical Review X, 2025 #Article #NLP #LanguageModel #ReinforcementLearning #Blog #read-later Issue Date: 2025-08-12 ProRL V2 - Prolonged Training Validates RL Scaling Laws, Hu+, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Blog #Tokenizer #Finetuning #Encoder Issue Date: 2025-08-02 日本語ModernBERTの開発: トークナイザと性能の関係編（3_3）, SBIntuitions, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Mathematics #SmallModel #RLVR Issue Date: 2025-05-27 Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05 Comment

元ポスト:

Loading…

参考（考察）:

Loading…

参考（考察）:

Loading…

こちらでもQwen2.5 MATH 7b を用いて検証しているが、コンタミネーションの問題が仮に本当だとしたら、どう影響するだろうか。スレッド中のグラフもMATH500（Qwen2.5においてコンタミの可能性がある）の性能を示している。

#Article #NLP #Library #AIAgents #Blog Issue Date: 2025-05-06 Agent Frameworkはどれを使うべきか [タスク性能編], はち, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Selected Papers/Blogs Issue Date: 2025-03-25 言語モデルの物理学, 佐藤竜馬, 2025.03 Comment

必読

#Article #LanguageModel #OpenWeight #Slide #Japanese Issue Date: 2024-09-03 LLMに日本語テキストを学習させる意義, Koshiro Saito+, 第261回自然言語処理研究発表会, 2024.08 Comment

#Article #MachineLearning #Transformer #Blog Issue Date: 2023-10-29 大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査 Comment

タイトルの通り、知識がFFNに蓄積されていると主張しているらしい原論文を読み解いている。まとめを引用すると

> 「知識は全結合層に蓄積される」という表現は､ややラジカルで､
少なくともこの論文では「全結合層は知識獲得において重要」という程度
の､もう少しマイルドな主張をしているように見受けられました｡

とのこと。

#Article #NLP #Prompting #Blog #AutomaticPromptEngineering Issue Date: 2023-10-13 日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10 Comment

FoundationModel (17)

#Article #ComputerVision #Blog #read-later #Selected Papers/Blogs #3D Reconstruction #3D (Scene)
Issue Date: 2025-11-20 Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

#Article #ComputerVision #ImageSegmentation #Blog #read-later #Selected Papers/Blogs #2D (Image) #4D (Video)
Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

#Article #ComputerVision #Transformer #Medical
Issue Date: 2025-11-15 How to Train a State-of-the-Art Pathology Foundation Model with $1.6k, Kaplan+, 2025.11 GPT Summary- OpenMidnightは、Midnight病理基盤モデルを再現・改善したもので、12,000枚の全スライド画像を用いて$1.6Kでトレーニングし、複数のベンチマークで最先端の性能を達成。大規模データなしでもトップパフォーマンスが可能であり、トレーニングパイプライン、コード、モデルの重みを公開して研究を促進する。 Comment

HF: https://huggingface.co/SophontAI/OpenMidnight

元ポストより

> The surprising performance of our model points to the challenges of the pathology FM space.
> Performance doesn't seem to scale with compute or dataset size, and for some benchmarks, really simple baselines perform shockingly well.

> In our mind, this indicates both that current models aren't being trained efficiently, and that the current benchmarks are poor.

まだデータセットサイズや計算量に応じてスケールしているようには見えず、現在のモデルが効率的に学習ができてとらず、かつ現在のベンチマークがモデルの性能を適切に測れていないのでは、といった話が記述されている。興味深い。

#Article #ComputerVision #NLP #OpenWeight #2D (Image) Issue Date: 2025-11-06 OlmoEarth-v1-Large, Ai2, 2025.11 Comment

元ポスト:

Loading…

衛星画像で学習されたモデルらしい

#Article #Blog #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-27 RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09 Comment

元ポスト:

Loading…

ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい

code: https://github.com/thu-ml/RDT2

#Article #NLP #LanguageModel #Blog #OpenWeight Issue Date: 2025-09-26 Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07 Comment

元ポスト:

Loading…

#Article #Pocket #StructuredData Issue Date: 2025-09-02 LimiX: Unleashing the modeling power of structured data, LimiX team （Stability AI & Tsinghua University）, 2025.09 Comment

元ポスト:

Loading…

large structured-data model (LDM)と呼ばれる構造化データに対する基盤モデルな模様

#Article #ComputerVision #OpenWeight #Video Issue Date: 2025-06-12 V-JEPA 2, Meta, 2025.06 Comment

元ポスト:

Loading…

Physical Reasoning Leaderboardなるもので現在トップな模様。

https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard

#Article #TimeSeriesDataProcessing #MachineLearning #Transformer #OpenWeight Issue Date: 2025-05-25 Datadog_Toto-Open-Base-1.0, Datadog, 2025.05 Comment

元ポスト:

Loading…

（あとでコメント追記する

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #RLHF #Blog #Selected Papers/Blogs Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment

- DeepSeek-R1, DeepSeek, 2025.01
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24

とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。

#Article #ComputerVision #NLP #LanguageModel #MultiModal #MultiLingual Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

Loading…

#Article #LanguageModel Issue Date: 2023-12-19 TokyoTechLLM Comment

Llama2の日本語性能を継続事前学習で引き上げたLLM。2023年12月時点の日本語オープンソースLLMの中で最高性能とのこと。

参考:
ELYZA-tasks-100 でLLM14個の日本語性能を横断評価してみた

#Article #EfficiencyImprovement #NLP #LanguageModel #MultiModal #Blog Issue Date: 2023-11-01 tsuzumi, NTT’23 Comment

#Article #ComputerVision #InductiveBias Issue Date: 2023-07-12 Objaverse-XL: A Universe of 10M+ 3D Objects Comment

10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。

Loading…

たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。

#Article #MachineLearning #Tools #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-06-26 LM Flow Comment

Loading…

#Article #NLP #LanguageModel #Library #Repository Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment

150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。

#Article #NaturalLanguageGeneration #NLP #LanguageModel #Blog #Coding Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

PersonalizedDocumentSummarization (13)

#Article
Issue Date: 2024-05-30 The Identification of Important Concepts in Highly Structured Technical Papers, Paice+, 1993 #Article #NLP
Issue Date: 2024-05-30 Using and Evaluating User Directed Summaries to Improve Information Access #Article #Pocket #NLP #Personalization
Issue Date: 2023-05-05 Personalized news filtering and summarization on the web, Xindong+, 2011 IEEE 23rd International Conference on Tools with Artificial Intelligence, 29 Comment

summarizationではなく、keyword extractionの話だった

#Article #NLP #Personalization #review Issue Date: 2023-05-05 Personalized summarization of customer reviews based on user’s browsing history, Zehra+, International Journal on Computer Science and Information Systems 8.2, 12 #Article #NLP #Education #Personalization Issue Date: 2023-05-05 Towards personalized summaries in spanish based on learning styles theory, Uriel+, Res. Comput. Sci. 148.5, 1 #Article #Pocket #NLP #Education #Personalization Issue Date: 2023-05-05 Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model, Guangbing+, IEEE Fourth International Conference on Technology for Education, 2012, 22 #Article #NLP #Personalization Issue Date: 2023-05-05 Personalized text summarization based on important terms identification, Robert+, 23rd International Workshop on Database and Expert Systems Applications, 2012, 43 Comment

#Article #Pocket #NLP Issue Date: 2023-04-30 Personalized Extractive Summarization for a News Dialogue System, Takatsu+, SLT, 2021, 4 #Article #NLP Issue Date: 2023-04-07 User-centred versus system-centred evaluation of a personalization system, Diaz+, Information Processing & management, 2008 Comment

#Article #Single #DocumentSummarization #NLP #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Segmentation Based, Personalized Web Page Summarization Model, [Journal of advances in information technology, vol. 3, no.3, 2012], 2012.08 Comment

#Article #DocumentSummarization #NLP #Personalization #ACL #COLING #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Automatic Text Summarization based on the Global Document Annotation, Nagao+, COLING-ACL;98, 1998.08 Comment

#Article #DocumentSummarization #NLP #Personalization #NAACL #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A Study for Documents Summarization based on Personal Annotation, Zhang+, HLT-NAACL-DUC’03, 2003.05 Comment

（過去に管理人が作成したスライドでの論文メモのスクショ）

重要論文だと思われる。

#Article #DocumentSummarization #RecommenderSystems #Personalization #Selected Papers/Blogs #One-Line Notes Issue Date: 2017-12-28 [Paper Note] User-model based personalized summarization, Diaz+, Information Processing and Management 2007.11 Comment

PDSの先駆けとなった重要論文。必ずreferすべき。

Alignment (13)

#Article #NLP #LanguageModel #Japanese #RewardModel
Issue Date: 2025-08-18 ca-reward-3b-ja, cyberagent, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining
Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight
Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Blog #DPO #PostTraining Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Pocket #Blog Issue Date: 2024-12-19 Alignment faking in large language models, Anthropic, 2024.12 Comment

https://assets.anthropic.com/m/983c85a201a962f/original/Alignment-Faking-in-Large-Language-Models-full-paper.pdf

#Article #NLP #LanguageModel #Slide Issue Date: 2024-12-19 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization （NeurIPS 2024） , 2024.12 Comment

- RLHF/DPO 小話, 和地瞭良/ Akifumi Wachi, 2024.04

も参照のこと。

#Article #MachineLearning #NLP #LanguageModel #RLHF #Blog #DPO Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Comment

めちゃめちゃ勉強になる…

#Article #ComputerVision #NLP #LanguageModel #Library #TextualInversion Issue Date: 2024-03-21 repeng Comment

Loading…

#Article #Tutorial #NLP #LanguageModel #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #Tutorial #MachineTranslation #NLP #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

#Article #DocumentSummarization #NLP #SIGIR #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99 Comment

参照要約 - 原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。

outputはこんな感じ。

#Article #DocumentSummarization #NLP #SIGIR Issue Date: 2018-01-11 [Paper Note] The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment

NaturalLanguageGeneration (12)

#Article #NLP #LanguageModel #AIAgents #Repository
Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 Comment

LLMによるOpenSourceなソフトウェア生成エージェントプラットフォーム

full timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。
参考:

Loading…

Open化される前の最初のDevinのツイート

Loading…

#Article #NLP #LanguageModel #Blog
Issue Date: 2024-01-01 Decoding Strategies that You Need to Know for Response Generation Comment

こちらの記事ではHuggingFaceでの実装や他のdecoding方法等、より実装面での詳細が記述されている：

https://note.com/npaka/n/n9a8c85f2ef7a

#Article #Survey #NLP #Dataset #DataToTextGeneration #Blog
Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #Survey #ComputerVision #NLP #LanguageModel #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #ComputerVision #NLP #Blog Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話 #Article #NLP #LanguageModel #FoundationModel #Blog #Coding Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment

paper: https://drive.google.com/file/d/1cN-b9GnWtHzQRoE7M7gAEyivY0kl4BYs/view

StarCoder:
https://huggingface.co/bigcode/starcoder

StarCoderBaseを35Bのpython tokenでfinetuningしたモデル。
既存モデルよりも高性能と主張

#Article #DocumentSummarization #NeuralNetwork #NLP #ACL Issue Date: 2021-06-03 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL’16 Comment

解説資料: http://www.lr.pi.titech.ac.jp/~sasano/acl2016suzukake/slides/08.pdf

#Article #DocumentSummarization #NeuralNetwork #NLP #ACL Issue Date: 2021-06-02 Pointing the Unknown Words, Gulcehre+, ACL’16 Comment

解説スライド: https://www.slideshare.net/hytae/pointing-the-unknown-words

#Article #Others #NLP #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] Automatically generated linguistic summaries of energy consumption data, van der Heide+, In Proceedings of the Ninth International Conference on Intelligent Systems Design and Applications, pages 553-559, 2009.11 #Article #Others #NLP #DataToTextGeneration Issue Date: 2017-12-31 [Paper Note] A framework for automatic text generation of trends in physiological time series data, Banaee+, In Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, 2013.10 #Article #SingleFramework #NLP #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] A Global Model for Concept-to-Text Generation, Konstas+, Journal of Artificial Intelligence Research, Vol. 48, pp.305--346, 2013.10 #Article #NeuralNetwork #NLP #DataToTextGeneration #NAACL Issue Date: 2017-12-31 [Paper Note] What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment, Mei+, NAACL-HLT’16 Comment

CollaborativeFiltering (11)

#Article #InformationRetrieval #RelevanceFeedback #Search #WebSearch #Personalization
Issue Date: 2023-04-28 Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 Comment

検索結果のpersonalizationを初めてuser profileを用いて実現した研究

user profileはlong/short term preferenceによって構成される。

- long term: さまざまなソースから取得される

- short term: 当日のセッションの中だけから収集される

① browsing historyの活用

- browsing historyのTFから求め Profile = P_{longterm} + P_{shortterm}とする

② Collaborative Filtering (CF) の活用

- user-item matrixではなく、user-term matrixを利用

- userの未知のterm-weightをCFで予測する

- => missing valueのterm weightが予測できるのでprofileが充実する

実験結果

- 検証結果（googleの検索結果よりも提案手法の方が性能が良い）

- 検索結果のprecision向上にlong/short term preferenceの両方が寄与

- longterm preferenceの貢献の方が大きいが、short termも必要（interpolation weight 0.6 vs. 0.4）

- short termにおいては、その日の全てのbrowsing historyより、現在のセッションのterm weightをより考慮すべき（interpolation weight 0.2 vs. 0.8）

#Article #RecommenderSystems #Library #FactorizationMachines #Repository
Issue Date: 2021-07-03 pytorch-fm, 2020 Comment

#Article #RecommenderSystems #Pocket #FactorizationMachines
Issue Date: 2021-07-02 Deep Learning Recommendation Model for Personalization and Recommendation Systems, Naumov+, Facebook, arXiv‘19 GPT Summary- 深層学習に基づく推薦モデル（DLRM）を開発し、PyTorchとCaffe2で実装。埋め込みテーブルのモデル並列性を活用し、メモリ制約を軽減しつつ計算をスケールアウト。DLRMの性能を既存モデルと比較し、Big Basin AIプラットフォームでの有用性を示す。 Comment

Facebookが開発したopen sourceのDeepな推薦モデル（MIT Licence）。

モデル自体はシンプルで、continuousなfeatureをMLPで線形変換、categoricalなfeatureはembeddingをlook upし、それぞれfeatureのrepresentationを獲得。
その上で、それらをFactorization Machines layer（second-order）にぶちこむ。すなわち、Feature間の2次の交互作用をembedding間のdot productで獲得し、これを1次項のrepresentationとconcatしMLPにぶちこむ。最後にシグモイド噛ませてCTRの予測値とする。

実装: https://github.com/facebookresearch/dlrm

Parallelism以後のセクションはあとで読む

#Article #RecommenderSystems #NeuralNetwork #Pocket #FactorizationMachines #CTRPrediction #IJCAI Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 Comment

Factorization Machinesと、Deep Neural Networkを、Wide&Deepしました、という論文。Wide=Factorization Machines, Deep=DNN。

高次のFeatureと低次のFeatureを扱っているだけでなく、FMによってフィールドごとのvector-wiseな交互作用、DNNではbit-wiseな交互作用を利用している。
割と色々なデータでうまくいきそうな手法に見える。

発展版としてxDeepFM xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 がある。

[Paper Note] Factorization Machines, Steffen Rendle, ICDM'10 にも書いたが、下記リンクに概要が記載されている。

DeepFMに関する動向： https://data.gunosy.io/entry/deep-factorization-machines-2018

実装: https://github.com/rixwew/pytorch-fm

#Article #RecommenderSystems #NeuralNetwork #Pocket #FactorizationMachines #CTRPrediction #SIGKDD Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 DeepFMの発展版

#Article #RecommenderSystems #Tutorial #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

#Article #RecommenderSystems #AdaptiveLearning Issue Date: 2018-12-22 [Paper Note] Simulated Analysis of MAUT Collaborative Filtering for Learning Object Recommendation, Manouselis+, Social Information Retrieval for Technology-Enhanced Learning & Exchange, 2007 Comment

教員に対して教材を推薦しようという試み（学生ではないようだ）。
教員は、learning resourcesに対して、multi-criteriaなratingを付与することができ、それをCFで活用する（CELEBRATE web portalというヨーロッパのポータルを使用したらしい）。
CFはmemory-basedな手法を使用。target userがあるアイテムを、それぞれのattributeの観点からどのようにratingするかをattributeごとに別々に予測。各attributeのスコアを最終的に統合（元の論文ではただのスコアの足し合わせ）して、推薦スコアとする。

以下が調査された：
1. ユーザ間の距離の測り方（ユークリッド距離、cossim、ピアソンの相関係数）
2. neighborsの選び方（定義しておいた最大人数か、相関の重みで選ぶか）
3. neighborのratingをどのように組み合わせるか（平均、重み付き平均、mean formulaからのdeviation）

評価する際は、ratingのデータを training/test 80%/20%に分割。テストセットのアイテムに対して、ユーザがratingした情報をどれだけ正しく予測できるかで検証(511 evaluation in test, 2043 evaluations in training)。

ratingのMAE, coverage, アルゴリズムの実行時間で評価。

CorrerationWeightThresholdが各種アルゴリズムで安定した性能。Maximum Number Userはばらつきがでかい。いい感じの設定がみつかれば、Maximum Number Userの方がMAEの観点からは強い。
top-10のアイテムをselectするようにしたら、６０％のcoverageになった。
（アルゴリズムの実行時間は、2000程度のevaluationデータに対して、2.5GHZ CPU, 256MEMで２０秒とかかかってる。）

Learning Resource Exchangeの文脈で使われることを想定（このシステムではヨーロッパのK-12）。

教員による教材のmulti-criteriaのratingは5-scaleで行われた。
どういうcriteriaに対してratingされたかが書かれていない。

#Article #RecommenderSystems #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008 Comment

日本語での解説: https://cympfh.cc/paper/WRMF

Implicit Implicit でのAlternating Least Square (ALS)という手法が、この手法の実装に該当する。

#Article #RecommenderSystems #Library #FactorizationMachines Issue Date: 2018-01-01 fastFM Comment

実装されているアルゴリズム：Factorization Machines

実装：python

使用方法：pythonライブラリとして利用

※ Factorization Machinesに特化したpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #Tools #Library #FactorizationMachines Issue Date: 2018-01-01 LibRec Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #Novelty #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Discovery-oriented Collaborative Filtering for Improving User Satisfaction, Hijikata+, IUI’09 Comment

重要論文

InstructionTuning (11)

#Article #Pretraining #SpeechProcessing #Reasoning #SmallModel #OpenWeight #Zero/FewShotLearning #Selected Papers/Blogs #UMM #AudioLanguageModel
Issue Date: 2025-10-25 Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10 Comment

HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio

元ポスト:

Loading…

text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel

#Article #NLP #LanguageModel #PostTraining #Selected Papers/Blogs
Issue Date: 2025-05-12 Stanford Alpaca: An Instruction-following LLaMA Model, Taori +, 2023.03 Comment

今更ながらメモに追加。アカデミアにおけるOpenLLMに対するInstruction Tuningの先駆け的研究。

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts) #PostTraining
Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment

BestPracticeに関するポスト:

Loading…

解説:

Loading…

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #Pruning #Reasoning #OpenWeight Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #NLP #Dataset #SyntheticData #PostTraining Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment

元ポスト:

Loading…

Orca-AgenInstruct-1M microsoft/orca-agentinstruct-1M-v1, Microsoft, 2024.11 よりもSmolLMのSFTで各種ベンチで高い性能を獲得

#Article #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-10-08 Unsloth Comment

single-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ

#Article #NLP #LanguageModel #OpenWeight #SelfCorrection #PostTraining #KeyPoint Notes #Reference Collection Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Comment

開発者曰く、HFに記載の正しいシステムプロンプトを入れないと、適切に動作しないとのこと。
元ツイート:

Loading…

HFのモデルが修正された後もベンチマークの結果が再現されないなど、雲行きが色々と怪しいので注意した方が良い。

続報

Loading…

開発者ポスト:

Loading…

再現実験を全て終了し、当初報告していた結果が再現されなかったとCEOが声明：

Loading…

#Article #Pretraining #Pocket #NLP #Dataset #LanguageModel #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #NLP #Dataset #DataDistillation Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

OCR (11)

#Article #ComputerVision #NLP #Evaluation #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #TabularData #OpenWeight #read-later #DocParser #VisionLanguageModel
Issue Date: 2025-11-20 NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11 Comment

元ポスト:

Loading…

olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

#Article #Survey #ComputerVision #NLP
Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #DocParser #VisionLanguageModel Issue Date: 2025-10-24 LightOnOCR-1B: The Case for End-to-End and Efficient Domain-Specific Vision-Language Models for OCR, Taghadouini+, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

#Article #ComputerVision #NLP #SmallModel #MultiLingual #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-10-22 dots.ocr, rednote-hilab, 2025.07 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう

#Article #ComputerVision #NLP #LanguageModel #MultiLingual #OpenWeight #DocParser Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…

SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07

#Article #ComputerVision #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

関連:

Loading…

literature:

Loading…

karpathy氏のポスト:

Loading…

#Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #ImageCaptioning #VisionLanguageModel Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #NLP #Reasoning #VisionLanguageModel Issue Date: 2025-08-08 NuMarkdown-8B-Thinking, numind, 2025.08 Comment

元ポスト:

Loading…

Qwen2.5-VL-7Bをsynthetia doc, Reasoning, Markdown exampleでSFTした後、レイアウトによってrewardを設計したGRPOで学習したとのこと

MIT License

#Article #ComputerVision #Library #Repository Issue Date: 2024-11-27 YomiToku, Kotaro Kinoshita, 2024.11 Comment

いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0

元ツイート:

Loading…

KnowledgeTracing (10)

#Article #AdaptiveLearning #EducationalDataMining #LearningAnalytics
Issue Date: 2025-02-14 局所的変分法による非補償型時系列IRT, 玉野+, NEC+, 人工知能学会研究会資料, 2020.03 #Article #Pocket #EducationalDataMining
Issue Date: 2024-11-30 Dynamic Key-Value Memory Networks With Rich Features for Knowledge Tracing, Sun+, IEEE TRANSACTIONS ON CYBERNETICS, 2022.08 GPT Summary- 知識追跡において、DKVMNモデルは学生の行動特徴と学習能力を無視している。これを改善するために、両者を統合した新しい演習記録の表現方法を提案し、知識追跡の性能向上を目指す。実験結果は、提案手法がDKVMNの予測精度を改善できることを示した。 Comment

後で読みたい

#Article #AdaptiveLearning
Issue Date: 2022-08-17 KT-IDEM: Introducing Item Difficulty to the Knowledge Tracing Model, Pardos+ （w_ Neil T. Heffernan）, UMAP11 Comment

# モチベーション

computer educationやassessmentのモデルでは項目困難度を考慮している。たとえば、Computer Adaptive Testing (CAT) で利用されるIRTは項目ごとの難易度パラメータを学習する。難易度パラメータの学習がstudent performanceを予測する際に大きく寄与しているが、学習プロセスにコストがかかり、生徒が特定のスキルに習熟したか否かを決定する際には実用的ではない。一方、Cognitive TutorsではKnowledge Tracingモデルを生徒がスキルに習熟したか否かを判断するのに利用している。KTが使用されるのは、それが生徒と教師の両方にとって有益なCognitive Diagnostic Assessment (i.e. 測定対象となっている領域・分野の学習や理解に必要なattributeを設定し、個々のattributeの習得状況を推定するようなアセスメント)であるためである。KTモデルのパラメータの学習は一度で済み、典型的にはschool yearの頭に前年のデータを利用する。そして、ここの生徒のスキルの習熟度は非常に少量の計算コストで算出できる。IRTのような項目困難度を考慮したモデルは予測精度が高い一方で、KTのような個々のスキルの習熟度を推定するcognitive diagnostic resultsは非常に有用である。これらが一つのResearch Questionを提起する：KTが項目困難度を考慮するように拡張したら予測性能が改善するのか？

※ CDAについてはこちらに説明されている： https://www.jstage.jst.go.jp/article/jltajournal/23/0/23_37/_pdf

# モデルの気持ち

通常のBKTでは、4つのパラメータをデータからスキルごとに学習する。これらのパラメータは学生のそのスキルに対する正解/不正解の系列を時系列に並べたときに、その学生が該当スキルを知っている確率を推測する。現在の知識が与えられたとき、生徒のあるquestionに対するパフォーマンスを決定するのは2つのパラメータであり、それはguessとslipパラメータである。そして、これらのパラメータに対して我々はquestion levelのdifficultyを追加することを検討する。

高いguess rateを持つスキルは直感的には簡単と考えられる（e.g. multiple choice questionとか）。同様に、低いguess、あるいは高いslip率を持つスキルは困難なスキルだと考えられる。この直感から、項目困難度もguessとslipパラメータからとらえることができると考える。従って、我々の目的は、それぞれのquestionに固有のguessとslipパラメータを与えることで、項目ごとの難易度をモデリングすることである。

# モデル

通常のBKTにmultinomial item nodeを追加する。これはすなわち、もし10個の異なる項目がスキルデータに存在する場合、ite, nodeは1~10の値をとる。このitem nodeはquestion nodeと接続し、これにより、questionのguess/slipがitem nodeによって条件づけられる。10個の項目があるデータセットの例では、モデルは10個のguess parameterとslip parameter、learn rate, priorを持つことになり、合計で22パラメータを持つ事になる（一方、通常のBKTでは4つのパラメータである）。

項目ごとに十分な量のデータポイントが存在しない場合、モデルが過剰なパラメータを持つ可能性があるが、データポイントど同等、またはそれ以上のパラメータを持つモデルが有効であるトレンドにあることはNetflix challengeや2010 KDD Cupで示されている。

上図がBKTにextra nodeを加えたものを図示している。通常のKTモデルでは単一のP(G), P(S)を持つが、KT-IDEMでは、項目ごとにP(G), P(S)を持つ。たとえば、P(G|I=1), P(G|I=2)k ..., P(G|I=10)であり、項目ノードの値が与えられると異なるguessパラメータをとる。図の例だと、生徒は項目ID 3, 1, 5, そして2に取り組んでいるが、この情報は観測可能であり、モデルトレーニングに使える。従って、P(G|I), P(S|I)をfittingすることができる。そして、predictionの際は、どの項目に生徒が取り組んでいるかを知らせれば推論ができる。

# データセット

ASSISTmentsデータと、Cognitive Tutorデータセットを利用した。

ASSISTmentsデータセットでは、problem templateを項目とみなしたが。一方Cognitive Tutoerデータセットでは、problem（stepのコレクション）を項目とみなした。

## ASSISTments Platform

ASSISTmentsはwebベースのturoring platformで、4年生から12年生までの数学のコンテンツを扱っている。下図は、ASSISTmentsにおける数学の項目の例であり、生徒が問題に不正解、あるいはhelpを要請した場合に表示されるチュートリアルヘルプの様子である。チュートリアルヘルプは、個々のproblemを解くのに必要な知識を学習するために、problemをsub questionに分解して（scaffoldingと呼ぶ）生徒にquestionを解くためのヒントを与える。questionは、生徒がヘルプのリクエスト無しでfirst attemptで正解した場合のみ「正解」したとみなす。

### ASSISSTmentsにおけるItem template

skill building datasetは、複数のitem templateによって生成される複数のquestionに対するresponseによって構成される。

テンプレートは、コンテンツ開発者が Web ベースのビルダーアプリケーションで作成した問題の骨組みである。たとえば、テンプレートでピタゴラスの定理の問題を指定できますが、問題の数字は記入されていない。この例では、問題のテンプレートは次のようになる："辺の長さが X と Y の直角三角形の斜辺は何ですか?"。ここで、X と Y は、質問がテンプレートから生成されるときに値が入力される変数である。解答も、コンテンツ開発者が指定した解答テンプレートから動的に決定される。この例では、解答テンプレートは「Solution = sqrt(X^2+Y^2)」となる。変数の値の範囲を指定することができ、開発者は動的グラフ、表、単語問題のランダムに選択されたカバーストーリーなど、より高度なテンプレート機能を利用できる。テンプレートは、テンプレート項目のチュートリアルヘルプを構築するためにも使用される。これらのテンプレートから生成された項目は、学生が特定のスキルを練習するための大量の項目を提供する実用的な方法として、skill building problemセットで広く使用されている。

### Skill building datasets

Skill buildingは、同じスキル、またはスキルグループに関連する多数の異なるテンプレートから生成された数百の項目で構成されるASSISTmentsの問題セットの一種である。生徒は、helpを要請せずに3つの項目に連続して正解すると、問題セットを完了したとみなされる。この問題セットでは、項目はランダムな順番で選択される。学生がSkill building problem setの10項目に連続して3つ正解せずに解答した場合、システムは学生が翌日までその問題セットを続行するように強制する。Skill building problem setは、Cognitive Tutorのmastery learningに似ているが、Cognitive Tutorでは、生徒が0.95以上の確率で生徒が該当スキルを知っているとKTモデルが推論した場合に習熟したと見做される。ASSISTmentsの他の問題セットと同様に、skill builder problem setは教員の最良で割り当てられる。そして、割り当てられる問題セットは、多くの場合学区が従う特定の数学カリキュラムに準拠している。

本研究では、2009年〜2010年の学年度の最もデータが多い10個のskill builder datasetを利用した。各問題セットの生徒数は637人〜1285人であり、テンプレートの数は2~6である。これは、最大で6つの問題セット内の項目に関連づけられたguess/slipパラメータが存在することを意味する。1日あたり10項目の制限があるため、問題セットごとに学生の最初の10項目に対する回答のみを考慮し、残りの回答は吐きした。オリジナルのquestionに対する回答のみを考慮し、scaffoldに対する回答は利用しないようにした。

## The Cognitive Tutor: Mastery Learning datasets

Cognitive Tutor datasetは、2006-2007年におけるBridge to Algebraシステムに基づいている。このデータは2010年のKDD Cup competitionにも提供されている。Cognitive TutorはASSISTmentsとは異なるデザインがなされている。

非常に重要な違いの1つは、Cognitive Tutorが多くのスキルに関するquestion（stepと呼ばれる）にyほって構成されるproblemを提示することである（下図）。

生徒はproblemに関する様々なquestionへの回答を回答グリッドに入力できる（下図）。

Cognitive Tutorでは、Knowledge Tracingを生徒がスキルに習熟したかどうかを決定するために利用している。problemは異なるスキルのquestionによって構成されている場合もある。しかしながら、生徒がスキルを習得したとKTが判断した場合、生徒はproblem内の該当スキルのquestionに応える必要はなくなりますが、未修得のスキルに関連するquestionには応える必要がある。

Cognitive Tutorデータセットのスキル数は、ASSISTmentsデータセットよりも非常に大きいものとなっている。全てのスキルを処理する代わりに、ランダムにサンプルした12個のスキルを今回は選択した。複数のスキルによって構成されるquestionも存在する。こういった場合、各スキルを分離するのではなく、questionに関連づけられた一連のスキルを一つの単独のスキルとして扱った。Cognitive TutorはlessonsをUnitsと呼ばれる単位に区切っている。あるUnitに登場するスキル名が、別のUnitに登場する場合は別のスキルとして扱った。Cognitive Tutorには「ウィンドウを閉じる」や「enterを押す」などの瑣末なスキルも存在する。このような数学と関係ないスキルは無視した。ASSSISTmentsデータで使用される生徒ごとのデータ量との一貫性を維持するために、スキルごとの生徒ごとの回答の最大数も最初の10項目に制限した。

# 評価

5-fold cross validationを行った（生徒ごとに区切る）。パラメータの学習はBKT, KT-IDEM共にEMアルゴリズムによって行った。EMアルゴリズムはデータの尤度が最大となるパラメータを探索し、指定したmax numberの回数だけiteractionを行ったら、あるいは尤度の改善が一定の閾値を下回った場合に探索を終了する。max iteractino countは200にセットし、閾値は0.001とした。パラメータの初期値としては、両モデルに対して：P(G)=0.14, P(S)=0.09, P(L_0)=0.5, P(T)=0.14とした。この値は、ASSISTmentsデータを以前分析した際のスキル全体に対する平均値である。

生徒のfirst responseを予測する場合、項目の識別子以外の情報は与えられない。そのため、モデルのpriorとguess/slipパラメータ単独でモデルは予測を実施することとなる。これはすなわち、BKTでは全ての生徒に対してfirst responseは同じ予測結果を与える。一方KT-IDEMは生徒が最初に取り組む項目が異なるため、項目のguess/slipパラメータが異なっているため、全生徒の予測結果が同様のものとはならない。

# 評価結果

## ASSISTments dataset

10個のデータセットに対して9つのデータセットでKT-IDEMがBKTを有意にoutperformした。BKTのAUCの平均は0.669に対し、KT-IDEMのAUCの平均は0.69であった。

## Cognitive Tutor

全体のパフォーマンスとしては、BKT, KT-IDEM共に勝ち負けが入り混じっている。BKTの平均AUCは0.6457、KT-IDEMは0.6441であるが、これは統計的に有意差はなかった。前に述べたように、over parameterizationが項目ごとにguess/slipパラメータを用意することの懸念ん点であった。このデータセットでは、ASSISTments のテンプレートの数 (平均 3) と比較して、問題の数 (平均 311) がかなり多いため、この問題が明らかになります。問題の数が多く、パラメータの数も多いため、問題あたりのデータポイントの比率(dpr)が非常に重要となります。dpr>6を超えている5つのデータセットでは、KT-IDEMの予測性能が高い。これらのデータセットでは、BKTのAUCは0.6124、対してKT-IDEMでは0.7108である。この差は統計的に有意であった。dpr<6のデータセットについては、スキル6を除いて、lossは比較的少ないものであった（~0.04程度）。このスキルデータセットには396の問題があり、最も頻度の高い問題はデータポイントの25%を占め、2番目に頻度の高い問題はわずか0.3%だった。これは④ポカのスキルセットと比べて非常にバランスが取れておらず、KT-IDEMがうまく機能しないタイプのデータセットの例と言える。

# Discussion

トレーニングデータに存在しない項目のguess/slipパラメータをどうするかという課題がある。対策としては、全ての学習されたslip/guessパラメータの平均値とするか、あるいはBKTモデルのguess/slipパラメータで置き換えるという対策がある。

Cognitive Tutorの実験結果より、問題ごとのデータポイントの平均数によって、KT-IDEMの精度がBKTよりも改善するか否かが決まることが示された。スキルデータセット内の一部の問題には大量のデータが含まれている一方、一部の問題には少量のデータしか含まれない可能性がある。KT-IDEMの制度を向上させるために、データが少ない問題のguess/slipパラメータをBKTが推定したguess/slipパラメータで置き換える方法がある。また、平均正答率の値や、ヒントをリクエストした回数などの情報を利用してguess/slipパラメータの初期値を決めることで、パラメータfittingが改善する可能性がある。

また、future workとしては、CATにおいてKT-IDEMのguess/slipパラメータを用いて、より少ない問題数でassesmentを実現することなどが挙げられている（KT-IDEMのguess/slipがIRTにおける項目の識別力に相当するとみなせる。また、質問に正解した場合、あるいは不正解だった場合に確率の変化が最大となる質問を選択することができるため。ただし、この質問には正しいguess/slipパラメータが推定されている必要があり、そのための十分なデータが必要となる）。

#Article #NeuralNetwork #AdaptiveLearning #EducationalDataMining Issue Date: 2022-07-25 独立な学習者・項目ネットワークをもつ Deep-IRT, 堤+, 電子情報通信学会論文誌, 2021 Comment

# モチベーション

Deep-IRTで推定される能力値は項目の特性に依存しており、同一スキル内の全ての項目が等質であると仮定しているため、異なる困難度を持つ項目からの能力推定値を求められない。このため、能力パラメータや困難度パラメータの解釈性は、従来のIRTと比較して制約がある。一方、木下らが提案したItem Deep Response Theoryでは、項目特性に依存せずに学習者の能力値を推定でき、推定値の信頼性と反応予測精度が高いことが示されているが、能力の時系列変化を考慮していないため、学習家庭での能力変化を表現できない。これらを解決するための手法を提案。

# 手法

論文中の数式に次元数が一切書かれておらず、論文だけを読んで再現できる気がしない。

提案手法は、学習者の能力推定値が項目の特性に依存せず、複数のスキルに関する多次元の能力を表現できる（とあるが、が、どういう意味かよくわからない・・・）。

下図が提案手法の概要図。スキルタグ入力だけでなく、項目IDそのものも入力して活用するのが特徴。

基本的に、生徒の能力値を推定するstudent networkと、スキル/項目の難易度を推定するitem networkに分かれている。ある時刻tでの生徒の能力値はメモリM上の全てのhidden conceptに対するvalueを足し合わせ、足し合わせて得られたベクトルに対してMLPをかけることによって計算している。

最終的にitem response functionを見ると、ここで得られる生徒の能力値はスカラー値でなければならないと思うのだが、MLPをかけて得られたベクトルからどのように生徒の能力値を算出するかがジャーナル上では書かれていない。EDM'21の方を見ると、inputとなったスキルタグのembeddingとメモリのkeyとの関連度から求めたアテンションベクトルω_tとの内積でスカラーに変換しているようなので、おそらくそのような操作をしていると思われる。

item networkも同様に、スキルタグのembedding q_j と項目のembedding s_j を別々にMLPにかけて、最終的に1次元に写像することで、スキル/項目の難易度パラメータを推論していると思われる。

最終的に下記item response functionによって反応予測を行う。

ただし、EDM'21の論文だと能力値パラメータθに3が乗じられているのに対し、こちらはそのような操作がされていない。どちらが正しいのか分からない。

また、メモリネットワークのmemory valueの更新は Dynamic Key-Value Memory Networks for Knowledge Tracing, Yeung+, WWW'17
と同じ方法である。

# 予測性能評価

提案手法が全てのデータセットで平均すると最も良い予測性能を示している。IRTもKDDCupデータでは性能が良く、KDDCupデータは回答ログの正答率が非常に高くデータに偏りがあり、加えてデータのスパース率（10 人以下

の学習者が解答した項目の割合）も高いため（学習者の平均回答数が少ない）、DeepLearningベースドな手法は反応の偏りと少数データに脆弱である可能性を指摘している。

ちなみにEDM'21論文だと下記のような結果になっている：

こちらの結果を見ると、AKTよりも高い性能を示していることがわかる。AKTに勝つのは結構すごそうなのだが Learning Process-consistent Knowledge Tracing, Shen+, SIGKDD'21
でのAKTの性能に比べ、DKT等の手法に対するAKTの性能の伸びが小さいのが非常に気になる。何を信じたら良いのか分からない・・・。

# 解釈性評価実験について

DeepIRTとのパラメータの能力パラメータ、困難度パラメータの解釈性の検証をしているようだが、所感に書いてある通りまずDeepIRTの能力値パラメータを正しく採用できているのかが怪しい。困難度パラメータについては、シミュレーションデータを用いて提案手法がDeepIRTと比べて真の困難度に対する相関が高いことを示しているが、詳細が書かれておらずよくわからない・・・。一応IRTと同等の解釈性能を持つと主張している。

# 所感

解釈性の評価実験において下記の記述があるが、

> しかし，彼らによって公開された Deep-IRT のプログラムコードでは一次元の能力値推移しか出力できず，論文で示された複数スキルに対応した結果を再現できない．このため，本実験では，式 (7) で得られる θ (t,j) 3 を多次元で出力した値を Deep-IRT における多次元のスキルの能力値推移とする．

ここでどのような操作をしているのかがいまいち分からないが、時刻tのメモリM_tが与えられたとき、DeepIRTは入力ベクトルq_tに対応する一次元の能力値を返すモデルのはずで、q_tを測定したい能力のスキルタグに対するone-hot encodingにすれば能力値推移は再現できるのでは？「θ (t,j) 3を多次元で出力した値」というのは、1次元のスカラー値を出力するのではなく、多次元のベクトルとしてθ (t,j) 3を出力し、ベクトルの各要素をスキルに対する能力値とみなしているのだろうか。もしそういう操作をしているのだとしたらDeepIRTが出力する能力値パラメータとの比較になっていないと思う。

θ_n^(t, j)を学習者の能力値ベクトルとしてみなすと論文中に記述されているが、実際にどの次元がどのスキルの習熟度に対応しているかは人間が回答ログに対する習熟度の推移を観察して決定しなければならない。これは非常にダルい。

しかもθ_n^(t, j)の各次元の値は、スキルタグに対する習熟度ではなく、スキルタグの背後にあるhidden conceptの習熟度だと思う。論文では問題の正解/不正解に対して、習熟度が上下する様子から、能力値ベクトルの特定の次元の数値が特定のスキルの習熟度となっていることを解釈しているが、その解釈が正しい保証はないような・・・。

#Article #NeuralNetwork #AdaptiveLearning #EducationalDataMining #StudentPerformancePrediction #L@S Issue Date: 2021-10-29 Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization, Yeung+, 2018, L@S Comment

Deep Knowledge Tracing (DKT)では、下記の問題がある：

- 該当スキルに正解/不正解したのにmasteryが下がる/上がる（Inputをreconstructしない）

- いきなり習熟度が伸びたり、下がったりする（時間軸に対してmastery levelがconsistentではない）

上記問題に対処するようなモデルDKT+を提案。

DKT+では、DKTのloss functionに対して3つのregularization termを追加することで上記問題に対処している。

DKT+はDKTの性能を落とすことなく、上記2問題を緩和できたとのこと。

実装: https://github.com/ckyeungac/deep-knowledge-tracing-plus

https://user-images.githubusercontent.com/12249301/167774315-061e9d8d-16ae-4c56-b69f-e8ef1968b4fa.png" >

DKT+とDKTのheatmapを比較すると、問題点は確かに緩和されているかもしれないが、

依然としてinputはreconstructionされていないし、習熟度も乱高下しているように見える。

根本的な解決にはなっていないのでは。

#Article #Tools #AdaptiveLearning #StudentPerformancePrediction Issue Date: 2021-10-29 HMM Scalable （Bayesian Knowledge Tracing; BKT） Comment

BKTを高速で学習できるツール

3-clause BSD license

#Article #NeuralNetwork #EducationalDataMining #LearningAnalytics Issue Date: 2021-06-02 Deep Knowledge Tracingの拡張による擬似知識タグの生成, 中川+, 人口知能学会論文誌, 33巻, 33号, C, 2018 Comment

DKTモデルは、前提として各問題に対して知識タグ（knowledge component）が付与されていることが前提となっている。しかし世の中には、知識タグが振られているデータばかりではないし、そもそもプログラミング教育といった伝統的な教育ではない分野については、そもそも知識タグを構造的に付与すること自体が成熟していない分野も存在する。

そのような知識タグが存在しない、付与しづらい分野に対してもDKTが適用できるように、知識タグそのものを自動的に学習した上で、Knowledge Tracingするモデルを提案しました、という話。

Deep Knowledge Tracingの入力ベクトルの日本語例が書いてあり、わかりやすい。

提案モデルの構造は下記

ASSISTments, KDD Cup Dataでの既存タグを利用した場合と、擬似生成タグを利用した場合の評価結果

既存タグを利用した場合とcomparable, もしくはoutperformしている。

既存タグと擬似生成タグタグの依存関係を可視化したネットワーク

既存タグと擬似生成タグの内容的関係性

既存タグは人間が理解しやすい形で構成されているが、擬似生成タグは予測に最適化されているためそのような生成のされ方はされない。つまり、解釈性に問題がある。

Knowledge Tracingモデルは教育の観点から、生徒がどのconceptにどれだけ習熟しているか、といったことを教員側が把握し適切なinterventionを行なったり、あるいは生徒側が内省を行い自信をmotivatingしたりする側面があるため、どのようにして解釈性の高いタグを自動生成するか、はunsolved question。

#Article #Tutorial #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

#Article #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction Issue Date: 2021-05-30 Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge, Corbett+, User Modeling and User-Adapted Interaction, 1995 Comment

Bayesian Knowledge Tracing (BKT)を提案した論文。Knowledge Tracingについて研究するなら必ず抑えておくべき。

以後、BKTを拡張した研究が数多く提案されている。

#Article #Survey #Dataset #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

MLOps (10)

#Article #LanguageModel #AIAgents #Blog #SoftwareEngineering
Issue Date: 2025-10-13 Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフーテックブログ, 2024.12 #Article #SoftwareEngineering
Issue Date: 2025-10-10 Argo Workflows, Argo Project, 2017.11 #Article #RecommenderSystems #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #Blog #A/B Testing #TwoTowerModel
Issue Date: 2025-06-29 日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05 Comment

リアルタイム推薦をするユースケースにおいて、ルールベース+協調フィルタリング(Jubatus)からTwo Towerモデルに切り替えた際にレイテンシが300ms増えてしまったため、ボトルネックを特定し一部をパッチ処理にしつつもリアルタイム性を残すことで解決したという話。AWSの構成、A/Bテストや負荷テストの話もあり、実用的で非常に興味深かった。

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #Evaluation #Blog #A/B Testing Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

#Article #python #Blog #SoftwareEngineering Issue Date: 2024-08-27 AutoMLOpsを使って機械学習CI_CDパイプラインを組んでみた, 2024.08 Comment

pythonコードでコンポーネントや、パイプラインを関数の形で記述するだけで、MLのCI/CDパイプラインをVertexAI上に自動構築できる模様。非常にお手軽で、多くの設定ファイルなどは自動生成されるようなので、簡単に始めることができそう。

記事中では、多クラス分類器を学習するためのデータをBigQueryから取得、モデル訓練、デプロイ、推論エンドポイント生成、モニタリングなどを簡単なコードベースで実現できている。便利そうではある。
細かいチューニングも自動生成された設定ファイルをいじれば可能だと思われる。

#Article #RecommenderSystems Issue Date: 2023-12-19 モバオクでのリアルタイムレコメンドシステムの紹介 Comment

DeNAでのRecSysのアーキテクチャ（バッチ、リアルタイム）が紹介されている。バッチではワークフローエンジンとしてVertex AI Pipelineが用いられている。リアルタイムになるとアーキテクチャが非常に複雑になっている。
複雑なアーキテクチャだが、Generative Recommendation使ったらもっとすっきりしそうだなーと思いつつ、レイテンシと運用コストの課題があるのでまだ実用段階じゃないよね、と思うなどした。

リアルタイム推薦によって、バッチで日毎の更新だった場合と比べ、入札率、クリック率、回遊率が大きく改善したのは面白い。

#Article #RecommenderSystems Issue Date: 2023-09-05 Lessons Learnt From Consolidating ML Models in a Large Scale Recommendation System Comment

推薦システムには様々なusecaseが存在しており、それらは別々に運用されることが多い。

- user-item recommendation

- item-item recommendation

- query-item recommendation

- category-item recommendation

このような運用はシステムの技術負債を増大させ、長期的に見るとメンテナンスコストが膨大なものとなってしまう。また、多くの推薦システムには共通化できる部分がある。

これら異なるusecaseの推薦システムをmulti-taskなモデルに統合し技術負債を軽減した経験が記述されている。

これが

このようなsingle multi-task modelを学習する構造に置き換わり、

その結果

- code量とデプロイの管理・メンテナンスコストの低減

- 保守性の向上

- 単一化されたコードベースが、緊急時の対応を容易にした

- あるユースケースで新たなfeatureを試し効果があった場合、他のユースケースに迅速に展開可能（同じパイプラインなので）

- ただし、multi taskの場合は特定のタスクに効果があったfeatureの導入により他タスクの性能が低下する懸念がある

- が、タスク間の関連性が高い場合（今回のような場合）、それは問題とならなかったことが記述されている

- 柔軟な設計の実現

- 複数のユースケースを一つのモデルに統合することは、複数のユースケースを組み込むための柔軟な設計が求められる

- これを実現したことにより、拡張性が増大した

- 結論

- このような統合がコードを簡略化し、イノベーションを加速させ、システムの保守性を向上させるシナリオが多くある

- ただし、ランキングの対象が異なっていたり、入力として活用する特徴量が大きく異なるモデル間で、このような統合の実施に適しているかは自明ではない

#Article #Tools #Infrastructure #Blog #Repository Issue Date: 2022-12-01 deploy-API-to-GCP Comment

FlaskAPIを（Flaskでなくても良い）Google Cloud Run上で、TerraFormで定義したインフラ環境でデプロイするためのリポジトリ

0. リポジトリをclone
1. Flaskアプリ作成
2. FlaskアプリをDocker化
3. TerraFormのStateを保存するためのCloudStorage作成
4. TerraFormのコード作成
5. GitHub Actionでデプロイ（CI/CD）

5によってmainブランチに対するプルリクが本番環境にデプロイされる。

Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/

#Article #Infrastructure #Blog Issue Date: 2022-04-27 MLOps: 機械学習における継続的デリバリーと自動化のパイプライン, Google Comment

機械学習（ML）システムの継続的インテグレーション（CI）、継続的デリバリー（CD）、継続的トレーニング（CT）の実装と自動化

MLOpsのレベルを0~2で表現しており、各レベルごとに何が達成されるべきかが図解されている。

#Article #MachineLearning #Infrastructure #Blog Issue Date: 2021-06-18 NVIDIA TRITON INFERENCE SERVER, 2021 Comment

Nvidiaのオープンソースのinference server

モデルのデプロイや管理、スケーリング等を良い感じにしてくれるフレームワーク？

MachineTranslation (9)

#Article #NLP #LanguageModel #AIAgents #RAG(RetrievalAugmentedGeneration) #Mathematics #SmallModel #OpenWeight #Japanese #DocParser
Issue Date: 2025-09-26 Liquid Nanos, LiquidAI, 2025.09 Comment

blog: https://www.liquid.ai/blog/introducing-liquid-nanos-frontier-grade-performance-on-everyday-devices

モデルファミリーに350Mの日英翻訳モデルが含まれている…だと！？

元ポスト:

Loading…

LFM2はこちら:
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #NLP #LanguageModel #MultiModal #Blog #ProprietaryLLM
Issue Date: 2025-09-24 Qwen3‑LiveTranslate: Real‑Time Multimodal Interpretation — See It, Hear It, Speak It！, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs
Issue Date: 2025-09-01 Hunyuan-MT-7B, Tencent, 2025.09 Comment

テクニカルレポート: https://github.com/Tencent-Hunyuan/Hunyuan-MT/blob/main/Hunyuan_MT_Technical_Report.pdf

元ポスト:

Loading…

#Article #NLP #LanguageModel #SmallModel #MultiLingual #OpenWeight Issue Date: 2025-07-18 Seed-X-Instruct-7B, ByteDance-Seed, 2025.07 Comment

元ポスト:

Loading…

MTに特化したMultilingual SLM。7Bモデルだがベンチマーク上では他の大規模なモデルと同等以上。

テクニカルレポート: https://github.com/ByteDance-Seed/Seed-X-7B/blob/main/Technical_Report.pdf

#Article #NLP #Dataset #SyntheticData #Blog Issue Date: 2025-07-09 PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07 #Article #NLP #Dataset #Zero/Few/ManyShotPrompting Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment

元ポスト:

Loading…

#Article #Metrics #NLP Issue Date: 2023-05-10 METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Banerjee+, CMU, ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and_or Summarization Comment

#Article #NeuralNetwork #NLP #NAACL Issue Date: 2021-06-03 Probing Word Translations in the Transformer and Trading Decoder for Encoder Layers, NAACL‘21 Comment

#Article #Tutorial #NLP #Alignment #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

RepresentationLearning (8)

#Article #Embeddings #NLP
Issue Date: 2025-08-03 Gemini Embedding: Powering RAG and context engineering, Google, 2025.07 Comment

元ポスト:

Loading…

financial, legal文書に対する性能が向上してマトリョーシカ表現によってストレージや計算コストを削減可能な模様

ダウンストリームタスクで使おうとすると次元数がデカすぎるとしんどいのでマトリョーシカ表現は嬉しい

#Article #Embeddings #NLP #LanguageModel #OpenWeight
Issue Date: 2025-06-06 Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06 Comment

元ポスト:

Loading…

QwenTeam post:

Loading…

#Article #Embeddings #NLP #LanguageModel #pretrained-LM #Japanese
Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 Comment

ＭIT Licence

元ポスト:

Loading…

- ModernBERT, AnswerDotAI, 2024.12

#Article #Embeddings #NLP Issue Date: 2024-12-10 Sarashina-Embedding-v1-1B, SB Iumuitions, 2024.12 Comment

Non-commercialなライセンスで、商用利用の場合は問い合わせが必要

#Article #NeuralNetwork #Embeddings #NLP #Word #STS (SemanticTextualSimilarity) Issue Date: 2024-11-20 Zipf 白色化：タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 GPT Summary- 単語埋め込み空間の歪みを修正することでタスクのパフォーマンスが向上することを示す。既存のアプローチは単語頻度が均一であると仮定しているが、実際にはZipfの法則に従う非均一な分布である。Zipfに基づく頻度で重み付けされたPCAホワイトニングを行うことで、パフォーマンスが大幅に向上し、ベースラインを超える。情報幾何学的な観点から、低頻度の単語を強調する理論を提案し、人気の自然言語処理手法がこの理論に基づいて機能することを示す。 Comment

元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ]( https://arxiv.org/abs/2411.00680)

#Article #Embeddings #NLP #LanguageModel #Japanese Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment

元ツイート:

Loading…

最大sequence長は1012なので、より長い系列をBERTで埋め込みたい場合はRetrievaBERT RetrievaBERTの公開, 2024 （最大sequence長2048）も検討の余地がある。

開発者の方からテクニカルレポートが出た
https://arxiv.org/abs/2409.07737

#Article #Embeddings #NLP #Library #SpokenLanguageProcessing Issue Date: 2023-04-25 CLAP Comment

テキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル

たとえばゼロショットでaudio分類ができる

#Article #NeuralNetwork #SentimentAnalysis #NLP Issue Date: 2021-06-01 Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015 Comment

CTRPrediction (7)

#Article #RecommenderSystems #LanguageModel
Issue Date: 2025-08-27 Self-Monitoring Large Language Models for Click-Through Rate Prediction, Zhou+, ACM Transactions on Information Systems, 2025.08 Comment

元ポスト:

Loading…

#Article #RecommenderSystems #NeuralNetwork #NewsRecommendation #MLOps #Evaluation #Blog #A/B Testing
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

#Article #RecommenderSystems #Survey
Issue Date: 2021-10-29 2010年代前半のAIの巨人達のCTR Prediction研究

#Article #RecommenderSystems #Tutorial #Blog Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Comment

#Article #RecommenderSystems #Dataset Issue Date: 2021-06-01 Criteo Dataset, Display Advertising Challenge, Kaggle, 2014 Comment

基本的には click/non-click のラベルと、そのclick時の付帯情報によって構成されている模様

#Article #RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #FactorizationMachines #IJCAI Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 Comment

実装: https://github.com/rixwew/pytorch-fm

#Article #RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #FactorizationMachines #SIGKDD Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 DeepFMの発展版

AWS (7)

#Article #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering
Issue Date: 2025-07-17 Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07 Comment

元ポスト:

Loading…

#Article #RecommenderSystems #NeuralNetwork #Embeddings #EfficiencyImprovement #MLOps #Blog #A/B Testing #TwoTowerModel
Issue Date: 2025-06-29 日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05 Comment

#Article #ComputerVision #NLP #Dataset #LanguageModel #MultiModal #Blog #Japanese
Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #Infrastructure Issue Date: 2023-08-27 SQL vs. NoSQL cheetsheet, AWS, Azure and Google Cloud Comment

データタイプやユースケースに応じてAWS上のサービスなどをマッピングしてくれているチートシート。わかりやすい。

#Article #Infrastructure #AWSLambda Issue Date: 2023-04-23 Lambda tips Comment

- AWS Lambda and EFS Troubleshooting

- https://www.digitalsanctuary.com/aws/aws-lambda-and-efs-troubleshooting.html

- VPC内のEFSにアクセスできるようなセキュリティーポリシーを作成してアタッチすると良いという話。in-bound, out-boundともにNFSを許可

- 【AWS】VPC Lambdaを構築したときのメモ

- https://qiita.com/aiko_han/items/6b3010250e2887206b4f

- Amazon VPC に接続されている Lambda 関数にインターネットアクセスを許可するにはどうすればよいですか?

- https://repost.aws/ja/knowledge-center/internet-access-lambda-function

#Article #Infrastructure #ECS Issue Date: 2023-04-16 ECS tips Comment

- キャパシティプロバイダーについて

- https://dev.classmethod.jp/articles/regrwoth-capacity-provider/

- Fargateをスポットで7割引で使うFargate Spotとは？ #reinvent

- https://dev.classmethod.jp/articles/fargate-spot-detail/

- ECSでのデプロイでコケる原因ざっくりまとめ

- https://zenn.dev/isosa/articles/e371bc2d76e812

- M1 MacでビルドしたイメージをFARGATEで使おうとした時の'exec user process caused: exec format error' の対処法

- https://qiita.com/ms2geki/items/1cfb0db3f4c1aab96e75

- PythonでログをCloudWatchに出力する「Watchtower」

- https://dev.classmethod.jp/articles/python_log_cloudwatch_watchtower/

#Article #Infrastructure Issue Date: 2021-10-08 データレイクのつくりかた、つかいかた、そだてかた, 関山宜孝, AWS Summit Comment

こちらも参照のこと

https://logmi.jp/tech/articles/324242

◆伝統的なデータウェアハウスの限界：

場当たり的にデータを蓄積し、活用しているとデータのサイロ化が生じてしまう。

サイロ化したデータを一箇所にまとめて活用できるようにしましょうというのがData Lakeの考え方。

◆データレイクアーキテクチャ

すべてのデータを一元的に保管でき、

耐障害性、可用性が高く、スケーラブルで低コストな必要がある。

また、データは非常に多様化しているので、多様なデータをそのままのフォーマットで保管し、

活用できる必要がある。

ストレージとデータの活用層を疎結合にして、さまざまなユースケース・分析に対処できるようにする。

（たとえば、ストレージに特定のスキーマのテーブルを使っており、そのスキーマに対してしか分析できません、とかは避けるということかな？）

S3上に生データを保存し、AWS Glueでメタデータを管理する。AWS GlueのようなETLサービスを利用してデータを利用しやすい形式に変更して格納し、活用する。

データレイクを作る際のポイント「小さく始める」という部分も重要だと思われるので参照のこと

ChatGPT (7)

#Article #NLP #LanguageModel #Blog #Reasoning #ProprietaryLLM #Selected Papers/Blogs #Routing #One-Line Notes #Reference Collection
Issue Date: 2025-11-13 GPT-5.1: A smarter, more conversational ChatGPT, OpenAI, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

Artificial Analysisによるベンチマーキング:

Loading…

GPT-5.1-Codex-maxの50% time horizon:

Loading…

#Article #GenerativeAI #Blog
Issue Date: 2025-10-23 Introducing ChatGPT Atlas, OpenAI, 2025.10 Comment

元ポスト:

Loading…

ブラウザのサイドバーでchatgptにサイトに関して質問できたり、agenticな使い方もできる模様？

#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Repository #mid-training #GRPO #read-later #Selected Papers/Blogs #Inference #MinimalCode #KV Cache
Issue Date: 2025-10-22 nanochat, karpathy, 2025.10 Comment

元ポスト:

Loading…

新たなスピードランが...!!

#Article #Tutorial #Blog Issue Date: 2025-10-08 OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10 Comment

元ポスト:

Loading…

#Article #Analysis #Pretraining #NLP #LanguageModel #Blog #PostTraining Issue Date: 2025-09-29 Why GPT-5 used less training compute than GPT-4.5 （but GPT-6 probably won’t）, EPOCH AI, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2023-09-30 OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09 Comment

おう…やべえな…

#Article #NLP #LanguageModel #Blog Issue Date: 2023-04-27 HuggingChat, 2023 Comment

closedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出したchatシステム

公開はすでに終了している模様

TimeSeriesDataProcessing (6)

#Article #NLP #LanguageModel
Issue Date: 2025-08-18 How well can AI predict the future?, Prophet Arena, 2025.08 Comment

元ポスト:

Loading…

#Article #MachineLearning #Transformer #FoundationModel #OpenWeight
Issue Date: 2025-05-25 Datadog_Toto-Open-Base-1.0, Datadog, 2025.05 Comment

元ポスト:

Loading…

（あとでコメント追記する

#Article #MachineLearning #Dataset #Evaluation
Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #Evaluation #Blog Issue Date: 2025-05-09 時系列データのvalidationに関する質問に回答します, カレーちゃん, 2022.07 Comment

元スレッド:

Loading…

めちゃめちゃ参考になる・・・

#Article #MachineLearning #LanguageModel #Transformer Issue Date: 2022-12-29 Are Transformers Effective for Time Series Forecasting? Comment

Linear Layerに基づくシンプルな手法がTransformerベースの手法に時系列予測で勝ったという話

#Article #NeuralNetwork #Survey Issue Date: 2017-12-31 [Paper Note] Artificial neural networks in business: Two decades of research, Tkac+, Applied Soft Computing 2016.01 Comment

FactorizationMachines (6)

#Article #RecommenderSystems #CollaborativeFiltering #Library #Repository
Issue Date: 2021-07-03 pytorch-fm, 2020 Comment

#Article #RecommenderSystems #CollaborativeFiltering #Pocket
Issue Date: 2021-07-02 Deep Learning Recommendation Model for Personalization and Recommendation Systems, Naumov+, Facebook, arXiv‘19 GPT Summary- 深層学習に基づく推薦モデル（DLRM）を開発し、PyTorchとCaffe2で実装。埋め込みテーブルのモデル並列性を活用し、メモリ制約を軽減しつつ計算をスケールアウト。DLRMの性能を既存モデルと比較し、Big Basin AIプラットフォームでの有用性を示す。 Comment

実装: https://github.com/facebookresearch/dlrm

Parallelism以後のセクションはあとで読む

#Article #RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #CTRPrediction #IJCAI
Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 Comment

実装: https://github.com/rixwew/pytorch-fm

#Article #RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #CTRPrediction #SIGKDD Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 DeepFMの発展版

#Article #RecommenderSystems #CollaborativeFiltering #Library Issue Date: 2018-01-01 fastFM Comment

実装されているアルゴリズム：Factorization Machines

実装：python

使用方法：pythonライブラリとして利用

※ Factorization Machinesに特化したpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #Tools #CollaborativeFiltering #Library Issue Date: 2018-01-01 LibRec Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

StudentPerformancePrediction (6)

#Article #NeuralNetwork #AdaptiveLearning #EducationalDataMining #KnowledgeTracing #L@S
Issue Date: 2021-10-29 Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization, Yeung+, 2018, L@S Comment

実装: https://github.com/ckyeungac/deep-knowledge-tracing-plus

#Article #Tools #AdaptiveLearning #KnowledgeTracing
Issue Date: 2021-10-29 HMM Scalable （Bayesian Knowledge Tracing; BKT） Comment

BKTを高速で学習できるツール

3-clause BSD license

#Article #Tutorial #Pocket #EducationalDataMining #LearningAnalytics #KnowledgeTracing
Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

#Article #EducationalDataMining #LearningAnalytics #KnowledgeTracing Issue Date: 2021-05-30 Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge, Corbett+, User Modeling and User-Adapted Interaction, 1995 Comment

#Article #Survey #Dataset #EducationalDataMining #LearningAnalytics #KnowledgeTracing Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #NeuralNetwork #EducationalDataMining #LearningAnalytics Issue Date: 2021-05-29 Behavior-Based Grade Prediction for MOOCs Via Time Series Neural Networks, Chiang+, IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 11, NO. 5, AUGUST 2017 Comment

MOOCsでの生徒のgradeを予測するモデルを提案。MOOCsでは生徒のassessmentに対するreponseがsparseで、かつpersonalizedなモデルが必要なため成績予測はチャレンジングなタスク。

lecture-video-watching clickstreams を利用し、time-series neural network （tステップのデータをMLPに入力するもの？あまりしっかり読んでいない）を使って、prioer performanceとclickstreamでtrainingすることでこれらを克服する。

2種類のMOOCsデータセットで評価したところ、past performanceの平均を利用するbaselineに対しては60%程度、lasso regression baselineよりも15%程度outperformした。

全体像

一般的なMOOCsでのvideo-lestureのsequence図解

生徒のj回のquizに回答したあとのaverage Correct First Attempt (CFA)を生徒の成績と定義し、RMSEで評価をしている模様？

上図のように、クイズに回答する毎のaverage CFAの変遷（=y）と、クイズjが含まれる生徒のvideo tにおけるclickstream input features（=x）を利用し、次のクイズに回答した時のaverage CFAを予測している？

NFMB/NI Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation, Ekanadham+, EDM'16 データセットを利用している

AutomaticSpeechRecognition(ASR) (6)

#Article #Transformer #SpeechProcessing #MultiLingual #OpenWeight #Selected Papers/Blogs #AudioLanguageModel
Issue Date: 2025-11-12 Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11 Comment

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #SpeechProcessing #OpenWeight #OpenSource
Issue Date: 2025-08-29 OLMoASR: A series of open speech recognition models, Ai2, 2025.08 Comment

元ポスト:

Loading…

オープンソースのOLMOシリーズから英語のASRが登場

モデルとトークナイザはWhisperと同様な模様

technical report: https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf

#Article #Dataset #SpeechProcessing #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment

元ポスト:

Loading…

#Article #SpeechProcessing #OpenSource Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment

元ポスト:

Loading…

2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

Already supports Nvidia Parakeet

Simultaneously supporting Linux/Windows/macOS

https://github.com/patui/Nosub

#Article #NLP #SpeechProcessing #Blog Issue Date: 2024-11-07 ほぼリアルタイム！？爆速で動作する日本語特化の文字起こしAI！『kotoba-whisper-v2.0』, 遼介大堀, 2024.11 Comment

DeepResearch (6)

#Article #NLP #LanguageModel #OpenWeight #OpenSource #read-later #Selected Papers/Blogs
Issue Date: 2025-11-19 DR Tulu: An open, end-to-end training recipe for long-form deep research, AI2, 2025.11 GPT Summary- RLERを用いて進化するルーブリックを構築し、長文深層研究モデルDR Tulu-8Bを開発。これにより、既存のモデルを大幅に上回る性能を実現し、クエリあたりのサイズとコストを削減。すべてのデータ、モデル、コードを公開し、深層研究システムの新しいインフラも提供。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

著者ポスト2:

Loading…

著者ポスト3:

Loading…

demoをほぼ無料で実施できるとのこと:

Loading…

#Article #NLP #LanguageModel #AIAgents #OpenWeight
Issue Date: 2025-09-17 Tongyi DeepResearch: A New Era of Open-Source AI Researchers, Tongyi Lab, 2025.09 Comment

元ポスト:

Loading…

ベンチマーク:
- [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25
- [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23
- [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25
- [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25
- [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25
- [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25
- [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25

#Article #NLP #LanguageModel #AIAgents #Repository #OpenSource
Issue Date: 2025-09-13 OpenManus, Liang+, FoundationAgents, 2025.04

#Article #NLP #LanguageModel #AIAgents #Repository #OpenSource Issue Date: 2025-09-13 OpenDeepResearch, LangChain, 2025.07 Comment

blog: https://blog.langchain.com/open-deep-research/

#Article #NLP #LanguageModel #AIAgents #Blog #ProprietaryLLM Issue Date: 2025-09-13 Kimi-Researcher End-to-End RL Training for Emerging Agentic Capabilities, MoonshotAI, 2025.06 #Article #NLP #LanguageModel #AIAgents #OpenSource Issue Date: 2025-03-12 Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

VideoGeneration/Understandings (6)

#Article #ComputerVision #Transformer #DiffusionModel #OpenWeight
Issue Date: 2025-11-21 Hunyuan Video 1.5 Technical Report, Tencent, 2025.11 Comment

pj page: https://hunyuan.tencent.com/video/zh?tabIndex=0
HF: https://huggingface.co/tencent/HunyuanVideo-1.5

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #Transformer #DiffusionModel #TextToImageGeneration #LongSequence #VariationalAutoEncoder #OpenWeight
Issue Date: 2025-10-26 LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Video

公式ポスト:

Loading…

#Article #ComputerVision #Transformer #OpenWeight #Encoder-Decoder Issue Date: 2025-08-27 Wan-S2V: Audio-Driven Cinematic Video Generation, Alibaba, 2025.08 Comment

元ポスト:

Loading…

Editing (6)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #SpeechProcessing #Blog #OpenWeight
Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

#Article #ComputerVision #NLP #DiffusionModel #VisionLanguageModel #Encoder
Issue Date: 2025-09-24 Qwen-Image-Edit-2509, Qwen Team, 2025.09 Comment

テクニカルレポート: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

#Article #ComputerVision #NLP #TextToImageGeneration #Blog #ProprietaryLLM Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

#Article #ComputerVision Issue Date: 2025-08-19 Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing, Liu+, SIGGRAPH, 2025.07 Comment

元ポスト:

Loading…

pj page: http://geometrylearning.com/Sketch3DVE/

#Article #ComputerVision #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-08-19 Qwen-Image-Edit, Qwen, 2025.05 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

Imageを入力して、テキストで条件づけることで編集できるOpenWeightモデル
https://github.com/user-attachments/assets/8c4ed7a1-1604-4365-bdbf-ef64ad8298ce" />

参考:25/08/20 とりまQwenImageEditを試す
https://six-loganberry-ba7.notion.site/25-08-20-QwenImageEdit-255f7e7600e980f48e09cc7252ea1677

元ポスト:

Loading…

Image Edit Arenaで２位:

Loading…

ScientificDiscovery (5)

#Article #Tutorial #ComputerVision #NLP #Blog #Japanese #Robotics
Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #NLP #AIAgents #Blog #Test-Time Scaling #LongHorizon
Issue Date: 2025-11-20 Previewing Locus, INTOLOGY, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Citations #NLP #AIAgents #Blog #One-Line Notes
Issue Date: 2025-10-09 Making AI citations count with Asta, AI2, 2025.10 Comment

citationに関するデータはこちら:
https://huggingface.co/datasets/allenai/asta-summary-citation-counts

定期的に更新するとのこと。

#Article #Survey #NLP #LanguageModel #AIAgents Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

#Article #Pocket #NLP #LanguageModel #AIAgents #Coding Issue Date: 2025-05-17 AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05 Comment

blog post: https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/

TextToImageGeneration (5)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #Transformer #DiffusionModel #LongSequence #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings
Issue Date: 2025-10-26 LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Video

公式ポスト:

Loading…

#Article #ComputerVision #Transformer #DiffusionModel #Blog #OpenWeight #Selected Papers/Blogs
Issue Date: 2025-10-10 Introducing Stable Diffusion 3.5, StabilityAI, 2024.10 Comment

SD3.5

#Article #ComputerVision #NLP #Dataset #LanguageModel #Evaluation #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #ComputerVision #NLP #Blog #ProprietaryLLM #Editing Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

RelevanceJudgment (4)

#Article #DocumentSummarization #InformationRetrieval #NLP #Snippets #QueryBiased #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003.09 Comment

#Article #RecommenderSystems #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] Relevance Judgment in epistemic and hedonic information searches, Yunjie Xu, Journal of the American Society for Information Science and Technology, 2007.01 Comment

・informative relevance: 知識を求める検索など（個人のブログ，経済ニュースとか）

・affective relevance: 楽しみや感情に刺激を受けるための情報を求める検索の場合（2chまとめとか，哲学ニュースまとめとか？）

・topicality, novelty, reliabilityがsignificantにinformative relevanceに寄与, scopeとunderstandabilityは寄与せず

・topicality, understandabilityがsignificantにaffective relevanceに寄与，しかし，noveltyはそうではなかった．

#Article #InformationRetrieval #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] Relevance judgment: What do information users consider beyond topicality? Xu Chen, Journal of the American Society for Information Science and Technology, 2006.05 Comment

・relevanceとsignificantに関連するcriteriaは，topicalityとnovelty

・reliabilityおよびunderstandabilityはsmaller degreeでsignificant, scopeはsignificantでない

#Article #InformationRetrieval #One-Line Notes Issue Date: 2017-12-28 [Paper Note] A cognitive model of document use during a research project, Wang and Soergel, Journal of the American Society for Information Science, 1998.02 Comment

topicality, orientation, quality, novelty（の順番で）がrelevantなdocumentを選択したときのcriteriaとして採用されていたことを報告

DataToTextGeneration (4)

#Article #Survey #NaturalLanguageGeneration #NLP #Dataset #Blog
Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #NaturalLanguageGeneration #Others #NLP
Issue Date: 2017-12-31 [Paper Note] Automatically generated linguistic summaries of energy consumption data, van der Heide+, In Proceedings of the Ninth International Conference on Intelligent Systems Design and Applications, pages 553-559, 2009.11 #Article #NaturalLanguageGeneration #Others #NLP
Issue Date: 2017-12-31 [Paper Note] A framework for automatic text generation of trends in physiological time series data, Banaee+, In Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, 2013.10

#Article #NeuralNetwork #NaturalLanguageGeneration #NLP #NAACL Issue Date: 2017-12-31 [Paper Note] What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment, Mei+, NAACL-HLT’16 Comment

Quantization (4)

#Article #NLP #LanguageModel #Reasoning #OpenWeight
Issue Date: 2025-09-23 Qwen3-Next-series-FP8, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #NLP #LanguageModel #Blog
Issue Date: 2024-10-26 Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10 #Article #NLP #OpenWeight
Issue Date: 2024-08-20 4-bit Llama 3.1, NeuralMagic, 2024.08

#Article #EfficiencyImprovement #NLP #LanguageModel #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-07-22 LLaMA2を3行で訓練 Comment

LLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法

LLM-as-a-Judge (4)

#Article #Survey #NLP #Blog #read-later
Issue Date: 2025-09-04 信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09 Comment

ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

#Article #Tutorial #RewardModel
Issue Date: 2025-07-17 [Personal Note] LLM-as-a-judge _ Reward Model #Article #Survey #NLP #LanguageModel #Evaluation #Blog
Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Pocket #NLP #LanguageModel #Evaluation #Blog Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

TTS (4)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #SpeechProcessing #MultiLingual #OpenWeight
Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment

元ポスト:

Loading…

134言語サポートのTTS

#Article #NLP #LanguageModel #SmallModel
Issue Date: 2025-09-17 VoxCPM-0.5B, openbmb, 2025.09 Comment

元ポスト:

Loading…

- [Paper Note] MiniCPM4: Ultra-Efficient LLMs on End Devices, MiniCPM Team+, arXiv'25

をバックボーンとするTTS

#Article #LanguageModel #SpeechProcessing #LongSequence #MultiLingual #OpenWeight Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment

元ポスト:

Loading…

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様？

SequentialRecommendation (3)

#Article #RecommenderSystems #NeuralNetwork #LanguageModel #CIKM
Issue Date: 2021-05-25 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, Sun+, CIKM2019 Comment

BERT4Recのモデル構造。next item predictionしたいsessionの末尾に [mask] をconcatし、[MASK]部分のアイテムを予測する構造っぽい？

オリジナルはtensorflow実装

pytorchの実装はこちら： https://github.com/jaywonchung/BERT4Rec-VAE-Pytorch/tree/master/models

#Article #RecommenderSystems #Survey
Issue Date: 2020-11-13 Sequence-Aware Recommender Systems, ACM Computing Surveys, Vol. 1, No. 1, Article 1, 2018 Comment

#Article #RecommenderSystems #Embeddings #Pocket #SessionBased
Issue Date: 2020-08-29 Airbnbの機械学習導入から学ぶ, Jun Ernesto Okumura, 2020

AES(AutomatedEssayScoring) (3)

#Article #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2024-11-28 Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring, Funayama+, 2024.09 GPT Summary- 自動短答スコアリング（SAS）では、異なるルーブリックと参照回答に基づいてスコアを付けるが、新しいプロンプトごとにモデルを再訓練する必要がありコストがかかる。本研究では、既存のルーブリックと回答を用いて新しいプロンプトでファインチューニングする二段階アプローチを提案。重要なフレーズを学習することで、特に訓練データが限られている場合にスコアリング精度を向上させることを実験で示した。 Comment

[Perplexity(hallucinationに注意)]( https://www.perplexity.ai/search/tian-fu-sitalun-wen-wodu-mi-ne-3_TrRyxTQJ.2Bm2fJLqvTQ#0)

#Article #Pocket #NLP #Japanese
Issue Date: 2024-11-28 国語記述問題自動採点システムの開発と評価, Yutaka Ishii+, 日本教育工学会, 2024.05 #Article #NLP #LanguageModel #Education
Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment

著者によるポスト:

Loading…

著者によるブログ:

https://mizumot.com/lablog/archives/1805

A/B Testing (3)

#Article #RecommenderSystems #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #MLOps #Blog #TwoTowerModel
Issue Date: 2025-06-29 日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05 Comment

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Evaluation #Blog
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

#Article #Blog
Issue Date: 2023-04-26 Controlled experiments on the web: survey and practical guide, 2023 Comment

A/Bテストのベストプラクティスが書かれているらしい

Metrics (3)

#Article #Tutorial #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch
Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

#Article #DocumentSummarization #NLP #Evaluation #Reference-based
Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。 #Article #MachineTranslation #NLP
Issue Date: 2023-05-10 METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Banerjee+, CMU, ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and_or Summarization Comment

ImageCaptioning (3)

#Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #VisionLanguageModel #OCR
Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #Survey #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #DiffusionModel
Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #ComputerVision
Issue Date: 2023-07-22 Comparing captioning models Comment

SoTAのvision languageモデルのデモ。BLIP, BLIP2,GIT,InstructBLIPを試せる

QuestionAnswering (3)

#Article #ComputerVision #Pretraining #NLP #Dataset #ImageCaptioning #VisionLanguageModel #OCR
Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #Pocket #NLP #AIAgents #GenerativeAI #RAG(RetrievalAugmentedGeneration) #Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment

元ポスト:

Loading…

#Article #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-01-16 日本語WikipediaQAデータセット（Retrievalプロセス付き）

NewsRecommendation (2)

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #MLOps #Evaluation #Blog #A/B Testing
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

#Article #RecommenderSystems #Document #Personalization #SIGIR #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] SCENE: A Scalable Two-Stage Personalized News Recommendation System, Li et al., SIGIR’11 Comment

・ニュース推薦には3つのチャレンジがある。

1. スケーラビリティ　より高速なreal-time processing

2. あるニュース記事を読むと、続いて読む記事に影響を与える

3. popularityとrecencyが時間経過に従い変化するので、これらをどう扱うか

これらに対処する手法を提案

SentimentAnalysis (2)

#Article #NeuralNetwork #NLP #RepresentationLearning
Issue Date: 2021-06-01 Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015 Comment

#Article #Survey #NLP #OpinionMining
Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008

Assessment (2)

#Article #NLP #LanguageModel
Issue Date: 2023-05-04 ChatBot Arena, lmsys org, 2023.05 Comment

Loading…

過去のデータについては ChatBot Arenaのデータセットなどもある

#Article #NLP #LanguageModel
Issue Date: 2023-04-30 PandaLM Comment

DialogueGeneration (2)

#Article #NLP #SpeechProcessing #Japanese
Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #NLP #Dataset #LanguageModel
Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

STS (SemanticTextualSimilarity) (2)

#Article #NeuralNetwork #Embeddings #NLP #Word #RepresentationLearning
Issue Date: 2024-11-20 Zipf 白色化：タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 GPT Summary- 単語埋め込み空間の歪みを修正することでタスクのパフォーマンスが向上することを示す。既存のアプローチは単語頻度が均一であると仮定しているが、実際にはZipfの法則に従う非均一な分布である。Zipfに基づく頻度で重み付けされたPCAホワイトニングを行うことで、パフォーマンスが大幅に向上し、ベースラインを超える。情報幾何学的な観点から、低頻度の単語を強調する理論を提案し、人気の自然言語処理手法がこの理論に基づいて機能することを示す。 Comment

元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ]( https://arxiv.org/abs/2411.00680)

#Article #NLP #LanguageModel
Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment

AutomaticPromptEngineering (2)

#Article #ComputerVision #NLP #Library #Prompting #MultiModal
Issue Date: 2023-12-01 multimodal-maestro Comment

#Article #Analysis #NLP #Prompting #Blog
Issue Date: 2023-10-13 日本語LLMベンチマークと自動プロンプトエンジニアリング, PFN Blog, 2023.10 Comment

Pruning (2)

#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #ReinforcementLearning #InstructionTuning #Reasoning #OpenWeight
Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 Comment

元ポスト:

Loading…

Safeguard (2)

#Article #NLP #LanguageModel #Reasoning #OpenWeight #Safety #One-Line Notes
Issue Date: 2025-10-30 gpt-oss-safeguard, OpenAI, 2025.10 Comment

元ポスト:

Loading…

blog: https://openai.com/index/introducing-gpt-oss-safeguard/

#Article #NLP #LanguageModel #OpenWeight #Safety
Issue Date: 2025-09-23 Qwen3-Guard, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

ConceptToTextGeneration (1)

#Article #NaturalLanguageGeneration #SingleFramework #NLP
Issue Date: 2017-12-31 [Paper Note] A Global Model for Concept-to-Text Generation, Konstas+, Journal of Artificial Intelligence Research, Vol. 48, pp.305--346, 2013.10

DomainAdaptation (1)

#Article #DocumentSummarization #Document #StructuredLearning #Supervised #NLP #Extractive
Issue Date: 2017-12-31 [Paper Note] 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011.11 Comment

構造学習を利用した文書要約モデル

[Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 なども利用し転移学習を行なっている。

MatrixFactorization (1)

#Article #RecommenderSystems #CollaborativeFiltering #Selected Papers/Blogs
Issue Date: 2018-01-11 [Paper Note] Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008 Comment

日本語での解説: https://cympfh.cc/paper/WRMF

Implicit Implicit でのAlternating Least Square (ALS)という手法が、この手法の実装に該当する。

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

ScorePrediction (1)

#Article #Dataset #Education #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-08-23 Score Prediction dataset

DataAugmentation (1)

#Article #NLP #Library #Repository
Issue Date: 2023-01-21 nlpaug Comment

Data Augmentationのためのオープンソースライブラリ

DataDistillation (1)

#Article #NLP #Dataset #InstructionTuning
Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

WebSearch (1)

#Article #CollaborativeFiltering #InformationRetrieval #RelevanceFeedback #Search #Personalization
Issue Date: 2023-04-28 Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 Comment

SpokenLanguageGeneration (1)

#Article #NLP #Library #SpokenLanguageProcessing
Issue Date: 2023-05-04 Bark Comment

テキストプロンプトで音声生成ができるモデル。MIT License

NaturalLanguageUnderstanding (1)

#Article #RecommenderSystems #NLP #Dataset
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions GPT Summary- データセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。

InformationExtraction (1)

#Article #NLP #Blog
Issue Date: 2024-01-16 LLMにおける情報抽出（文章から必要な事柄を読み取る）タスクについての調査, AIDB

Finetuning (1)

#Article #Analysis #NLP #Blog #Tokenizer #Encoder
Issue Date: 2025-08-02 日本語ModernBERTの開発: トークナイザと性能の関係編（3_3）, SBIntuitions, 2025.05 Comment

元ポスト:

Loading…

PII (1)

#Article #NLP #LanguageModel #SmallModel #OpenWeight #Japanese
Issue Date: 2025-10-14 LFM2-350M-PII-Extract-JP, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Standardization (1)

#Article #NLP #AIAgents #Selected Papers/Blogs
Issue Date: 2025-10-25 Building the Open Agent Ecosystem Together: Introducing OpenEnv, openenv, 2025.10 Comment

元ポスト:

Loading…

Environment Hub: https://huggingface.co/openenv

ImageSynthesis (1)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

Mapping (1)

#Article #Tutorial #ComputerVision #Slide #ObjectLocalization #Geometric
Issue Date: 2025-11-04 Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10 Comment

元ポスト:

Loading…

SpatialUnderstanding (1)

#Article #Survey #ComputerVision #NLP #MultiModal #Repository #VisionLanguageModel
Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

ImageSegmentation (1)

#Article #ComputerVision #FoundationModel #Blog #read-later #Selected Papers/Blogs #2D (Image) #4D (Video)
Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

3D Reconstruction (1)

#Article #ComputerVision #FoundationModel #Blog #read-later #Selected Papers/Blogs #3D (Scene)
Issue Date: 2025-11-20 Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

Others (170)

#Article #ComputerVision #Blog #FlowMatching #reading #RectifiedFlow #FlowMaps
Issue Date: 2025-11-28 生成AI革命の最前線：拡散を超える「流れ」の思想とMambaの台頭, laughman-ai, 2025.10 #Article #ComputerVision #Blog #read-later #FlowMatching #RectifiedFlow #Physics
Issue Date: 2025-11-28 Flow With What You Know, Scott H. Hawley, 2024.11 #Article #Blog
Issue Date: 2025-11-27 Why （Senior） Engineers Struggle to Build AI Agents, PHILSCHMID, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-11-27 Effective harnesses for long-running agents, Anthropic, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-11-27 The Eiffel Tower Llama, David Louapre, 2025.11 Comment

元ポスト:

Loading…

#Article #Pocket #OpenWeight Issue Date: 2025-11-27 [Paper Note] Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer, Alibaba, 2025.11 Comment

HF: https://huggingface.co/Tongyi-MAI/Z-Image-Turbo

元ポスト:

Loading…

ポイント解説:

Loading…

公式ポスト:

Loading…

#Article Issue Date: 2025-11-26 [Paper Note] Nested Learning: The Illusion of Deep Learning Architectures, Behrouz, 2025.10 GPT Summary- 新しい学習パラダイム「ネストされた学習（NL）」を提案し、深層学習における文脈内学習のメカニズムを解明。NLに基づく深層最適化器、自己修正型モデル、連続記憶システムを開発し、言語モデリングや継続的学習での有望な結果を示す学習モジュール「Hope」を提案。 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #Repository #ComputerUse #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 GPT-4V-Act, ddupont808, 2023.10 Comment

#Article #AIAgents #Blog #SmallModel #OpenWeight #ComputerUse #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 Fara-7B: An Efficient Agentic Model for Computer Use, Microsoft, 2025.11 Comment

元ポスト:

Loading…

computer useに特化したMS初のSLM(CUA)

MIT Licence

著者ポスト:

Loading…

#Article #NLP #Blog #SmallModel #Japanese #VisionLanguageModel #Cultural Issue Date: 2025-11-25 Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11 Comment

元ポスト:

Loading…

HF: https://huggingface.co/sbintuitions/sarashina2.2-vision-3b

#Article Issue Date: 2025-11-23 Beyond Seeing: Evaluating Multimodal LLMs On Tool-enabled Image Perception, Transformation, and Reasoning, Scale AI, 2025.10 Comment

VisualToolBench: Testing the Limits of AI Vision:
https://scale.com/blog/visualtoolbench

#Article #RecommenderSystems #Embeddings #InformationRetrieval #NLP #Blog #OpenWeight #Reranking Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment

HF: https://huggingface.co/zeroentropy/zerank-2

SoTA reranker

関連:
- zerank-1, zeroentropy, 2025.07

#Article #NLP #AIAgents #Blog #ProprietaryLLM #ComputerUse #read-later #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-20 Introducing Navigator, Yutori team, 2025.11 Comment

元ポスト:

Loading…

gemini2.5, claude4.5, openaioperator等よりも性能が良いweb agentらしい

#Article #Blog #Zero/FewShotLearning #read-later #Generalization #Robotics #LongHorizon Issue Date: 2025-11-20 ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog #read-later Issue Date: 2025-11-19 NVIDIA NeMoを利用したGPT-OSSの学習, Kazuki Fujii, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog #SoftwareEngineering #read-later #GPUKernel Issue Date: 2025-11-18 ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11 Comment

元ポスト:

Loading…

読みたい

#Article #Blog Issue Date: 2025-11-14 [Tips] PyTorchにおける動的リンク, Kazuki Fujii, 2025.05 #Article #Blog Issue Date: 2025-11-14 [Tips] PyTorchをself buildしてinstallする方法, Kazuki Fujii, 2025.03 #Article #ComputerVision #NLP #Blog #Reasoning #ComputerUse #VisionLanguageModel #3D (Scene) #Game Issue Date: 2025-11-14 SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds, Google DeepMind, 2025.11 Comment

元ポスト:

Loading…

もはやAIがゲームをできるのは当たり前の時代だが、どのくらいOODに汎化するのかは気になる。

#Article #NLP #AIAgents #Blog #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-11-14 Holo2: Cost-Efficient Models for Cross-Platform Computer-Use Agents, H Company, 2025.11 Comment

HF: https://huggingface.co/collections/Hcompany/holo2

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-11-08 Announcing Ironwood TPUs General Availability and new Axion VMs to power the age of inference, Google Cloud, 2025.11 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-11-07 KTransformers: A New Era of Open Source: Low-Barrier Multi-GPU Inference for Trillion_Trillion Models （w SGLang） and Local Fine-Tuning （w LLaMa-Factory） Comment

元ポスト:

Loading…

#Article Issue Date: 2025-11-05 GEN-0 _ Embodied Foundation Models That Scale with Physical Interaction, Generalist AI Team, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #ContextEngineering #reading Issue Date: 2025-10-28 AIエージェントのためのコンテキストエンジニアリング：Manus構築から得た教訓, Manus AI, 2025.07 Comment

元ポスト:

Loading…

#Article #NeuralNetwork #Optimizer #Post Issue Date: 2025-10-28 [Thread Memo] 最近の最適化に関する研究についての見解, Seunghyun Seo, 2025.10 Comment

#Article #Blog #read-later Issue Date: 2025-10-27 On-Policy Distillation, Thinking Machines, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

解説:

Loading…

#Article #Embeddings #NLP #Blog #Encoder #Routing Issue Date: 2025-10-27 From Monolithic to Modular: Scaling Semantic Routing with Extensible LoRA, vLLM blog, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #MachineLearning #NLP #MultiModal #Repository #PostTraining #Selected Papers/Blogs #UMM #One-Line Notes Issue Date: 2025-10-27 LMMs Engine, EvolvingLMMs-Lab, 2025.10 Comment

元ポスト:

Loading…

#Article #Blog #read-later #ContinualLearning Issue Date: 2025-10-23 The Continual Learning Problem, Jessy Lin, 2025.10 Comment

元ポスト:

Loading…

#Article #RecommenderSystems #InformationRetrieval #OpenWeight #Encoder #Reranking Issue Date: 2025-10-23 zerank-1, zeroentropy, 2025.07 Comment

SoTAなcross-encoderに基づくreranker。おそらく英語にのみ対応。

zerank-1はcc-by-nc-4.0, smallはApache2.0ライセンス

#Article #ComputerVision #NLP #SmallModel #MultiLingual #OpenWeight #VisionLanguageModel Issue Date: 2025-10-22 LFM2-VL-3B: A New Efficient Vision-Language for the Edge, LiquidAI, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/LiquidAI/LFM2-VL-3B

SigLIP2とLFM2がバックボーン
- Introducing LFM2: The Fastest On-Device Foundation Models on the Market, LiquidAI, 2025.07

#Article #DiffusionModel #Blog Issue Date: 2025-10-21 BERT is just a Single Text Diffusion Step, Nathan Barry, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #ReinforcementLearning #Blog #Scaling Laws #read-later #Selected Papers/Blogs #reading Issue Date: 2025-10-21 How to scale RL, NATHAN LAMBERT, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #ReinforcementLearning #Blog #Test-Time Scaling #Scaling Laws #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-21 How Well Does RL Scale?, Toby Ord, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #Blog #ObjectLocalization #3D (Scene) Issue Date: 2025-10-20 Find3D: Localizing Semantic Concepts in the 3D Space , Ziqi Ma, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #read-later #ContextEngineering Issue Date: 2025-10-18 Equipping agents for the real world with Agent Skills, Anthropic, 2025.10 Comment

元ポスト:

Loading…

#Article #Multi #EfficiencyImprovement #ReinforcementLearning #AIAgents #Blog #ProprietaryLLM #Parallelism #ContextEngineering #KeyPoint Notes Issue Date: 2025-10-18 Introducing SWE-grep and SWE-grep-mini: RL for Multi-Turn, Fast Context Retrieval, Cognition, 2025.10 Comment

元ポスト:

Loading…

最大で4 turnの間8つのツールコール（guessingとしては従来モデルは1--2, Sonnet-4.5は1--4)を並列する（3 turnは探索、最後の1 turnをanswerのために使う) parallel tool calls を効果的に実施できるように、on policy RLでマルチターンのRLを実施することで、高速で正確なcontext retrievalを実現した、という感じらしい。

従来のembedding-basedなdense retrieverは速いが正確性に欠け、Agenticなsearchは正確だが遅いという双方の欠点を補う形。

parallel tool callというのは具体的にどういうtrajectoryになるのか…？

#Article #NLP #AIAgents #Personalization #Repository #API #SoftwareEngineering #memory Issue Date: 2025-10-13 supermemory, supermemoryai, 2025.10 #Article #ComputerVision #DiffusionModel #Blog #Samplers Issue Date: 2025-10-10 画像生成AIにおけるEulerサンプラーの詳細解説, あらもり, 2024.07 #Article #ComputerVision #DiffusionModel #Blog #Samplers Issue Date: 2025-10-10 Stable Diffusionにおけるサンプラーの役割を理解する, moykeen, 2024.01 #Article #Embeddings #NLP #SmallModel #OpenWeight #Encoder Issue Date: 2025-10-09 colbert-muvera-femto, NeuML, 2025.10 Comment

元ポスト:

Loading…

#Article #Mindset #Management Issue Date: 2025-10-05 後進育成のしくじり〜任せるスキルとリーダーシップの両立〜, スクラム祭り, freee, 2025.10 Comment

元ポスト:

Loading…

#Article Issue Date: 2025-10-03 Pepper: A Real‑Time, Event‑Driven Architecture for Proactive Agentic Systems, Agentica Team, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #Reasoning #SmallModel #OpenWeight #VisionLanguageModel Issue Date: 2025-10-01 Apriel-1.5-15b-Thinker, ServiceNow-AI, 2025.09 Comment

元ポスト:

Loading…

Artificial Analysisによるベンチマーキングでは現状<20BでSoTAなReasoningモデルな模様。
MIT License

公式ポスト:

Loading…

Nvidiaによるポスト:

Loading…

#Article #Blog #PEFT(Adaptor/LoRA) #read-later #Selected Papers/Blogs Issue Date: 2025-09-30 LoRA Without Regret, Schulman+, THINKING MACHINES, 2025.09 Comment

元ポスト:

Loading…

これはおそらく必読...

解説:

Loading…

解説:

Loading…

所見:

Loading…

#Article #ComputerVision #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-09-29 InternVL3.5-Flash, OpenGVLab, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #OpenWeight #UMM #One-Line Notes Issue Date: 2025-09-29 HunyuanImage-3.0, Tencent, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NeuralNetwork #MachineLearning #NLP #Blog #Optimizer #read-later Issue Date: 2025-09-27 Modular Manifolds, Jeremy Bernstein+, THINKING MACHINES, 2025.09 Comment

関連:

Loading…

#Article #ComputerVision #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-09-23 Qwen3-VL, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:

Loading…

Qwen3 VL cookbook:
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks

元ポスト:

Loading…

続報:

Loading…

#Article #AIAgents #Blog #Coding Issue Date: 2025-09-23 Vibe Coding Cleanup as a Service, Donado Labs, 2025.09 Comment

元ポスト:

Loading…

#Article #Slide #Frontend Issue Date: 2025-09-21 モダンフロントエンドデザインパターン優れたUXを実現するには, Daisuke Awaji, AWS Japan, 2023.06 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-09-18 granite-docling-258M, IBM, 2025.09 Comment

元ポスト:

Loading…

Apache 2.0, 言語は英語のみ

#Article #Pocket #ReinforcementLearning #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-18 A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning, Zhai+, 2025.09 Comment

pj page: https://vlac.intern-ai.org.cn

元ポスト:

Loading…

#Article #AIAgents #Blog Issue Date: 2025-09-17 Agent Payments Protocol （AP2）, Google, 2025.09 Comment

AI Agentにpaymentをさせるためのsecureなプロトコルな模様

元ポスト:

Loading…

#Article #NLP #ReinforcementLearning #read-later Issue Date: 2025-09-14 Online versus Offline RL for LLMs A deep dive into the online-offline performance gap in LLM alignment..., CAMERON R. WOLFE, PH.D., 2025.09 Comment

元ポスト:

Loading…

#Article #Attention #Blog Issue Date: 2025-09-12 Attention ls Off By One, Evanmiller.org, 2023.07 #Article #Blog #read-later Issue Date: 2025-09-12 Qwen3-Next: Towards Ultimate Training & Inference Efficiency, Qwen Team, 2025.09 Comment

元ポスト:

Loading…

Artificial Intelligenceによる評価:

Loading…

#Article #ReinforcementLearning #Blog #Scaling Laws #read-later Issue Date: 2025-09-10 Scaling Laws for Value-Based RL, Fu+, 2025.09 Comment

元ポスト:

Loading…

元論文:
- [Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25
- [Paper Note] Value-Based Deep RL Scales Predictably, Oleh Rybkin+, ICML'25

#Article #Embeddings #NLP #MultiLingual #OpenWeight Issue Date: 2025-09-05 Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings, Google, 2025.09 Comment

HF: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

元ポスト:

Loading…

解説:

Loading…

解説:

Loading…

#Article #ComputerVision #OpenWeight #WorldModels Issue Date: 2025-09-02 HunyuanWorld-Voyager: Technical Report, Tencent, 2025.09 Comment

pj page: https://3d-models.hunyuan.tencent.com/world/

元ポスト:

Loading…

#Article #ComputerVision #NLP #Slide #Chip #VisionLanguageModel #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-01 AIロボティクス検討会第1回事務局資料, 経済産業省, 2025.08 Comment

元ポスト:

Loading…

Nvidiaの投資額が文字通り桁違いの5000億ドル

#Article #ComputerVision #EfficiencyImprovement #NLP #Blog #SmallModel #VisionLanguageModel Issue Date: 2025-08-30 fastvlm-webgpu, Apple, 2025.08 Comment

元ポスト:

Loading…

pj page: https://fastvlm.net

#Article #read-later Issue Date: 2025-08-27 LLM-jpモデルに対するOLMo2ベースの中間学習の検討, LLM-jp, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #ComputerUse Issue Date: 2025-08-27 NEC、暗黙知をデータ化し学習・活用することでWeb業務を自動化するエージェント技術「cotomi Act」を開発〜世界初、人間を超えるWebタスク成功率80.4％を達成〜, NEC, 2025.08 Comment

元ポスト:

Loading…

WebArena:
- WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24

#Article #Slide #ContextEngineering Issue Date: 2025-08-22 LLM時代の検索とコンテキストエンジニアリング, Yusuke Shibui, LayerX, 2025.08 #Article #Blog #MCP Issue Date: 2025-08-20 One Month in MCP: What I Learned the Hard Way, r_mcp, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #ReinforcementLearning #python #Repository #GRPO #On-Policy #MinimalCode Issue Date: 2025-08-19 reasoning-minimal, torotoki, 2025.08 Comment

TRLのGRPOTrainer、および独自定義のReward（フォーマット/acc）を用いたミニマルなGRPOの実装。GRPOを実施する際には参照のこと。

#Article #EfficiencyImprovement #NLP #Attention #python #Repository #read-later #MinimalCode Issue Date: 2025-08-19 simple-paged-attention, torotoki, 2025.06 Comment

CUDA + C++によるミニマルなpaged-attentionの実装。アルゴリズムの理解+実装理解の参考に非常に良さそう。

この辺もあわせて読むとおもしろいかもしれない:
https://nttdocomo-developers.jp/entry/2024/12/19/090000_6

#Article #ComputerVision #Self-SupervisedLearning #Distillation #Regularization #read-later #Backbone #One-Line Notes #Reference Collection Issue Date: 2025-08-14 DINOv3: Self-supervised learning for vision at unprecedented scale, Meta, 2025.08 Comment

元ポスト:

Loading…

paper: https://arxiv.org/abs/2508.10104

HF: https://huggingface.co/docs/transformers/main/en/model_doc/dinov3

解説:

Loading…

サマリ:

Loading…

v2:
- DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24

本日配信された岡野原氏のランチタイムトークによると、学習が進んでいくと全部の特徴量が似通ってきてしまう問題があったが、Gram Anchoringと呼ばれる、学習初期時点でのパッチ間の類似度度行列を保持しておき正則化として損失に加えることで、そこから離れすぎないように学習するといった工夫を実施しているとのこと。

#Article #ComputerVision #SSM (StateSpaceModel) #Slide Issue Date: 2025-08-12 第62回名古屋CV・PRML勉強会：CVPR2025論文紹介（MambaOut）, Naoki Okamoto, 2025.08 Comment

元ポスト:

Loading…

元論文は以下:
- [Paper Note] MambaOut: Do We Really Need Mamba for Vision?, Weihao Yu+, arXiv'24

#Article #NLP #Blog #Reasoning #OpenWeight Issue Date: 2025-08-11 Breakdown: Kimi K2, DeepSeek-R1, Qwen3 （+Coder）, and GLM-4.5, TuringPost, 2025.08 Comment

元ポスト:

Loading…

中国初のOpenLLMについて、それぞれの強みとおすすめのユースケースがまとまっている

以下のようなものもある:
- MiniMax-M1, MiniMax, 2025.06
- Hunyuan-A13B-Instruct, tencent, 2025.06

#Article #ComputerVision #Online/Interactive #Blog #read-later #WorldModels Issue Date: 2025-08-06 Genie 3: A new frontier for world models, Google DeepMind, 2025.08 Comment

元ポスト:

Loading…

ライブ操作が可能な世界モデル

日本語解説:

Loading…

デモ:

Loading…

すごいなあ

#Article #read-later Issue Date: 2025-08-06 Fine-tuning with gpt-oss and Hugging Face Transformers, OpenAI Cookbook, 2025.08 Comment

元ポスト:

Loading…

#Article #read-later Issue Date: 2025-08-06 Estimating worst case frontier risks of open weight LLMs, OpenAI, 2025.08 #Article #read-later Issue Date: 2025-08-04 StaticEmbeddingを用いた高速な検索クエリ埋め込み, LINEヤフー, 2025.08 Comment

元ポスト:

Loading…

#Article #AIAgents #Coding #Slide #SoftwareEngineering #Sequrity Issue Date: 2025-07-26 運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07 #Article #AIAgents #project_template #python #Coding #SoftwareEngineering Issue Date: 2025-07-26 Python Template for Claude Code （Cookiecutter）, zerebom, 2025.07 Comment

元ポスト:

Loading…

#Article #Mindset Issue Date: 2025-07-25 いつか起業したいエンジニアへ, TakahikoKawasaki （川崎貴彦）, 2024.03 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Coding #Slide Issue Date: 2025-07-25 AI時代のソフトウェア開発を考える（2025_07版） _ Agentic Software Engineering Findy 2025-07 Edition, Takuto Wada, 2025.07 Comment

#Article #RecommenderSystems #Slide #TwoTowerModel Issue Date: 2025-07-17 DMMにおけるレコメンドの紹介‗20250716_traP×DMM, 合同会社DMM.com, 2025.07 Comment

Two Towerモデル + LightGBMによるリランキング

#Article #Transformer #SpeechProcessing #Conversation #Slide #read-later Issue Date: 2025-07-15 【輪講資料】Moshi: a speech-text foundation model for real-time dialogue, Hayato Tsukagoshi, 2025.07 #Article #Mindset #Blog Issue Date: 2025-07-15 個人を活かしてチーム力も最大化する、属人性解消への取り組み方, エムスリーテックブログ, 2025.07 Comment

属人性と向き合いチームの成果を最大化する

#Article #RecommenderSystems #Blog #Slide Issue Date: 2025-07-15 推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07 Comment

元ポスト:

Loading…

Wantedlyスカウトにおいて、オンラインで動的にスカウト利用者から指定されるフィルタリング要件に対して、未閲覧のユーザの比率を動的に調整してランキングするPost Processによって、主要KPIが大幅に改善した話。モデル改善に興味が行きがちだが、顧客理解に基づくPost Processでここまで主要KPIが改善するのは美しく、非常に興味深い。

スライド資料:

Loading…

#Article #Blog #Reasoning #read-later Issue Date: 2025-07-08 New methods boost reasoning in small and large language models, Zhang+, Microsoft, 2025.06 Comment

元ポスト:

Loading…

#Article #AIAgents #Coding #Slide #SoftwareEngineering #ContextEngineering Issue Date: 2025-07-06 Claude Code の Context Engineering, schroneko, 2025.07 #Article #NLP #AIAgents #Blog #Coding #SoftwareEngineering Issue Date: 2025-06-23 AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06 Comment

元ポスト:

Loading…

#Article #AIAgents #Blog #Coding #read-later Issue Date: 2025-06-21 AI-assisted coding for teams that can't get away with vibes, Atharva Raykar, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #read-later Issue Date: 2025-06-21 Single vs Multi-Agent System?, PHILSCHMID, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #python #LLMServing Issue Date: 2025-06-20 Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06 Comment

元ポスト:

Loading…

#Article #Multi #NLP #AIAgents #Blog #read-later #ContextEngineering Issue Date: 2025-06-17 Don’t Build Multi-Agents, Cognition, 2025.06 Comment

元ポスト:

Loading…

まとめ:

Loading…

#Article #Blog #read-later Issue Date: 2025-05-18 Lesson.3 秋葉氏に学ぶ AI 研究の最前線から見るこれまでとこれから, EM.FM, 2025.05 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-05-12 The Second Half, Shunyu Yao, 2025.05 Comment

元ポスト:

Loading…

#Article #Pocket #Mindset Issue Date: 2025-05-07 Google’s Hybrid Approach to Research, Spector+, Google, Communications of the ACM, 2012 Comment

元ポスト:

Loading…

ParsingのSlav Petrov氏がlast author

#Article #Blog #Frontend #React (Frontend) Issue Date: 2025-05-01 React がビルドされるまでの流れを理解したい, ツチノコ, 2023.12 Comment

Reactがビルドされる流れは、
- Webpackでバンドル（アセットをまとめる）し
- Babelでトランスパイルし（ES5（古い仕様のJS）に変換）し
- tscでJavaScriptに変換

する

#Article #AIAgents #Slide #SoftwareEngineering Issue Date: 2025-04-26 Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04 Comment

Devinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。

#Article #MachineLearning #Blog Issue Date: 2025-04-18 あえて予測の更新頻度を落とす| サプライチェーンの現場目線にたった機械学習の導入, モノタロウ Tech Blog, 2022.03 Comment

とても面白かった。需要予測の予測性能を追求すると現場にフィットしない話が示唆に富んでいて、とてもリアルで興味深い。

#Article #Mindset #Blog #SoftwareEngineering Issue Date: 2025-04-01 ジュニアエンジニアからシニアエンジニアになるまでに自分がやっていたことまとめ, yasuhisa's blog, 2025.04 #Article #AIAgents #Blog Issue Date: 2025-03-15 Model Context Protocol （MCP）, Anthropic Comment

下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:
https://modelcontextprotocol.io/quickstart/server
https://modelcontextprotocol.io/quickstart/client

#Article #AIAgents #Blog #ComputerUse Issue Date: 2025-03-15 browser-useの基礎理解, むさし, 2024.12 Comment

公式リポジトリ: https://github.com/browser-use/browser-use

BrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するのとは対照的だと感じた（小並感）。

- OpenAI API での Computer use の使い方, npaka, 2025.03

#Article #Slide Issue Date: 2025-02-26 Docker入門2024, Cybozu #Article #Infrastructure Issue Date: 2025-01-04 kubernetes入門, Cybozu, 2024.07 #Article #python #Blog Issue Date: 2025-01-04 pydantic-settingsで環境変数からもオプション引数を指定できるCLIを作る〜サブコマンド篇〜, nikkie-ftnextの日記, 2025.01 Comment

pydantic-settingsを使ったCLI作成に関する記事。環境変数からオプションを指定できるので、コマンドライン引数を動的に柔軟に変更したい場合に便利そう

#Article #NLP #AIAgents #python #Blog #API #ComputerUse Issue Date: 2025-01-04 browser-use やばいです, Syoitu, 2024.12 Comment

すごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。

#Article #RecommenderSystems #Blog Issue Date: 2024-12-20 Netflixの推薦＆検索システム最前線 - QCon San Francisco 2024現地レポート, UZABASE, 2024.12 Comment

インフラ構成の部分が面白い。モデルの構築方法などは、まず軽量なモデルやヒューリスティックで候補を絞り、その後計算量が重いモデルでリランキングする典型的な手法。

Netflixのインフラによって、以下のようなことを
>1～2秒前の最新データを参照でき、推薦生成に反映させることが可能です

latencyを40msに抑えつつ実現しているとのこと。直前のアクションをinferenceで考慮できるのは相当性能に影響あると思われる。

また、検索と推薦をマルチタスク学習しパラメータをシェアすることで両者の性能を挙げているのが興味深い。
モデル自体は近年のLLMを用いた推薦では無く、Deepなニューラルネットに基づくモデルを採用
（まあLLMなんかにリアルタイムで推論させたらlatency 40ms未満という制約はだいぶきついと思われるしそもそも性能向上するかもわからん。予測性能とかよりも、推薦理由の生成などの他タスクも同時に実施できるのは強みではあるとは思うが…）。

まあしかし、すごい目新しい情報があったかと言われると基本的な内容に留まっているのでそうでもないという感想ではある。

#Article #MachineLearning #Optimizer Issue Date: 2024-12-12 最近のOptimizerの研究について, Hiroyuki Tokunaga, 2024.12 Comment

- ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS'24

↑以外にもめちゃめちゃたくさんのOptimizerの研究が紹介されており大変勉強になる。

#Article #Blog Issue Date: 2024-12-12 株式会社NexaScienceはじめます。, Yoshitaka Ushiku, 2024.12 Comment

全部読んだ。めちゃめちゃ共感できる。

#Article #Mindset #Blog Issue Date: 2024-11-30 道は続く, Ryo Kobayashi, 2024.11 Comment

「道は続く」、心に刻みたい言葉

#Article #Blog Issue Date: 2024-11-18 【総集編）】15年間のC向けサービスづくりで得た学び, Shota Horii, 2024.11 Comment

具体的だがシンプルに知見がまとまっていてとても分かりやすい。

顧客開発モデルに基づいた考え方のみならず、仮設整理のために実際に使われているシートなどの実用的なツール群や、
顧客とのチャネル構築方法、プロダクトのスケールするための知見、チームビルディング、カルチャーの作り方の作法など（他にも透明性とかサンクコストを恐れずシンプルさを保つことのコスト削減効果などここには書ききれない）、
実体験を具体的に交えながら説明されており、盛りだくさんで非常に勉強になる。

#Article Issue Date: 2024-11-13 Artificial Intelligence, Scientific Discovery, and Product Innovation, Aidan Toner-Rodgers, MIT, 2024.11 #Article #Blog Issue Date: 2024-11-11 The Surprising Effectiveness of Test-Time Training for Abstract Reasoning, 2024.11 #Article #GPU-Platform Issue Date: 2024-11-09 The Fastest Access to Enterprise-Grade Cloud GPUs, Lambda Comment

元ポスト:

Loading…

A100を1時間あたり1.29$で使えるぽいので、安価である。8BのLLMをLoRAでちょろっとSFTするくらいなら、数ドルくらいでいけそう。

AWSだと、A100を8基、vCPU96、VRAM320G、RAM1152GiBのインスタンス（p4d24xlarge）が、1時間あたりオンデマンドで32.77$なのに対し、

LambdaではA100 1基あたり1.29$なので、8基で10.32$となる。したがって、コストはだいたいAWSのおよそ1/3くらいに見える（他にも安価なAWSインスタンスあるかもだが）。
ちなみにLambdaでは、vCPU124、RAM1800GiBである。

AWS参考: https://aws.amazon.com/jp/ec2/instance-types/p4/

こちらのポストも参照のこと:

Loading…

Lambdaに加え
- [runpod.io]( https://www.runpod.io)
- [vast.ai]( https://vast.ai/)

というサービスも紹介されている。

[Perplexityで3つを比較させた結果（参考; Hallucinationに注意）]( https://www.perplexity.ai/search/runpod-io-vast-ai-lambdatea100-vJgXn4osSfCqxPsxuJEPKA)

>これらのサービスの中では、Vast.aiが最も安価ですが、セキュリティと安定性に注意が必要です。RunPodは多機能で使いやすいものの、やや高価です。Lambdaは安定性が高いですが、柔軟性に欠ける面があります。選択する際は、予算、セキュリティ要件、必要な機能性を考慮して判断することが重要です。

#Article #Blog Issue Date: 2024-10-25 Ilya Sutskever’s Top 30 Reading List #Article #NLP #MultiLingual #OpenWeight Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 Comment

CohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。

8BモデルのArenaHardでの評価

32BモデルのArenaHardでの評価

#Article #SpokenLanguageProcessing #Repository Issue Date: 2024-10-04 textlesslib, FAIR, 2022.02 Comment

>テキストへの依存を脱し、生の音声録音のみを入力として表現力豊かな音声を生成する初の言語モデルである GSLM

元ポスト:

Loading…

#Article #AIAgents #Repository #Conversation Issue Date: 2024-10-02 AutoGen, Microsoft, 2024.10 GPT Summary- AutoGenは、AIエージェントの構築と協力を促進するオープンソースのプログラミングフレームワークで、エージェント間の相互作用や多様なLLMの使用をサポートします。これにより、次世代LLMアプリケーションの開発が容易になり、複雑なワークフローのオーケストレーションや最適化が簡素化されます。カスタマイズ可能なエージェントを用いて多様な会話パターンを構築でき、強化されたLLM推論や高度なユーティリティ機能も提供します。AutoGenは、Microsoftや大学との共同研究から生まれました。 #Article #ComputerVision #Repository Issue Date: 2024-09-30 ECCV2024-Papers-with-Code, 2024.09 Comment

ECCV2024の全体像を概観するのに有用

以下、Claude 3.5 Sonnetに目次を入力し一言で各項目を説明させた内容。
hallucinationがあるかもしれないので参考程度で。

--------------------
各項目の概要を一言で説明いたします：

1. 3DGS(Gaussian Splatting): 3D空間内のガウス関数を用いた新しい3Dレンダリング手法。

2. Mamba / SSM: 長期依存関係を効率的に処理する新しい系列モデルアーキテクチャ。

3. Avatars: デジタル環境でユーザーを表現する仮想キャラクター。

4. Backbone: ディープラーニングモデルの主要な特徴抽出部分。

5. CLIP: 画像とテキストを同じ空間に埋め込む大規模マルチモーダルモデル。

6. MAE: 画像の一部を隠してから再構築する自己教師あり学習手法。

7. Embodied AI: 物理的な環境と相互作用する AI システム。

8. GAN: 生成モデルと識別モデルを競争させて学習する生成モデル。

9. GNN: グラフ構造データを処理するための神経ネットワーク。

10. 多模态大语言模型(MLLM): テキスト、画像、音声など複数のモダリティを扱う大規模言語モデル。

11. 大语言模型(LLM): 大量のテキストデータで学習された大規模な言語モデル。

12. NAS: 最適なニューラルネットワークアーキテクチャを自動探索する技術。

13. OCR: 画像内のテキストを認識し、デジタルテキストに変換する技術。

14. NeRF: 3D空間をニューラルネットワークで表現する手法。

15. DETR: Transformerを用いた新しい物体検出アーキテクチャ。

16. Prompt: AIモデルに与える指示や文脈を設定するテキスト。

17. 扩散模型(Diffusion Models): ノイズを徐々に除去して画像を生成する生成モデル。

18. ReID(重识别): 異なる画像や映像間で同一の人物や物体を再識別する技術。

19. 长尾分布(Long-Tail): データセット内で頻度の低いクラスや事例を扱う問題。

20. Vision Transformer: 画像処理にTransformerアーキテクチャを適用したモデル。

21. 视觉和语言(Vision-Language): 画像と言語を組み合わせて処理するタスク。

22. 自监督学习(Self-supervised Learning): ラベルなしデータから有用な表現を学習する手法。

23. 数据增强(Data Augmentation): 学習データを人工的に増やす技術。

24. 目标检测(Object Detection): 画像内の物体の位置と種類を特定する技術。

25. 异常检测(Anomaly Detection): 通常とは異なるパターンやデータを検出する技術。

26. 目标跟踪(Visual Tracking): 映像内の物体の動きを追跡する技術。

27. 语义分割(Semantic Segmentation): 画像内の各ピクセルをカテゴリに分類する技術。

28. 实例分割(Instance Segmentation): 画像内の個々の物体インスタンスを分割する技術。

29. 全景分割(Panoptic Segmentation): 意味分割とインスタンス分割を組み合わせた技術。

30. 医学图像(Medical Image): 医療目的で撮影された画像。

31. 医学图像分割(Medical Image Segmentation): 医療画像内の臓器や病変部位を分割する技術。

32. 视频目标分割(Video Object Segmentation): 動画内の物体を追跡し分割する技術。

33. 视频实例分割(Video Instance Segmentation): 動画内の個々の物体インスタンスを分割する技術。

34. 参考图像分割(Referring Image Segmentation): 言語記述に基づいて画像内の物体を分割する技術。

35. 图像抠图(Image Matting): 画像から前景を精密に抽出する技術。

36. 图像编辑(Image Editing): 画像の内容を変更または操作する技術。

37. Low-level Vision: 画像の低レベル特徴や処理を扱う分野。

38. 超分辨率(Super-Resolution): 低解像度画像から高解像度画像を生成する技術。

39. 去噪(Denoising): 画像からノイズを除去する技術。

40. 去模糊(Deblur): ぼけた画像をシャープにする技術。

41. 自动驾驶(Autonomous Driving): 人間の操作なしで車両を制御する技術。

42. 3D点云(3D Point Cloud): 3D空間内の点の集合でオブジェクトや環境を表現するデータ形式。

43. 3D目标检测(3D Object Detection): 3D空間内の物体の位置と種類を特定する技術。

44. 3D语义分割(3D Semantic Segmentation): 3Dデータの各点をカテゴリに分類する技術。

45. 3D目标跟踪(3D Object Tracking): 3D空間内の物体の動きを追跡する技術。

46. 3D语义场景补全(3D Semantic Scene Completion): 部分的な3Dデータから完全な3Dシーンを推定する技術。

47. 3D配准(3D Registration): 複数の3Dデータセットを整列させる技術。

48. 3D人体姿态估计(3D Human Pose Estimation): 3D空間内の人体の姿勢を推定する技術。

49. 3D人体Mesh估计(3D Human Mesh Estimation): 3D人体メッシュモデルを推定する技術。

50. 图像生成(Image Generation): AIを用いて新しい画像を生成する技術。

51. 视频生成(Video Generation): AIを用いて新しい動画を生成する技術。

52. 3D生成(3D Generation): AIを用いて新しい3Dモデルを生成する技術。

53. 视频理解(Video Understanding): 動画の内容を解析し理解する技術。

54. 行为识别(Action Recognition): 動画内の人物の行動を識別する技術。

55. 行为检测(Action Detection): 動画内の特定の行動を検出し位置特定する技術。

56. 文本检测(Text Detection): 画像内のテキストの位置を検出する技術。

57. 知识蒸馏(Knowledge Distillation): 大きなモデルの知識を小さなモデルに転移する技術。

58. 模型剪枝(Model Pruning): モデルの重要でないパラメータを削除して軽量化する技術。

59. 图像压缩(Image Compression): 画像データを効率的に圧縮する技術。

60. 三维重建(3D Reconstruction): 2D画像から3Dモデルを構築する技術。

61. 深度估计(Depth Estimation): 2D画像から奥行き情報を推定する技術。

62. 轨迹预测(Trajectory Prediction): 物体や人の将来の動きを予測する技術。

63. 车道线检测(Lane Detection): 道路上の車線を検出する技術。

64. 图像描述(Image Captioning): 画像の内容を自然言語で説明する技術。

65. 视觉问答(Visual Question Answering): 画像に関する質問に答える技術。

66. 手语识别(Sign Language Recognition): 手話のジェスチャーを認識し解釈する技術。

67. 视频预测(Video Prediction): 動画の将来のフレームを予測する技術。

68. 新视点合成(Novel View Synthesis): 既存の画像から新しい視点の画像を生成する技術。

69. Zero-Shot Learning(零样本学习): 学習時に見たことのないクラスを認識する学習手法。

70. 立体匹配(Stereo Matching): ステレオ画像から深度情報を抽出する技術。

71. 特征匹配(Feature Matching): 異なる画像間で対応する特徴点を見つける技術。

72. 场景图生成(Scene Graph Generation): 画像内の物体間の関係を構造化して表現する技術。

73. 计数(Counting): 画像内の特定オブジェクトの数を数える技術。

74. 隐式神经表示(Implicit Neural Representations): 連続関数としてシーンや形状を表現する手法。

75. 图像质量评价(Image Quality Assessment): 画像の品質を客観的に評価する技術。

76. 视频质量评价(Video Quality Assessment): 動画の品質を客観的に評価する技術。

77. 数据集(Datasets): 機械学習モデルの学習や評価に使用されるデータの集合。

続いて、各項目をもう少し詳細に説明するように生成したテキスト

---------
はい、各項目についてより詳細な説明を提供いたします。

1. 3DGS(Gaussian Splatting):
3D空間内にガウス関数を配置し、これらを2D画像に投影することで3Dシーンを表現する手法です。従来のNeRFよりも高速でクオリティの高い3Dレンダリングを実現します。

2. Mamba / SSM:
State Space Model (SSM)に基づく新しい系列モデルアーキテクチャです。Transformerと比較して長い系列を効率的に処理でき、様々なタスクで高いパフォーマンスを示しています。

3. Avatars:
オンライン空間やゲーム、VR環境などでユーザーを表現する仮想キャラクターです。最近では、AIを用いてよりリアルで自然なアバターの生成や制御が可能になっています。

4. Backbone:
深層学習モデルの主要な特徴抽出部分を指します。ResNet、VGG、EfficientNetなどが代表的で、様々なタスクの基礎となる重要な役割を果たします。

5. CLIP:
OpenAIが開発した大規模なマルチモーダルモデルで、画像とテキストを同じ特徴空間に埋め込むことができます。これにより、柔軟な画像検索や分類が可能になります。

6. MAE (Masked Autoencoder):
画像の一部をマスクし、それを再構築するタスクを通じて自己教師あり学習を行う手法です。事前学習モデルとして高い性能を示しています。

7. Embodied AI:
物理的な環境と直接相互作用するAIシステムを指します。ロボティクスや自動運転など、実世界でのタスク遂行に焦点を当てています。

8. GAN (Generative Adversarial Networks):
生成モデルと識別モデルを競争させることで学習を行う生成モデルです。高品質な画像生成など、様々な分野で応用されています。

9. GNN (Graph Neural Networks):
グラフ構造のデータを処理するための神経ネットワークです。ソーシャルネットワーク分析や分子構造予測など、関係性のあるデータの処理に適しています。

10. 多模态大语言模型(MLLM):
テキストだけでなく、画像、音声、動画などの複数のモダリティを理解し処理できる大規模言語モデルです。より豊かなコミュニケーションや理解が可能になります。

11. 大语言模型(LLM):
GPT-3やLLaMAなど、大量のテキストデータで学習された巨大な言語モデルです。自然言語処理の多くのタスクで高い性能を示しています。

12. NAS (Neural Architecture Search):
機械学習を用いて最適なニューラルネットワークの構造を自動的に探索する技術です。人手によるモデル設計の労力を軽減し、より効率的なモデルの発見を目指します。

13. OCR (Optical Character Recognition):
画像内のテキストを認識し、機械可読なテキストに変換する技術です。文書のデジタル化や自動データ入力などに広く使用されています。

14. NeRF (Neural Radiance Fields):
3D空間をニューラルネットワークで表現する手法です。少数の2D画像から高品質な3Dシーンの再構築と新視点の合成が可能です。

15. DETR (DEtection TRansformer):
Transformerアーキテクチャを物体検出タスクに適用したモデルです。従来の手法と比べてシンプルでありながら高い性能を示しています。

16. Prompt:
AIモデル、特に大規模言語モデルに与える指示や文脈を設定するテキストです。適切なプロンプト設計により、モデルの出力を制御し、望ましい結果を得ることができます。

17. 扩散模型(Diffusion Models):
ノイズを徐々に除去しながら画像を生成する生成モデルです。DALL-E 2やStable Diffusionなど、高品質な画像生成で注目を集めています。

18. ReID (重识别):
異なる画像や映像間で同一の人物や物体を再識別する技術です。監視カメラシステムや顧客追跡などに応用されています。

19. 长尾分布(Long-Tail):
データセット内で頻度の低いクラスや事例を扱う問題です。現実世界のデータ分布に対応するため、機械学習モデルの公平性と汎化性能の向上が課題となっています。

20. Vision Transformer:
自然言語処理で成功を収めたTransformerアーキテクチャを画像処理に適用したモデルです。CNNと比較して、大規模データセットでの学習時に高い性能を示しています。

21. 视觉和语言(Vision-Language):
画像と言語を組み合わせて処理するタスクや研究分野です。画像キャプション生成、視覚的質問応答、画像-テキスト検索などが含まれます。

22. 自监督学习(Self-supervised Learning):
大量のラベルなしデータから有用な特徴表現を学習する手法です。事前学習モデルの作成に広く使用され、少量のラベル付きデータでの fine-tuning で高い性能を実現します。

23. 数据增强(Data Augmentation):
既存の学習データに変形や変更を加えて人工的にデータセットを拡張する技術です。モデルの汎化性能向上やオーバーフィッティングの抑制に効果があります。

24. 目标检测(Object Detection):
画像内の物体の位置と種類を特定する技術です。矩形のバウンディングボックスで物体の位置を示し、各物体のクラスを予測します。自動運転や監視システムなどで広く使用されています。

25. 异常检测(Anomaly Detection):
データセット内の通常とは異なるパターンやデータポイントを検出する技術です。不正検知、産業用機器の故障予測、医療診断などに応用されています。

26. 目标跟踪(Visual Tracking):
動画シーケンス内で物体の動きを追跡する技術です。自動運転、スポーツ分析、監視システムなど、様々な分野で活用されています。

27. 语义分割(Semantic Segmentation):
画像内の各ピクセルをあらかじめ定義されたカテゴリに分類する技術です。自動運転における道路環境の理解や医療画像解析などに応用されています。

28. 实例分割(Instance Segmentation):
画像内の個々の物体インスタンスを分割し、それぞれに固有のラベルを付与する技術です。物体検出と意味分割を組み合わせたタスクと言えます。

29. 全景分割(Panoptic Segmentation):
意味分割とインスタンス分割を統合した技術で、画像内のすべてのピクセルに対してクラスとインスタンスIDを割り当てます。シーンの完全な理解を目指しています。

30. 医学图像(Medical Image):
X線、CT、MRI、超音波などの医療目的で撮影された画像を指します。診断、治療計画、医学研究などに使用されます。

31. 医学图像分割(Medical Image Segmentation):
医療画像内の臓器、腫瘍、血管などの特定の構造や病変部位を分割する技術です。診断支援や手術計画立案に重要な役割を果たします。

32. 视频目标分割(Video Object Segmentation):
動画シーケンス内の特定の物体を追跡し、フレームごとに分割する技術です。ビデオ編集やアウグメンテッドリアリティなどに応用されています。

33. 视频实例分割(Video Instance Segmentation):
動画内の個々の物体インスタンスを追跡し、フレームごとに分割するタスクです。ビデオ解析や自動運転システムでの環境理解に役立ちます。

34. 参考图像分割(Referring Image Segmentation):
自然言語による記述に基づいて、画像内の特定の物体や領域を分割する技術です。人間とAIのインタラクションを促進します。

35. 图像抠图(Image Matting):
画像から前景オブジェクトを精密に抽出する技術です。背景置換や合成など、画像編集タスクで重要な役割を果たします。

36. 图像编辑(Image Editing):
画像の内容を変更または操作する技術の総称です。物体の除去・追加、スタイル変換、色調整など、様々な編集操作が含まれます。

37. Low-level Vision:
画像の低レベル特徴や基本的な処理を扱う分野です。ノイズ除去、超解像、エッジ検出などの基礎的なタスクが含まれます。

38. 超分辨率(Super-Resolution):
低解像度の画像から高解像度の画像を生成する技術です。監視カメラ映像の鮮明化や古い写真の復元などに応用されています。

39. 去噪(Denoising):
画像からノイズを除去し、クリアな画像を得る技術です。低光量撮影や医療画像の品質向上など、様々な場面で使用されています。

40. 去模糊(Deblur):
ぼけた画像をシャープにする技術です。手ブレや被写体ブレの補正、古い写真の復元などに活用されています。

41. 自动驾驶(Autonomous Driving):
人間の操作なしで車両を制御する技術です。コンピュータビジョン、センサー融合、決定システムなど、多岐にわたる技術の統合が必要です。

42. 3D点云(3D Point Cloud):
3D空間内の点の集合でオブジェクトや環境を表現するデータ形式です。LiDARなどのセンサーから取得され、3D認識タスクの基礎となります。

43. 3D目标检测(3D Object Detection):
3D空間内の物体の位置、サイズ、向きを特定する技術です。自動運転や拡張現実などの分野で重要な役割を果たします。

44. 3D语义分割(3D Semantic Segmentation):
3Dデータの各点や領域をあらかじめ定義されたカテゴリに分類する技術です。自動運転での環境理解やロボティクスでの物体認識に応用されています。

45. 3D目标跟踪(3D Object Tracking):
時系列の3Dデータ内で物体の動きを追跡する技術です。自動運転システムにおける他の車両や歩行者の動きの予測などに使用されます。

46. 3D语义场景补全(3D Semantic Scene Completion):
部分的な3Dデータから、オクルージョンや欠損のある領域を含む完全な3Dシーンを推定する技術です。ロボットナビゲーションや拡張現実に応用されています。

47. 3D配准(3D Registration):
複数の3Dデータセット（点群や表面モデルなど）を正確に整列させる技術です。3Dスキャンデータの統合や位置合わせに使用されます。

48. 3D人体姿态估计(3D Human Pose Estimation):
2D画像や3Dデータから人体の3次元的な姿勢を推定する技術です。モーションキャプチャ、アニメーション、スポーツ分析などに応用されています。

49. 3D人体Mesh估计(3D Human Mesh Estimation):
2D画像や3Dスキャンデータから詳細な3D人体メッシュモデルを推定する技術です。バーチャルフィッティングやアニメーション制作などに活用されています。

50. 图像生成(Image Generation):
AIを用いて新しい画像を生成する技術です。GANやDiffusion Modelなどが代表的で、アート創作やデータ拡張に応用されています。

51. 视频生成(Video Generation):
AIを用いて新しい動画を生成する技術です。短い入力クリップからの動画の延長や、テキスト記述からの動画生成などが研究されています。

52. 3D生成(3D Generation):
AIを用いて新しい3Dモデルを生成する技術です。製品デザイン、ゲーム開発、建築設計などの分野で注目されています。

53. 视频理解(Video Understanding):
動画の内容を解析し、シーンの構造、物体の関係、イベントの進行などを理解する技術です。ビデオ検索や自動要約などに応用されています。

54. 行为识别(Action Recognition):
動画内の人物の行動を識別する技術です。監視システム、スポーツ分析、ヒューマン・コンピュータ・インタラクションなどで活用されています。

55. 行为检测(Action Detection):
動画内の特定の行動をリアルタイムで検出し、その時間的・空間的位置を特定する技術です。セキュリティシステムや異常行動の検知などに応用されています。

はい、続きを説明いたします。

56. 文本检测(Text Detection):
画像や動画内のテキストの位置を検出する技術です。OCRシステムの前処理として重要で、看板の認識や文書分析などに使用されます。

57. 知识蒸馏(Knowledge Distillation):
大規模で複雑な「教師」モデルの知識を、より小さな「生徒」モデルに転移する技術です。モデルの軽量化と性能維持の両立を目指します。

58. 模型剪枝(Model Pruning):
学習済みモデルから重要度の低いパラメータや層を削除し、モデルを軽量化する技術です。モバイルデバイスでの効率的な実行などに役立ちます。

59. 图像压缩(Image Compression):
画像データを効率的に圧縮し、ストレージやネットワーク帯域幅を節約する技術です。最近では機械学習を用いた新しい圧縮手法も研究されています。

60. 三维重建(3D Reconstruction):
2D画像や動画から3Dモデルを構築する技術です。建築、考古学、映画制作など、様々な分野で活用されています。

61. 深度估计(Depth Estimation):
単眼または複眼の2D画像から、シーンの奥行き情報を推定する技術です。3D再構成や拡張現実などのアプリケーションで重要な役割を果たします。

62. 轨迹预测(Trajectory Prediction):
物体や人の過去の動きに基づいて、将来の動きを予測する技術です。自動運転、群衆行動分析、スポーツ戦略立案などに応用されています。

63. 车道线检测(Lane Detection):
道路上の車線を検出し追跡する技術です。自動運転システムや先進運転支援システム（ADAS）において重要な要素となっています。

64. 图像描述(Image Captioning):
画像の内容を自然言語で説明する文章を自動生成する技術です。視覚障害者支援や画像検索の高度化などに応用されています。

65. 视觉问答(Visual Question Answering):
画像に関する自然言語の質問に対して、適切な回答を生成する技術です。画像理解とテキスト生成の両方の能力が必要とされます。

66. 手语识别(Sign Language Recognition):
手話のジェスチャーを認識し、それを文字や音声に変換する技術です。聴覚障害者とのコミュニケーション支援に役立ちます。

67. 视频预测(Video Prediction):
過去のフレームに基づいて、動画の将来のフレームを予測する技術です。動画圧縮、異常検知、自動運転など、様々な応用が考えられています。

68. 新视点合成(Novel View Synthesis):
既存の画像や限られた視点の情報から、新しい視点の画像を生成する技術です。仮想現実や自由視点映像などに応用されています。

69. Zero-Shot Learning(零样本学习):
学習時に見たことのないクラスを認識する学習手法です。事前に学習していない新しいカテゴリの物体を識別する能力を持ちます。

70. 立体匹配(Stereo Matching):
ステレオカメラで撮影された左右の画像から対応点を見つけ、深度情報を抽出する技術です。3D再構成や深度推定の基礎となります。

71. 特征匹配(Feature Matching):
異なる画像間で対応する特徴点を見つける技術です。画像のスティッチング、物体追跡、SLAMなど、様々なコンピュータビジョンタスクの基礎となります。

72. 场景图生成(Scene Graph Generation):
画像内の物体間の関係を構造化して表現する技術です。シーンの意味的理解や高度な画像検索などに応用されています。

73. 计数(Counting):
画像や動画内の特定オブジェクトの数を自動的に数える技術です。群衆の推定、在庫管理、生物学的サンプルの計数などに使用されています。

74. 隐式神经表示(Implicit Neural Representations):
3Dシーンや形状を連続関数としてニューラルネットワークで表現する手法です。NeRFはこの手法の一例で、効率的なシーン表現が可能です。

75. 图像质量评价(Image Quality Assessment):
画像の品質を客観的に評価する技術です。画像処理アルゴリズムの性能評価や、品質に基づいた画像フィルタリングなどに使用されます。

76. 视频质量评价(Video Quality Assessment):
動画の品質を客観的に評価する技術です。ストリーミングサービスの品質監視や、ビデオ圧縮アルゴリズムの最適化などに応用されています。

77. 数据集(Datasets):
機械学習モデルの学習や評価に使用されるデータの集合です。ImageNet、COCO、KITTI

など、各タスクに特化した大規模データセットが開発され、研究や技術開発を加速しています。

これらの技術は相互に関連し合い、コンピュータビジョンと機械学習の分野を形作っています。多くの応用分野で革新的なソリューションを生み出すとともに、新たな課題にも直面しており、今後さらなる発展が期待されています。

#Article #Blog #Management Issue Date: 2024-09-30 非プロダクトマネージャーのためのプロダクトマネジメント入門, 神原淳史, 2024.09 Comment

プロダクトマネジメントについて初心者向けに書かれた記事。勉強になった。

JTBDフレームワークは顧客開発モデルなどでも出てくるので、もう一度復習しておきたい。

>When (Situation) I want to (Motivation) So I can (Expected outcome)

ビルドトラップについても勉強になった。ミニマムでユーザの課題（ニーズ）を解決（満たす）する価値を提供することが重要。この辺は、技術にこだわりや興味、自信がある人ほど作り込みすぎてしまう印象がある。
https://product-managers-club.jp/blog/post/build-traps-fall

レベル2生産性の簡易的な計算方法のフレームワーク。知っておくと役に立つ場面がありそう。考え方として知っておくだけでも良い。confidenceの定義が難しそう。
>・Reach: どれだけ多くの顧客/ユーザーにとっての問題か
・Impact: その問題は個々の顧客/ユーザーにとってどれだけ深刻か
・Conficence: ReachとImpactがどれだけ確からしいか (Effortの確からしさも含むことがある)
・Effort: 問題解決の実装に必要な工数
計算式は以下の通りです。
RICEスコア = Reach * Impact * Confidence / Effort

と思ったが、一応参考として以下のようなものが紹介されている。この辺はプロダクトやチームごとにより具体的なものを決めていくと良いのだろうと思う。特に発案者やその同僚が信じている、の部分は深掘りできそうな気がする。その人にしか見えておらず、定量化できない感覚のような部分があったとしたら、この基準では低いスコアを付与してしまう。ユーザに近しい人ほどそういう感覚を持っており、軽視すべきでないと個人的には考える（が、発言者によって熱量のオフセットが異なるのでその辺も考慮しないといけないから判断難しそう）。
>・発案者やその同僚が信じている (0.01 - 0.2)
・複数の顧客からリクエストがあった (0.5 - 1)
・市場リサーチ結果 (1 - 2)
・一定量以上のユーザーインタビュー結果 (3)
・実際のプロダクト上での検証結果 (5 - 10)

記事のまとめ
>・ソリューションよりも問題の明確化にフォーカスしよう。そのための手法の1つにJTBDフレームワークがある。
・問題解決の優先度を評価するための観点を知ろう。その観点リストの1つにRICEフレームワークがある。
・PBIの相対的な優先順位づけも大事だが、その前に必ずプロダクト戦略へのアラインを確認しよう。

#Article #Pocket #Blog #API Issue Date: 2024-09-30 API設計まとめ, KNR109, 2024.02 #Article #Pocket #Slide #Management Issue Date: 2024-09-25 NLP Experimental Design, Graham Neubig, 2024 #Article #EfficiencyImprovement #Transformer #Chip Issue Date: 2024-09-18 Sohu, etched, 2024.06 Comment

>By burning the transformer architecture into our chip, we can’t run most traditional AI models: the DLRMs powering Instagram ads, protein-folding models like AlphaFold 2, or older image models like Stable Diffusion 2. We can’t run CNNs, RNNs, or LSTMs either.

transformer以外の大抵のモデルでは動作しないが、代わりにH-100よりも20倍早いinferenceを実現できるチップらしい。

>With over 500,000 tokens per second in Llama 70B throughput, Sohu lets you build products impossible on GPUs.

いやいやいやLlama-70Bで0.5M Token/secは早すぎる！！！

#Article #RecommenderSystems #Slide Issue Date: 2024-09-15 クリックを最大化しない推薦システム, Ryoma Sato, 2024.01 Comment

おもしろそうなので後で読む

クリック率やコンバージョン率に最適化することが従来のやり方だが、クリックベイトのため粗悪なコンテンツを推薦してしまったり、人気のあるアイテムに推薦リストが偏ってしまい、長期的なユーザの利益を害するという話。

20年くらい前からこの辺をなんとかするために、推薦のセレンディピティや多様性を考慮する手法が研究されており、それらのエッセンスが紹介されている。また、Calibrated Recommendation Calibrated Recommendation, Herald Steck, Netflix, RecSys'18 （ユーザの推薦リストがのジャンルの比率がユーザの好む比率になるように最適化する方法で、劣モジュラ関数を最適化するためgreedyに解いてもある程度良い近似解が保証されている）などの概要も説明されていて非常に勉強になった。

セレンディピティのある推薦アルゴリズムをGoogle上でA/Bテストしたら、ユーザの満足度とコアユーザー転換率が大幅に向上したと言う話や、推薦はフィルターバブル問題を実は悪化させないといった研究がGroupLensのKonstan先生のチームから出ているなど、興味深い話題が盛りだくさんだった。

#Article #Repository Issue Date: 2024-09-15 mise-en-place Comment

画像はリポジトリより引用。開発ツール、環境変数、タスクの管理ができる模様。とても便利そう。使いたい。

#Article #Slide Issue Date: 2024-09-03 AI時代を生き抜くために処理をちゃんと書けるようになろう, きしだなおき, LINEヤフー, 2024.01 #Article #RecommenderSystems #Pocket #Blog Issue Date: 2024-08-27 10Xの推薦を作るチームとML platform, 2024.08 Comment

初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。

定性評価が重要という話は、NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 でも言及されている

#Article #NLP #OpenWeight Issue Date: 2024-08-24 Phi 3.5, Microsoft, 2024.08 #Article #Pocket #Slide #Management Issue Date: 2024-08-10 現代的システム開発概論2024, 2024.08 #Article #NLP #OpenWeight Issue Date: 2024-07-30 Gemma2, Google Deepmind, 2024 Comment

Reasoning, Math, CodeGenerationに強み

#Article #Blog Issue Date: 2024-07-29 2024年版のDockerfileの考え方＆書き方, 2024 Comment

マルチステージビルド、成果物の考え方など

#Article #Blog #ExperimentManagement Issue Date: 2024-07-09 Deepでポン用実験管理ツール（サービス）の比較2021 Comment

[TensorBoard]( https://www.tensorflow.org/tensorboard/)

[MLflow]( https://mlflow.org/)

[Neptune.ai]( https://neptune.ai/)

[Weights & Biases]( https://wandb.ai/site)

[Comet]( https://www.comet.ml/site/)

の比較がされている

#Article #Blog #ExperimentManagement Issue Date: 2024-07-09 5行でカッコいい可視化を「WandB」入門 #Article #Blog Issue Date: 2024-04-21 「ビジネスロジック」とは何か、どう実装するのか Comment

普段あいまいに使いがちなビジネスロジックについて、勉強になった。

- プレゼンテーション層：ユーザからのI/Oのインタフェースに関する処理を実装

- データアクセス層：ファイルやDBに対してデータを読み書き

本記事によると上記以外が「ビジネスロジック」という整理。

たとえば、じゃんけんの実装を例に説明がなされており、

- 「じゃんけんの勝敗判定」：コアなルール系

- 「コンピュータとじゃんけんをして、その結果をどこかに保存する処理を呼び出すという流れ」：処理の流れ系

の両者はビジネスロジックに該当するとのこと。

#Article #Blog Issue Date: 2024-04-08 Chat with RTX, NVIDIA #Article #Blog Issue Date: 2024-03-31 IT契約入門〜雇用契約、請負契約から準委任まで #Article #Blog Issue Date: 2024-03-21 生産性指標をFour Keysから変更した話, SanSan Tech Blog Comment

モバイルアプリ開発における生産性指標に関するお話。Four Keysをモバイルアプリに適用した場合の課題を分析し、自チームの中長期的な目標を達成するためにどのような生産性指標を採用すべきかが言語化されており、興味深かった。

Four Keysとは: https://blog.recruit.co.jp/rls/2021-03-31-four-keys/#whats-four-keys

#Article #Mindset #Blog Issue Date: 2023-12-04 PMConf2023: シリコンバレーのプロダクトマネージャー達に見る、覚悟を決めたPMは何が違うのか？ Comment

視野、視座の話、StepChange、PMとして何に注力すべきか、クリティカルシンキング、Overcommunicationなどの考え方が参考になった。
結局どれだけ収益に繋がるのかという話。ユーザに価値を届けられて満足、で終わってはいけない。

#Article #ComputerVision #NLP #Transformer #TabularData Issue Date: 2023-12-01 Table Transformer Demo Comment

PDF中のテーブルとその構造（行列セル）をdetectするモデル

Exampleは以下のような感じ（日本語だとどれくらいできるのかな...）

#Article #Blog Issue Date: 2023-11-21 AWS FargateではなくECS on EC2を選ぶメリット〜コスト編〜 Comment

安く済ませたい・・・

#Article #Mindset #Blog #Repository Issue Date: 2023-10-24 CTO handbook #Article #python #Blog Issue Date: 2023-10-17 Loggingモジュールではじめるログ出力入門 Comment

- ライブラリ開発の際は、ライブラリのトップレベルのLoggerにNullHandlerを設定して、詳細設定を呼び出し側に委ねるのがお作法
- NullHandlerは何もせずに上位ハンドラに伝搬させるため
- ライブラリ側でやることは、タイミングとメッセージ内容のみ
- loggerを利用するか否かは、「書き捨てか否か」
- 書き捨て例: 内容のちょっとした確認やデバッグ、局所的な出力、プログラムとログのライフタイムが短い
参考になる

propagateの仕組みや、構成要素、Loggerの恩恵はすべてのpythonモジュールがロギングに参加できること、モジュール名で基本的にはgetLoggerすることなど、勉強になった

#Article #Mindset Issue Date: 2023-10-10 nishibaさんの思考言語化シリーズ Comment

組織マネジメントこそ書籍に忠実であるほうがよい。

Loading…

打席に立つことについて

Loading…

#Article #Sentence #Embeddings #NLP Issue Date: 2023-10-07 Japanese Simple SimCSE Comment

#Article #Mindset #Blog Issue Date: 2023-09-30 CTOの頭の中：技術を財務で表現する #Article #EfficiencyImprovement #MachineLearning #NLP #Transformer #Attention Issue Date: 2023-07-23 FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, 2023 GPT Summary- FlashAttention-2は、長いシーケンス長におけるTransformerのスケーリングの問題に対処するために提案された手法です。FlashAttention-2は、非対称なGPUメモリ階層を利用してメモリの節約とランタイムの高速化を実現し、最適化された行列乗算に比べて約2倍の高速化を達成します。また、FlashAttention-2はGPTスタイルのモデルのトレーニングにおいても高速化を実現し、最大225 TFLOPs/sのトレーニング速度に達します。 Comment

Flash Attention1よりも2倍高速なFlash Attention 2

#Article #RecommenderSystems Issue Date: 2023-07-01 MetaのRecommender System概要, 2023.6 #Article #MachineLearning #project_template #python Issue Date: 2023-05-25 Ascender Comment

pythonを利用した研究開発する上でのプロジェクトテンプレート

#Article #RecommenderSystems #Pocket Issue Date: 2023-04-28 E-Commerce product recommendation agents: use, characteristics, and impact Comment

超重要論文

#Article #Personalization #HumanComputerInteraction Issue Date: 2023-04-28 When does web-based personalization really work? The distinction between actual personalization and perceived personalization, Li Cong, Computers in human behavior, 2016 Comment

personalizedされたメッセージに対するユーザーの認識は、メッセージの以前のpersonalize processに必ずしも依存するのではなく、受信したコンテンツが受信者の期待にどの程度一致しているかに依存することを明らかにした研究

#Article #Personalization #HumanComputerInteraction Issue Date: 2023-04-28 Understanding the impact of web personalization on user information processing and decision outcomes, Tam+, MIS quarterly, 2006 Comment

コンテンツのrelevancy, 自己言及的なコミュニケーション（名前を呼ぶ等）が、オンラインにおけるユーザの注意や認知プロセス、および意思決定に影響を与えることを示している。特に、これらが、パーソナライズされたコンテンツを受け入れ、意思決定を支援することにつながることを示している（らしい）。

かなり有名な研究らしい。

名前を呼んだメッセージングと、relevantなコンテンツを提供することの両方で、エンドユーザはpersonalizedされたと認知し、後から思い出すのはrelevantなコンテンツの内容だけだったという実験結果が出ており、メッセージングで注意を引くことも大事だし、ちゃんとrelevantなコンテンツも提供しないといけないよね、という示唆が得られているのだと思われる。

#Article #InformationRetrieval #Personalization Issue Date: 2023-04-28 Preface to Special Issue on User Modeling for Web Information Retrieval, Brusilovsky+, User Modeling and User-Adapted Interaction , 2004 Comment

Personalized Information Retrievalの先駆け的研究

Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 と同時期

#Article #Mindset #Blog #DesignPattern Issue Date: 2023-04-26 More Design Patterns For Machine Learning Systems, 2023 Comment

MLのデザインパターンが記述されている

#Article #MachineLearning #Tools Issue Date: 2022-03-09 neptune.ai Comment

・実験結果の可視化や管理に利用できるサービス

・API経由で様々な実験に関わるメタデータやmetricを送信することで、サイト上でdashboardを作成し、複数の実験の結果を可視化したりwidget上で比較したりできる

・実験時に使用したargumentsを記録したり、global_stepごとにlossをAPI経由で逐次的に送信することで実験結果を記録できたりする

・widgetやmodelなどは、クエリによってフィルタリングできたりするので、特定のstructureを持っているモデル間のみで結果を比較したり等も簡単にできる

・利用する際は、APIキーをサイト上で発行し、コード上でAPIキーを設定して、neptuneのモジュールをnewしてlogメソッドを呼び出して逐次的にデータを送信していくだけで、neptune上で送信んされたデータが管理される。

※ 一部解釈が間違っている場所がある可能性がある

HuggingFace, pytorch-lightningなどのフレームワークでもサポートされている模様

HuggingFace: https://huggingface.co/transformers/v4.9.1/_modules/transformers/integrations.html

pytorch-lightning: https://pytorch-lightning.readthedocs.io/en/stable/api/pytorch_lightning.loggers.neptune.html

HuggingFaceではNeptuneCallbackというコールバックを使えばneptuneを仕込めそう

#Article #NeuralNetwork #ComputerVision #CVPR #Selected Papers/Blogs #Backbone Issue Date: 2021-11-04 Deep Residual Learning for Image Recognition, He+, Microsoft Research, CVPR’16 Comment

同じパラメータ数でより層を深くできる（Plainな構造と比べると層が1つ増える）Bottleneckアーキテクチャも提案している。

今や当たり前のように使われているResidual Connectionは、層の深いネットワークを学習するために必須の技術なのだと再認識。

#Article #NeuralNetwork #EfficiencyImprovement #NLP #Transformer #ACL Issue Date: 2021-06-10 FastSeq: Make Sequence Generation Faster, Yan+, ACL’21 Comment

BART, DistilBART, T5, GPT2等のさまざまなTransformer-basedな手法で、4-9倍Inference speedを向上させる手法を提案。

#Article #Tools #python #PerformanceTesting Issue Date: 2021-05-26 locust Comment

負荷テスト用のツール

JMeterと違って、pythonコードでテスト内容を制御できるらしく、かなり使いやすいらしい。

#Article #AdaptiveLearning #LearningPath Issue Date: 2018-12-22 [Paper Note] Designing and implementing a personalized remedial learning system for enhancing the programming learning, Hsieh+, Educational Technology & Society, 2013 Comment

e-learningシステムには、三つの課題がまだある：

learner control: learnerは、自分でe-learningシステムのmaterialをダウンロードしたりして勉強するが、時に事前知識が相当必要な教材とかで勉強してしまうと、learning performanceが落ちる。事前知識がどれだけあるかを測るのがとても大事だとAusubel 1968も述べている。

disorientation: たとえばwebで勉強するために検索すると、検索エンジンは適切な学習の順番で結果を返してくれたりはしない。どれを最初に読むか、ユーザは選ばなければいけないが、初めて勉強する分野だときつい。sequencedなlearning contentsはlearnerにとって多大な恩恵になる。

Cognitive Overload: メジャーなエンジンは検索エンジン。materialはすぐに手に入るけど、学習者は自分で教材を読んだり、organizeして学習しなければいけない。そのため、ブラウジングと、materialのソートに多大な時間を要してしまう。多すぎる情報は、学習者に不安をもたらす。学習者にダイレクトに最適な教材を提示することが重要。

fuzzy logic theoryを用いて、学習者の思い違いに基づいて最適な学習パスを構築し、学習者の好みに合わせて、webからコンテンツを推薦する。

fuzzy logic theoryは、まず、あるコンセプトのペアが与えられたときに、、以下の3つの尺度を算出する：

1. Extension, 2つのコンセプトがあるコンセプトを学習する前提になっているか否か（googleで検索した結果システムが返した件数から求める）

2. Similarity, 2つのコンセプトの類似度（similarityの尺度については詳しく述べられていない。論文をreferしているが、読めない）。過去にユーザが読んだものと類似度が高いものを出すと、簡単にユーザが理解できる、みたいな考えがある。

3. Coherent, 2つのコンセプトがどれだけcoherentか。

これらを算出した後に、fuzzy logitを用いて、各尺度を離散化（それぞれのlinguistic term, low, midiam, highに属する確率を算出）。離散化した後、専門家が決めたルールに基づいて（各尺度のlinguistic termの組み合わせにおいて、コンセプト間の強さがlow, medium, highどれに属するかの確率を算出するためのルール）、2コンセプト間の関連の強さ（あるコンセプトを学習した後に、次にどのコンセプトを学習するべきか）を決定。

この数値が高いものをgreedyに追加していくことで、learning pathを構築。

専門家が決めたルールは、各尺度をfuzzy logicで離散化した状態が与えられたときに、conceptの関連度合いがlow, medium, highのどれをとるかを決めたものなので、同じドメインであれば、色々適用できる？（もしこの辺が教科によって変わってくるのであれば、いちいち設計し直さなければならない）

Fuzzy推論参考：

http://www.sist.ac.jp/~kanakubo/research/reasoning_kr/fuzzy.html

#Article #RecommenderSystems #ContextAware Issue Date: 2018-12-22 [Paper Note] Some Challenges for Context-aware Recommender Systems,” Yujie+, Proc. Fifth Int’l Conf. Computer Science and Education （ICCSE）, pp. 362-365, 2010 #Article #RecommenderSystems #Classic #ContextAware #Selected Papers/Blogs Issue Date: 2018-12-22 Context-Aware Recommender Systems, Adomavicius+, Recommender Systems Handbook, 2011 Comment

Context-aware Recsysのパイオニア的研究

#Article #Classic #AdaptiveLearning #LearningStyle #Selected Papers/Blogs Issue Date: 2018-12-22 LEARNING AND TEACHING STYLES IN ENGINEERING EDUCATION, Felder, Engr. Education, 78（7）, 674–681, 1988 Comment

#Article #Classic #ContextAware #HumanComputerInteraction Issue Date: 2018-12-22 [Paper Note] A Conceptual Framework and a Toolkit for Supporting the Rapid Prototyping of Context-Aware Applications, Dey+, HUMAN-COMPUTER INTERACTION, 2001, Volume 16, pp. 97–166 Comment

論文中のcontextに関する定義がしばしば引用される：

"any information that can be used to characterize the situation of an entity. An entity is a person, place, or object that is considered relevant to the interaction between a user and an application, including the user and applications themselves."

#Article #Tools #InformationRetrieval #LearningToRank #Online/Interactive Issue Date: 2018-01-01 Lerot: Online Learning to rank Framework #Article #InformationRetrieval #LearningToRank #ListWise Issue Date: 2018-01-01 [Paper Note] A General Approximation Framework for Direct Optimization of Information Retrieval Measures （ApproxAP, ApproxNDCG）, Qin+, Information Retrieval, 2010 Comment

実装してみたが、バグありそう感・・・

https://github.com/AkihikoWatanabe/ApproxAP

#Article #RecommenderSystems #Tools Issue Date: 2018-01-01 GraphChi Comment

実装されているアルゴリズム：Matrix Factorization, RBM, CliMFなど

実装：

使用方法：CLI

※ graphlabの中の人による実装

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #RecommenderSystems #Tools Issue Date: 2018-01-01 GraphLab Comment

現在はTuri.comになっており、商用になっている？

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #MachineLearning #StructuredLearning #Tools #InformationRetrieval Issue Date: 2017-12-31 SVM-MAP Comment

構造化SVMを用いて、MAPを直接最適化する手法

#Article #MachineLearning #StructuredLearning Issue Date: 2017-12-31 [Paper Note] Scalable Large-Margin Online Learning for Structured Classification, Crammer+, 2005 Comment

構造学習ガチ勢のCrammer氏の論文

構造学習やるなら読んだ方が良い

#Article #RecommenderSystems #Novelty #RecSys #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] “I like to explore sometimes”: Adapting to Dynamic User Novelty Preferences, Kapoor et al. （with Konstan）, RecSys’15 Comment

#Article #RecommenderSystems #Document #One-Line Notes Issue Date: 2017-12-28 [Paper Note] A semantic-expansion approach to personalized knowledge recommendation, Liang, Yang, Chen and Ku, Decision Support Systems, 2008.06 Comment

・traditionalなkeywordベースでマッチングするアプローチだと，単語間の意味的な関係によって特定の単語のoverweightやunderweightが発生するので，advancedなsemanticsを考慮した手法が必要なので頑張りますという論文．

#Article #RecommenderSystems #Document #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Combination of Web page recommender systems, Goksedef, Gunduz-oguducu, Elsevier, 2010.04 Comment

・traditionalなmethodはweb usage or web content mining techniquesを用いているが，ニュースサイトなどのページは日々更新されるのでweb content mining techniquesを用いてモデルを更新するのはしんどい．ので，web usage mining（CFとか？どちらかというとサーバログからassociation ruleを見つけるような手法か）にフォーカス．

・web usage miningに基づく様々な手法をhybridすることでどれだけaccuracyが改善するかみる．

・ユーザがセッションにおいて次にどのページを訪れるかをpredictし推薦するような枠組み（不特定多数のページを母集団とするわけではなく，自分のサイト内のページが母集団というパターンか）

・4種類の既存研究を紹介し，それらをどうcombineするかでaccuraryがどう変化しているかを見ている．

・それぞれの手法は，ユーザのsessionの情報を使いassociation rule miningやclusteringを行い次のページを予測する手法．

#Article #RecommenderSystems #NeuralNetwork #Document #DataFiltering #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Neural Networks for Web Content Filtering, Lee, Fui and Fong, IEEE Intelligent Systems, 2002.09 Comment

・ポルノコンテンツのフィルタリングが目的. 提案手法はgeneral frameworkなので他のコンテンツのフィルタリングにも使える.

・NNを採用する理由は，robustだから（様々な分布にfitする）．Webpageはnoisyなので．

・trainingのためにpornographic pageを1009ページ（13カテゴリから収集），non-pornographic pageを3,777ページ収集．

・feature（主なもの）

　- indicative term(ポルノっぽい単語)の頻度

　- displayed contents　ページのタイトル，warning message block, other viewable textから収集

　- non-displayed contents　descriptionやkeywordsなどのメタデータ，imageタグのtextなどから収集

・95%くらいのaccuracy

#Article #InformationRetrieval #WWW #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Modeling Anchor Text and Classifying Queries to Enhance Web Document Retrieval, WWW’08, [Fujii, 2008], 2008.04 Comment

ComputerVision (402)

LanguageModel (112)

#Pocket #NLP #Dataset #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#Pocket #NLP #ReinforcementLearning #PostTraining
Issue Date: 2025-11-26 [Paper Note] Soft Adaptive Policy Optimization, Chang Gao+, arXiv'25, 2025.11 GPT Summary- 強化学習（RL）におけるポリシー最適化の課題を解決するために、Soft Adaptive Policy Optimization（SAPO）を提案。SAPOは、ハードクリッピングを温度制御されたゲートに置き換え、オフポリシー更新を適応的に減衰させつつ有用な学習信号を保持。これにより、シーケンス整合性とトークン適応性を向上させ、サンプル効率を改善。実証結果は、SAPOがトレーニングの安定性を向上させ、Qwen3-VLモデルシリーズで一貫したパフォーマンス向上を示すことを確認。SAPOはLLMsのRLトレーニングにおける信頼性の高い最適化戦略を提供。 Comment

元ポスト:

Loading…

所見:

Loading…

ポイント解説:

Loading…

#Analysis #Pretraining #Pocket #NLP #Dataset #Selected Papers/Blogs #DataMixture #PhaseTransition
Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Pocket #NLP #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

#Pocket #NLP #Dataset #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#MachineLearning #Pocket #NLP #Transformer #Architecture #Normalization Issue Date: 2025-10-28 [Paper Note] SeeDNorm: Self-Rescaled Dynamic Normalization, Wenrui Cai+, arXiv'25, 2025.10 GPT Summary- SeeDNormは、入力に基づいて動的にスケーリング係数を調整する新しい正規化層であり、RMSNormの限界を克服します。これにより、入力のノルム情報を保持し、データ依存の自己再スケーリングを実現。大規模言語モデルやコンピュータビジョンタスクでの有効性を検証し、従来の正規化手法と比較して優れた性能を示しました。 #EfficiencyImprovement #Pocket #NLP #MultiModal #Pixel-based Issue Date: 2025-10-22 [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10 GPT Summary- テキストを画像として提供することで、LLMのトークン使用量を削減しつつ性能を維持できることを示す。長いテキストを画像にレンダリングし、デコーダーに直接入力することで、必要なトークン数を大幅に減少させる。実験により、RULERとCNN/DailyMailのベンチマークで性能を損なうことなく、トークンの節約が実現できることを確認。 Comment

元ポスト:

Loading…

#Pocket #NLP #Temporal #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

#Pocket #InstructionTuning #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV #ImageSynthesis Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Analysis #Pretraining #Pocket #NLP #Dataset #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #NLP #Prompting #MultiModal #AutomaticPromptEngineering Issue Date: 2025-10-14 [Paper Note] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs, Yumin Choi+, arXiv'25, 2025.10 GPT Summary- マルチモーダルプロンプト最適化（MPO）を提案し、テキストと非テキストのプロンプトを共同最適化する新たなアプローチを示す。MPOは、ベイズに基づく選択戦略を用いて候補プロンプトを選定し、画像や動画など多様なモダリティにおいてテキスト専用手法を上回る性能を発揮。これにより、MLLMsの潜在能力を最大限に引き出す重要なステップを確立。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #NLP #MultiModal #NeurIPS #PostTraining #OOD #Generalization Issue Date: 2025-10-05 [Paper Note] Visual Instruction Bottleneck Tuning, Changdae Oh+, NeurIPS'25, 2025.05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #NLP #MultiModal #ICLR #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-22 [Paper Note] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model, Chunting Zhou+, ICLR'25, 2024.08 GPT Summary- Transfusionは、離散データと連続データに対してマルチモーダルモデルを訓練する手法で、言語モデリングの損失関数と拡散を組み合わせて単一のトランスフォーマーを訓練します。最大7Bパラメータのモデルを事前訓練し、ユニモーダルおよびクロスモーダルベンチマークで優れたスケーリングを示しました。モダリティ特有のエンコーディング層を導入することで性能を向上させ、7Bパラメータのモデルで画像とテキストを生成できることを実証しました。 Comment

openreview: https://openreview.net/forum?id=SI2hI0frk6

#Pocket #NLP #UMM Issue Date: 2025-09-22 [Paper Note] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer, Yanghao Li+, arXiv'25, 2025.09 GPT Summary- Manzanoは、視覚コンテンツの理解と生成を統一的に行うマルチモーダル大規模言語モデル（LLMs）で、ハイブリッド画像トークナイザーとトレーニングレシピを組み合わせてパフォーマンスのトレードオフを軽減します。単一のビジョンエンコーダーが画像からテキストへの埋め込みを生成し、自己回帰型LLMがテキストと画像トークンの高レベルの意味を予測します。このアーキテクチャにより、両方の能力の共同学習が可能となり、最先端の結果を達成しました。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

DocVQAのオラクルはラベルノイズと曖昧性の観点から94--95という主張:

Loading…

#Pocket #NLP #MultiModal #NeurIPS #UMM Issue Date: 2025-09-19 [Paper Note] LMFusion: Adapting Pretrained Language Models for Multimodal Generation, Weijia Shi+, NeurIPS'25 GPT Summary- LMFusionは、テキストのみのLLMにマルチモーダル生成能力を付与するフレームワークで、テキストと画像の理解・生成を可能にします。既存のLlama-3の重みを活用し、画像処理のための並列トランスフォーマーモジュールを追加。各モダリティは独立して処理され、相互作用が可能です。実験により、LMFusionは画像理解を20%、生成を3.6%向上させ、Llama-3の言語能力を維持しつつ、効率的にマルチモーダルモデルを開発できることが示されました。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Analysis #Pocket #MultiModal #Architecture #SpatialUnderstanding Issue Date: 2025-09-12 [Paper Note] Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture, Wanyue Zhang+, arXiv'25 GPT Summary- 空間理解はMLLMsにとって重要だが、依然として課題が多い。本研究では、単一視点、多視点、ビデオの3つのシナリオにおける空間理解を体系的に分析し、MulSeTというベンチマークを提案。トレーニングデータの増加はパフォーマンス向上に寄与するが、限界があることが示された。また、空間理解は視覚エンコーダの位置エンコーディングに依存しており、推論の注入を通じたアーキテクチャ改善の可能性を探る。これにより、MLLMsの限界を明らかにし、空間推論能力向上の新たな方向性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #NLP #Alignment #MultiModal #read-later #UMM Issue Date: 2025-09-11 [Paper Note] Reconstruction Alignment Improves Unified Multimodal Models, Ji Xie+, arXiv'25 GPT Summary- 統一多モーダルモデル（UMMs）のトレーニングは、スパースなキャプションに依存しており、視覚的詳細を見逃すことが多い。そこで、再構成アライメント（RecA）を導入し、視覚理解エンコーダの埋め込みを用いてキャプションなしで豊富な監視を提供。RecAはUMMを視覚理解埋め込みに条件付け、自己監視型の再構成損失で最適化し、生成と編集の忠実度を向上させる。27 GPU時間で、画像生成性能や編集ベンチマークを大幅に向上させ、効率的なポストトレーニング戦略としての地位を確立。 Comment

pj page: https://reconstruction-alignment.github.io

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #Reasoning #LongSequence #OpenWeight #GRPO #VisionLanguageModel Issue Date: 2025-09-10 [Paper Note] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search, Xin Lai+, arXiv'25 GPT Summary- Mini-o3システムは、数十ステップの深いマルチターン推論を実現し、視覚検索タスクで最先端の性能を達成。Visual Probe Datasetを構築し、多様な推論パターンを示すデータ収集パイプラインを開発。オーバーターンマスキング戦略により、ターン数が増えるほど精度が向上することを実証。 Comment

HF: https://huggingface.co/Mini-o3

pj page: https://mini-o3.github.io

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #AIAgents #MultiModal #Reasoning #ComputerUse #VisionLanguageModel Issue Date: 2025-09-05 [Paper Note] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning, Haoming Wang+, arXiv'25 GPT Summary- UI-TARS-2は、GUI用自律エージェントの新しいモデルで、データ生成、安定化されたマルチターンRL、ハイブリッドGUI環境を統合。実証評価では、前モデルを大幅に上回り、複数のベンチマークで高いスコアを達成。約60%の人間レベルのパフォーマンスを示し、長期的な情報探索タスクにも適応可能。トレーニングダイナミクスの分析が安定性と効率向上の洞察を提供し、実世界のシナリオへの一般化能力を強調。 Comment

元ポスト:

Loading…

1.5をリリースしてから5ヶ月で大幅に性能を向上した模様

#Pocket #NLP #ReinforcementLearning #Reasoning #OpenWeight #SelfCorrection #VisionLanguageModel #Critic Issue Date: 2025-09-04 [Paper Note] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model, Xiyao Wang+, arXiv'25 GPT Summary- 本研究では、視覚と言語のモデリングにおいて、批評モデルを強化学習を用いて再編成し、生成モデルに直接適用する新しいアプローチを提案します。これにより、マルチモーダル批評モデルLLaVA-Critic-R1を生成し、視覚的推論ベンチマークで高い性能を示しました。さらに、自己批評を用いることで、追加の訓練なしに推論タスクでの性能を向上させることができることを示しました。この結果は、評価と生成の両方に優れた統一モデルを実現する可能性を示唆しています。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lmms-lab/llava-critic-r1-68922484e5822b89fab4aca1

#EfficiencyImprovement #Pocket #NLP #ReinforcementLearning #MultiModal #Reasoning #GRPO #VisionLanguageModel Issue Date: 2025-09-02 [Paper Note] R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning, Jie Jiang+, arXiv'25 GPT Summary- R-4Bは、問題の複雑さに応じて思考を行うかどうかを適応的に判断する自動思考型のマルチモーダル大規模言語モデル（MLLM）である。思考能力と非思考能力を持たせ、バイモードポリシー最適化（BPO）を用いて思考プロセスの起動を精度良く判断する。訓練には多様なトピックのデータセットを使用し、実験結果はR-4Bが25のベンチマークで最先端のパフォーマンスを達成し、特に推論集約型タスクで低コストで高い性能を示したことを示している。 Comment

元ポスト:

Loading…

VLMにthinking, non-thinkingを入力に応じて使い分けさせる手法

#Controllable #Pocket #NLP #MultiModal #DiffusionModel Issue Date: 2025-08-29 [Paper Note] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation, Jianwen Jiang+, arXiv'25 GPT Summary- 「OmniHuman-1.5」は、物理的妥当性と意味的一貫性を兼ね備えたキャラクターアニメーションを生成するフレームワークである。マルチモーダル大規模言語モデルを活用し、音声、画像、テキストの共同意味を解釈することで、感情や意図に基づいた動作を生成。新しいマルチモーダルDiTアーキテクチャにより、異なるモダリティ間の対立を軽減し、リップシンク精度や動作の自然さで優れたパフォーマンスを達成。複雑なシナリオへの拡張性も示している。 Comment

pj page: https://omnihuman-lab.github.io/v1_5/

元ポスト:

Loading…

promptによって状況や感情などの表現のコントロールが可能らしい

解説:

Loading…

#Pocket #NLP #MultiModal #Reasoning #OpenWeight #CurriculumLearning #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-08-28 [Paper Note] Ovis2.5 Technical Report, Shiyin Lu+, arXiv'25 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment

元ポスト:

Loading…

#Pocket #NLP #OpenWeight #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-26 [Paper Note] InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency, Weiyun Wang+, arXiv'25 GPT Summary- InternVL 3.5は、マルチモーダルモデルの新しいオープンソースファミリーで、Cascade Reinforcement Learningを用いて推論能力と効率を向上させる。粗から細へのトレーニング戦略により、MMMやMathVistaなどのタスクで大幅な改善を実現。Visual Resolution Routerを導入し、視覚トークンの解像度を動的に調整。Decoupled Vision-Language Deployment戦略により、計算負荷をバランスさせ、推論性能を最大16.0%向上させ、速度を4.05倍向上。最大モデルは、オープンソースのMLLMで最先端の結果を達成し、商業モデルとの性能ギャップを縮小。全てのモデルとコードは公開。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Multi #Pocket #NLP #Dataset #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 [Paper Note] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools, Shaofeng Yin+, arXiv'25 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #ComputerUse #VisionLanguageModel Issue Date: 2025-08-16 [Paper Note] UI-Venus Technical Report: Building High-performance UI Agents with RFT, Zhangxuan Gu+, arXiv'25 GPT Summary- UI-Venusは、スクリーンショットを入力として受け取るマルチモーダル大規模言語モデルに基づくネイティブUIエージェントで、UIグラウンディングとナビゲーションタスクで最先端の性能を達成。7Bおよび72Bバリアントは、Screenspot-V2 / Proベンチマークで高い成功率を記録し、既存のモデルを上回る。報酬関数やデータクリーニング戦略を導入し、ナビゲーション性能を向上させるための新しい自己進化フレームワークも提案。オープンソースのUIエージェントを公開し、さらなる研究を促進。コードはGitHubで入手可能。 Comment

元ポスト:

Loading…

解説:

Loading…

HF: https://huggingface.co/collections/inclusionAI/ui-venus-689f2fb01a4234cbce91c56a

#Pocket #NLP #Dataset #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #MultiModal #SpeechProcessing #OpenWeight #UMM Issue Date: 2025-07-26 [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

元ポスト:

Loading…

現在はv1.5も公開されておりさらに性能が向上している模様？

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni

#NaturalLanguageGeneration #Controllable #Pocket #NLP #VisionLanguageModel Issue Date: 2025-07-25 [Paper Note] CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning, Kuniaki Saito+, arXiv'25 GPT Summary- CaptionSmithsは、画像キャプショニングモデルがキャプションの特性（長さ、記述性、単語の独自性）を柔軟に制御できる新しいアプローチを提案。人間の注釈なしで特性を定量化し、短いキャプションと長いキャプションの間で補間することで条件付けを実現。実証結果では、出力キャプションの特性をスムーズに変化させ、語彙的整合性を向上させることが示され、誤差を506%削減。コードはGitHubで公開。 Comment

元ポスト:

Loading…

#Embeddings #InformationRetrieval #Pocket #NLP #MultiModal #RAG(RetrievalAugmentedGeneration) #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#MachineLearning #Pocket #NLP #Transformer #MultiModal #Architecture #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-07-06 [Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 [Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25 GPT Summary- マルチモーダルインコンテキスト学習（ICL）は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #MultiModal #Tokenizer Issue Date: 2025-06-24 [Paper Note] Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations, Jiaming Han+, arXiv'25 GPT Summary- 本論文では、視覚理解と生成を統一するマルチモーダルフレームワークTarを提案。Text-Aligned Tokenizer（TA-Tok）を用いて画像を離散トークンに変換し、視覚とテキストを統一空間に統合。スケール適応型のエンコーディングとデコーディングを導入し、高忠実度の視覚出力を生成。迅速な自己回帰モデルと拡散ベースのモデルを用いたデトークナイザーを活用し、視覚理解と生成の改善を実現。実験結果では、Tarが既存手法と同等以上の性能を示し、効率的なトレーニングを達成。 Comment

元ポスト:

Loading…

text modalityとvision modalityを共通の空間で表現する

Visual Understanding/Generationのベンチで全体的に高い性能を達成

#Pocket #NLP #MultiModal #RLVR #DataMixture Issue Date: 2025-06-05 [Paper Note] MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning, Yiqing Liang+, arXiv'25 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）をマルチモーダルLLMsに適用するためのポストトレーニングフレームワークを提案。異なる視覚と言語の問題を含むデータセットをキュレーションし、最適なデータ混合戦略を導入。実験により、提案した戦略がMLLMの推論能力を大幅に向上させることを示し、分布外ベンチマークで平均5.24%の精度向上を達成。 Comment

元ポスト:

Loading…

#Pocket #NLP #MultiModal #DiffusionModel Issue Date: 2025-05-24 LaViDa: A Large Diffusion Language Model for Multimodal Understanding, Shufan Li+, arXiv'25 GPT Summary- LaViDaは、離散拡散モデル（DM）を基にしたビジョン・ランゲージモデル（VLM）で、高速な推論と制御可能な生成を実現。新技術を取り入れ、マルチモーダルタスクにおいてAR VLMと競争力のある性能を達成。COCOキャプショニングで速度向上と性能改善を示し、AR VLMの強力な代替手段であることを証明。 Comment

元ポスト:

Loading…

Diffusion Modelの波が来た

#Analysis #Pocket #NLP #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

#Embeddings #Analysis #Pocket #NLP #RepresentationLearning #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#Pocket #NLP #Dataset #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #NLP #MultiModal #SpeechProcessing #OpenWeight #Video Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

#Pocket #NLP #DiffusionModel #NeurIPS Issue Date: 2025-03-02 Large Language Diffusion Models, Shen Nie+, NeurIPS'25 GPT Summary- LLaDAは、自己回帰モデル（ARMs）に代わる拡散モデルであり、ゼロから訓練され、データマスキングを通じて分布をモデル化。広範なベンチマークで強力なスケーラビリティを示し、自己構築したARMベースラインを上回る。特に、LLaDA 8Bは文脈内学習や指示追従能力に優れ、逆詩の完成タスクでGPT-4oを超える性能を発揮。拡散モデルがARMsの実行可能な代替手段であることを示す。 Comment

元ポスト:

Loading…

参考:

Loading…

openreview(ICLR'25): https://openreview.net/forum?id=W2tWu0aikL

pj page: https://ml-gsai.github.io/LLaDA-demo/

openreview(NeurIPS'25): https://openreview.net/forum?id=KnqiC0znVF

#Analysis #MachineLearning #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#Pocket #NLP #Dataset #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#EfficiencyImprovement #NLP #Transformer #MultiModal #SpeechProcessing #Architecture #TMLR #UMM Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25 GPT Summary- 大規模言語モデル（LLMs）のマルチモーダル処理を効率化するために、Mixture-of-Transformers（MoT）を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 #Pocket #NLP #ModelMerge Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, Nature Machine Intelligence'25 GPT Summary- 進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment

著者による資料（NLPコロキウム）:
https://speakerdeck.com/iwiwi/17-nlpkorokiumu

#Pocket #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel Issue Date: 2025-10-07 [Paper Note] Aria: An Open Multimodal Native Mixture-of-Experts Model, Dongxu Li+, arXiv'24, 2024.10 GPT Summary- Ariaは、オープンなマルチモーダルネイティブAIモデルであり、視覚とテキストのタスクにおいて高い性能を発揮します。3.9Bの視覚トークンと3.5Bのテキストトークンを持つエキスパートの混合モデルで、既存のプロプライエタリモデルを上回ります。言語理解やマルチモーダル理解を強化する4段階のパイプラインで事前トレーニングされ、モデルウェイトとコードベースはオープンソースとして提供されます。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/rhymes-ai/Aria

#Pocket #NLP #Dataset #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #InformationRetrieval #NLP #Dataset #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Pretraining #Pocket #NLP #MultiModal Issue Date: 2024-11-25 Multimodal Autoregressive Pre-training of Large Vision Encoders, Enrico Fini+, arXiv'24 GPT Summary- 新しい手法AIMV2を用いて、大規模なビジョンエンコーダの事前学習を行う。これは画像とテキストを組み合わせたマルチモーダル設定に拡張され、シンプルな事前学習プロセスと優れた性能を特徴とする。AIMV2-3BエンコーダはImageNet-1kで89.5%の精度を達成し、マルチモーダル画像理解において最先端のコントラストモデルを上回る。 #Pocket #NLP #Dataset Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv'24 GPT Summary- 視覚と言語のモデル（VLM）の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。

元ポスト:

Loading…

#Pocket #NLP #Chain-of-Thought Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv'24 GPT Summary- LLMsの空間推論能力を向上させるために、Visualization-of-Thought（VoT）プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Analysis #Pretraining #Pocket #NLP #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 VILA: On Pre-training for Visual Language Models, Ji Lin+, N_A, CVPR'24 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル（VLM）が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した：(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

#Pocket #NLP #AutomaticPromptEngineering #EACL #System Demonstration Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, EACL'24 Sustem Demonstration Track GPT Summary- 本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #Pocket #NLP #Dataset #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #QuestionAnswering #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, CVPR'24 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment

画像分析が可能なオープンソースLLMとのこと。

# Overview

画像生成をできるわけではなく、inputとして画像を扱えるのみ。

pj page: https://llava-vl.github.io

#NLP #MultiModal #SpeechProcessing #AAAI Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24 GPT Summary- AudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Comment

text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム

マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

#Pretraining #Pocket #MultiModal #Selected Papers/Blogs #ICCV Issue Date: 2025-06-29 [Paper Note] Sigmoid Loss for Language Image Pre-Training, Xiaohua Zhai+, ICCV'23 GPT Summary- シンプルなペアワイズシグモイド損失（SigLIP）を提案し、画像-テキストペアに基づく言語-画像事前学習を改善。シグモイド損失はバッチサイズの拡大を可能にし、小さなバッチサイズでも性能向上を実現。SigLiTモデルは84.5%のImageNetゼロショット精度を達成。バッチサイズの影響を研究し、32kが合理的なサイズであることを確認。モデルは公開され、さらなる研究の促進を期待。 Comment

SigLIP論文

#Pocket #NLP #MultiModal #OpenWeight Issue Date: 2025-04-11 PaLI-3 Vision Language Models: Smaller, Faster, Stronger, Xi Chen+, arXiv'23 GPT Summary- PaLI-3は、従来のモデルに比べて10倍小型で高速な視覚言語モデル（VLM）であり、特にローカリゼーションや視覚的テキスト理解において優れた性能を示す。SigLIPベースのPaLIは、20億パラメータにスケールアップされ、多言語クロスモーダル検索で新たな最先端を達成。50億パラメータのPaLI-3は、VLMの研究を再燃させることを期待されている。 Comment

#Pocket #Zero/Few/ManyShotPrompting #Self-SupervisedLearning Issue Date: 2024-10-07 SINC: Self-Supervised In-Context Learning for Vision-Language Tasks, Yi-Syuan Chen+, N_A, ICCV'23 GPT Summary- 自己教師あり文脈内学習（SINC）フレームワークを提案し、大規模言語モデルに依存せずに文脈内学習を実現。特別に調整されたデモンストレーションを用いたメタモデルが、視覚と言語のタスクで少数ショット設定において勾配ベースの手法を上回る性能を示す。SINCは文脈内学習の利点を探求し、重要な要素を明らかにする。 #Pocket #NLP #MultiModal #OCR Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V（ision） : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識（OCR）能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

#Pocket #NLP #FoundationModel Issue Date: 2023-07-23 [Paper Note] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning, Lili Yu+, arXiv'23 GPT Summary- CM3Leonは、テキストと画像の生成・補完が可能なマルチモーダル言語モデルで、リトリーバル拡張型のトークンベースのデコーダを使用。CM3アーキテクチャを基に、多様な指示スタイルでのスケーリングとチューニングに優れ、初のテキスト専用モデルから適応されたマルチモーダルモデル。高品質な出力を生成する対照的デコーディング手法を導入し、少ない計算量で最先端の性能を達成。SFT後は、画像編集や生成において高い制御性を示す。 #Pocket #NLP #AIAgents Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv'23 GPT Summary- 本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment

#Pocket #NLP #SpokenLanguageProcessing #MultiModal #SpeechProcessing Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment

12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習

#NaturalLanguageGeneration #NLP #TabularData #TextToImageGeneration Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #QuestionAnswering #MultiModal Issue Date: 2023-07-11 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs, Lijun Yu+, N_A, arXiv'23 GPT Summary- この研究では、Semantic Pyramid AutoEncoder（SPAE）を使用して、凍結されたLLMsが非言語的なモダリティを含むタスクを実行できるようにします。SPAEは、LLMの語彙から抽出されたトークンと生のピクセルデータの変換を行います。生成されたトークンは、視覚再構成に必要な意味と詳細を捉え、LLMが理解できる言語に変換します。実験結果では、我々のアプローチが画像理解と生成のタスクにおいて最先端のパフォーマンスを25％以上上回ることを示しています。 Comment

画像をLLMのtokenスペースにマッピングすることで、LLMがパラメータの更新なしにvisual taskを解くことを可能にした。in context learningによって、様々なvisuataskを解くことができる。

#QuestionAnswering #MultiModal Issue Date: 2023-06-30 Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language, William Berrios+, N_A, arXiv'23 GPT Summary- 私たちは、LENSというモジュラーなアプローチを提案しています。このアプローチでは、大規模言語モデル（LLMs）を使用してコンピュータビジョンの問題に取り組みます。LENSは、独立したビジョンモジュールの出力に対して言語モデルを使用して推論を行います。私たちは、ゼロショットおよびフューショットのオブジェクト認識などのコンピュータビジョンの設定でLENSを評価しました。LENSは市販のLLMに適用でき、非常に競争力のあるパフォーマンスを発揮します。コードはオープンソースで提供されています。 Comment

参考:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #NLP #Transformer #MultiModal Issue Date: 2023-08-22 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision, Wonjae Kim+, N_A, ICML'21 GPT Summary- VLP（Vision-and-Language Pre-training）のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ（ViLT）モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment

日本語解説: https://tech.fusic.co.jp/posts/2021-12-29-vilt/

#Article #NLP #SpeechProcessing #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 LongCat-Flash-Omni Technical Report, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

text, image/video, audioをinputし、audioを生成するomniモデル

#Article #NLP #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #MultiLingual #OpenWeight #DocParser #OCR Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…

SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07

#Article #NLP #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #OCR #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

関連:

Loading…

literature:

Loading…

karpathy氏のポスト:

Loading…

#Article #NLP #OpenWeight #UMM Issue Date: 2025-10-03 Ming-UniVision: Joint Image Understanding and Generation via a Unified Continuous Tokenizer, inclusionAI, 2025.10 Comment

HF: https://huggingface.co/inclusionAI/Ming-UniVision-16B-A3B

元ポスト:

Loading…

#Article #NLP #Dataset #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #MultiModal #Reasoning #OpenWeight #VisionLanguageModel Issue Date: 2025-09-18 Magistral-Small-2509, MistralAI, 2025.09 Comment

元ポスト:

Loading…

#Article #Pocket #NLP #Dataset #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #Survey #NLP #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Library #ReinforcementLearning #Repository #PostTraining #VisionLanguageModel Issue Date: 2025-09-01 RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #MultiModal #OpenWeight #VisionLanguageModel Issue Date: 2025-08-27 MiniCPM-V-4_5, openbmb, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VideoGeneration/Understandings Issue Date: 2025-07-29 Wan2.2, Alibaba Wan, 2025.07 Comment

元ポスト:

Loading…

テクニカルペーパー:
https://arxiv.org/abs/2503.20314

#Article #Document #NLP #DocParser #VisionLanguageModel Issue Date: 2025-07-25 LLM APIs Are Not Complete Document Parsers, Jerry Liu, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) Issue Date: 2025-06-30 ERNIE 4.5 Series, ERNIE TEAM, 2025.06 Comment

Tech Report: https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf

元ポスト:

Loading…

解説ポスト:

Loading…

#Article #NLP #MultiModal #Reasoning #OpenWeight Issue Date: 2025-06-24 Kimi-VL-A3B-Thinking-2506, moonshotai, 2025.06 Comment

元ポスト:

Loading…

様々なベンチマークでSoTA(gpt4o, Qwen2.5-VL-7B)を達成したReasoning VLM

テクニカルペーパー:
- [Paper Note] Kimi-VL Technical Report, Kimi Team+, arXiv'25

#Article #Tutorial #NLP #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #Tutorial #NLP #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #Pocket #NLP #AIAgents #MultiModal #Blog #Reasoning #OpenWeight #ComputerUse #VisionLanguageModel Issue Date: 2025-04-18 Introducing UI-TARS-1.5, ByteDance, 2025.04 GPT Summary- UI-TARSは、スクリーンショットを入力として人間のようにインタラクションを行うネイティブGUIエージェントモデルであり、従来の商業モデルに依存せず、エンドツーエンドで優れた性能を発揮します。実験では、10以上のベンチマークでSOTA性能を達成し、特にOSWorldやAndroidWorldで他のモデルを上回るスコアを記録しました。UI-TARSは、強化された知覚、統一アクションモデリング、システム-2推論、反射的オンライントレースによる反復トレーニングなどの革新を取り入れ、最小限の人間の介入で適応し続ける能力を持っています。 Comment

paper: https://arxiv.org/abs/2501.12326

色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)

元ポスト:

Loading…

#Article #Survey Issue Date: 2025-04-11 Large Vision Language Model （LVLM）に関する最新知見まとめ（Part 1）, Daiki Shiono, 2024.11 #Article #NLP #MultiModal #OpenWeight #Reference Collection Issue Date: 2025-04-05 Llama 4 Series, Meta, 2025.04 Comment

Downloads: https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4

Huggingface:
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

解説ポスト:

Loading…

Artificial Analysisによる性能検証:

Loading…

MaverickがGPT4oと同等、ScoutがGPT4o-miniと同等

Update:

Loading…

性能に関して不可解な点が多そうなので様子見をしても良いかも。

性能検証（Math-Perturb):

Loading…

日本語にあまり強くないという情報も
元ポスト:

Loading…

#Article #NLP #MultiModal #OpenWeight Issue Date: 2025-03-25 Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 Comment

元ポスト:

Loading…

#Article #EfficiencyImprovement #Pretraining #NLP #Transformer #Supervised-FineTuning (SFT) #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

#Article #NLP #MultiModal #OpenWeight Issue Date: 2025-03-18 SmolDocling-256M, IBM Research, 2025.03 Comment

Apache-2.0ライセンス。言語はEnglishのみな模様

マルチモーダルなImage-To-Textモデル。サンプルはこちら

#Article #NLP #MultiModal #ProprietaryLLM Issue Date: 2025-03-17 ERNIE4.5_X1, Baidu, 2025.03 Comment

解説ポスト:

Loading…

- ERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%
- X1はマルチモーダルなreasoningモデルでDeepSeek-R1と同等の性能で半額

らしい

このモデルは6月30日にオープン（ウェイト？）になるとスレッドで述べられている。

#Article #NLP #MultiModal #OpenWeight #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-03-17 sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03 Comment

元ポスト:

Loading…

VLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。

モデル構成、学習の詳細、および評価:

Loading…

ProjectorやMMLLMを具体的にどのように学習するかは
- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

を参照のこと。

#Article #NLP #MultiModal #OpenWeight #UMM Issue Date: 2025-01-28 Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01 Comment

DeepSeekによる新たなUMM、Janus-Proが本日リリース。MIT License

#Article #NLP #Dataset #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #Survey #NLP #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

#Article #NLP #MultiModal #FoundationModel #MultiLingual Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

Loading…

#Article #Survey #Pocket #NLP #Slide Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #NLP #MultiModal #OpenWeight #VisionLanguageModel Issue Date: 2024-09-27 Molmo, AI2, 2024.09 GPT Summary- Molmoは、オープンデータを活用した最先端のマルチモーダルAIモデルであり、特に小型モデルが大規模モデルを上回る性能を示す。Molmoは、物理的および仮想的な世界とのインタラクションを可能にし、音声ベースの説明を用いた新しい画像キャプションデータセットを導入。ファインチューニング用の多様なデータセットを使用し、非言語的手がかりを活用して質問に答える能力を持つ。Molmoファミリーのモデルは、オープンウェイトでプロプライエタリシステムに対抗する性能を発揮し、今後すべてのモデルウェイトやデータを公開予定。 Comment

#Article #NLP #Blog #OpenWeight Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment

11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。

#Article #Tutorial #MachineLearning #NLP #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #NLP #MultiModal Issue Date: 2024-04-14 Grok-1.5 Vision Preview, 2024 Comment

#Article #NLP #Library #Alignment #TextualInversion Issue Date: 2024-03-21 repeng Comment

Loading…

#Article #Survey #NaturalLanguageGeneration #NLP #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #NeuralNetwork #EfficiencyImprovement #NLP #DiffusionModel #Blog Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ Comment

Gradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。

#Article #NLP #ChatGPT #MultiModal Issue Date: 2023-09-30 OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09 Comment

おう…やべえな…

#Article #Survey #NLP #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

Dataset (75)

#Pocket #NLP #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#Pocket #NLP #AIAgents #Evaluation #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#Pocket #NLP #Evaluation #VisionLanguageModel
Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #NLP #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #Transformer #Evaluation #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Analysis #Pretraining #Pocket #NLP #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Pocket #NLP #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Evaluation #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

#Analysis #Pocket #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #ICCV #VisionLanguageModel Issue Date: 2025-10-27 [Paper Note] Kaputt: A Large-Scale Dataset for Visual Defect Detection, Sebastian Höfer+, ICCV'25, 2025.10 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment

元ポスト:

Loading…

#Pocket #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

#Multi #Pocket #NLP #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel #2D (Image) Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#EfficiencyImprovement #Pocket #Evaluation #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#Analysis #Pretraining #Pocket #NLP #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #NLP #Evaluation #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#EfficiencyImprovement #Pocket #Evaluation #ImageCaptioning #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #MultiModal #NeurIPS #Encoder #SpatialUnderstanding Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder（PE）は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #Transformer #DiffusionModel #PEFT(Adaptor/LoRA) #Encoder-Decoder #4D (Video) Issue Date: 2025-09-16 [Paper Note] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy, Zhaoxi Chen+, arXiv'25 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment

pj page: https://4dnex.github.io

元ポスト:

Loading…

#Pocket #3D (Scene) Issue Date: 2025-09-15 [Paper Note] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations, Jiahao Wang+, arXiv'25 GPT Summary- SpatialVIDデータセットは、21,000時間以上の生動画から生成された2.7百万のクリップを含み、カメラポーズ、深度、動的マスクなどの詳細な3D注釈を提供。これにより、空間知能のモデルの一般化とパフォーマンス向上を促進し、ビデオおよび3Dビジョン研究において重要な資産となる。 Comment

pj page: https://nju-3dv.github.io/projects/SpatialVID/
dataset: https://huggingface.co/datasets/SpatialVID/SpatialVID-HQ

元ポスト:

Loading…

CC-BY-NC-SA 4.0ライセンス

#Multi #Pocket #NLP #LanguageModel #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 [Paper Note] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools, Shaofeng Yin+, arXiv'25 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #QuestionAnswering #SyntheticData #MultiModal #Reasoning #EMNLP #PostTraining #VisionLanguageModel Issue Date: 2025-08-21 [Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #EMNLP #PostTraining #Selected Papers/Blogs #VisionLanguageModel #Cultural Issue Date: 2025-08-13 [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment

元ポスト:

Loading…

#Pocket #NLP #MultiLingual #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-07-30 [Paper Note] MetaCLIP 2: A Worldwide Scaling Recipe, Yung-Sung Chuang+, NeurIPS'25 Spotlight GPT Summary- MetaCLIP 2を提案し、CLIPをゼロから訓練するための新しいアプローチを示す。英語と非英語データの相互利益を得るための最小限の変更を加え、ゼロショットのImageNet分類で英語専用モデルを上回る性能を達成。多言語ベンチマークでも新たな最先端を記録。 Comment

元ポスト:

Loading…

マルチリンガルなCLIP

openreview: https://openreview.net/forum?id=aYRNINhNGV&referrer=%5Bthe%20profile%20of%20Saining%20Xie%5D(%2Fprofile%3Fid%3D~Saining_Xie2)

HF: https://huggingface.co/facebook/metaclip-2-mt5-worldwide-b32

#Pocket #NLP #Evaluation #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #Evaluation #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#Pocket #NLP #LanguageModel #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 [Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25 GPT Summary- マルチモーダルインコンテキスト学習（ICL）は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…

#Pocket #VideoGeneration/Understandings Issue Date: 2025-06-23 [Paper Note] Sekai: A Video Dataset towards World Exploration, Zhen Li+, arXiv'25 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #NLP #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#Pocket #NLP #Supervised-FineTuning (SFT) #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。 #Pocket #NLP #Evaluation #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Pocket #NLP #QuestionAnswering #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #Pocket #NLP #InstructionTuning #Evaluation #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #NLP #Evaluation #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Analysis #Pocket #NLP #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 [Paper Note] Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic, Sachin Goyal+, CVPR'24 GPT Summary- 視覚と言語のモデル（VLMs）のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ（QQT）に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Japanese #read-later #VisionLanguageModel Issue Date: 2025-07-16 [Paper Note] Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese, Yuichi Inoue+, arXiv'24 GPT Summary- 日本語に特化したVision Language Models (VLM)の評価のために、新しいベンチマーク「Japanese Heron-Bench」を提案。日本の文脈に基づく画像-質問応答ペアを用いて、日本語VLMの能力を測定。提案されたVLMの強みと限界を明らかにし、強力なクローズドモデルとの能力ギャップを示す。今後の日本語VLM研究の発展を促進するため、データセットと訓練コードを公開。 Comment

解説: https://zenn.dev/turing_motors/articles/8e913f46374ede

#Pocket #NLP #Evaluation #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

#Pocket #NLP #LanguageModel #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Pocket Issue Date: 2024-09-30 COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark, Koki Maeda+, N_A, ECCV'24 GPT Summary- 手続き的なビデオ理解のために、COM Kitchensという新しいデータセットを提案。これは、参加者がレシピに基づいて食材を準備する様子を上方視点で撮影した編集されていないビデオで構成されている。多様なデータ収集のためにスマートフォンを使用し、オンラインレシピ検索（OnRR）と密なビデオキャプショニング（DVC-OV）という新しいタスクを提案。実験により、既存のウェブビデオベースの手法の能力と限界を検証。 Comment

とてもおもしろそう！

#Pocket #NLP #LanguageModel Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv'24 GPT Summary- 視覚と言語のモデル（VLM）の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #Evaluation #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#NaturalLanguageGeneration #NLP #Evaluation Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #NLP #Personalization #MultiModal #Conversation Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL'23 GPT Summary- 本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #Pocket #Evaluation #Robotics #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#Pocket #NLP #MultiModal #CLIP #NeurIPS Issue Date: 2025-05-06 LAION-5B: An open large-scale dataset for training next generation image-text models, Christoph Schuhmann+, NeurIPS'22 GPT Summary- LAION-5Bは、5.85億のCLIPフィルタリングされた画像-テキストペアから成る大規模データセットで、英語のペアが2.32B含まれています。このデータセットは、CLIPやGLIDEなどのモデルの再現とファインチューニングに利用され、マルチモーダルモデルの研究を民主化します。また、データ探索やサブセット生成のためのインターフェースや、コンテンツ検出のためのスコアも提供されます。 #Evaluation #ICCV Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #Pocket #Evaluation #Robotics #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #Pocket #Evaluation #SIGGRAPH Issue Date: 2025-11-20 [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像（MPI）を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/

#Evaluation #TOG Issue Date: 2025-11-20 [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。 #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。 #Pocket #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。 #Evaluation #IJCV Issue Date: 2025-11-20 [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16 GPT Summary- 新しいマルチビュー立体視（MVS）データセットを提案し、49または64のカメラ位置から80のシーンを評価。すべての画像は7つの照明条件下で撮影され、正確な構造光スキャンも含まれる。3つの最先端MVSアルゴリズムを適用し、評価プロトコルを拡張。再構築された3Dポイントの品質と物体表面の完全性のトレードオフを観察し、鏡面反射や照明変化の影響は軽微であることを確認。MVSの主要な課題はテクスチャの欠如とメッシングであることが示された。 #Evaluation #CVPR #CameraPoseEstimation Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。 #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13 GPT Summary- 単一の画像を用いてRGB-Dカメラのポーズを既知の3Dシーンに対して推定する手法を提案。回帰フォレストを使用し、深度とRGBピクセルの比較特徴のみで対応関係を推定。興味点検出器は不要で、堅牢な最適化手法でカメラポーズを推定。事前RANSACにより仮定ポーズを洗練し、様々なシーンで高精度な再局所化を実現し、最先端の手法を大幅に上回る性能を示した。 #Evaluation #ECCV Issue Date: 2025-11-20 [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。 #Evaluation #ECCV Issue Date: 2025-11-20 [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12 GPT Summary- 新しい光学フローデータセットを「Sintel」から作成し、長いシーケンスや大きな動き、鏡面反射などの特徴を持つ。既存の光学フローアルゴリズムがこの複雑なデータセットで困難を抱えていることを示し、さらなる研究の必要性を提起。合成データの使用を実際の映像と比較し、類似性を確認。データセットと評価ツールは公開されている。 Comment

dataset: https://www.kaggle.com/datasets/artemmmtry/mpi-sintel-dataset

#Selected Papers/Blogs #ImageClassification #ObjectRecognition #ObjectLocalization Issue Date: 2025-05-13 ImageNet: A Large-Scale Hierarchical Image Database, Deng+, CVPR'09 #Article #NLP #VisionLanguageModel Issue Date: 2025-10-29 Nemotron-VLM-Dataset-v2, Nvidia, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #Pocket #NLP #LanguageModel #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #Pretraining #NLP #Blog #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09 Comment

HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision

元ポスト:

Loading…

#Article #Pretraining #NLP #QuestionAnswering #ImageCaptioning #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #NLP #LanguageModel #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #NLP #LanguageModel #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

Evaluation (51)

#Pocket #NLP #Dataset #LanguageModel #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#Pocket #NLP #Dataset #AIAgents #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#Pocket #NLP #Dataset #VisionLanguageModel
Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #NLP #Dataset #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #Dataset #Transformer #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Pocket #NLP #Dataset #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Pocket #NLP #Dataset #LanguageModel #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Dataset #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#EfficiencyImprovement #Pocket #Dataset #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#Analysis #Pretraining #Pocket #NLP #Dataset #LanguageModel #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #NLP #Dataset #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#EfficiencyImprovement #Pocket #Dataset #ImageCaptioning #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #NLP #Dataset #AIAgents #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #Dataset #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #Dataset #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#Pocket #NLP #Dataset #LanguageModel #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#Pocket #NLP #Dataset #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Pocket #NLP #Dataset #QuestionAnswering #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #Pocket #NLP #Dataset #InstructionTuning #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #NLP #Dataset #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Pocket #NLP #Dataset #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

#Pocket #NLP #Dataset #LanguageModel #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Pocket #NLP #Dataset #LanguageModel #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #Dataset #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#NaturalLanguageGeneration #NLP #Dataset Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket #Dataset #Robotics #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#Dataset #ICCV Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #Pocket #Dataset #Robotics #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #Pocket #Dataset #SIGGRAPH Issue Date: 2025-11-20 [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像（MPI）を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/

#Dataset #TOG Issue Date: 2025-11-20 [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。 #Dataset #CVPR Issue Date: 2025-11-20 [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。 #Pocket #Dataset #CVPR Issue Date: 2025-11-20 [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。 #Dataset #IJCV Issue Date: 2025-11-20 [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16 GPT Summary- 新しいマルチビュー立体視（MVS）データセットを提案し、49または64のカメラ位置から80のシーンを評価。すべての画像は7つの照明条件下で撮影され、正確な構造光スキャンも含まれる。3つの最先端MVSアルゴリズムを適用し、評価プロトコルを拡張。再構築された3Dポイントの品質と物体表面の完全性のトレードオフを観察し、鏡面反射や照明変化の影響は軽微であることを確認。MVSの主要な課題はテクスチャの欠如とメッシングであることが示された。 #DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Dataset #CVPR #CameraPoseEstimation Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。 #Dataset #CVPR Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13 GPT Summary- 単一の画像を用いてRGB-Dカメラのポーズを既知の3Dシーンに対して推定する手法を提案。回帰フォレストを使用し、深度とRGBピクセルの比較特徴のみで対応関係を推定。興味点検出器は不要で、堅牢な最適化手法でカメラポーズを推定。事前RANSACにより仮定ポーズを洗練し、様々なシーンで高精度な再局所化を実現し、最先端の手法を大幅に上回る性能を示した。 #Dataset #ECCV Issue Date: 2025-11-20 [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。 #Dataset #ECCV Issue Date: 2025-11-20 [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12 GPT Summary- 新しい光学フローデータセットを「Sintel」から作成し、長いシーケンスや大きな動き、鏡面反射などの特徴を持つ。既存の光学フローアルゴリズムがこの複雑なデータセットで困難を抱えていることを示し、さらなる研究の必要性を提起。合成データの使用を実際の映像と比較し、類似性を確認。データセットと評価ツールは公開されている。 Comment

dataset: https://www.kaggle.com/datasets/artemmmtry/mpi-sintel-dataset

#Article #NLP #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #Pocket #NLP #Dataset #LanguageModel #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #Dataset #LanguageModel Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

VideoGeneration/Understandings (29)

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #FoundationModel #DiffusionModel #TextToImageGeneration #SmallModel #VisionLanguageModel
Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

#Controllable #Pocket #DiffusionModel
Issue Date: 2025-11-14 [Paper Note] Time-to-Move: Training-Free Motion Controlled Video Generation via Dual-Clock Denoising, Assaf Singer+, arXiv'25, 2025.11 GPT Summary- Time-to-Move（TTM）は、画像から動画への拡散モデルを用いたトレーニング不要の動画生成フレームワークで、動きと外観を制御する。ユーザーが得た粗いアニメーションを動きの手がかりとして利用し、二重時計デノイジングにより外観を保持しつつ動きの整合性を強化。TTMは追加のトレーニングなしでリアリズムと動きの制御において既存手法と同等以上の性能を示し、ピクセルレベルの条件付けを通じて外観制御の精度を向上させた。 Comment

元ポスト:

Loading…

#Pocket #Zero/Few/ManyShotPrompting #Robotics #WorldModels #EmbodiedAI #One-Line Notes
Issue Date: 2025-11-12 [Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment

pj page: https://pointscoder.github.io/PhysWorld_Web/

画像とタスクプロンプトを与えて動画を生成し、生成された動画に対してworld modelを用いて物理世界の情報を再構築し、そこからロボットのアクションとして何が必要かを推定することでRLをする、結果的にzeroshotでのロボット操作が実現できる、みたいな話に見える(Figure2)

元ポスト:

Loading…

#Pocket #DiffusionModel #LongSequence #One-Line Notes Issue Date: 2025-11-10 [Paper Note] Rolling Forcing: Autoregressive Long Video Diffusion in Real Time, Kunhao Liu+, arXiv'25, 2025.09 GPT Summary- ストリーミングビデオ生成におけるエラーの蓄積を抑えるために、新技術「Rolling Forcing」を提案。複数フレームの共同デノイジング、注意シンクメカニズムの導入、効率的なトレーニングアルゴリズムを特徴とし、リアルタイムでの高品質なビデオ生成を実現。実験により、エラーの蓄積が大幅に削減されることが確認された。 Comment

self forcingと比較して複数フレームを同時にdenoisingしエラーの蓄積を低減するコンセプトな模様。

#Pocket #ImageSegmentation #VisionLanguageModel #UMM Issue Date: 2025-10-27 [Paper Note] Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos, Haobo Yuan+, arXiv'25, 2025.01 GPT Summary- Sa2VAは、画像と動画の基盤理解のための統一モデルであり、最小限のワンショット指示チューニングで多様なタスクをサポート。SAM-2とLLaVAを組み合わせ、テキスト、画像、動画を統合。新たに導入したRef-SAVデータセットにより、複雑な動画シーンでのオブジェクト表現を強化。実験結果は、特に参照動画オブジェクトセグメンテーションで最先端の成果を示し、実世界の応用が期待される。 Comment

HF: https://huggingface.co/collections/ByteDance/sa2va-model-zoo

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #DiffusionModel #LongSequence #read-later #4D (Video) Issue Date: 2025-10-22 [Paper Note] Self-Forcing++: Towards Minute-Scale High-Quality Video Generation, Justin Cui+, arXiv'25, 2025.10 GPT Summary- 本論文では、長い動画生成における品質劣化を軽減する新しいアプローチを提案します。教師モデルの知識を活用し、自己生成した長い動画から抽出したサンプルセグメントを通じて学生モデルにガイダンスを提供することで、長さを最大20倍にスケールアップしつつ時間的一貫性を維持します。これにより、最大4分15秒の動画を生成可能で、従来の手法よりも忠実度と一貫性で大幅に優れた結果を示しました。 Comment

元ポスト:

Loading…

おー、もう++が出てきた。すごいスピード感だ。

Self Forcingと比較して50s以上での生成の性能が向上しているように見える

#Pocket #Chain-of-Thought #DiffusionModel #Reasoning #2D (Image) Issue Date: 2025-10-20 [Paper Note] VChain: Chain-of-Visual-Thought for Reasoning in Video Generation, Ziqi Huang+, arXiv'25, 2025.10 GPT Summary- VChainは、マルチモーダルモデルの視覚的推論を動画生成に活用する新しいフレームワークで、重要なキーフレームを生成し、動画生成器のチューニングを効率的にガイドします。このアプローチにより、複雑なシナリオにおいて生成動画の品質が大幅に向上しました。 Comment

pj page: https://eyeline-labs.github.io/VChain/

元ポスト:

Loading…

Chain-of-Visual-Thoughts

keyframeをchain-of-thoughtsに含めることで、時間発展をより正確にしようという試みに見える。追加の学習なしで実施できるとのこと。
https://github.com/user-attachments/assets/a7283398-2a61-45be-b7a4-eb7452656e06" />

#Controllable #Pocket #DiffusionModel #ComputerUse #4D (Video) Issue Date: 2025-10-19 [Paper Note] Ctrl-VI: Controllable Video Synthesis via Variational Inference, Haoyi Duan+, arXiv'25, 2025.10 GPT Summary- ビデオ生成モデルの制約を克服するために、Ctrl-VIという新しいビデオ合成手法を提案。指定要素に対して高い制御性を持ち、非指定要素には多様性を維持。変分推論を用いて複数のビデオ生成バックボーンで合成分布を近似し、KLダイバージェンスの最小化を段階的に行う。実験により、制御性、多様性、3Dの一貫性が向上したことを示す。 Comment

元ポスト:

Loading…

#Pocket #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #interactive Issue Date: 2025-10-17 [Paper Note] LongLive: Real-time Interactive Long Video Generation, Shuai Yang+, arXiv'25, 2025.09 GPT Summary- LongLiveは、リアルタイムでインタラクティブな長編動画生成のためのフレームレベルの自己回帰フレームワークを提案。因果的注意ARモデルを採用し、KV再キャッシュメカニズムを統合することで、視覚的一貫性と意味的整合性を保ちながら効率的な生成を実現。1.3Bパラメータのモデルを32 GPU日でファインチューニングし、単一のNVIDIA H100で20.7 FPSを維持。最大240秒の動画生成をサポートし、INT8量子化推論も対応。 Comment

元ポスト:

Loading…

pj page: https://nvlabs.github.io/LongLive/

#EfficiencyImprovement #Pocket #Dataset #Evaluation #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#Pocket #NLP #Attention #LongSequence #VisionLanguageModel #Sparse Issue Date: 2025-10-04 [Paper Note] VideoNSA: Native Sparse Attention Scales Video Understanding, Enxin Song+, arXiv'25, 2025.10 GPT Summary- VideoNSAは、ビデオ理解のためにNative Sparse Attentionを適用し、長い時間スケールでの一貫性を向上させる手法。216Kのビデオ指示データセットでQwen2.5-VLをエンドツーエンドでトレーニングし、テキストには密な注意、ビデオにはNSAを使用。トークン圧縮や従来のスパースベースラインと比較して、長いビデオ理解や時間的推論で性能が向上。アブレーション分析により、信頼性のあるスケーリングや注意の最適配分などの重要な発見が得られた。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #Attention #DiffusionModel #Architecture #NeurIPS #Sparse Issue Date: 2025-09-27 [Paper Note] Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation, Shuo Yang+, NeurIPS'25 Spotlight, 2025.05 GPT Summary- Diffusion Transformers（DiTs）の動画生成におけるレイテンシーの問題を解決するため、重要トークンの特定精度を最大化し計算の無駄を最小化するトレーニング不要のフレームワークSVG2を提案。SVG2は意味に基づくトークンのクラスタリングと再配置を行い、計算効率を向上させる。これにより、HunyuanVideoおよびWan 2.1でそれぞれ最大2.30倍および1.89倍のスピードアップを達成し、PSNRを維持。 Comment

元ポスト:

Loading…

pj page: https://svg-project.github.io/v2/

Q, Kそれぞれについて独立してkmeansクラスタリングを実施し、意味的に類似したQ, Kをクラスタ化し、map上で散らばっているトークンの配置を整頓して計算機上で効率的に扱えるようにし、各クラスタのcentroidをattention scoreの計算に用いてクラスタ内のトークンのスコアを近似することで計算を効率化します、といった話な模様。また、クリティカルなクラスタとそうでは無いものがあるので、p個のクリティカルなクラスタを選択しさらに効率化をする模様。

#Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #NeurIPS #PostTraining #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-19 [Paper Note] Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion, Xun Huang+, NeurIPS'25 GPT Summary- Self Forcingは、自動回帰型ビデオ拡散モデルの新しいトレーニング手法で、エクスポージャーバイアスの問題に対処します。従来の手法が真のコンテキストに基づくのに対し、Self Forcingは自己生成した出力に基づいてフレームを生成し、全体の品質を評価するホリスティックな損失を用います。計算コストとパフォーマンスのバランスを取るために、少数ステップの拡散モデルと確率的勾配切断を採用し、ロールイングKVキャッシュメカニズムを導入。実験により、リアルタイムのストリーミングビデオ生成が可能で、非因果的拡散モデルの生成品質に匹敵またはそれを上回ることが示されました。 Comment

pj page: https://self-forcing.github.io

元ポスト:

Loading…

結果的に、単一のRTX4090でリアルタイムのストリーミングビデオ生成が高品質に生成可能となった（かもしれない）:
https://note.com/ngc_shj/n/n505b2f7cdfe4

#Pocket #LongSequence Issue Date: 2025-08-29 [Paper Note] Mixture of Contexts for Long Video Generation, Shengqu Cai+, arXiv'25 GPT Summary- 長動画生成における長いコンテキストメモリの問題を解決するため、スパース注意ルーティングモジュール「Mixture of Contexts（MoC）」を提案。MoCは、動的に情報量の多いチャンクと必須のアンカーを選択し、因果ルーティングを用いて注意を向ける。これにより、重要な履歴に計算リソースを割り当て、数分間のコンテンツにわたってアイデンティティやアクションを保持する。効率性が向上し、実用的なトレーニングと合成が可能になる。 Comment

pj page: https://primecai.github.io/moc/

元ポスト:

Loading…

#Pocket #Transformer #DiffusionModel #OpenWeight #WorldModels #Game Issue Date: 2025-08-28 [Paper Note] Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model, Xianglong He+, arXiv'25 GPT Summary- Matrix-Game 2.0を提案し、インタラクティブな世界モデルがリアルタイムで長いビデオを生成できるようにする。主なコンポーネントは、スケーラブルなデータ生成パイプライン、インタラクティブな条件を可能にするアクション注入モジュール、リアルタイム生成のための数ステップの蒸留。これにより、25 FPSで高品質な1分間のビデオを生成可能。モデルの重みとコードはオープンソース化。 Comment

元ポスト:

Loading…

pj page: https://matrix-game-v2.github.io

公式:

Loading…

#Pocket #NLP #LanguageModel #MultiModal #Reasoning #OpenWeight #CurriculumLearning #VisionLanguageModel Issue Date: 2025-08-28 [Paper Note] Ovis2.5 Technical Report, Shiyin Lu+, arXiv'25 GPT Summary- Ovis2.5は、ネイティブ解像度の視覚認識とマルチモーダル推論を強化するために設計されたモデルで、画像を可変解像度で処理し、複雑な視覚コンテンツの詳細を保持します。推論時には反省を行う「思考モード」を提供し、精度向上を図ります。5段階のカリキュラムで訓練され、マルチモーダルデータの効率的な処理を実現。Ovis2.5-9BはOpenCompassで平均78.3を記録し、Ovis2-8Bに対して大幅な改善を示しました。Ovis2.5-2Bも73.9を達成し、リソース制約のあるデバイスに最適です。STEMベンチマークや複雑なチャート分析においても優れた性能を発揮しています。 Comment

元ポスト:

Loading…

#Pocket #interactive #Game Issue Date: 2025-08-14 [Paper Note] Hunyuan-GameCraft: High-dynamic Interactive Game Video Generation with Hybrid History Condition, Jiaqi Li+, arXiv'25 GPT Summary- 「Hunyuan-GameCraft」という新しいフレームワークを提案し、ゲーム環境における高ダイナミックインタラクティブ動画生成を実現。キーボードとマウスの入力を統合し、動画シーケンスを自己回帰的に拡張することで、アクション制御と一貫性を向上。大規模データセットでトレーニングし、視覚的忠実性とリアリズムを強化。実験により、既存モデルを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

単体の画像と、prompt、マウス・キーボード入力に基づいてinteractiveに動画を合成する。軽量なGPUでも動作するように、高品質な合成データによってモデルを蒸留し軽量なモデルを利用したりもしている模様。そのうち家庭のゲーミングPCでこういったモデルでゲームをする日が来るのだろうか。

アーキテクチャに使われている技術:
- [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
- Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21

#MachineLearning #Pocket #NLP #LanguageModel #Transformer #MultiModal #Architecture #VisionLanguageModel Issue Date: 2025-07-06 [Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #LongSequence #SSM (StateSpaceModel) #ICCV Issue Date: 2025-06-26 [Paper Note] Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers, Weiming Ren+, arXiv'25 GPT Summary- VAMBAモデルは、Mamba-2ブロックを用いてビデオトークンを線形にエンコードし、トークン削減なしで1024フレームを処理可能。これにより、GPUメモリ使用量を50%削減し、トレーニング速度を倍増。1時間のビデオ理解ベンチマークLVBenchで4.3%の精度向上を達成し、様々なビデオ理解タスクで優れた性能を示す。 Comment

元ポスト:

Loading…

#Pocket #Dataset Issue Date: 2025-06-23 [Paper Note] Sekai: A Video Dataset towards World Exploration, Zhen Li+, arXiv'25 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment

元ポスト:

Loading…

#Pocket #Transformer #DiffusionModel Issue Date: 2025-06-13 [Paper Note] Seedance 1.0: Exploring the Boundaries of Video Generation Models, Yu Gao+, arXiv'25 GPT Summary- Seedance 1.0は、動画生成の基盤モデルであり、プロンプト遵守、動きの妥当性、視覚的品質を同時に向上させることを目指しています。主な技術改善として、意味のある動画キャプションを用いたデータキュレーション、マルチショット生成のサポート、動画特有のRLHFを活用したファインチューニング、推論速度の約10倍向上を実現する蒸留戦略が挙げられます。Seedance 1.0は、1080p解像度の5秒間の動画を41.4秒で生成し、高品質かつ迅速な動画生成を実現しています。 Comment

元ポスト:

Loading…

#Survey #Pocket #DiffusionModel #TMLR #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。 #NeuralNetwork #Controllable #Pocket Issue Date: 2023-05-12 Sketching the Future （STF）: Applying Conditional Control Techniques to Text-to-Video Models, Rohan Dhesikan+, arXiv'23 GPT Summary- ゼロショットのテキストから動画生成をControlNetと組み合わせ、スケッチされたフレームを基に動画を生成する新手法を提案。フレーム補間を行い、Text-to-Video Zeroアーキテクチャを活用して高品質で一貫性のある動画を生成。デモ動画やリソースを提供し、さらなる研究を促進。 #Pocket #DiffusionModel #Selected Papers/Blogs #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models, Jonathan Ho+, arXiv'22, 2022.04 GPT Summary- 高忠実度で一貫した動画生成のための拡散モデルを提案。画像と動画データを共同でトレーニングし、最適化を加速。新しい条件付きサンプリング技術により、長く高解像度の動画生成で優れた性能を発揮。大規模なテキスト条件付き動画生成タスクでの初期結果と、既存ベンチマークでの最先端結果を示す。 Comment

Surveyはこちら:
- [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05

#Article #Transformer #DiffusionModel #OpenWeight Issue Date: 2025-11-21 Hunyuan Video 1.5 Technical Report, Tencent, 2025.11 Comment

pj page: https://hunyuan.tencent.com/video/zh?tabIndex=0
HF: https://huggingface.co/tencent/HunyuanVideo-1.5

元ポスト:

Loading…

#Article #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #Transformer #DiffusionModel #TextToImageGeneration #LongSequence #VariationalAutoEncoder #OpenWeight Issue Date: 2025-10-26 LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Video

公式ポスト:

Loading…

#Article #Transformer #OpenWeight #Encoder-Decoder Issue Date: 2025-08-27 Wan-S2V: Audio-Driven Cinematic Video Generation, Alibaba, 2025.08 Comment

元ポスト:

Loading…

FoundationModel (22)

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #DiffusionModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel
Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

#Pocket #Dataset #Transformer #Evaluation #2D (Image) #4D (Video) #SpatialUnderstanding
Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Pocket #Transformer #read-later #2D (Image) #3D (Scene) #Robotics #SpatialUnderstanding #Omni #Geometric #Robustness
Issue Date: 2025-11-16 [Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, arXiv'25, 2025.11 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

depth mapやcameraの情報などの様々な幾何学的情報を入力した場合（depth mapがないなど情報が欠落していても良い）にロバストに対応できるような基盤モデルを構築する手法らしい

https://github.com/user-attachments/assets/b09c10b6-628a-418f-9faf-ea43a4d3f692" />

評価データ:
- [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12
- [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05
- [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13
- [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02
- [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17
- [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16
- [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17
- [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21
- [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05
- [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13
- [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12

#Pocket #Transformer #ImageSegmentation #Prompting #2D (Image) #4D (Video) Issue Date: 2025-11-09 [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08 GPT Summary- Segment Anything Model 2（SAM 2）は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- Segment Anything, Alexander Kirillov+, arXiv'23

#Pocket #Dataset #Transformer #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #read-later #Selected Papers/Blogs Issue Date: 2025-09-25 [Paper Note] Video models are zero-shot learners and reasoners, Thaddäus Wiedemer+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）のゼロショット能力が自然言語処理を変革したように、生成ビデオモデルも一般目的の視覚理解に向かう可能性がある。Veo 3は、物体のセグメンテーションやエッジ検出など、訓練されていない幅広いタスクを解決できることを示し、視覚推論の初期形態を可能にする。Veoのゼロショット能力は、ビデオモデルが一般的な視覚基盤モデルになる道を示唆している。 Comment

pj page: https://video-zero-shot.github.io

ポイント解説:

Loading…

所見:

Loading…

解説:

Loading…

#Pocket #Transformer #OpenWeight #CVPR Issue Date: 2025-04-11 AM-RADIO: Agglomerative Vision Foundation Model -- Reduce All Domains Into One, Mike Ranzinger+, CVPR'25 GPT Summary- 視覚基盤モデル（VFM）をマルチティーチャー蒸留を通じて統合するアプローチAM-RADIOを提案。これにより、ゼロショットの視覚-言語理解やピクセルレベルの理解を向上させ、個々のモデルの性能を超える。新しいアーキテクチャE-RADIOは、ティーチャーモデルよりも少なくとも7倍速い。包括的なベンチマークで様々な下流タスクを評価。 Comment

元ポスト:

Loading…

vision系のfoundation modelはそれぞれ異なる目的関数で訓練されてきており（CLIPは対照学習 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 , DINOv2は自己教師あり学習 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 , SAMはsegmentation Segment Anything, Alexander Kirillov+, arXiv'23 )それぞれ別の能力を持ってたが、それらを一個のモデルに蒸留しました、という話らしい

#Pretraining #Pocket #MultiModal #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-08-23 [Paper Note] InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks, Zhe Chen+, CVPR'24 GPT Summary- 大規模視覚-言語基盤モデル（InternVL）は、60億パラメータで設計され、LLMと整合させるためにウェブ規模の画像-テキストデータを使用。視覚認知タスクやゼロショット分類、検索など32のベンチマークで最先端の性能を達成し、マルチモーダル対話システムの構築に寄与。ViT-22Bの代替として強力な視覚能力を持つ。コードとモデルは公開されている。 Comment

現在のVLMの主流であるvision encoderとLLMをadapterで接続する方式はここからかなりシンプルになっていることが伺える。

#Pocket #Transformer #Self-SupervisedLearning #TMLR Issue Date: 2025-04-11 DINOv2: Learning Robust Visual Features without Supervision, Maxime Oquab+, TMLR'24 GPT Summary- 自己教師あり手法を用いて、多様なキュレーションデータから汎用的な視覚特徴を生成する新しい事前学習手法を提案。1BパラメータのViTモデルを訓練し、小型モデルに蒸留することで、OpenCLIPを上回る性能を達成。 #Pretraining #Pocket #Transformer #ImageSegmentation Issue Date: 2023-04-30 Segment Anything in Medical Images, Jun Ma+, N_A, Nature Communications'24 GPT Summary- 本研究では、自然画像セグメンテーションに革新的な手法であるSegment anything model (SAM)を医療画像に拡張するためのMedSAMを提案し、様々な医療ターゲットのセグメンテーションのための汎用ツールを作成することを目的としています。MedSAMは、大規模な医療画像データセットを用いて開発され、SAMを一般的な医療画像セグメンテーションに適応するためのシンプルなファインチューニング手法を開発しました。21の3Dセグメンテーションタスクと9の2Dセグメンテーションタスクに対する包括的な実験により、MedSAMは、平均Dice類似係数（DSC）がそれぞれ22.5％と17.6％で、デフォルトのSAMモデルを上回ることが示されました。コードとトレーニング済みモデルは、\url{https://github.com/bowang-lab/MedSAM}で公開されています。 Comment

SAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。
コードとモデルはpublicly available

#Pocket #Transformer #ImageSegmentation Issue Date: 2025-04-11 Segment Anything, Alexander Kirillov+, arXiv'23 GPT Summary- Segment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 Comment

SAM論文

pj page: https://segment-anything.com

#Pocket #NLP #MultitaskLearning #MultiModal Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv'23 GPT Summary- Florence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 Comment

Vison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。

#Survey Issue Date: 2023-08-08 Foundational Models Defining a New Era in Vision: A Survey and Outlook, Muhammad Awais+, N_A, arXiv'23 GPT Summary- 本研究では、視覚システムの基礎モデルについて包括的なレビューを提供します。これには、異なるモダリティを組み合わせるためのアーキテクチャ設計やトレーニング目標、トレーニングデータセットなどが含まれます。また、基礎モデルの評価や課題、最近の発展についても議論します。詳細なリストは、\url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}で入手できます。 Comment

CVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている

#Pocket #NLP #LanguageModel Issue Date: 2023-07-23 [Paper Note] Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning, Lili Yu+, arXiv'23 GPT Summary- CM3Leonは、テキストと画像の生成・補完が可能なマルチモーダル言語モデルで、リトリーバル拡張型のトークンベースのデコーダを使用。CM3アーキテクチャを基に、多様な指示スタイルでのスケーリングとチューニングに優れ、初のテキスト専用モデルから適応されたマルチモーダルモデル。高品質な出力を生成する対照的デコーディング手法を導入し、少ない計算量で最先端の性能を達成。SFT後は、画像編集や生成において高い制御性を示す。 #Navigation Issue Date: 2023-07-11 ViNT: A Foundation Model for Visual Navigation, Dhruv Shah+, N_A, arXiv'23 GPT Summary- 本研究では、汎用事前学習モデルであるVisual Navigation Transformer（ViNT）を提案し、ビジョンベースのロボットナビゲーションに成功をもたらします。ViNTは、大規模なナビゲーションデータセットで訓練され、柔軟なTransformerベースのアーキテクチャを使用してさまざまなナビゲーションタスクに適応します。ViNTは、拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索し、キロメートルスケールのナビゲーション問題を解決することができます。また、ViNTはプロンプトチューニングに触発された技術を使用して、新しいタスク仕様に適応することができます。ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。詳細はプロジェクトページを参照してください。 Comment

事前学習済みモデルを視覚ベースのロボットナビゲーションに活用するFoundation Model。FlexibleなTransformerベースのアーキテクチャに基づいて構築されており、さまざまなナビゲーションタスクに取り組むことが可能

#Article #Blog #read-later #Selected Papers/Blogs #3D Reconstruction #3D (Scene) Issue Date: 2025-11-20 Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

#Article #ImageSegmentation #Blog #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

#Article #Transformer #Medical Issue Date: 2025-11-15 How to Train a State-of-the-Art Pathology Foundation Model with $1.6k, Kaplan+, 2025.11 GPT Summary- OpenMidnightは、Midnight病理基盤モデルを再現・改善したもので、12,000枚の全スライド画像を用いて$1.6Kでトレーニングし、複数のベンチマークで最先端の性能を達成。大規模データなしでもトップパフォーマンスが可能であり、トレーニングパイプライン、コード、モデルの重みを公開して研究を促進する。 Comment

HF: https://huggingface.co/SophontAI/OpenMidnight

#Article #NLP #OpenWeight #2D (Image) Issue Date: 2025-11-06 OlmoEarth-v1-Large, Ai2, 2025.11 Comment

元ポスト:

Loading…

衛星画像で学習されたモデルらしい

#Article #OpenWeight #Video Issue Date: 2025-06-12 V-JEPA 2, Meta, 2025.06 Comment

元ポスト:

Loading…

Physical Reasoning Leaderboardなるもので現在トップな模様。

https://huggingface.co/spaces/facebook/physical_reasoning_leaderboard

#Article #NLP #LanguageModel #MultiModal #MultiLingual Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment

参考: https://qiita.com/ysit/items/8433d149dbaab702d526

テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family-of-models-technical-report-and-model-card.pdf

Loading…

#Article #InductiveBias Issue Date: 2023-07-12 Objaverse-XL: A Universe of 10M+ 3D Objects Comment

10Mを超える3D objectのデータセットを公開し、3D Modelの基盤モデルとしてZero123-XLを訓練。
元ツイートのGifがわかりやすい。

Loading…

たとえばinputされたイメージに対して、自由にカメラの視点を設定し、その視点からの物体の画像を出力できる。

TextToImageGeneration (21)

#Pocket #Transformer #DiffusionModel #ImageSynthesis #Pixel-based
Issue Date: 2025-11-26 [Paper Note] PixelDiT: Pixel Diffusion Transformers for Image Generation, Yongsheng Yu+, arXiv'25, 2025.11 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #FoundationModel #DiffusionModel #SmallModel #VideoGeneration/Understandings #VisionLanguageModel
Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

#Pocket #LanguageModel #InstructionTuning #DiffusionModel #read-later #Selected Papers/Blogs #ICCV #ImageSynthesis
Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #VisionLanguageModel #2D (Image) #Editing #ImageSynthesis Issue Date: 2025-10-18 [Paper Note] Learning an Image Editing Model without Image Editing Pairs, Nupur Kumari+, arXiv'25, 2025.10 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル（VLM）からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失（DMD）を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #NeurIPS #On-Policy #FlowMatching Issue Date: 2025-10-10 [Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, NeurIPS'25, 2025.05 GPT Summary- Flow-GRPOは、オンライン強化学習をフローマッチングモデルに統合した新しい手法で、ODEをSDEに変換することでRL探索のための統計的サンプリングを実現し、デノイジングステップを削減してサンプリング効率を向上させる。実験結果では、テキストから画像へのタスクで性能が大幅に向上し、GenEvalの精度が63%から95%に、視覚的テキストレンダリングの精度が59%から92%に改善された。また、報酬ハッキングがほとんど発生せず、画像の質や多様性を損なうことなく報酬が増加した。 #Pocket #Transformer #Architecture #ICLR #read-later #NormalizingFlow Issue Date: 2025-08-17 [Paper Note] JetFormer: An Autoregressive Generative Model of Raw Images and Text, Michael Tschannen+, ICLR'25 GPT Summary- JetFormerは、画像とテキストの共同生成を効率化する自己回帰型デコーダー専用のトランスフォーマーであり、別々にトレーニングされたコンポーネントに依存せず、両モダリティを理解・生成可能。正規化フローモデルを活用し、テキストから画像への生成品質で既存のベースラインと競合しつつ、堅牢な画像理解能力を示す。JetFormerは高忠実度の画像生成と強力な対数尤度境界を実現する初のモデルである。 Comment

openreview: https://openreview.net/forum?id=sgAp2qG86e

画像をnormalizing flowでソフトトークンに変換し、transformerでソフトトークンを予測させるように学習することで、テキストと画像を同じアーキテクチャで学習できるようにしました、みたいな話っぽい？おもしろそう

#Pocket #Transformer #ReinforcementLearning #GRPO #On-Policy #Encoder-Decoder Issue Date: 2025-08-12 [Paper Note] AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning, Shihao Yuan+, arXiv'25 GPT Summary- AR-GRPOは、自己回帰画像生成モデルにオンライン強化学習を統合した新しいアプローチで、生成画像の品質を向上させるためにGRPOアルゴリズムを適用。クラス条件およびテキスト条件の画像生成タスクで実験を行い、標準のARモデルと比較して品質と人間の好みを大幅に改善した。結果は、AR画像生成における強化学習の有効性を示し、高品質な画像合成の新たな可能性を開く。 Comment

元ポスト:

Loading…

#Analysis #Pocket #DiffusionModel #CVPR #ImageSynthesis #GeometryUnderstanding Issue Date: 2025-10-24 [Paper Note] Shadows Don't Lie and Lines Can't Bend Generative Models don't know Projective Geometry...for now, Ayush Sarkar+, CVPR'24, 2023.11 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment

pj page: https://projective-geometry.github.io/

#Survey #Controllable #Pocket #NLP #DiffusionModel Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。 #Pocket #NLP #Dataset #Evaluation #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#Controllable #Pocket #NLP #MultiModal Issue Date: 2025-08-07 [Paper Note] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang+, arXiv'23 GPT Summary- ControlNetは、テキストから画像への拡散モデルに空間的な条件制御を追加するためのニューラルネットワークアーキテクチャであり、事前学習済みのエンコーディング層を再利用して多様な条件制御を学習します。ゼロ畳み込みを用いてパラメータを徐々に増加させ、有害なノイズの影響を軽減します。Stable Diffusionを用いて様々な条件制御をテストし、小規模および大規模データセットに対して堅牢性を示しました。ControlNetは画像拡散モデルの制御における広範な応用の可能性を示唆しています。 Comment

ControlNet論文

#NaturalLanguageGeneration #NLP #LanguageModel #TabularData Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #NaturalLanguageGeneration #NLP #MultiModal #DiffusionModel Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment

#Pocket #NLP #Personalization #DiffusionModel Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv'23 GPT Summary- 拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #Pocket #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #ImageSynthesis #U-Net Issue Date: 2025-10-10 [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12 GPT Summary- 拡散モデル（DMs）は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment

ここからtext等による条件付けをした上での生成が可能になった（らしい）

#NeuralNetwork #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Diffusion Models Beat GANs on Image Synthesis, Prafulla Dhariwal+, NeurIPS'21 Spotlight, 2021.05 GPT Summary- 拡散モデルが最先端の生成モデルを上回る画像サンプル品質を達成。無条件画像合成ではアーキテクチャの改善、条件付き画像合成では分類器のガイダンスを用いて品質向上。ImageNetでのFIDスコアは、128×128で2.97、256×256で4.59、512×512で7.72を達成し、BigGAN-deepに匹敵。分類器のガイダンスはアップサンプリング拡散モデルと組み合わせることでさらに改善され、256×256で3.94、512×512で3.85を記録。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=AAWuCvzaVt

日本語解説: https://qiita.com/UMAboogie/items/160c1159811743c49d99

バックボーンとして使われているU-Netはこちら:
- [Paper Note] U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger+, MICCAI'15, 2015.05

#Article #NLP #LanguageModel #MultiModal #SpeechProcessing #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #Transformer #DiffusionModel #LongSequence #VariationalAutoEncoder #OpenWeight #VideoGeneration/Understandings Issue Date: 2025-10-26 LongCat-Video Techcal Report, Meituan LongCat Team, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Video

公式ポスト:

Loading…

#Article #Transformer #DiffusionModel #Blog #OpenWeight #Selected Papers/Blogs Issue Date: 2025-10-10 Introducing Stable Diffusion 3.5, StabilityAI, 2024.10 Comment

SD3.5

#Article #NLP #Dataset #LanguageModel #Evaluation #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #Blog #ProprietaryLLM #Editing Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

Survey (18)

#Pocket #3D (Scene) #WorldModels #4D (Video)
Issue Date: 2025-09-11 [Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #TMLR #VideoGeneration/Understandings #4D (Video)
Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。 #Pocket #NLP #Prompting #VisionLanguageModel
Issue Date: 2025-08-07 [Paper Note] Visual Prompting in Multimodal Large Language Models: A Survey, Junda Wu+, arXiv'24 GPT Summary- 本論文は、マルチモーダル大規模言語モデル（MLLMs）における視覚的プロンプト手法の包括的な調査を行い、視覚的プロンプトの生成や構成的推論、プロンプト学習に焦点を当てています。既存の視覚プロンプトを分類し、自動プロンプト注釈の生成手法を議論。視覚エンコーダとバックボーンLLMの整合性を向上させる手法や、モデル訓練と文脈内学習による視覚的プロンプトの理解向上についても述べています。最後に、MLLMsにおける視覚的プロンプト手法の未来に関するビジョンを提示します。

#Controllable #Pocket #NLP #DiffusionModel #TextToImageGeneration Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。 #FoundationModel Issue Date: 2023-08-08 Foundational Models Defining a New Era in Vision: A Survey and Outlook, Muhammad Awais+, N_A, arXiv'23 GPT Summary- 本研究では、視覚システムの基礎モデルについて包括的なレビューを提供します。これには、異なるモダリティを組み合わせるためのアーキテクチャ設計やトレーニング目標、トレーニングデータセットなどが含まれます。また、基礎モデルの評価や課題、最近の発展についても議論します。詳細なリストは、\url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}で入手できます。 Comment

CVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている

#Article #NLP #MultiModal #Repository #VisionLanguageModel #SpatialUnderstanding Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

#Article #Slide #read-later #ICCV Issue Date: 2025-11-01 ICCV 2025 Report, Kataoka+, LIMIT.Lab, cvpaper.challenge, Visual Geometry Group （VGG）, 2025.10 Comment

元ポスト:

Loading…

#Article #WorldModels Issue Date: 2025-11-01 Awesome World Models, Siqiao Huang, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #OCR Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #Slide #CVPR Issue Date: 2025-06-26 CVPR 2025 速報, Kataoka+, 2025.06 Comment

元ポスト:

Loading…

すごいまとめだ…

#Article #LanguageModel Issue Date: 2025-04-11 Large Vision Language Model （LVLM）に関する最新知見まとめ（Part 1）, Daiki Shiono, 2024.11 #Article #NLP #LanguageModel #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

#Article #Pocket #NLP #LanguageModel #Slide Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #MachineLearning #NLP Issue Date: 2023-11-22 ML Papers Explained Comment

#Article #NaturalLanguageGeneration #NLP #LanguageModel #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #NLP #LanguageModel #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

#Article #NeuralNetwork #NLP Issue Date: 2021-05-19 MLP-like Architecture Comment

まあでもTransformerとcomparableなら、Transformer一強では無くなったよね

Analysis (18)

#NeuralNetwork #Supervised #RepresentationLearning #Self-SupervisedLearning #CLIP #One-Line Notes
Issue Date: 2025-10-31 [Paper Notes] Investigating fine- and coarse-grained structural correspondences between deep neural networks and human object image similarity judgments using unsupervised alignment, Takahashi+, Neural Networks'26, 2026.03 Comment

元ポスト:

Loading…

CLIP, 自己教師あり学習, 教師あり学習を比較したときに、CLIPが人間が獲得するobjectのrepresentationともっともalignしている一方で、自己教師あり学習はほとんど偶然レベルでしかalignしない（ただし、粗いレベルで見ると人間で言うところのカテゴリレベルのクラスタを形成することができる）。このため、テキストベースでの学習が人間が獲得する表現とfine-grainedなレベルでalignするために非常に重要であることが示唆される、という感じらしい

#Pretraining #Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition
Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #ICCV #VisionLanguageModel
Issue Date: 2025-10-27 [Paper Note] Kaputt: A Large-Scale Dataset for Visual Defect Detection, Sebastian Höfer+, ICCV'25, 2025.10 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #Dataset #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Embeddings #Pocket #NLP #EMNLP #VisionLanguageModel #Findings Issue Date: 2025-09-21 [Paper Note] Lost in Embeddings: Information Loss in Vision-Language Models, Wenyan Li+, EMNLP'25 Findings, 2025.09 GPT Summary- 視覚と言語のモデル（VLMs）の投影ステップによる情報損失を分析するため、2つのアプローチを提案。1つ目は、投影前後の画像表現のk近傍関係の変化を評価し、2つ目は視覚埋め込みの再構築によって情報損失を測定。実験により、コネクタが視覚表現の幾何学を歪め、k近傍が40～60%乖離することが明らかになり、これは検索性能の低下と関連。パッチレベルの再構築は、モデルの挙動に対する洞察を提供し、高い情報損失がモデルの苦手な事例を予測することを示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #LanguageModel #MultiModal #Architecture #SpatialUnderstanding Issue Date: 2025-09-12 [Paper Note] Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture, Wanyue Zhang+, arXiv'25 GPT Summary- 空間理解はMLLMsにとって重要だが、依然として課題が多い。本研究では、単一視点、多視点、ビデオの3つのシナリオにおける空間理解を体系的に分析し、MulSeTというベンチマークを提案。トレーニングデータの増加はパフォーマンス向上に寄与するが、限界があることが示された。また、空間理解は視覚エンコーダの位置エンコーディングに依存しており、推論の注入を通じたアーキテクチャ改善の可能性を探る。これにより、MLLMsの限界を明らかにし、空間推論能力向上の新たな方向性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #pretrained-LM #Scaling Laws #TMLR Issue Date: 2025-06-26 [Paper Note] An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration, Hiroki Naganuma+, TMLR'25 GPT Summary- 事前学習済みモデルのファインチューニングが分布外一般化タスクにおいて重要であることを示し、モデルのサイズやデータセットの選択がOOD精度と信頼性キャリブレーションに与える影響を調査。120,000時間以上の実験を通じて、大きなモデルと大規模なデータセットがOODパフォーマンスとキャリブレーションを改善することを発見。これは、従来の研究と対照的であり、事前学習済みモデルの選択の重要性を強調している。 Comment

OpenReview: https://openreview.net/forum?id=tYjoHjShxF

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#MachineLearning #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#Pocket #NLP #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #VisionLanguageModel Issue Date: 2025-10-27 [Paper Note] Many-Shot In-Context Learning in Multimodal Foundation Models, Yixing Jiang+, arXiv'24, 2024.05 GPT Summary- 本研究では、マルチモーダル基盤モデルの少数ショットから多数ショットのインコンテキスト学習（ICL）の性能を評価し、2,000のデモンストレーション例を用いることで、すべてのデータセットにおいて大幅な改善を観察しました。特に、Gemini 1.5 Proは多くのデータセットで対数的に性能が向上し、オープンウェイトモデルはデモンストレーション例からの恩恵を受けないことが明らかになりました。また、複数のクエリをバッチ処理することで、ゼロショットおよび多数ショットICLの性能が向上し、コストとレイテンシが削減されました。最終的に、GPT-4oとGemini 1.5 Proは類似のゼロショット性能を示しつつ、Gemini 1.5 Proはより早く学習することが確認されました。多数ショットICLは新しいアプリケーションへの適応を効率化する可能性を示唆しています。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #TextToImageGeneration #CVPR #ImageSynthesis #GeometryUnderstanding Issue Date: 2025-10-24 [Paper Note] Shadows Don't Lie and Lines Can't Bend Generative Models don't know Projective Geometry...for now, Ayush Sarkar+, CVPR'24, 2023.11 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment

pj page: https://projective-geometry.github.io/

#Pocket #Prompting Issue Date: 2025-08-25 [Paper Note] As Generative Models Improve, People Adapt Their Prompts, Eaman Jahani+, arXiv'24 GPT Summary- オンライン実験で1893人の参加者を対象に、DALL-E 2とDALL-E 3のプロンプトの重要性の変化を調査。DALL-E 3を使用した参加者は、DALL-E 2よりも高いパフォーマンスを示し、これは技術的能力の向上とプロンプトの質の変化によるもの。特に、DALL-E 3の参加者はより長く、意味的に類似したプロンプトを作成。プロンプト修正機能を持つDALL-E 3はさらに高いパフォーマンスを示したが、その利点は減少。結果として、モデルの進化に伴い、プロンプトも適応されることが示唆される。 Comment

元ポスト:

Loading…

#Pocket #ImageSegmentation #SSM (StateSpaceModel) #ImageClassification Issue Date: 2025-08-14 [Paper Note] MambaOut: Do We Really Need Mamba for Vision?, Weihao Yu+, arXiv'24 GPT Summary- MambaはRNNのようなトークンミキサーを持つアーキテクチャで、視覚タスクにおいて期待外れの性能を示す。Mambaは長いシーケンスと自己回帰的な特性に適しているが、画像分類には不向きであると仮定。MambaOutモデルを構築し、実験によりMambaOutがImageNetの画像分類で視覚Mambaモデルを上回ることを示し、検出およびセグメンテーションタスクではMambaの可能性を探る価値があることを確認。 #Pocket #NLP #Dataset #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 [Paper Note] Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic, Sachin Goyal+, CVPR'24 GPT Summary- 視覚と言語のモデル（VLMs）のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ（QQT）に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-12-14 VILA: On Pre-training for Visual Language Models, Ji Lin+, N_A, CVPR'24 GPT Summary- 最近の大規模言語モデルの成功により、ビジュアル言語モデル（VLM）が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した：(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。 Comment

#NeuralNetwork #MachineLearning #Pocket #Batch Issue Date: 2025-07-12 [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18 GPT Summary- ミニバッチサイズが深層ニューラルネットワークのトレーニング性能に与える影響を実験的に比較。大きなミニバッチは計算の並列性を向上させるが、小さなミニバッチは一般化性能を高め、安定したトレーニングを実現。最良の性能はミニバッチサイズ$m = 2$から$m = 32$の範囲で得られ、数千のミニバッチサイズを推奨する研究とは対照的。 Comment

{Res, Reduced Alex}Netにおいて、バッチサイズを大きくすると、学習が安定しかつ高い予測性能を獲得できる学習率のrangeが小さくなる。一方、バッチサイズが小さいと有効な学習率のrangeが広い。また、バッチサイズが小さい場合は、勾配計算とパラメータのアップデートがより頻繁に行われる。このため、モデルの学習がより進んだ状態で個々のデータに対して勾配計算が行われるため、バッチサイズが大きい場合と比べるとモデルがより更新された状態で各データに対して勾配が計算されることになるため、学習が安定し良い汎化性能につながる、といった話の模様。

#Article #Blog #Backbone Issue Date: 2025-09-13 画像モデルのバックボーンとして最初に何を選ぶべきか？, ちくわぶ, 2025.09 Comment

こちらの論文を参考にしている:
- [Paper Note] Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks, Micah Goldblum+, NeurIPS'23

Backbone選定の際は参照のこと。2024年以後のモデルは含まれていない点に注意。

Tutorial (16)

#Pocket #DiffusionModel
Issue Date: 2025-10-29 [Paper Note] The Principles of Diffusion Models, Chieh-Hsin Lai+, arXiv'25, 2025.10 GPT Summary- このモノグラフでは、拡散モデルの核心原則とその多様な定式化の起源を探ります。拡散モデリングは、データをノイズに腐敗させる前方プロセスから始まり、逆プロセスを学習してノイズをデータに戻すことを目的としています。三つの視点（変分的、スコアベース、フローベース）を通じて、ノイズ除去やデータ生成の方法を説明し、共通の基盤として時間依存の速度場を提案します。さらに、制御可能な生成や効率的な数値ソルバーについても議論し、深層学習の知識を持つ読者に拡散モデルの理解を提供します。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel
Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24 GPT Summary- 生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Comment

いつか読まなければならない

#NeuralNetwork #Pocket #GenerativeAdversarialNetwork
Issue Date: 2017-12-28 [Paper Note] Generative Adversarial Networks: An Overview, Antonia Creswell+, IEEE-SPM'17, 2017.10 GPT Summary- GANは、注釈なしのデータで深い表現を学習する手法で、競争プロセスを通じて逆伝播信号を導出します。画像合成やスタイル転送など多様な応用が可能です。本レビューは、信号処理コミュニティ向けにGANの概要を提供し、トレーニング方法や残された課題についても言及します。

#Article #NLP #Blog #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #Slide #ObjectLocalization #Geometric #Mapping Issue Date: 2025-11-04 Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10 Comment

元ポスト:

Loading…

#Article #ICCV Issue Date: 2025-10-29 From Egocentric Perception to Embodied Intelligence: Building the World in First Person, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #ICCV Issue Date: 2025-10-29 Multimodal Reasoning for Human-Centric Generative Models, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #MultiModal #ICCV Issue Date: 2025-10-29 Native Multimodal Models: Architecture, Post-Training, and Evaluation, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #DiffusionModel #read-later #ScoreMatching Issue Date: 2025-10-20 Generative Modeling by Estimating Gradients of the Data Distribution, Yang Song, 2021.05 Comment

元ポスト:

Loading…

#Article #MachineLearning #Video #read-later Issue Date: 2025-09-04 【論文解説】高速・高品質な生成を実現するFlow Map Models（Part 1: 概要編）, Masato Ishii （Sony AI）, 2025.09 #Article #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

#Article #NLP #SSM (StateSpaceModel) Issue Date: 2024-11-27 チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi, 2024.11 #Article #MachineLearning #NLP #LanguageModel #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #NeuralNetwork Issue Date: 2022-10-27 CNN vs. ViT, 牛久先生 Comment

#Article #NeuralNetwork #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 EfficientNet解説, omiita （オミータ）, 2019 Comment

Supervised-FineTuning (SFT) (13)

#EfficiencyImprovement #Pocket #NLP #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models, Jiaqi Wang+, NeurIPS'25, 2025.05 GPT Summary- 強化学習を用いて視覚と言語モデルの推論を強化するために、TONという二段階のトレーニング戦略を提案。簡単な質問には推論をスキップし、必要な時に考える人間の思考プロセスを模倣。実験により、TONは従来の手法に比べて推論ステップを最大90％削減し、性能を向上させることが示された。モデルはトレーニングを通じて不要な推論を回避することを学習。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#EfficiencyImprovement #Pocket #ReinforcementLearning #FoundationModel #DiffusionModel #TextToImageGeneration #SmallModel #VideoGeneration/Understandings #VisionLanguageModel
Issue Date: 2025-11-20 [Paper Note] Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation, Vladimir Arkhipkin+, arXiv'25, 2025.11 GPT Summary- Kandinsky 5.0は、高解像度画像と10秒動画合成のための最先端モデルで、3つのコアモデル（Image Lite、Video Lite、Video Pro）から構成される。データキュレーションライフサイクルのレビューや、自己教師ありファインチューニングや強化学習を用いた品質向上技術を取り入れ、高い生成速度とパフォーマンスを実現。オープンソースコードとトレーニングチェックポイントの提供により、研究コミュニティの発展に寄与することを目指す。 Comment

HF: https://huggingface.co/kandinskylab

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding
Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pretraining #Pocket #NLP #ReinforcementLearning #MultiModal #RLHF #Reasoning #LongSequence #mid-training #RewardHacking #PostTraining #CurriculumLearning #RLVR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-03 [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25 GPT Summary- 視覚言語モデルGLM-4.1V-Thinkingを発表し、推論中心のトレーニングフレームワークを開発。強力な視覚基盤モデルを構築し、カリキュラムサンプリングを用いた強化学習で多様なタスクの能力を向上。28のベンチマークで最先端のパフォーマンスを達成し、特に難しいタスクで競争力のある結果を示す。モデルはオープンソースとして公開。 Comment

元ポスト:

Loading…

Qwen2.5-VLよりも性能が良いVLM

#Analysis #Pocket #NLP #LanguageModel #SyntheticData #ACL #DPO #PostTraining #Probing Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL'25 GPT Summary- Vision Language Models (VLMs)は視覚的算術に苦労しているが、CogAlignという新しいポストトレーニング戦略を提案し、VLMの性能を向上させる。CogAlignは視覚的変換の不変特性を認識するように訓練し、CHOCOLATEで4.6%、MATH-VISIONで2.9%の性能向上を実現し、トレーニングデータを60%削減。これにより、基本的な視覚的算術能力の向上と下流タスクへの転送の効果が示された。 Comment

元ポスト:

Loading…

#Embeddings #Analysis #Pocket #NLP #LanguageModel #RepresentationLearning #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#Analysis #MachineLearning #Pocket #NLP #LanguageModel #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#Pocket #NLP #Dataset #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。 #MachineLearning #Pocket #InstructionTuning #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv'24 GPT Summary- 破滅的忘却に対処するため、タスクフリーのオンライン継続学習（OCL）フレームワークOnline-LoRAを提案。リハーサルバッファの制約を克服し、事前学習済みビジョントランスフォーマー（ViT）モデルをリアルタイムで微調整。新しいオンライン重み正則化戦略を用いて重要なモデルパラメータを特定し、データ分布の変化を自動認識。多様なベンチマークデータセットで優れた性能を示す。 Comment

#NeuralNetwork #MachineLearning #Pocket #CLIP #ICLR #OOD Issue Date: 2023-05-15 Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, Ananya Kumar+, N_A, ICLR'22 GPT Summary- 事前学習済みモデルをダウンストリームタスクに転移する際、ファインチューニングと線形プロービングの2つの方法があるが、本研究では、分布のシフトが大きい場合、ファインチューニングが線形プロービングよりも分布外で精度が低くなることを発見した。LP-FTという2段階戦略の線形プロービング後の全体のファインチューニングが、両方のデータセットでファインチューニングと線形プロービングを上回ることを示唆している。 Comment

事前学習済みのニューラルモデルをfinetuningする方法は大きく分けて
1. linear layerをヘッドとしてconcatしヘッドのみのパラメータを学習
2. 事前学習済みモデル全パラメータを学習

の2種類がある。
前者はin-distributionデータに強いが、out-of-distributionに弱い。後者は逆という互いが互いを補完し合う関係にあった。
そこで、まず1を実施し、その後2を実施する手法を提案。in-distribution, out-of-distributionの両方で高い性能を出すことを示した（実験では画像処理系のデータを用いて、モデルとしてはImageNet+CLIPで事前学習済みのViTを用いている)。

#Article #NLP #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

#Article #NLP #ReinforcementLearning #OpenWeight #ComputerUse #GRPO #VisionLanguageModel Issue Date: 2025-09-16 Holo1.5 - Open Foundation Models for Computer Use Agents, H Company, 2025.09 Comment

7BのみApache 2.0ライセンス。3BはQwenのライセンスを継承し、72Bはnon-commercialライセンスらしい

#Article #EfficiencyImprovement #Pretraining #NLP #LanguageModel #Transformer #MultiModal #Blog #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment

関連:
- Hunyuan T1, Tencent, 2025.03

OCR (12)

#Pocket #NLP #LanguageModel #MultiModal
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V（ision） : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識（OCR）能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

#Pocket #Transformer #ACMMM #Backbone
Issue Date: 2025-08-22 [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。 #Article #NLP #Evaluation #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #TabularData #OpenWeight #read-later #DocParser #VisionLanguageModel Issue Date: 2025-11-20 NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11 Comment

元ポスト:

Loading…

olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

#Article #Survey #NLP Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #DocParser #VisionLanguageModel Issue Date: 2025-10-24 LightOnOCR-1B: The Case for End-to-End and Efficient Domain-Specific Vision-Language Models for OCR, Taghadouini+, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…

#Article #NLP #SmallModel #MultiLingual #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-10-22 dots.ocr, rednote-hilab, 2025.07 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう

#Article #NLP #LanguageModel #MultiLingual #OpenWeight #DocParser Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…

SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07

#Article #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか？p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

関連:

Loading…

literature:

Loading…

karpathy氏のポスト:

Loading…

#Article #Pretraining #NLP #Dataset #QuestionAnswering #ImageCaptioning #VisionLanguageModel Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #Library #Repository Issue Date: 2024-11-27 YomiToku, Kotaro Kinoshita, 2024.11 Comment

いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0

元ツイート:

Loading…

ImageSegmentation (10)

#Pocket #Transformer #Prompting #FoundationModel #2D (Image) #4D (Video)
Issue Date: 2025-11-09 [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08 GPT Summary- Segment Anything Model 2（SAM 2）は、プロンプト可能な視覚セグメンテーションのための基盤モデルで、ユーザーのインタラクションを通じてデータを改善するデータエンジンを構築し、最大の動画セグメンテーションデータセットを収集。シンプルなトランスフォーマーアーキテクチャを用い、リアルタイム動画処理に対応。SAM 2は、動画セグメンテーションで従来の手法より3倍少ないインタラクションで高精度を達成し、画像セグメンテーションでも従来モデルより精度が高く、6倍速い。データ、モデル、コード、デモを公開し、関連タスクの重要なマイルストーンを目指す。 Comment

openreview: https://openreview.net/forum?id=Ha6RTeWMd0

SAMはこちら:
- Segment Anything, Alexander Kirillov+, arXiv'23

#EfficiencyImprovement #Pocket #SmallModel #OpenWeight #Video #2D (Image)
Issue Date: 2025-11-09 [Paper Note] EdgeTAM: On-Device Track Anything Model, Chong Zhou+, arXiv'25, 2025.01 GPT Summary- SAM 2は動画セグメンテーションの基盤モデルであり、メモリバンクメカニズムを通じて性能を向上させています。本研究では、モバイルデバイス上での効率を高めるために、EdgeTAMを提案し、2D空間パーセプターを用いて計算コストを削減します。これにより、メモリの空間構造を保持しつつ、推論オーバーヘッドなしで性能を向上させる蒸留パイプラインも導入。EdgeTAMは複数のデータセットで高いJ&Fスコアを達成し、iPhone 15 Pro Maxで16 FPSで動作します。 Comment

元ポスト:

Loading…

SAM2より性能は少し劣るが、edge-deviceてわ動作可能で非常に高速なモデル（promptによって制御可能なsegmentation)とのこと
- [Paper Note] SAM 2: Segment Anything in Images and Videos, Nikhila Ravi+, ICLR'25, 2024.08

#Pocket #VideoGeneration/Understandings #VisionLanguageModel #UMM
Issue Date: 2025-10-27 [Paper Note] Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos, Haobo Yuan+, arXiv'25, 2025.01 GPT Summary- Sa2VAは、画像と動画の基盤理解のための統一モデルであり、最小限のワンショット指示チューニングで多様なタスクをサポート。SAM-2とLLaVAを組み合わせ、テキスト、画像、動画を統合。新たに導入したRef-SAVデータセットにより、複雑な動画シーンでのオブジェクト表現を強化。実験結果は、特に参照動画オブジェクトセグメンテーションで最先端の成果を示し、実世界の応用が期待される。 Comment

HF: https://huggingface.co/collections/ByteDance/sa2va-model-zoo

元ポスト:

Loading…

ポイント解説:

Loading…

#Analysis #Pocket #SSM (StateSpaceModel) #ImageClassification Issue Date: 2025-08-14 [Paper Note] MambaOut: Do We Really Need Mamba for Vision?, Weihao Yu+, arXiv'24 GPT Summary- MambaはRNNのようなトークンミキサーを持つアーキテクチャで、視覚タスクにおいて期待外れの性能を示す。Mambaは長いシーケンスと自己回帰的な特性に適しているが、画像分類には不向きであると仮定。MambaOutモデルを構築し、実験によりMambaOutがImageNetの画像分類で視覚Mambaモデルを上回ることを示し、検出およびセグメンテーションタスクではMambaの可能性を探る価値があることを確認。 #Pretraining #Pocket #Transformer #FoundationModel Issue Date: 2023-04-30 Segment Anything in Medical Images, Jun Ma+, N_A, Nature Communications'24 GPT Summary- 本研究では、自然画像セグメンテーションに革新的な手法であるSegment anything model (SAM)を医療画像に拡張するためのMedSAMを提案し、様々な医療ターゲットのセグメンテーションのための汎用ツールを作成することを目的としています。MedSAMは、大規模な医療画像データセットを用いて開発され、SAMを一般的な医療画像セグメンテーションに適応するためのシンプルなファインチューニング手法を開発しました。21の3Dセグメンテーションタスクと9の2Dセグメンテーションタスクに対する包括的な実験により、MedSAMは、平均Dice類似係数（DSC）がそれぞれ22.5％と17.6％で、デフォルトのSAMモデルを上回ることが示されました。コードとトレーニング済みモデルは、\url{https://github.com/bowang-lab/MedSAM}で公開されています。 Comment

#Pocket #NLP #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes #Grounding Issue Date: 2025-11-25 [Paper Note] Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V, Jianwei Yang+, arXiv'23, 2023.10 GPT Summary- Set-of-Mark (SoM)という新しい視覚プロンプティング手法を提案し、GPT-4Vの視覚的能力を引き出す。画像を異なる領域に分割し、マークを重ねることで、視覚的基盤を必要とする質問に答えることが可能に。実験では、SoMを用いたGPT-4Vがゼロショット設定で最先端のモデルを上回る性能を示した。 Comment

pj page: https://som-gpt4v.github.io

日本語解説: https://ai-scholar.tech/articles/prompting-method/SoM

画像をsegmentationし、segmentationした領域上に数字のマーカーをオーバーレイした画像を入力すると、VLMのgrounding能力が向上する、という話らしい

#Pocket #Transformer #FoundationModel Issue Date: 2025-04-11 Segment Anything, Alexander Kirillov+, arXiv'23 GPT Summary- Segment Anything (SA)プロジェクトは、画像セグメンテーションの新しいタスク、モデル、データセットを提案し、1億以上のマスクを含む1,100万のプライバシー尊重した画像からなる最大のセグメンテーションデータセットを構築しました。プロンプト可能なモデルはゼロショットで新しい画像分布やタスクに適応でき、評価の結果、ゼロショット性能が高く、従来の監視された結果を上回ることもあります。SAMとSA-1Bデータセットは、研究促進のために公開されています。 Comment

SAM論文

pj page: https://segment-anything.com

#Pocket #Prompting #In-ContextLearning Issue Date: 2023-11-23 Visual In-Context Prompting, Feng Li+, N_A, arXiv'23 GPT Summary- 本研究では、ビジョン領域における汎用的なビジュアルインコンテキストプロンプティングフレームワークを提案します。エンコーダーデコーダーアーキテクチャを使用し、さまざまなプロンプトをサポートするプロンプトエンコーダーを開発しました。さらに、任意の数の参照画像セグメントをコンテキストとして受け取るように拡張しました。実験結果から、提案手法が非凡な参照および一般的なセグメンテーション能力を引き出し、競争力のあるパフォーマンスを示すことがわかりました。 Comment

Image Segmentationには、ユーザが与えたプロンプトと共通のコンセプトを持つすべてのオブジェクトをセグメンテーションするタスクと、ユーザの入力の特定のオブジェクトのみをセグメンテーションするタスクがある。従来は個別のタスクごとに、特定の入力方法（Visual Prompt, Image Prompt）を前提とした手法や、個々のタスクを実施できるがIn-Context Promptしかサポートしていない手法しかなかったが、この研究では、Visual Prompt, Image Prompt, In-Context Promptをそれぞれサポートし両タスクを実施できるという位置付けの模様。また、提案手法ではストローク、点、ボックスといったユーザの画像に対する描画に基づくPromptingをサポートし、Promptingにおける参照セグメント数も任意の数指定できるとのこと。

#TechnicalReport Issue Date: 2023-04-25 Track Anything: Segment Anything Meets Videos, yang+, SUSTech VIP Lab, arXiv'23 Comment

MetaのSAMを、videoに適用し、videow内のsegmentationを追加学習なしでやりました、という話だと思われる。

#Article #FoundationModel #Blog #read-later #Selected Papers/Blogs #2D (Image) #4D (Video) Issue Date: 2025-11-20 Introducing Meta Segment Anything Model 3 and Segment Anything Playground, Meta, 2025.11 Comment

元ポスト:

Loading…

今度はSAM3、最近毎日なんか新しいの出てるな

NaturalLanguageGeneration (9)

#Controllable #Pocket #NLP #LanguageModel #VisionLanguageModel
Issue Date: 2025-07-25 [Paper Note] CaptionSmiths: Flexibly Controlling Language Pattern in Image Captioning, Kuniaki Saito+, arXiv'25 GPT Summary- CaptionSmithsは、画像キャプショニングモデルがキャプションの特性（長さ、記述性、単語の独自性）を柔軟に制御できる新しいアプローチを提案。人間の注釈なしで特性を定量化し、短いキャプションと長いキャプションの間で補間することで条件付けを実現。実証結果では、出力キャプションの特性をスムーズに変化させ、語彙的整合性を向上させることが示され、誤差を506%削減。コードはGitHubで公開。 Comment

元ポスト:

Loading…

#NLP #Dataset #Evaluation
Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #NLP #LanguageModel #TabularData #TextToImageGeneration
Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL'23 GPT Summary- 本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。

#NLP #MultiModal #DiffusionModel #TextToImageGeneration Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL'23 GPT Summary- 本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment

#NeuralNetwork #NLP #Game Issue Date: 2022-09-15 Generating Racing Game Commentary from Vision, Language, and Structured Data, Tatsuya+, INLG'21 Comment

データセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary

#NeuralNetwork #NLP #ACL Issue Date: 2017-12-31 [Paper Note] Multi-Task Video Captioning with Video and Entailment Generation, Pasunuru+, ACL'17 Comment

解説スライド： https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1

#DocumentSummarization #Pocket #NLP #Evaluation #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #Article #Survey #NLP #LanguageModel #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #NLP #Blog Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話

SpatialUnderstanding (9)

#Pocket #Dataset #Transformer #Evaluation #FoundationModel #2D (Image) #4D (Video)
Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Pocket #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Robotics #Omni #Geometric #Robustness
Issue Date: 2025-11-16 [Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, arXiv'25, 2025.11 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

#Pocket #3D (Scene) #Robotics #VisionLanguageActionModel
Issue Date: 2025-11-03 [Paper Note] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors, Zhengshen Zhang+, arXiv'25, 2025.10 GPT Summary- FALCON（From Spatial to Action）は、視覚-言語-行動（VLA）モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment

pj page: https://falcon-vla.github.io/

元ポスト:

Loading…

#Pocket #ReinforcementLearning #Self-SupervisedLearning #RLVR #VisionLanguageModel #2D (Image) #3D (Scene) #One-Line Notes #Pixel-based Issue Date: 2025-11-03 [Paper Note] Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning, Yuhong Liu+, arXiv'25, 2025.10 GPT Summary- 空間理解におけるLVLMの弱点を克服するため、自己教師あり強化学習パラダイムSpatial-SSRLを提案。5つの前提タスクを自動定式化し、検証が容易な信号を導出。これにより、空間推論が大幅に改善され、7つのベンチマークでQwen2.5-VLベースラインに対して平均精度が4.63%（3B）および3.89%（7B）向上。シンプルな監視がRLVRを可能にし、LVLMの空間知能向上に寄与することを示した。 Comment

元ポスト:

Loading…

RGB/RGB-D imageがgivenなときに、
- cropped patch inpainting
- flipped patch recognition
- shuffled patch reordering
- regional depth ordering
- relative 3D position prediction

の5つのverifiableなタスクを定義しself supervisedなmannerでRLすることでSpatial Understanding能力を向上させる話らしい

#Pocket #Dataset #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #UMM Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Embeddings #Pocket #NLP #Dataset #MultiModal #NeurIPS #Encoder Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder（PE）は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

解説:

Loading…

#Analysis #Pocket #LanguageModel #MultiModal #Architecture Issue Date: 2025-09-12 [Paper Note] Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture, Wanyue Zhang+, arXiv'25 GPT Summary- 空間理解はMLLMsにとって重要だが、依然として課題が多い。本研究では、単一視点、多視点、ビデオの3つのシナリオにおける空間理解を体系的に分析し、MulSeTというベンチマークを提案。トレーニングデータの増加はパフォーマンス向上に寄与するが、限界があることが示された。また、空間理解は視覚エンコーダの位置エンコーディングに依存しており、推論の注入を通じたアーキテクチャ改善の可能性を探る。これにより、MLLMsの限界を明らかにし、空間推論能力向上の新たな方向性を示唆している。 Comment

元ポスト:

Loading…

#Article #Survey #NLP #MultiModal #Repository #VisionLanguageModel Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

QuestionAnswering (8)

#Multi #Pocket #NLP #Dataset #MultiModal #Conversation #VisionLanguageModel #2D (Image)
Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #NLP #Dataset #SyntheticData #MultiModal #Reasoning #EMNLP #PostTraining #VisionLanguageModel
Issue Date: 2025-08-21 [Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural
Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。

#Pocket #NLP #LanguageModel #CVPR #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, CVPR'24 GPT Summary- LLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment

画像分析が可能なオープンソースLLMとのこと。

# Overview

画像生成をできるわけではなく、inputとして画像を扱えるのみ。

pj page: https://llava-vl.github.io

#LanguageModel #MultiModal Issue Date: 2023-07-11 SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs, Lijun Yu+, N_A, arXiv'23 GPT Summary- この研究では、Semantic Pyramid AutoEncoder（SPAE）を使用して、凍結されたLLMsが非言語的なモダリティを含むタスクを実行できるようにします。SPAEは、LLMの語彙から抽出されたトークンと生のピクセルデータの変換を行います。生成されたトークンは、視覚再構成に必要な意味と詳細を捉え、LLMが理解できる言語に変換します。実験結果では、我々のアプローチが画像理解と生成のタスクにおいて最先端のパフォーマンスを25％以上上回ることを示しています。 Comment

#LanguageModel #MultiModal Issue Date: 2023-06-30 Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language, William Berrios+, N_A, arXiv'23 GPT Summary- 私たちは、LENSというモジュラーなアプローチを提案しています。このアプローチでは、大規模言語モデル（LLMs）を使用してコンピュータビジョンの問題に取り組みます。LENSは、独立したビジョンモジュールの出力に対して言語モデルを使用して推論を行います。私たちは、ゼロショットおよびフューショットのオブジェクト認識などのコンピュータビジョンの設定でLENSを評価しました。LENSは市販のLLMに適用でき、非常に競争力のあるパフォーマンスを発揮します。コードはオープンソースで提供されています。 Comment

参考:

Loading…

#Pocket #NLP #MultiModal Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv'23 GPT Summary- 本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル（LLM）を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment

#Article #Pretraining #NLP #Dataset #ImageCaptioning #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

ImageSynthesis (7)

#Pocket #Transformer #DiffusionModel #TextToImageGeneration #Pixel-based
Issue Date: 2025-11-26 [Paper Note] PixelDiT: Pixel Diffusion Transformers for Image Generation, Yongsheng Yu+, arXiv'25, 2025.11 GPT Summary- PixelDiTは、オートエンコーダーを排除し、ピクセル空間での拡散プロセスを直接学習するエンドツーエンドモデルである。グローバルなセマンティクスとテクスチャの詳細を捉える二重レベルのトランスフォーマーアーキテクチャを採用し、効率的なトレーニングを実現。ImageNetで1.61のFIDを達成し、テキストから画像への生成にも拡張。GenEvalで0.74、DPG-benchで83.5を記録し、既存モデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #InstructionTuning #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV
Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #TextToImageGeneration #VisionLanguageModel #2D (Image) #Editing
Issue Date: 2025-10-18 [Paper Note] Learning an Image Editing Model without Image Editing Pairs, Nupur Kumari+, arXiv'25, 2025.10 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル（VLM）からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失（DMD）を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment

元ポスト:

Loading…

#Analysis #Pocket #DiffusionModel #TextToImageGeneration #CVPR #GeometryUnderstanding Issue Date: 2025-10-24 [Paper Note] Shadows Don't Lie and Lines Can't Bend Generative Models don't know Projective Geometry...for now, Ayush Sarkar+, CVPR'24, 2023.11 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment

pj page: https://projective-geometry.github.io/

#Pocket #TextToImageGeneration #VariationalAutoEncoder #CVPR #Selected Papers/Blogs #Encoder-Decoder #U-Net Issue Date: 2025-10-10 [Paper Note] High-Resolution Image Synthesis with Latent Diffusion Models, Robin Rombach+, CVPR'22, 2021.12 GPT Summary- 拡散モデル（DMs）は、逐次的なデノイジングオートエンコーダを用いて画像生成プロセスを効率化し、最先端の合成結果を達成。従来のピクセル空間での訓練に比べ、強力な事前訓練されたオートエンコーダの潜在空間での訓練により、計算リソースを削減しつつ視覚的忠実度を向上。クロスアテンション層を導入することで、テキストやバウンディングボックスに基づく柔軟な生成が可能となり、画像インペインティングや無条件画像生成などで競争力のある性能を発揮。 Comment

ここからtext等による条件付けをした上での生成が可能になった（らしい）

#NeuralNetwork #Pocket #DiffusionModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ScoreMatching #U-Net Issue Date: 2025-10-10 [Paper Note] Denoising Diffusion Probabilistic Models, Jonathan Ho+, NeurIPS'20, 2020.06 GPT Summary- 拡散確率モデルを用いた高品質な画像合成を提案。新しい重み付き変分境界でのトレーニングにより、優れた結果を得る。無条件CIFAR10で9.46のInceptionスコア、256x256のLSUNでProgressiveGANに匹敵する品質を達成。実装はGitHubで公開。 #Article #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

ImageCaptioning (6)

#EfficiencyImprovement #Pocket #Dataset #Evaluation #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional
Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #SmallModel #OpenWeight #VisionLanguageModel
Issue Date: 2025-09-29 [Paper Note] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning, Long Xing+, arXiv'25, 2025.09 GPT Summary- 画像キャプショニングにおいて、従来の監視型ファインチューニング（SFT）の限界を克服するため、検証可能な報酬を用いた強化学習（RLVR）を提案。新しいトレーニングフレームワーク「キャプショニング強化学習（CapRL）」を導入し、キャプションの質をその有用性で再定義。CapRLは、視覚非依存のLLMの精度に基づく客観的な報酬を得る二段階のパイプラインを採用。CapRL-3Bによる事前学習は、12のベンチマークで大幅な性能向上を実現し、Qwen2.5-VL-72Bと同等のパフォーマンスを達成。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/long-xing1/caprl-68d64ac32ded31596c36e189

公式ポスト:

Loading…

#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #Evaluation #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。

#Article #Pretraining #NLP #Dataset #QuestionAnswering #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #Survey #NaturalLanguageGeneration #NLP #LanguageModel #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article Issue Date: 2023-07-22 Comparing captioning models Comment

SoTAのvision languageモデルのデモ。BLIP, BLIP2,GIT,InstructBLIPを試せる

Editing (6)

#Pocket #DiffusionModel #TextToImageGeneration #VisionLanguageModel #2D (Image) #ImageSynthesis
Issue Date: 2025-10-18 [Paper Note] Learning an Image Editing Model without Image Editing Pairs, Nupur Kumari+, arXiv'25, 2025.10 GPT Summary- 本研究では、ペアデータを使用せずに画像編集モデルをトレーニングする新しいパラダイムを提案。拡散モデルを展開し、視覚-言語モデル（VLM）からのフィードバックを活用して直接最適化を行う。生成画像の視覚的忠実性を保つために分布マッチング損失（DMD）を導入。標準ベンチマークで評価した結果、従来の教師ありペアデータを用いたモデルと同等の性能を達成し、RLベースの手法をも上回ることが示された。 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #DiffusionModel #VisionLanguageModel #Encoder
Issue Date: 2025-09-24 Qwen-Image-Edit-2509, Qwen Team, 2025.09 Comment

テクニカルレポート: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

#Article #NLP #TextToImageGeneration #Blog #ProprietaryLLM Issue Date: 2025-08-28 Introducing Gemini 2.5 Flash Image, our state-of-the-art image model, Google, 2025.08 Comment

nano banana

ベストプラクティス:

Loading…

プロンプトガイドと戦略: https://ai.google.dev/gemini-api/docs/image-generation?hl=ja#prompt-guide

元ポスト:

Loading…

#Article Issue Date: 2025-08-19 Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing, Liu+, SIGGRAPH, 2025.07 Comment

元ポスト:

Loading…

pj page: http://geometrylearning.com/Sketch3DVE/

#Article #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-08-19 Qwen-Image-Edit, Qwen, 2025.05 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

Imageを入力して、テキストで条件づけることで編集できるOpenWeightモデル
https://github.com/user-attachments/assets/8c4ed7a1-1604-4365-bdbf-ef64ad8298ce" />

参考:25/08/20 とりまQwenImageEditを試す
https://six-loganberry-ba7.notion.site/25-08-20-QwenImageEdit-255f7e7600e980f48e09cc7252ea1677

元ポスト:

Loading…

Image Edit Arenaで２位:

Loading…

Library (5)

#Article #NLP #LanguageModel #ReinforcementLearning #Repository #PostTraining #VisionLanguageModel
Issue Date: 2025-09-01 RLinf: Reinforcement Learning Infrastructure for Agentic AI, RLinf, 2025.09 Comment

元ポスト:

Loading…

#Article #Repository #OCR
Issue Date: 2024-11-27 YomiToku, Kotaro Kinoshita, 2024.11 Comment

いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0

元ツイート:

Loading…

#Article #NLP #LanguageModel #Alignment #TextualInversion
Issue Date: 2024-03-21 repeng Comment

Loading…

#Article #NLP #Prompting #MultiModal #AutomaticPromptEngineering Issue Date: 2023-12-01 multimodal-maestro Comment

#Article #MachineLearning #NLP #Explanation #Transformer #Blog Issue Date: 2022-12-01 Transformers Interpret, 2022 Comment

InstructionTuning (5)

#Pocket #LanguageModel #DiffusionModel #TextToImageGeneration #read-later #Selected Papers/Blogs #ICCV #ImageSynthesis
Issue Date: 2025-10-20 [Paper Note] MetaMorph: Multimodal Understanding and Generation via Instruction Tuning, Shengbang Tong+, ICCV'25, 2024.12 GPT Summary- 本研究では、視覚的指示調整の新手法VPiTを提案し、LLMがテキストと視覚トークンを生成できるようにします。VPiTは、キュレーションされた画像とテキストデータからトークンを予測する能力をLLMに教え、視覚生成能力が向上することを示しました。特に、理解データが生成データよりも効果的に両方の能力に寄与することが明らかになりました。MetaMorphモデルを訓練し、視覚理解と生成で競争力のあるパフォーマンスを達成し、LLMの事前学習から得た知識を活用することで、視覚生成における一般的な失敗を克服しました。これにより、LLMが視覚理解と生成に適応できる可能性が示唆されました。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding
Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pocket #NLP #Dataset #Evaluation #MultiLingual #VisionLanguageModel
Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。

#MachineLearning #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv'24 GPT Summary- 破滅的忘却に対処するため、タスクフリーのオンライン継続学習（OCL）フレームワークOnline-LoRAを提案。リハーサルバッファの制約を克服し、事前学習済みビジョントランスフォーマー（ViT）モデルをリアルタイムで微調整。新しいオンライン重み正則化戦略を用いて重要なモデルパラメータを特定し、データ分布の変化を自動認識。多様なベンチマークデータセットで優れた性能を示す。 Comment

#Pretraining #Pocket #NLP #Transformer #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

ContrastiveLearning (4)

#Pretraining #Encoder
Issue Date: 2025-08-07 [Paper Note] Scaling Vision Pre-Training to 4K Resolution, Baifeng Shi+, arXiv'25 GPT Summary- PS3を用いてCLIPスタイルの視覚事前学習を4K解像度にスケールアップし、計算コストを抑えつつ高解像度の視覚認識を改善。VILA-HDモデルは、低解像度でのグローバル画像エンコードを行い、局所的な高解像度領域を選択的に処理。これにより、従来のベースラインと比較して高い性能を発揮し、トークン使用量を最大4.3倍削減。PS3は解像度のスケーリング特性を持ち、複数のベンチマークで優れた効率を達成。新たに提案された4KProベンチマークでは、VILA-HDが他のMLLMを上回る結果を示した。 Comment

元ポスト:

Loading…

商用利用は不可な模様

#NeuralNetwork #Embeddings #Pocket #RepresentationLearning #ICLR #Semi-Supervised
Issue Date: 2023-04-30 SemPPL: Predicting pseudo-labels for better contrastive representations, Matko Bošnjak+, N_A, ICLR'23 GPT Summary- 本研究では、コンピュータビジョンにおける半教師あり学習の問題を解決するために、Semantic Positives via Pseudo-Labels (SemPPL)という新しい手法を提案している。この手法は、ラベル付きとラベルなしのデータを組み合わせて情報豊富な表現を学習することができ、ResNet-$50$を使用してImageNetの$1\%$および$10\%$のラベルでトレーニングする場合、競合する半教師あり学習手法を上回る最高性能を発揮することが示された。SemPPLは、強力な頑健性、分布外および転移性能を示すことができる。 Comment

後ほど説明を追記する

#NLP #MultiModal #ICML
Issue Date: 2023-04-27 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML'21 Comment

CLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル

#Pocket #DataAugmentation #Self-SupervisedLearning #ICLR #Selected Papers/Blogs Issue Date: 2025-05-18 A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen+, ICML'20 GPT Summary- 本論文では、視覚表現の対比学習のためのシンプルなフレームワークSimCLRを提案し、特別なアーキテクチャやメモリバンクなしで対比自己教師あり学習を簡素化します。データ拡張の重要性、学習可能な非線形変換の導入による表現の質向上、対比学習が大きなバッチサイズと多くのトレーニングステップから利益を得ることを示し、ImageNetで従来の手法を上回る結果を達成しました。SimCLRによる自己教師あり表現を用いた線形分類器は76.5%のトップ1精度を達成し、教師ありResNet-50に匹敵します。ラベルの1%でファインチューニングした場合、85.8%のトップ5精度を達成しました。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625

RepresentationLearning (4)

#NeuralNetwork #Analysis #Supervised #Self-SupervisedLearning #CLIP #One-Line Notes
Issue Date: 2025-10-31 [Paper Notes] Investigating fine- and coarse-grained structural correspondences between deep neural networks and human object image similarity judgments using unsupervised alignment, Takahashi+, Neural Networks'26, 2026.03 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #MultiModal
Issue Date: 2025-06-24 [Paper Note] jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval, Michael Günther+, arXiv'25 GPT Summary- 3.8億パラメータのマルチモーダル埋め込みモデル「jina-embeddings-v4」を提案。新しいアーキテクチャにより、クエリベースの情報検索やクロスモーダルの類似性検索を最適化。タスク特化型のLoRAアダプターを組み込み、視覚的に豊かなコンテンツの処理に優れた性能を発揮。新しいベンチマーク「Jina-VDR」も導入。 Comment

元ポスト:

Loading…

#Embeddings #Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #SSM (StateSpaceModel) #ICML #PostTraining #read-later #CompressionValleys
Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML'25 GPT Summary- 中間層の埋め込みが最終層を超えるパフォーマンスを示すことを分析し、情報理論や幾何学に基づくメトリクスを提案。32のテキスト埋め込みタスクで中間層が強力な特徴を提供することを実証し、AIシステムの最適化における中間層の重要性を強調。 Comment

openreview: https://openreview.net/forum?id=WGXb7UdvTX

#NeuralNetwork #Embeddings #Pocket #ContrastiveLearning #ICLR #Semi-Supervised Issue Date: 2023-04-30 SemPPL: Predicting pseudo-labels for better contrastive representations, Matko Bošnjak+, N_A, ICLR'23 GPT Summary- 本研究では、コンピュータビジョンにおける半教師あり学習の問題を解決するために、Semantic Positives via Pseudo-Labels (SemPPL)という新しい手法を提案している。この手法は、ラベル付きとラベルなしのデータを組み合わせて情報豊富な表現を学習することができ、ResNet-$50$を使用してImageNetの$1\%$および$10\%$のラベルでトレーニングする場合、競合する半教師あり学習手法を上回る最高性能を発揮することが示された。SemPPLは、強力な頑健性、分布外および転移性能を示すことができる。 Comment

後ほど説明を追記する

GenerativeAI (4)

#Pocket #NLP #MultiModal
Issue Date: 2023-12-01 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv'23 GPT Summary- 本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Comment

https://huggingface.co/spaces/Vchitect/SEINE

画像 + テキストpromptで、動画を生成するデモ

#Article #ProprietaryLLM #Selected Papers/Blogs #2D (Image)
Issue Date: 2025-11-21 Introducing Nano Banana Pro, Google, 2025.11 Comment

元ポスト:

Loading…

所見:

Loading…

所見:

Loading…

#Article #OpenWeight
Issue Date: 2024-10-05 MovieGen, Meta, 2024.10

#Article #NLP #MultiModal Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Comment

デモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。

FF14の赤魔導士に変えたら、それっぽいの出てきた

3D Reconstruction (4)

#Pocket #CVPR
Issue Date: 2025-11-20 [Paper Note] SLAM3R: Real-Time Dense Scene Reconstruction from Monocular RGB Videos, Yuzheng Liu+, CVPR'25 Highlight, 2024.12 GPT Summary- SLAM3Rは、RGBビデオを用いたリアルタイムの高品質な密な3D再構築システムで、フィードフォワードニューラルネットワークを活用してローカル3D再構築とグローバル座標登録を統合。スライディングウィンドウメカニズムでビデオを重なり合ったクリップに変換し、RGB画像から直接3Dポイントマップを回帰。実験により、最先端の再構築精度と20 FPS以上のリアルタイム性能を達成。コードは公開されている。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Transformer #FoundationModel #3D (Scene) #UMM #SpatialUnderstanding
Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #Transformer #CVPR #read-later #Selected Papers/Blogs #Backbone
Issue Date: 2025-06-22 [Paper Note] VGGT: Visual Geometry Grounded Transformer, Jianyuan Wang+, CVPR'25 GPT Summary- VGGTは、シーンの主要な3D属性を複数のビューから直接推測するフィードフォワードニューラルネットワークであり、3Dコンピュータビジョンの分野において新たな進展を示します。このアプローチは効率的で、1秒未満で画像を再構築し、複数の3Dタスクで最先端の結果を達成します。また、VGGTを特徴バックボーンとして使用することで、下流タスクの性能が大幅に向上することが示されています。コードは公開されています。 Comment

元ポスト:

Loading…

#Article #FoundationModel #Blog #read-later #Selected Papers/Blogs #3D (Scene) Issue Date: 2025-11-20 Introducing SAM 3D: Powerful 3D Reconstruction for Physical World Images, Meta, 2025.11 Comment

元ポスト:

Loading…

解説:

Loading…

AutomaticPromptEngineering (3)

#Pocket #NLP #LanguageModel #Prompting #MultiModal
Issue Date: 2025-10-14 [Paper Note] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs, Yumin Choi+, arXiv'25, 2025.10 GPT Summary- マルチモーダルプロンプト最適化（MPO）を提案し、テキストと非テキストのプロンプトを共同最適化する新たなアプローチを示す。MPOは、ベイズに基づく選択戦略を用いて候補プロンプトを選定し、画像や動画など多様なモダリティにおいてテキスト専用手法を上回る性能を発揮。これにより、MLLMsの潜在能力を最大限に引き出す重要なステップを確立。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #EACL #System Demonstration
Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, EACL'24 Sustem Demonstration Track GPT Summary- 本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #Article #NLP #Library #Prompting #MultiModal
Issue Date: 2023-12-01 multimodal-maestro Comment

TTS (3)

#Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #Speech #NeurIPS #VisionLanguageModel #2D (Image) #AudioLanguageModel
Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

#Pocket #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #SpeechProcessing #Architecture #2D (Image) #4D (Video) #Omni #audio #text
Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

#Article #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

ObjectDetection (3)

#Pocket #Transformer #NeuralArchitectureSearch #Encoder-Decoder #Realtime
Issue Date: 2025-11-14 [Paper Note] RF-DETR: Neural Architecture Search for Real-Time Detection Transformers, Isaac Robinson+, arXiv'25, 2025.11 GPT Summary- RF-DETRは、オープンボキャブラリ検出器の一般化問題を解決するために導入された軽量の専門検出トランスフォーマーであり、重み共有ニューラルアーキテクチャサーチ（NAS）を用いて精度とレイテンシのトレードオフを評価します。RF-DETRは、COCOおよびRoboflow100-VLで従来の手法を大幅に上回り、特にRF-DETR（2x-large）はCOCOで60 APを超えた初のリアルタイム検出器です。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #Attention #NeurIPS #Selected Papers/Blogs
Issue Date: 2025-11-05 [Paper Note] YOLOv12: Attention-Centric Real-Time Object Detectors, Yunjie Tian+, NeurIPS'25, 2025.02 GPT Summary- YOLOv12は、注意メカニズムを活用した新しいYOLOフレームワークで、CNNベースのモデルと同等の速度を維持しつつ、精度を向上させる。特に、YOLOv12-NはT4 GPU上で1.64 msの推論遅延で40.6%のmAPを達成し、YOLOv10-NおよびYOLOv11-Nを上回る性能を示す。また、YOLOv12はRT-DETRやRT-DETRv2よりも優れた性能を発揮し、計算量とパラメータ数を大幅に削減しながらも高速な実行を実現している。 Comment

元ポスト:

Loading…

#Pocket #Dataset #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes
Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

CommentGeneration (2)

#Pocket #NLP #CVPR
Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, CVPR'17 Comment

official implementation: https://github.com/cesc-park/attend2u

#Article #Pocket #NLP
Issue Date: 2019-09-27 Cross-domain personalized image captioning, Long+, 2019

Alignment (2)

#Pocket #NLP #LanguageModel #MultiModal #read-later #UMM
Issue Date: 2025-09-11 [Paper Note] Reconstruction Alignment Improves Unified Multimodal Models, Ji Xie+, arXiv'25 GPT Summary- 統一多モーダルモデル（UMMs）のトレーニングは、スパースなキャプションに依存しており、視覚的詳細を見逃すことが多い。そこで、再構成アライメント（RecA）を導入し、視覚理解エンコーダの埋め込みを用いてキャプションなしで豊富な監視を提供。RecAはUMMを視覚理解埋め込みに条件付け、自己監視型の再構成損失で最適化し、生成と編集の忠実度を向上させる。27 GPU時間で、画像生成性能や編集ベンチマークを大幅に向上させ、効率的なポストトレーニング戦略としての地位を確立。 Comment

pj page: https://reconstruction-alignment.github.io

元ポスト:

Loading…

#Article #NLP #LanguageModel #Library #TextualInversion
Issue Date: 2024-03-21 repeng Comment

Loading…

RAG(RetrievalAugmentedGeneration) (2)

#Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #VisionLanguageModel
Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#InformationRetrieval #NLP #Dataset #LanguageModel #MultiLingual #COLING #VisionLanguageModel
Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

Finetuning (2)

#Pretraining #Pocket #Transformer #PEFT(Adaptor/LoRA) #ICML
Issue Date: 2025-07-14 [Paper Note] ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts, Samar Khanna+, ICML'25 GPT Summary- PEFT技術を用いたExPLoRAは、事前学習済みビジョントランスフォーマー（ViT）を新しいドメインに適応させる手法で、教師なし事前学習を通じて効率的にファインチューニングを行う。実験では、衛星画像において最先端の結果を達成し、従来のアプローチよりも少ないパラメータで精度を最大8%向上させた。 Comment

元ポスト:

Loading…

これまでドメイン適応する場合にラベル付きデータ+LoRAでFinetuningしていたのを、ラベル無しデータ+継続事前学習の枠組みでやりましょう、という話のようである。

手法は下記で、事前学習済みのモデルに対してLoRAを適用し継続事前学習する。ただし、最後尾のLayer、あるいは最初と最後尾のLayerの両方をunfreezeして、trainableにする。また、LoRAはfreezeしたLayerのQ,Vに適用し、それらのLayerのnormalization layerもunfreezeする。最終的に、継続事前学習したモデルにヘッドをconcatしてfinetuningすることで目的のタスクを実行できるようにする。詳細はAlgorithm1を参照のこと。

同じモデルで単にLoRAを適用しただけの手法や、既存手法をoutperform

https://github.com/user-attachments/assets/14935879-75a4-4e4a-a176-1b1eabc4b8fd" />

画像+ViT系のモデルだけで実験されているように見えるが、LLMとかにも応用可能だと思われる。

#NeuralNetwork #Pocket #NLP #ICML #Selected Papers/Blogs #OOD #Generalization #Encoder #Encoder-Decoder #KeyPoint Notes #Souping
Issue Date: 2025-11-28 [Paper Note] Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, Mitchell Wortsman+, ICML'22, 2022.03 GPT Summary- ファインチューニングされたモデルの重みを平均化する「モデルスープ」手法を提案し、精度と堅牢性を向上させることを示す。従来のアンサンブル手法とは異なり、追加のコストなしで複数のモデルを平均化でき、ImageNetで90.94%のトップ1精度を達成。さらに、画像分類や自然言語処理タスクにも適用可能で、分布外性能やゼロショット性能を改善することが確認された。 Comment

日本語解説: https://www.docswell.com/s/DeepLearning2023/ZW13L1-dlmodel-soups-averaging-weights-of-multiple-finetuned-models-improves-accuracy-without-increasing-inference-time

Deduplication (2)

#Embeddings #Pocket #NLP
Issue Date: 2025-08-16 [Paper Note] SemDeDup: Data-efficient learning at web-scale through semantic deduplication, Amro Abbas+, arXiv'23 GPT Summary- SemDeDupは、事前学習モデルの埋め込みを用いて意味的に重複するデータペアを特定し削除する手法。LAIONのサブセットで50%のデータ削除を実現し、トレーニング時間を半分に短縮。分布外性能も向上し、C4データセットでも効率性を改善。質の高い埋め込みを活用することで、データ削減と学習加速を両立。 Comment

#NeuralNetwork #Pretraining #Pocket #NeurIPS #Scaling Laws
Issue Date: 2025-09-04 [Paper Note] Beyond neural scaling laws: beating power law scaling via data pruning, Ben Sorscher+, NeurIPS'22 GPT Summary- データセットサイズに対する誤差のスケーリングを研究し、高品質なデータプルーニングメトリックを用いることで誤差を指数スケーリングに減少させる可能性を示す。CIFAR-10、SVHN、ImageNetでの実験により、冪法則スケーリングを超える改善を確認。ImageNetにおける10種類のデータプルーニングメトリックのベンチマークを実施し、従来のメトリックに代わる新しい自己教師ありプルーニングメトリックを開発。良好なデータプルーニングメトリックがニューラルスケーリング法則の改善とリソースコスト削減に寄与する可能性を示唆。 Comment

openreview: https://openreview.net/forum?id=UmvSlP-PyV

日本語解説スライド: https://speakerdeck.com/takase/snlp2023-beyond-neural-scaling-laws

LLM-as-a-Judge (2)

#Pocket #NLP #Dataset #AIAgents #Evaluation #Coding #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Dataset #Evaluation #ImageCaptioning #LongSequence #EMNLP #VisionLanguageModel #MultiDimensional
Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

DocumentSummarization (1)

#NaturalLanguageGeneration #Pocket #NLP #Evaluation #ImageCaptioning #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。

#FoundationModel
Issue Date: 2023-07-11 ViNT: A Foundation Model for Visual Navigation, Dhruv Shah+, N_A, arXiv'23 GPT Summary- 本研究では、汎用事前学習モデルであるVisual Navigation Transformer（ViNT）を提案し、ビジョンベースのロボットナビゲーションに成功をもたらします。ViNTは、大規模なナビゲーションデータセットで訓練され、柔軟なTransformerベースのアーキテクチャを使用してさまざまなナビゲーションタスクに適応します。ViNTは、拡散ベースのサブゴール提案と組み合わせることで、新しい環境を探索し、キロメートルスケールのナビゲーション問題を解決することができます。また、ViNTはプロンプトチューニングに触発された技術を使用して、新しいタスク仕様に適応することができます。ViNTはモバイルロボティクスのための効果的な基礎モデルとして確立されています。詳細はプロジェクトページを参照してください。 Comment

ChatGPT (1)

#Article #NLP #LanguageModel #MultiModal
Issue Date: 2023-09-30 OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化, AIDB, 2023.09 Comment

おう…やべえな…

LayoutGeneration (1)

#Pocket #NLP
Issue Date: 2023-11-14 LayoutPrompter: Awaken the Design Ability of Large Language Models, Jiawei Lin+, N_A, NeurIPS'23 GPT Summary- LayoutPrompterは、大規模言語モデル（LLMs）を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 Comment

Conditional Graphic Layout Generation

DataAugmentation (1)

#Pocket #ContrastiveLearning #Self-SupervisedLearning #ICLR #Selected Papers/Blogs
Issue Date: 2025-05-18 A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen+, ICML'20 GPT Summary- 本論文では、視覚表現の対比学習のためのシンプルなフレームワークSimCLRを提案し、特別なアーキテクチャやメモリバンクなしで対比自己教師あり学習を簡素化します。データ拡張の重要性、学習可能な非線形変換の導入による表現の質向上、対比学習が大きなバッチサイズと多くのトレーニングステップから利益を得ることを示し、ImageNetで従来の手法を上回る結果を達成しました。SimCLRによる自己教師あり表現を用いた線形分類器は76.5%のトップ1精度を達成し、教師ありResNet-50に匹敵します。ラベルの1%でファインチューニングした場合、85.8%のトップ5精度を達成しました。 Comment

日本語解説: https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625

AWS (1)

#Article #NLP #Dataset #LanguageModel #MultiModal #Blog #Japanese
Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

FeatureMatching (1)

#Pocket #DiffusionModel #2D (Image) #3D (Scene)
Issue Date: 2025-07-04 [Paper Note] Learning Dense Feature Matching via Lifting Single 2D Image to 3D Space, Yingping Liang+, arXiv'25 GPT Summary- 新しい二段階フレームワーク「Lift to Match (L2M)」を提案し、2D画像を3D空間に持ち上げることで、特徴マッチングの一般化を向上させる。第一段階で3D特徴エンコーダを学習し、第二段階で特徴デコーダを学習することで、堅牢な特徴マッチングを実現。実験により、ゼロショット評価ベンチマークで優れた一般化性能を示した。 Comment

元ポスト:

Loading…

4D Reconstruction (1)

#Pocket #read-later
Issue Date: 2025-07-17 [Paper Note] Streaming 4D Visual Geometry Transformer, Dong Zhuo+, arXiv'25 GPT Summary- 動画から4D空間-時間幾何学を認識・再構築するために、ストリーミング4Dビジュアルジオメトリトランスフォーマーを提案。因果トランスフォーマーアーキテクチャを用いて、過去の情報をキャッシュしながらリアルタイムで4D再構築を実現。効率的なトレーニングのために、双方向ビジュアルジオメトリからの知識蒸留を行い、推論速度を向上させつつ競争力のある性能を維持。スケーラブルな4Dビジョンシステムの実現に寄与。 Comment

元ポスト:

Loading…

モデルのアーキテクチャ

DeepResearch (1)

#Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel
Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

GeometryUnderstanding (1)

#Analysis #Pocket #DiffusionModel #TextToImageGeneration #CVPR #ImageSynthesis
Issue Date: 2025-10-24 [Paper Note] Shadows Don't Lie and Lines Can't Bend Generative Models don't know Projective Geometry...for now, Ayush Sarkar+, CVPR'24, 2023.11 GPT Summary- 生成モデルはリアルな画像を生成するが、幾何学的特徴において実際の画像と異なることを示す。事前に選別された生成画像を用いて、幾何学的特性に基づく分類器が生成画像を高精度で識別できることを確認。3つの分類器を使用し、画像の透視場、線、物体と影の関係を分析。これにより、生成画像の検出精度が向上し、現在の生成器は実際の画像の幾何学的特性を再現できないと結論付ける。 Comment

pj page: https://projective-geometry.github.io/

AutomaticSpeechRecognition(ASR) (1)

#Article #NLP #LanguageModel #MultiModal #SpeechProcessing #TextToImageGeneration #OpenWeight #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

Safeguard (1)

#Pocket #NLP #Dataset #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live
Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

Mapping (1)

#Article #Tutorial #Slide #ObjectLocalization #Geometric
Issue Date: 2025-11-04 Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10 Comment

元ポスト:

Loading…

NeuralArchitectureSearch (1)

#Pocket #Transformer #Encoder-Decoder #ObjectDetection #Realtime
Issue Date: 2025-11-14 [Paper Note] RF-DETR: Neural Architecture Search for Real-Time Detection Transformers, Isaac Robinson+, arXiv'25, 2025.11 GPT Summary- RF-DETRは、オープンボキャブラリ検出器の一般化問題を解決するために導入された軽量の専門検出トランスフォーマーであり、重み共有ニューラルアーキテクチャサーチ（NAS）を用いて精度とレイテンシのトレードオフを評価します。RF-DETRは、COCOおよびRoboflow100-VLで従来の手法を大幅に上回り、特にRF-DETR（2x-large）はCOCOで60 APを超えた初のリアルタイム検出器です。 Comment

元ポスト:

Loading…

CameraPoseEstimation (1)

#Dataset #Evaluation #CVPR
Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。

ScientificDiscovery (1)

#Article #Tutorial #NLP #Blog #Japanese #Robotics
Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

Others (100)

#Pocket #NLP #MultiModal #OpenWeight #MoE(Mixture-of-Experts) #VisionLanguageModel
Issue Date: 2025-11-27 [Paper Note] Qwen3-VL Technical Report, Shuai Bai+, arXiv'25, 2025.11 GPT Summary- Qwen3-VLは、テキスト、画像、動画を統合した最先端のビジョン・ランゲージモデルで、256Kトークンの長文コンテキスト理解を実現。強化されたテキスト理解、堅牢なマルチモーダル推論、空間・時間モデリングのアップグレードを特徴とし、様々なベンチマークで優れたパフォーマンスを示す。密なアーキテクチャとエキスパート混合アーキテクチャの両方で高い性能を発揮し、実世界のマルチモーダルコードインテリジェンスの基盤エンジンとしての役割が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #WorldModels #VisionLanguageActionModel #UMM #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] RynnVLA-002: A Unified Vision-Language-Action and World Model, Jun Cen+, arXiv'25, 2025.11 GPT Summary- RynnVLA-002は、ビジョン・言語・アクション（VLA）モデルと世界モデルを統合した新しいモデルで、アクションと視覚入力を用いて未来の画像状態を予測し、環境の物理法則を学習します。このフレームワークにより、環境のダイナミクスとアクション計画の共同学習が可能となり、実験では個別モデルを上回る性能を示しました。シミュレーションでは97.4%の成功率を達成し、実世界のロボットタスクでも成功率が50%向上しました。 Comment

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-002

元ポスト:

Loading…

VLAによるアクション予測とWorldModelによる視覚的な画像生成の交互作用をさせたという話に見える。

#Pocket #AIAgents #Generalization #VisionLanguageModel #3D (Scene) #Game #Realtime
Issue Date: 2025-11-13 [Paper Note] Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds, Weihao Tan+, arXiv'25, 2025.11 GPT Summary- Lumineは、3Dオープンワールド環境で複雑なミッションをリアルタイムで完了できる一般的なエージェントのためのオープンレシピです。人間のようなインタラクションを採用し、視覚と言語のモデルを統合して知覚、推論、行動を実現。Genshin Impactで訓練されたLumineは、自然言語の指示に従い、幅広いタスクを効率的に実行します。また、ファインチューニングなしで他のゲームでも高いパフォーマンスを示し、オープンエンドな環境における一般的なエージェントへの進展を示しています。 Comment

pj page: https://www.lumine-ai.org/

> 1731 hours of human gameplay for pre-training to master action primitives;

> 200 hours of instruction following data to ground control in language;

> 15 hours of reasoning data to enable adaptive thinking.

元ポスト:

Loading…

#Pocket #Transformer #DiffusionModel #Selected Papers/Blogs #2D (Image) #WorldModels Issue Date: 2025-11-11 [Paper Note] ChronoEdit: Towards Temporal Reasoning for Image Editing and World Simulation, Jay Zhangjie Wu+, arXiv'25, 2025.10 GPT Summary- ChronoEditフレームワークを提案し、画像編集を動画生成として再定義。入力画像と編集画像を動画の最初と最後のフレームとし、時間的一貫性を学習した動画生成モデルを活用。推論時に時間的推論ステージを導入し、物理的に実現可能な変換を制約する編集軌道を生成。新しいベンチマークPBench-Editで、ChronoEditが視覚的忠実性と物理的妥当性で最先端の手法を上回ることを示した。 Comment

HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers

LoRAによるUpscaler: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Upscaler-Lora

元ポスト:

Loading…

スケッチ+promptでの編集
HF: https://huggingface.co/nvidia/ChronoEdit-14B-Diffusers-Paint-Brush-Lora

元ポスト:

Loading…

#Pocket #NLP #MultiModal #Reasoning #SelfCorrection #NeurIPS #VisionLanguageModel Issue Date: 2025-11-05 [Paper Note] VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning, Haozhe Wang+, NeurIPS'25, 2025.04 GPT Summary- スロースロース思考システムは、明示的な反省を通じて難しい問題を解決する可能性を示しているが、マルチモーダル推論能力はファストスロース思考モデルと同等である。本研究では、強化学習を用いて視覚と言語のモデルのスロースロース思考能力を向上させることを目指し、選択的サンプルリプレイ（SSR）と強制的再考を導入。これにより、モデルVL-RethinkerはMathVista、MathVerseでそれぞれ80.4%、63.5%の最先端スコアを達成し、他のベンチマークでも優れた性能を示した。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #read-later #NormalizingFlow #Compression Issue Date: 2025-10-28 [Paper Note] FARMER: Flow AutoRegressive Transformer over Pixels, Guangting Zheng+, arXiv'25, 2025.10 GPT Summary- FARMERという新しい生成フレームワークを提案し、正規化フローと自己回帰モデルを統合して高品質な画像合成と尤度推定を実現。潜在シーケンスへの変換や自己教師あり次元削減により、ARモデリングの効率を向上。推論速度を加速する蒸留スキームと画像生成品質を向上させる分類器フリーガイダンスを導入。実験により、FARMERは既存モデルと比較して競争力のある性能を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

これは...👀👀👀

#Pocket #VisionLanguageModel #Robotics #memory #VisionLanguageActionModel #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] MemER: Scaling Up Memory for Robot Control via Experience Retrieval, Ajay Sridhar+, arXiv'25, 2025.10 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://jen-pan.github.io/memer/

動画ストリーム全てを常にinputするのではなくキーフレームは限られているので、VLMにキーフレームをメモリ上で管理するような役割を与え、instructionと実現するためのサブタスクに応じて動的に必要な情報のみをVLAに与えることでlong horizonでのスケーラビリティを改善する、みたいな話らしい

#Pocket #Transformer #DiffusionModel #read-later Issue Date: 2025-10-26 [Paper Note] Positional Encoding Field, Yunpeng Bai+, arXiv'25, 2025.10 GPT Summary- Diffusion Transformers（DiTs）は、視覚生成において優れた性能を示すアーキテクチャであり、パッチトークンと位置エンコーディング（PE）を用いています。本研究では、DiTsがどのように視覚コンテンツを整理するかを再考し、PEの摂動に対しても一貫した出力を生成することを発見しました。これに基づき、位置エンコーディングを3Dフィールドに拡張したPE-Fieldを提案し、ボリュメトリック推論と階層的エンコーディングを組み込みました。強化されたDiTは、新しい視点合成と空間画像編集において最先端の性能を達成しました。 Comment

pj page: https://yunpeng1998.github.io/PE-Field-HomePage/

元ポスト:

Loading…

#Pocket #ICCV Issue Date: 2025-10-22 [Paper Note] Beyond Isolated Words: Diffusion Brush for Handwritten Text-Line Generation, Gang Dai+, ICCV'25, 2025.08 GPT Summary- 手書きテキスト生成において、DiffBrushという新しい拡散ベースのモデルを提案。スタイルと内容の正確性を両立させるため、スタイル学習を内容から切り離し、マルチスケールで内容を学習する戦略を採用。実験により、高品質なテキストライン生成が確認された。 Comment

元ポスト:

Loading…

手書き文字生成

#Controllable #Pocket #Transformer #DiffusionModel #VariationalAutoEncoder #Selected Papers/Blogs #ICCV #KeyPoint Notes Issue Date: 2025-10-22 [Paper Note] OminiControl: Minimal and Universal Control for Diffusion Transformer, Zhenxiong Tan+, ICCV'25 Highlight, 2024.11 GPT Summary- OminiControlは、Diffusion Transformer（DiT）アーキテクチャにおける画像条件付けの新しいアプローチで、パラメータオーバーヘッドを最小限に抑えつつ、柔軟なトークン相互作用と動的な位置エンコーディングを実現。広範な実験により、複数の条件付けタスクで専門的手法を上回る性能を示し、合成された画像ペアのデータセット「Subjects200K」を導入。効率的で多様な画像生成システムの可能性を示唆。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #ContextWindow #LongSequence #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-21 [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10 GPT Summary- 本研究では、長いコンテキストを持つ大規模言語モデル（LLMs）の実用性を向上させるため、Glyphというフレームワークを提案し、テキストを画像に変換して視覚と言語のモデル（VLMs）で処理します。このアプローチにより、3-4倍のトークン圧縮を実現し、精度を維持しつつ処理速度を約4倍向上させます。さらに、128KコンテキストのVLMが1Mトークンのテキストタスクを処理可能になることを示しました。 Comment

元ポスト:

Loading…

所見:

Loading…

#MachineLearning #Pocket #NLP #MultiModal #DiffusionModel #SSM (StateSpaceModel) #UMM Issue Date: 2025-10-21 [Paper Note] End-to-End Multi-Modal Diffusion Mamba, Chunhao Lu+, arXiv'25, 2025.10 GPT Summary- MDM（Multi-modal Diffusion Mamba）という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #Transformer #Self-SupervisedLearning #ICCV #Scalability Issue Date: 2025-10-20 [Paper Note] Scaling Language-Free Visual Representation Learning, David Fan+, ICCV'25, 2025.04 GPT Summary- 視覚的自己教師あり学習（SSL）は、CLIPに比べて視覚的質問応答（VQA）でのパフォーマンスが劣るが、同じデータセットで訓練することで、視覚的SSLモデルがCLIPモデルよりもスケールが良いことを示した。視覚的SSLは、VQAや従来の視覚ベンチマークでCLIPレベルのパフォーマンスを達成できる可能性がある。これにより、視覚中心の表現学習に新たな機会が開かれる。 Comment

pj page: https://davidfan.io/webssl/

元ポスト:

Loading…

#Pretraining #Pocket #DiffusionModel #Self-SupervisedLearning Issue Date: 2025-10-20 [Paper Note] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training, Jiachen Lei+, arXiv'25, 2025.10 GPT Summary- 新しい二段階トレーニングフレームワークを提案し、ピクセル空間生成モデルの性能と効率のギャップを埋める。第一段階で意味のあるセマンティクスをキャプチャし、第二段階でエンコーダとデコーダを統合してファインチューニング。ImageNetデータセットで優れた性能を示し、特に拡散モデルは従来手法を大きく上回り、一貫性モデルは高解像度画像での直接トレーニングに成功。 Comment

元ポスト:

Loading…

#ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel #WorldModels Issue Date: 2025-10-19 VAGEN Reinforcing World Model Reasoning for Multi-Turn VLM Agents, Wang+, NeurIPS'25 Comment

元ポスト:

Loading…

#Pretraining #Pocket #VisionLanguageModel #UMM #Scalability Issue Date: 2025-10-19 [Paper Note] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale, Haiwen Diao+, arXiv'25, 2025.10 GPT Summary- ネイティブなビジョン・ランゲージモデル（VLM）の課題を明確にし、効果的な構築指針を示す。具体的には、ピクセルと単語の整合、ビジョンとランゲージの統合、クロスモーダル特性の具現化を重視。新たに開発したNEOは、390Mの画像-テキスト例で視覚的知覚を効率的に発展させ、コスト効率の高いエコシステムを提供。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #SmallModel #VisionLanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-18 [Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…

#Pocket #Transformer #Attention #ICCV Issue Date: 2025-10-18 [Paper Note] Frequency-Dynamic Attention Modulation for Dense Prediction, Linwei Chen+, ICCV'25, 2025.07 GPT Summary- 本研究では、Vision Transformers（ViTs）の周波数応答を改善するために、Frequency-Dynamic Attention Modulation（FDAM）を提案。FDAMは、注意行列のローパスフィルタを反転させるAttention Inversion（AttInv）と、異なる周波数成分に重み付けを行うFrequency Dynamic Scaling（FreqScale）から成る。これにより、表現の崩壊を回避し、セマンティックセグメンテーションや物体検出などのタスクで一貫した性能向上を実現。リモートセンシング検出でも最先端の結果を達成。コードは公開されている。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Transformer #DiffusionModel #read-later #Selected Papers/Blogs #Backbone Issue Date: 2025-10-14 [Paper Note] Diffusion Transformers with Representation Autoencoders, Boyang Zheng+, arXiv'25, 2025.10 GPT Summary- 本研究では、従来のVAEエンコーダを事前学習された表現エンコーダに置き換えたRepresentation Autoencoders（RAE）を提案。これにより、高品質な再構成と豊かな潜在空間を実現し、拡散トランスフォーマーの性能向上を図る。RAEは、補助的な表現整合損失なしで早い収束を達成し、ImageNetで優れた画像生成結果を示した。RAEは、拡散トランスフォーマーの新しいデフォルトとしての利点を提供する。 Comment

pj page: https://rae-dit.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

#Pocket #SelfImprovement #read-later #Selected Papers/Blogs #VisionLanguageModel #Label-free Issue Date: 2025-10-13 [Paper Note] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play, Qinsi Wang+, arXiv'25, 2025.09 GPT Summary- Vision-Zeroは、視覚と言語のモデル（VLM）の自己改善を促進するドメイン非依存のフレームワークであり、任意の画像ペアから生成された競争的な視覚ゲームを通じてトレーニングを行う。主な特徴は、戦略的自己対戦による自律的なデータ生成、任意の画像からのゲーム生成による多様なドメインでの推論能力向上、そして反復自己対戦ポリシー最適化（Iterative-SPO）による持続的なパフォーマンス向上である。Vision-Zeroはラベルなしデータを用いて最先端のパフォーマンスを達成し、他の注釈ベースの手法を上回る。 Comment

pj page: https://github.com/wangqinsi1/Vision-Zero

元ポスト:

Loading…

とても良さそう

ポイント解説:

Loading…

#MachineLearning #Pocket #ReinforcementLearning #DiffusionModel #FlowMatching Issue Date: 2025-10-10 [Paper Note] DiffusionNFT: Online Diffusion Reinforcement with Forward Process, Kaiwen Zheng+, arXiv'25, 2025.09 GPT Summary- Diffusion Negative-aware FineTuning（DiffusionNFT）は、オンライン強化学習を用いて拡散モデルを最適化する新しい手法で、ポジティブとネガティブな生成を対比させることで強化信号を組み込みます。このアプローチにより、尤度推定が不要になり、クリーンな画像のみでポリシー最適化が可能になります。DiffusionNFTは、FlowGRPOよりも最大25倍効率的で、GenEvalスコアを短期間で大幅に改善し、複数の報酬モデルを活用することでSD3.5-Mediumのパフォーマンスを向上させます。 Comment

元ポスト:

Loading…

ベースライン:
- Introducing Stable Diffusion 3.5, StabilityAI, 2024.10
- [Paper Note] Flow-GRPO: Training Flow Matching Models via Online RL, Jie Liu+, NeurIPS'25, 2025.05
- [Paper Note] Classifier-Free Diffusion Guidance, Jonathan Ho+, arXiv'22, 2022.07

#Pretraining #Pocket #Transformer #Decoder Issue Date: 2025-10-10 [Paper Note] Heptapod: Language Modeling on Visual Signals, Yongxin Zhu+, arXiv'25, 2025.10 GPT Summary- Heptapodは、因果注意を用いた画像自動回帰モデルで、CFGへの依存を排除し、意味トークナイザーのトレンドを避ける。主な革新は、2D分布予測を行う因果Transformerで、画像の2D空間全体にわたる分布を学習する。これにより、生成的トレーニングを通じて画像の意味を捉えることが可能になる。ImageNet生成ベンチマークでFID値2.70を達成し、従来のアプローチを上回る成果を示した。 Comment

元ポスト:

Loading…

#Embeddings #MachineLearning #Pocket #read-later Issue Date: 2025-10-09 [Paper Note] Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density, Randall Balestriero+, arXiv'25, 2025.10 GPT Summary- JEPAは、潜在空間予測と反収束を組み合わせたアーキテクチャで、データ密度を推定する能力を持つ。成功裏に訓練されたJEPAは、データキュレーションや外れ値検出に利用可能で、サンプルの確率を効率的に計算できる。JEPA-SCOREと呼ばれる手法を用いて、さまざまなデータセットや自己教師あり学習手法でその効果が実証されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #Distillation #NeurIPS #FlowMaps Issue Date: 2025-10-09 [Paper Note] How to build a consistency model: Learning flow maps via self-distillation, Nicholas M. Boffi+, arXiv'25, 2025.05 GPT Summary- フローに基づく生成モデルの推論効率を改善するため、フローマップを直接学習するアルゴリズムフレームワークを提案。自己蒸留を通じて教師なしでトレーニング可能な方法を示し、オイラー法、ラグランジュ法、進行法の3つのアルゴリズムファミリーを導入。特に新しいラグランジュ法は、安定したトレーニングと高いパフォーマンスを実現。既存のトレーニングスキームを統一し、生成モデルの設計原則を明らかにする。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #DiffusionModel #Tokenizer #Decoder Issue Date: 2025-10-08 [Paper Note] SSDD: Single-Step Diffusion Decoder for Efficient Image Tokenization, Théophane Vallaeys+, arXiv'25, 2025.10 GPT Summary- 新しいピクセル拡散デコーダアーキテクチャ（SSDD）を提案し、KL-VAEに依存せずに高品質な画像再構成を実現。SSDDは敵対的損失なしで訓練され、再構成FIDを改善し、サンプリング速度を向上させる。これにより、KL-VAEの代替として迅速かつ高品質な生成モデルの構築が可能となる。 Comment

元ポスト:

Loading…

#Pocket #NLP #MultiModal #OpenWeight #OpenSource #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-04 [Paper Note] LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training, Xiang An+, arXiv'25, 2025.09 GPT Summary- LLaVA-OneVision-1.5は、計算コストと財政コストを削減しつつ最先端のパフォーマンスを実現する新しい大規模マルチモーダルモデルです。オープンで効率的なフレームワークを提供し、85Mの事前学習データセットと26Mの指示データセットを含む大規模キュレーションデータセットを構築しました。効率的なトレーニングフレームワークにより、限られた予算内でのトレーニングが可能となり、幅広い下流タスクで競争力のある性能を示しています。特に、LLaVA-OneVision-1.5-8Bは18のベンチマークでQwen2.5-VL-7Bを上回り、4Bモデルは全ての27のベンチマークでQwen2.5-VL-3Bを超えています。今後、LLaVA-OneVision-1.5-RLのリリースも予定されています。 Comment

元ポスト:

Loading…

各種ベンチでQwen2.5-VL超え

pj page: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

ポイント解説:

Loading…

#Embeddings #InformationRetrieval #Pocket #NLP #MultiModal #SmallModel #Encoder Issue Date: 2025-10-03 [Paper Note] ModernVBERT: Towards Smaller Visual Document Retrievers, Paul Teiletche+, arXiv'25, 2025.10 GPT Summary- マルチモーダル埋め込みモデルは文書検索において効率的な代替手段として普及しているが、再利用アプローチが検索性能のボトルネックとなることがある。本研究では、視覚文書検索モデルを改善するための原則的なレシピを確立し、注意マスキングや画像解像度などが性能に影響を与える要因であることを示した。これに基づき、250Mパラメータのコンパクトな視覚-言語エンコーダーModernVBERTを開発し、文書検索タスクで大規模モデルを上回る性能を達成した。モデルとコードは公開されている。 Comment

元ポスト:

Loading…

MIT Licence
HF: https://huggingface.co/ModernVBERT

ポイント解説:

Loading…

#Pocket #ReinforcementLearning #read-later #Off-Policy #WorldModels Issue Date: 2025-10-02 [Paper Note] Training Agents Inside of Scalable World Models, Danijar Hafner+, arXiv'25, 2025.09 GPT Summary- 「Dreamer 4」は、ビデオゲーム「Minecraft」において物体の相互作用を正確に予測し、強化学習を用いて制御タスクを解決するスケーラブルなエージェントです。このワールドモデルは、ショートカット強制目的と効率的なトランスフォーマーアーキテクチャを活用し、リアルタイムのインタラクティブ推論を実現します。さらに、少量のデータから一般的な行動を学習し、オフラインデータのみでダイヤモンドを取得するタスクを成功させました。Dreamer 4は、環境との相互作用なしに学ぶ能力を持つ初のエージェントであり、知能エージェントへの新たな道を示しています。 Comment

解説:

Loading…

#Pocket #ReinforcementLearning #DiffusionModel #GRPO Issue Date: 2025-09-23 [Paper Note] BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models, Yuming Li+, arXiv'25, 2025.09 GPT Summary- BranchGRPOを提案し、ロールアウトプロセスを分岐ツリーに再構築することで、画像および動画生成モデルの効率を向上。共有プレフィックスを用いてコストを分散し、スパースな報酬を密な信号に変換。HPDv2.1で最大16%の整合性向上と55%のトレーニング時間短縮を実現。BranchGRPO-MixはDanceGRPOより4.7倍速くトレーニング。WanX動画生成でも高いVideo-Alignスコアを達成。 Comment

pj page: https://fredreic1849.github.io/BranchGRPO-Webpage/

元ポスト:

Loading…

#Pocket #NLP #VisionLanguageModel #ContextEngineering Issue Date: 2025-09-18 [Paper Note] VisionZip: Longer is Better but Not Necessary in Vision Language Models, Senqiao Yang+, CVPR'25 GPT Summary- VisionZipは、視覚トークンの冗長性を削減し、効率を向上させるための新しい手法であり、画像や動画の理解タスクに適用可能。実験により、従来の手法よりも5%以上の性能向上を達成し、推論速度も大幅に改善。トークンの長さを増やすのではなく、より良い視覚特徴の抽出に焦点を当てることを提案。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #OpenWeight #OpenSource #Encoder #Backbone Issue Date: 2025-09-16 [Paper Note] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning, Yanqing Liu+, arXiv'25 GPT Summary- 本論文では、OpenVisionのアーキテクチャを簡素化し、トレーニング効率を向上させる方法を提案。テキストエンコーダーと対照損失を削除し、キャプショニング損失のみを使用したOpenVision 2を導入。初期結果は、トレーニング時間を約1.5倍短縮し、メモリ使用量を約1.8倍削減することを示し、10億以上のパラメータにスケールアップ可能であることを強調。 Comment

元ポスト:

Loading…

事前学習時にtext, image encoderのcontrastive lossで学習していたが、text encoderを無くしimage encoderに入力されたimageからcaptionを生成するcaption lossのみにすることで性能を落とすことなく効率を改善

#Pocket #ReinforcementLearning #DiffusionModel Issue Date: 2025-09-16 [Paper Note] Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference, Xiangwei Shen+, arXiv'25 GPT Summary- Direct-Align手法を用いて、拡散モデルの計算コストを削減し、元の画像を効果的に復元。さらに、SRPOを導入し、報酬をオンラインで調整することでオフライン依存を減少。これにより、FLUXモデルのリアリズムと美的品質を3倍以上向上。 Comment

pj page: https://tencent.github.io/srpo-project-page/

SRPO (Semantic Relative Preference Optimization)

- [Paper Note] SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM, Xiaojiang Zhang+, arXiv'25

と名称が重複している。

#Pocket #PEFT(Adaptor/LoRA) Issue Date: 2025-09-16 [Paper Note] K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs, Ziheng Ouyang+, arXiv'25 GPT Summary- K-LoRAは、異なるLoRAを効果的に融合し、主題とスタイルを同時に保持する新しいアプローチを提案。各アテンション層でTop-K要素を比較し、最適なLoRAを選択することで、主題とスタイルの特徴をバランスよく統合。実験により、提案手法が従来のトレーニングベースのアプローチを上回ることを示した。 Comment

元ポスト:

Loading…

先行研究:
- [Paper Note] Implicit Style-Content Separation using B-LoRA, Yarden Frenkel+, ECCV'24
- [Paper Note] ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs, Viraj Shah+, N/A, ECCV'24

#Pocket #NLP #Hallucination #SelfImprovement #VisionLanguageModel Issue Date: 2025-08-28 [Paper Note] Self-Rewarding Vision-Language Model via Reasoning Decomposition, Zongxia Li+, arXiv'25 GPT Summary- Vision-Language Models (VLMs)は視覚的幻覚や言語的ショートカットに悩まされることが多い。これらの問題は、ポストトレーニング手法が中間の視覚的推論に対する指導を欠いているために生じる。本研究では、外部の視覚的監視に依存せずに視覚的推論を改善する自己報酬法Vision-SR1を提案。モデルは視覚的知覚と言語的推論を2段階に分解し、自己完結型の視覚的知覚を生成し、その後に言語的推論を行うことで報酬を計算する。実験により、Vision-SR1が視覚的推論を改善し、幻覚を軽減することが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #MultiModal #SpeechProcessing #Reasoning #OpenWeight #VisionLanguageActionModel Issue Date: 2025-08-12 [Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25 GPT Summary- アクション推論モデル（ARMs）であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment

`Action Reasoning Models (ARMs)`

元ポスト:

Loading…

blog: https://allenai.org/blog/molmoact

Dataset (358)

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#ComputerVision #Pocket #NLP #AIAgents #Evaluation #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #VisionLanguageModel
Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #One-Line Notes Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#ComputerVision #Pocket #NLP #Evaluation #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #Evaluation #read-later Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs Issue Date: 2025-11-21 [Paper Note] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser, Ren Ma+, arXiv'25, 2025.11 GPT Summary- ウェブデータの品質向上のため、MinerU-HTMLという新しい抽出パイプラインを提案。これは、言語モデルを用いてコンテンツ抽出をシーケンスラベリング問題として再定義し、意味理解を活用した二段階のフォーマットパイプラインを採用。実験では、MinerU-HTMLが81.8%のROUGE-N F1を達成し、従来の手法よりも構造化要素の保持率が優れていることを示した。AICCという多言語コーパスを構築し、抽出品質がモデルの性能に大きく影響することを確認。MainWebBench、MinerU-HTML、AICCを公開し、HTML抽出の重要性を強調。 Comment

元ポスト:

Loading…

pj page: https://opendatalab.com/ai-ready/AICC

#Pocket #NLP #LanguageModel #Evaluation #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Transformer #Evaluation #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Pocket #NLP #LanguageModel #UserBased #Evaluation #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#MachineLearning #Pocket #NLP #TabularData #Evaluation #Selected Papers/Blogs #Live #One-Line Notes Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#GraphBased #Pocket #NLP #LanguageModel #Evaluation Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #NLP #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #NLP #Search #LanguageModel #Evaluation #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #EMNLP #DPO #Cultural Issue Date: 2025-11-06 [Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment

元ポスト:

Loading…

効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Evaluation #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 [Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

著者ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #UserBased #AIAgents #Evaluation #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-30 [Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, arXiv'25, 2025.10 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

#ComputerVision #Pocket #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

#Pretraining #NLP #LanguageModel #Selected Papers/Blogs #One-Line Notes #German Issue Date: 2025-10-28 [Paper Note] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models, Lukas Gienapp+, arXiv'25, 2025.10 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級（154B)のドイツ語のLLM（事前）学習用データセットらしい

ODC-By Licence

#ComputerVision #Analysis #Pocket #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #ICCV #VisionLanguageModel Issue Date: 2025-10-27 [Paper Note] Kaputt: A Large-Scale Dataset for Visual Defect Detection, Sebastian Höfer+, ICCV'25, 2025.10 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

#Pocket #NLP #LanguageModel #Evaluation #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #NLP #LanguageModel #Evaluation #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Multi #ComputerVision #Pocket #NLP #QuestionAnswering #MultiModal #Conversation #VisionLanguageModel #2D (Image) Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #NLP #Evaluation #VisionLanguageModel #UMM #Pixel-based Issue Date: 2025-10-21 [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01 GPT Summary- 「Perceive Everything as Pixels（PEAP）」の概念を提案し、自然言語や図式的な入力を単一のピクセル空間に統合するベンチマーク「PixelWorld」を公開。PEAPは意味理解タスクで競争力のある精度を示すが、推論が重要なタスクではパフォーマンスが低下。Chain-of-Thoughtプロンプティングがこのギャップを部分的に緩和し、視覚とテキストの統合により前処理の複雑さが軽減されることが確認された。PixelWorldは統一された視覚言語モデルの評価に役立つ。 Comment

元ポスト:

Loading…

#Pocket #Evaluation #CVPR #DocParser #OCR Issue Date: 2025-10-21 [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 #Pocket #Evaluation #SpeechProcessing #Reasoning #AudioLanguageModel #audio Issue Date: 2025-10-21 [Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #Reasoning #Safety Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Embeddings #Analysis #Pocket #NLP #LanguageModel #RepresentationLearning #SyntheticData #ACL #Findings Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#Pocket #NLP #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #NLP #LanguageModel #Evaluation #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #NLP #LanguageModel #Evaluation #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#ComputerVision #EfficiencyImprovement #Pocket #Evaluation #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#Pocket #NLP #LanguageModel #Alignment #Evaluation #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #NLP #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Analysis #Pocket #NLP #LanguageModel #AIAgents #Reasoning #Entropy Issue Date: 2025-10-14 [Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10 GPT Summary- エージェント的強化学習（agentic RL）を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #Evaluation #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #UserBased #Alignment #Evaluation #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #NLP #LanguageModel #ReinforcementLearning #NeurIPS #mid-training #PostTraining #GenerativeVerifier Issue Date: 2025-10-12 [Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05 GPT Summary- 強化学習を用いた新しいトレーニングパラダイム「General-Reasoner」を提案し、LLMの推論能力を向上させる。大規模な高品質データセットを構築し、生成モデルベースの回答検証器を開発。物理学や化学などの多様な分野で評価し、既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/General-Reasoner/

#Pocket #NLP #LanguageModel #ReinforcementLearning #mid-training #PostTraining Issue Date: 2025-10-12 [Paper Note] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels, Zhepeng Cen+, arXiv'25, 2025.10 GPT Summary- Webscale-RLパイプラインを導入し、大規模な事前学習文書から数百万の多様な質問-回答ペアを生成。これにより、120万の例を含むWebscale-RLデータセットを構築。実験結果、RLトレーニングは継続的な事前トレーニングよりも効率的で、パフォーマンスを大幅に向上させることを示した。研究は、RLを事前学習レベルにスケールアップする道筋を示し、より高性能な言語モデルの実現を可能にする。 Comment

元ポスト:

Loading…

Dataset: https://huggingface.co/datasets/Salesforce/Webscale-RL

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Multi #Pocket #NLP #LanguageModel #Evaluation #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Coding #mid-training #COLM #Editing #One-Line Notes Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

#Multi #Pocket #NLP #LanguageModel #ReinforcementLearning #SyntheticData #COLM #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, Anna Goldie+, COLM'25, 2025.04 GPT Summary- 段階的強化学習（SWiRL）を提案し、複数のテキスト生成や推論ステップを通じて大規模言語モデルの性能を向上させる手法を紹介。SWiRLは、各アクションに対するサブ軌道を生成し、合成データフィルタリングと強化学習最適化を適用。実験では、GSM8KやHotPotQAなどのタスクでベースラインを上回る精度を達成し、タスク間での一般化も示された。 Comment

openreview: https://openreview.net/forum?id=oN9STRYQVa

元ポスト:

Loading…

#Pocket #NLP #UserModeling #LanguageModel #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

#Multi #Pocket #NLP #LanguageModel #AIAgents #SyntheticData #MCP Issue Date: 2025-10-04 [Paper Note] TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments, Zhangchen Xu+, arXiv'25, 2025.10 GPT Summary- Toucanは、約500の実世界のモデルコンテキストプロトコルから合成された150万の軌跡を含む、最大の公開ツールエージェントデータセットを提供。多様で現実的なタスクを生成し、マルチツールおよびマルチターンのインタラクションに対応。5つのモデルを用いてツール使用クエリを生成し、厳密な検証を通じて高品質な出力を保証。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークで優れた性能を示し、MCP-Universe Benchでの進展を実現。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/Agent-Ark/Toucan-1.5M

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #NLP #ReinforcementLearning #Evaluation #Conversation #MultiLingual #LLM-as-a-Judge #RewardModel #One-Line Notes Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

#Pocket #NLP #UserModeling #LanguageModel #UserBased #Personalization #Evaluation #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#ComputerVision #EfficiencyImprovement #Pocket #Evaluation #ImageCaptioning #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #QuestionAnswering #AIAgents #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#Pocket #NLP #LanguageModel #Evaluation #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ContextAware #Evaluation #EMNLP #Findings #Personality Issue Date: 2025-09-24 [Paper Note] CAPE: Context-Aware Personality Evaluation Framework for Large Language Models, Jivnesh Sandhan+, EMNLP'25 Findings, 2025.08 GPT Summary- 心理測定テストをLLMsの評価に適用するため、文脈対応パーソナリティ評価（CAPE）フレームワークを提案。従来の孤立した質問アプローチから、会話の履歴を考慮した応答の一貫性を定量化する新指標を導入。実験により、会話履歴が応答の一貫性を高める一方で、パーソナリティの変化も引き起こすことが明らかに。特にGPTモデルは堅牢性を示し、Gemini-1.5-FlashとLlama-8Bは感受性が高い。CAPEをロールプレイングエージェントに適用すると、一貫性が改善され人間の判断と一致することが示された。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #NLP #LanguageModel #Evaluation #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#MachineTranslation #Pretraining #Pocket #NLP #LanguageModel Issue Date: 2025-09-24 [Paper Note] Multilingual Language Model Pretraining using Machine-translated Data, Jiayi Wang+, EMNLP'25, 2025.02 GPT Summary- 高リソース言語の英語から翻訳した高品質なテキストが、多言語LLMsの事前学習に寄与することを発見。英語のデータセットFineWeb-Eduを9言語に翻訳し、17兆トークンのTransWebEduを作成。1.3BパラメータのTransWebLLMを事前学習し、非英語の推論タスクで最先端モデルと同等以上の性能を達成。特に、ドメイン特化データを追加することで、いくつかの言語で新たな最先端を達成。コーパス、モデル、トレーニングパイプラインはオープンソースで公開。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #EMNLP #RewardModel Issue Date: 2025-09-23 [Paper Note] reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs, Zhaofeng Wu+, EMNLP'25, 2025.03 GPT Summary- 報酬モデルはNLPにおいて重要だが、過学習の影響で真の能力が混乱することがある。本研究では、報酬モデルの堅牢性を評価するために**reWordBench**を構築し、入力変換による性能低下を調査。最先端の報酬モデルは小さな変換でも著しい性能低下を示し、脆弱性が明らかになった。堅牢性向上のために同義語に対して類似スコアを割り当てる訓練を提案し、これにより性能低下を約半分に減少させた。さらに、アライメントにおいても高品質な出力を生成し、標準的な報酬モデルに対して最大59%のケースで優れた結果を示した。 Comment

元ポスト:

Loading…

Figure1がRMの過学習の様子を図示しており、非常に端的で分かりやすい。

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #NLP #Evaluation #Reasoning #RewardModel Issue Date: 2025-09-22 [Paper Note] Libra: Assessing and Improving Reward Model by Learning to Think, Meng Zhou+, arXiv'25, 2025.07 GPT Summary- 強化学習（RL）の報酬モデルは、困難な推論シナリオでの性能が低下しており、注釈付き参照回答や制約された出力形式に依存している。これに対処するため、推論指向のベンチマーク「Libra Bench」を提案し、生成的報酬モデルを改善する新しいアプローチを導入。Libra-RMシリーズを開発し、さまざまなベンチマークで最先端の結果を達成。実験結果は、Libra Benchと下流アプリケーションとの相関関係を示し、ラベルのないデータを用いた推論モデルの改善の可能性を示唆している。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Pocket #NLP #MultiModal #NeurIPS #Encoder #SpatialUnderstanding Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder（PE）は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #NLP #Search #LanguageModel #Evaluation #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#NLP #LanguageModel #Evaluation #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #NLP #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Pocket #NLP #LanguageModel #IRT #Evaluation #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #AIAgents #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#ComputerVision #Pocket #Transformer #DiffusionModel #PEFT(Adaptor/LoRA) #Encoder-Decoder #4D (Video) Issue Date: 2025-09-16 [Paper Note] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy, Zhaoxi Chen+, arXiv'25 GPT Summary- 4DNeXは、単一の画像から動的3Dシーンを生成する初のフィードフォワードフレームワークであり、事前学習されたビデオ拡散モデルをファインチューニングすることで効率的な4D生成を実現。大規模データセット4DNeX-10Mを構築し、RGBとXYZシーケンスを統一的にモデル化。実験により、4DNeXは既存手法を上回る効率性と一般化能力を示し、動的シーンの生成的4Dワールドモデルの基盤を提供。 Comment

pj page: https://4dnex.github.io

元ポスト:

Loading…

#Multi #Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining #GRPO #DeepResearch Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #3D (Scene) Issue Date: 2025-09-15 [Paper Note] SpatialVID: A Large-Scale Video Dataset with Spatial Annotations, Jiahao Wang+, arXiv'25 GPT Summary- SpatialVIDデータセットは、21,000時間以上の生動画から生成された2.7百万のクリップを含み、カメラポーズ、深度、動的マスクなどの詳細な3D注釈を提供。これにより、空間知能のモデルの一般化とパフォーマンス向上を促進し、ビデオおよび3Dビジョン研究において重要な資産となる。 Comment

pj page: https://nju-3dv.github.io/projects/SpatialVID/
dataset: https://huggingface.co/datasets/SpatialVID/SpatialVID-HQ

元ポスト:

Loading…

CC-BY-NC-SA 4.0ライセンス

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Pocket #NLP #LanguageModel #Evaluation #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#NLP #LanguageModel #AIAgents #Evaluation #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #NLP #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#Multi #Pocket #NLP #DialogueGeneration #Conversation Issue Date: 2025-09-05 Multi-Relational Multi-Party Chat Corpus: 話者間の関係性に着目したマルチパーティ雑談対話コーパス, 津田+, NLP'25 Comment

コーパス: https://github.com/nu-dialogue/multi-relational-multi-party-chat-corpus

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #AIAgents #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #LanguageModel #Evaluation #SpeechProcessing #read-later #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #MCP Issue Date: 2025-08-30 [Paper Note] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers, Zhenting Wang+, arXiv'25 GPT Summary- MCP-Benchは、ツールの使用や調整、計画/推論を必要とする多段階タスクを評価するためのベンチマークであり、250のツールを持つ28のMCPサーバーにLLMsを接続します。従来のベンチマークとは異なり、相互に連携するツールセットを提供し、複雑なタスクを構築可能にします。タスクは、ツールの取得能力や多段階実行経路の計画能力をテストし、既存のベンチマークでは評価されていない能力を明らかにします。20のLLMに対する実験を通じて、MCP-Benchの課題が示されました。 Comment

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

#Pocket #NLP #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #Reasoning #Mathematics #read-later #Selected Papers/Blogs Issue Date: 2025-08-27 [Paper Note] Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset, Rabeeh Karimi Mahabadi+, arXiv'25 GPT Summary- 新しい数学コーパス「Nemotron-CC-Math」を提案し、LLMの推論能力を向上させるために、科学テキスト抽出のためのパイプラインを使用。従来のデータセットよりも高品質で、方程式やコードの構造を保持しつつ、表記を標準化。Nemotron-CC-Math-4+は、以前のデータセットを大幅に上回り、事前学習によりMATHやMBPP+での性能向上を実現。オープンソースとしてコードとデータセットを公開。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Multi #ComputerVision #Pocket #NLP #LanguageModel #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 [Paper Note] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools, Shaofeng Yin+, arXiv'25 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #MCP Issue Date: 2025-08-22 [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25 GPT Summary- モデルコンテキストプロトコル（MCP）は、LLMを外部データソースに接続する新しい標準であり、MCP-Universeという包括的なベンチマークを導入。これにより、実際のアプリケーションにおけるLLMの評価が可能となる。6つのコアドメインをカバーし、厳密な評価手法を実装。主要なLLMは性能制限を示し、長文コンテキストや未知のツールの課題に直面。UIサポート付きの評価フレームワークをオープンソース化し、MCPエコシステムの革新を促進。 Comment

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #Pocket #NLP #AIAgents #Evaluation #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #QuestionAnswering #SyntheticData #MultiModal #Reasoning #EMNLP #PostTraining #VisionLanguageModel Issue Date: 2025-08-21 [Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #SmallModel #OpenWeight #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model, NVIDIA+, arXiv'25, 2025.08 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #NLP #LanguageModel #Evaluation #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #NLP #LanguageModel #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #EMNLP #PostTraining #Selected Papers/Blogs #VisionLanguageModel #Cultural Issue Date: 2025-08-13 [Paper Note] Grounding Multilingual Multimodal LLMs With Cultural Knowledge, Jean de Dieu Nyandwi+, EMNLP'25 GPT Summary- MLLMsは高リソース環境で優れた性能を示すが、低リソース言語や文化的エンティティに対しては課題がある。これに対処するため、Wikidataを活用し、文化的に重要なエンティティを表す画像を用いた多言語視覚質問応答データセット「CulturalGround」を生成。CulturalPangeaというオープンソースのMLLMを訓練し、文化に基づいたアプローチがMLLMsの文化的ギャップを縮小することを示した。CulturalPangeaは、従来のモデルを平均5.0ポイント上回る性能を達成。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-08-12 [Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

#Pocket #NLP #LanguageModel #Evaluation #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#ComputerVision #Pocket #NLP #MultiLingual #CLIP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-07-30 [Paper Note] MetaCLIP 2: A Worldwide Scaling Recipe, Yung-Sung Chuang+, NeurIPS'25 Spotlight GPT Summary- MetaCLIP 2を提案し、CLIPをゼロから訓練するための新しいアプローチを示す。英語と非英語データの相互利益を得るための最小限の変更を加え、ゼロショットのImageNet分類で英語専用モデルを上回る性能を達成。多言語ベンチマークでも新たな最先端を記録。 Comment

元ポスト:

Loading…

マルチリンガルなCLIP

openreview: https://openreview.net/forum?id=aYRNINhNGV&referrer=%5Bthe%20profile%20of%20Saining%20Xie%5D(%2Fprofile%3Fid%3D~Saining_Xie2)

HF: https://huggingface.co/facebook/metaclip-2-mt5-worldwide-b32

#Survey #Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#Analysis #MachineLearning #Pocket #ICLR #Robotics #EmbodiedAI Issue Date: 2025-07-19 [Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

#EfficiencyImprovement #Pocket #NLP #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-07-18 [Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #LanguageModel #SyntheticData #Coding #Mathematics #mid-training #COLM Issue Date: 2025-07-10 [Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics Issue Date: 2025-07-09 [Paper Note] CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization, Zhongyuan Peng+, arXiv'25 GPT Summary- 自然言語の数学的表現を実行可能なコードに翻訳する課題に対し、批評者の役割を能動的な学習コンポーネントに変えるCriticLeanという新しい強化学習フレームワークを提案。CriticLeanGPTを用いて形式化の意味的忠実性を評価し、CriticLeanBenchでその能力を測定。285K以上の問題を含むFineLeanCorpusデータセットを構築し、批評段階の最適化が信頼性のある形式化に重要であることを示す。 Comment

元ポスト:

Loading…

Lean 4 形式に

#ComputerVision #Embeddings #Pocket #NLP #Evaluation #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#Pocket #NLP #LanguageModel #Alignment #Supervised-FineTuning (SFT) #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 [Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25 GPT Summary- マルチモーダルインコンテキスト学習（ICL）は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #MultiLingual #COLM #Selected Papers/Blogs Issue Date: 2025-06-28 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment

元ポスト:

Loading…

v1
- The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24

abstを見る限りFinewebを多言語に拡張した模様

openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion

#Pocket #NLP #LanguageModel #Alignment #Safety #Japanese #PostTraining Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/

#Pretraining #Pocket #NLP #LanguageModel #SyntheticData #COLM Issue Date: 2025-06-25 [Paper Note] Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, COLM'25 GPT Summary- スケーリング法則に基づき、低品質なウェブデータを再利用する手法「REWIRE」を提案。これにより、事前学習データの合成表現を増やし、フィルタリングされたデータのみでのトレーニングと比較して、22のタスクで性能を向上。生データと合成データの混合が効果的であることを示し、ウェブテキストのリサイクルが事前学習データのスケーリングに有効であることを示唆。 Comment

元ポスト:
-

Loading…

学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

data: https://huggingface.co/datasets/facebook/recycling_the_web

#ComputerVision #Pocket #VideoGeneration/Understandings Issue Date: 2025-06-23 [Paper Note] Sekai: A Video Dataset towards World Exploration, Zhen Li+, arXiv'25 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain Issue Date: 2025-06-22 [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #FactualKnowledge Issue Date: 2025-06-17 [Paper Note] What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv'25 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#Pocket #NLP #AIAgents #Evaluation #Coding #LongSequence #NeurIPS Issue Date: 2025-06-17 [Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

関連ポスト:

Loading…

NeurIPSにaccept:

Loading…

#InformationRetrieval #Pocket #NLP #Search #LanguageModel Issue Date: 2025-06-08 [Paper Note] Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv'25 GPT Summary- 検索強化型LLMsに関する「Search Arena」という大規模な人間の好みデータセットを紹介。24,000以上のマルチターンユーザーインタラクションを含み、ユーザーの好みが引用数や引用元に影響されることを明らかにした。特に、コミュニティ主導の情報源が好まれる傾向があり、静的な情報源は必ずしも信頼されない。検索強化型LLMsの性能を評価した結果、非検索設定でのパフォーマンス向上が確認されたが、検索設定ではパラメトリック知識に依存すると品質が低下することが分かった。このデータセットはオープンソースとして提供されている。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #SyntheticData #Reasoning Issue Date: 2025-06-06 [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv'25 GPT Summary- SynLogicは、35の論理的推論タスクを網羅したデータ合成フレームワークで、強化学習（RL）による大規模言語モデル（LLMs）の推論能力向上を目指す。調整可能な難易度で生成されたデータは検証可能で、RLに適している。実験では、SynLogicが最先端の論理的推論性能を達成し、数学やコーディングタスクとの混合によりトレーニング効率が向上することが示された。SynLogicはLLMsの推論能力向上に貴重なリソースとなる。 Comment

元ポスト:

Loading…

Logical Reasoningが重要なタスクを扱う際はこのデータを活用することを検討してみても良いかもしれない

#Pocket #NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #ACL #Selected Papers/Blogs Issue Date: 2025-05-10 Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 GPT Summary- FineWeb-EduとDCLMは、モデルベースのフィルタリングによりデータの90%を削除し、トレーニングに適さなくなった。著者は、アンサンブル分類器や合成データの言い換えを用いて、精度とデータ量のトレードオフを改善する手法を提案。1Tトークンで8Bパラメータモデルをトレーニングし、DCLMに対してMMLUを5.6ポイント向上させた。新しい6.3Tトークンデータセットは、DCLMと同等の性能を持ちながら、4倍のユニークなトークンを含み、長トークンホライズンでのトレーニングを可能にする。15Tトークンのためにトレーニングされた8Bモデルは、Llama 3.1の8Bモデルを上回る性能を示した。データセットは公開されている。 #Pocket #NLP #LanguageModel #Coding #Mathematics #read-later Issue Date: 2025-05-08 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#Pocket #NLP #LanguageModel #AIAgents #ICML #SoftwareEngineering Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment

#Pocket #NLP #LanguageModel #LongSequence #ContextEngineering Issue Date: 2025-03-20 Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation, Junhao Zhang+, arXiv'25 GPT Summary- 長い入力と出力の生成に特化したLongInOutBenchを導入し、既存手法の「中間での喪失」問題に対処。Retrieval-Augmented Long-Text Writer（RAL-Writer）を開発し、重要なコンテンツを再表現することで性能を向上。提案手法の有効性をベースラインと比較して示す。 Comment

Lost in the Middleに関する研究。

#NLP #LanguageModel #QuestionAnswering Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv'25 GPT Summary- SuperGPQAを提案し、285の専門分野におけるLLMsの知識と推論能力を評価する新しいベンチマークを構築。Human-LLM協調フィルタリングを用いて、トリビアルな質問を排除。実験結果は、最先端のLLMsに改善の余地があることを示し、人工一般知能とのギャップを強調。大規模なアノテーションプロセスから得た洞察は、今後の研究に対する方法論的ガイダンスを提供。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #SyntheticData #Reasoning #Distillation Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv'25 GPT Summary- 多様で高品質な推論質問を生成するためのスケーラブルなアプローチを提案し、280万の質問からなるNaturalReasoningデータセットを構築。知識蒸留実験により、強力な教師モデルが推論能力を引き出せることを実証し、教師なし自己学習にも効果的であることを示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#ComputerVision #Pocket #NLP #Supervised-FineTuning (SFT) #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。 #InformationRetrieval #NLP #AIAgents #Evaluation #RAG(RetrievalAugmentedGeneration) #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#NLP #LanguageModel #Alignment #OpenWeight #ICLR Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, （ICLR'25）, 2024.10 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様

openreview: https://openreview.net/forum?id=MnfHxPP5gs

#Pocket #NLP #LanguageModel #Evaluation #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#ComputerVision #Pocket #NLP #Evaluation #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Pocket #NLP #LanguageModel #Evaluation #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #NLP #LanguageModel #Evaluation #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #NLP #LanguageModel #SyntheticData #Evaluation #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#ComputerVision #Pocket #NLP #QuestionAnswering #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #ComputerVision #Pocket #NLP #InstructionTuning #Evaluation #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #NLP #LanguageModel #Evaluation #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #NLP #LanguageModel #QuestionAnswering #Evaluation #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #NLP #LanguageModel #Evaluation #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #NLP #LanguageModel #Evaluation #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #ComputerVision #Pocket #NLP #Evaluation #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Pocket #NLP #LanguageModel #Evaluation #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

#ComputerVision #Analysis #Pocket #NLP #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 [Paper Note] Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic, Sachin Goyal+, CVPR'24 GPT Summary- 視覚と言語のモデル（VLMs）のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ（QQT）に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Japanese #read-later #VisionLanguageModel Issue Date: 2025-07-16 [Paper Note] Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese, Yuichi Inoue+, arXiv'24 GPT Summary- 日本語に特化したVision Language Models (VLM)の評価のために、新しいベンチマーク「Japanese Heron-Bench」を提案。日本の文脈に基づく画像-質問応答ペアを用いて、日本語VLMの能力を測定。提案されたVLMの強みと限界を明らかにし、強力なクローズドモデルとの能力ギャップを示す。今後の日本語VLM研究の発展を促進するため、データセットと訓練コードを公開。 Comment

解説: https://zenn.dev/turing_motors/articles/8e913f46374ede

#ComputerVision #Pocket #NLP #Evaluation #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

#Pretraining #Pocket #NLP #LanguageModel #Coding Issue Date: 2025-07-13 [Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 GPT Summary- BigCodeプロジェクトは、責任あるCode LLMsの開発に焦点を当て、StarCoder2を発表。Software Heritageと提携し、The Stack v2を構築し、619のプログラミング言語を含む大規模なトレーニングセットを作成。StarCoder2モデルは3B、7B、15Bのパラメータを持ち、徹底的なベンチマーク評価で優れた性能を示す。特にStarCoder2-15Bは、同等の他モデルを大幅に上回り、数学やコード推論でも高い性能を発揮。モデルの重みはOpenRAILライセンスで公開され、トレーニングデータの透明性も確保。 Comment

関連:
- StarCoderBase/StarCoder, 2023

#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Selected Papers/Blogs #PRM Issue Date: 2025-06-26 [Paper Note] Let's Verify Step by Step, Hunter Lightman+, ICLR'24 GPT Summary- 大規模言語モデルの多段階推論能力が向上する中、論理的誤りが依然として問題である。信頼性の高いモデルを訓練するためには、結果監視とプロセス監視の比較が重要である。独自の調査により、プロセス監視がMATHデータセットの問題解決において結果監視を上回ることを発見し、78%の問題を解決した。また、アクティブラーニングがプロセス監視の効果を向上させることも示した。関連研究のために、80万の人間フィードバックラベルからなるデータセットPRM800Kを公開した。 Comment

OpenReview: https://openreview.net/forum?id=v8L0pN6EOi

PRM800K: https://github.com/openai/prm800k/tree/main

#Pocket #NLP #LanguageModel #ReinforcementLearning #Evaluation Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #NLP #LanguageModel #Alignment #InstructionTuning #ICML #PostTraining Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。 #NLP #Japanese #read-later #Trustfulness Issue Date: 2025-05-10 日本語TrustfulQAの構築, 中村+, NLP'24 #Pretraining #Pocket #NLP #LanguageModel Issue Date: 2025-05-10 DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv'24 GPT Summary- DataComp for Language Models（DCLM）を紹介し、240Tトークンのコーパスと53の評価スイートを提供。DCLMでは、モデルスケール412Mから7Bパラメータのデータキュレーション戦略を実験可能。DCLM-Baselineは2.6Tトークンでトレーニングし、MMLUで64%の精度を達成し、従来のMAP-Neoより6.6ポイント改善。計算リソースも40%削減。結果はデータセット設計の重要性を示し、今後の研究の基盤を提供。 #EfficiencyImprovement #Pretraining #Pocket #NLP #LanguageModel #NeurIPS #Selected Papers/Blogs Issue Date: 2025-05-10 The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24 GPT Summary- 本研究では、15兆トークンからなるFineWebデータセットを紹介し、LLMの性能向上に寄与することを示します。FineWebは高品質な事前学習データセットのキュレーション方法を文書化し、重複排除やフィルタリング戦略を詳細に調査しています。また、FineWebから派生した1.3兆トークンのFineWeb-Eduを用いたLLMは、MMLUやARCなどのベンチマークで優れた性能を発揮します。データセット、コードベース、モデルは公開されています。 Comment

日本語解説: https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9

openreview: https://openreview.net/forum?id=n6SCkn2QaG#discussion

#Pocket #NLP #LanguageModel #EMNLP #KnowledgeEditing #read-later Issue Date: 2025-05-07 Editing Large Language Models: Problems, Methods, and Opportunities, Yunzhi Yao+, EMNLP'24 GPT Summary- LLMの編集技術の進展を探求し、特定のドメインでの効率的な動作変更と他の入力への影響を最小限に抑える方法を論じる。モデル編集のタスク定義や課題を包括的にまとめ、先進的な手法の実証分析を行う。また、新しいベンチマークデータセットを構築し、評価の向上と持続的な問題の特定を目指す。最終的に、編集技術の効果に関する洞察を提供し、適切な方法選択を支援する。コードとデータセットは公開されている。 #Tools #Pocket #NLP #LanguageModel #API #NeurIPS Issue Date: 2025-04-08 Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS'24 GPT Summary- Gorillaは、API呼び出しの生成においてGPT-4を上回るLLaMAベースのモデルであり、文書検索システムと組み合わせることで、テスト時の文書変更に適応し、ユーザーの柔軟な更新を可能にします。幻覚の問題を軽減し、APIをより正確に使用する能力を示します。Gorillaの評価には新たに導入したデータセット「APIBench」を使用し、信頼性と適用性の向上を実現しています。 Comment

APIBench: https://huggingface.co/datasets/gorilla-llm/APIBench

OpenReview: https://openreview.net/forum?id=tBRNC6YemY

#Pocket #NLP #LanguageModel #AIAgents #ICLR Issue Date: 2025-04-02 WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24 GPT Summary- 生成AIの進展により、自律エージェントが自然言語コマンドで日常タスクを管理する可能性が生まれたが、現行のエージェントは簡略化された環境でのテストに限られている。本研究では、ウェブ上でタスクを実行するエージェントのための現実的な環境を構築し、eコマースやソーシャルフォーラムなどのドメインを含む完全なウェブサイトを提供する。この環境を基に、タスクの正確性を評価するベンチマークを公開し、実験を通じてGPT-4ベースのエージェントの成功率が14.41%であり、人間の78.24%には及ばないことを示した。これにより、実生活のタスクにおけるエージェントのさらなる開発の必要性が強調される。 Comment

Webにおけるさまざまなrealisticなタスクを評価するためのベンチマーク

実際のexample。スタート地点からピッツバーグのmuseumを巡る最短の経路を見つけるといった複雑なタスクが含まれる。

人間とGPT4,GPT-3.5の比較結果

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#Pocket #Financial #ACL Issue Date: 2025-01-06 FinTextQA: A Dataset for Long-form Financial Question Answering, Jian Chen+, ACL'24 GPT Summary- 金融における質問応答システムの評価には多様なデータセットが必要だが、既存のものは不足している。本研究では、金融の長文質問応答用データセットFinTextQAを提案し、1,262の高品質QAペアを収集した。また、RAGベースのLFQAシステムを開発し、様々な評価手法で性能を検証した結果、Baichuan2-7BがGPT-3.5-turboに近い精度を示し、最も効果的なシステム構成が特定された。文脈の長さが閾値を超えると、ノイズに対する耐性が向上することも確認された。 Comment

@AkihikoWatanabe Do you have this dataset, please share it with me. Thank you.

@thangmaster37 Thank you for your comment and I'm sorry for the late replying. Unfortunately, I do not have this dataset. I checked the link provided in the paper, but it was not found. Please try contacting the authors. Thank you.

@thangmaster37 I found that the dataset is available in the following repository. However, as stated in the repository's README, It seems that the textbook portion of the dataset cannot be shared because their legal department has not granted permission to open source. Thank you.

https://github.com/AlexJJJChen/FinTextQA

回答の長さが既存データセットと比較して長いFinancialに関するQAデータセット（1 paragraph程度）。
![Image](https://github.com/user-attachments/assets/fcb9273b-ded6-4ab4-a3c4-92bf971002b3)
![Image](https://github.com/user-attachments/assets/ba2b8d46-236d-43bc-8c3f-852b2d621171)

ただし、上述の通りデータセットのうちtextbookについて公開の許可が降りなかったようで、regulation and policy-relatedな部分のみ利用できる模様（全体の20%程度）。
![Image](https://github.com/user-attachments/assets/d5d0a3ce-58b3-4001-a870-a30c1e308c1b)

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Embeddings #Pocket #RepresentationLearning #STS (SemanticTextualSimilarity) #ACL Issue Date: 2025-01-06 Linguistically Conditioned Semantic Textual Similarity, Jingxuan Tu+, ACL'24 GPT Summary- 条件付きSTS（C-STS）は文の意味的類似性を測定するNLPタスクであるが、既存のデータセットには評価を妨げる問題が多い。本研究では、C-STSの検証セットを再アノテーションし、アノテーター間の不一致を55%観察。QAタスク設定を活用し、アノテーションエラーを80%以上のF1スコアで特定する自動エラー識別パイプラインを提案。また、モデル訓練によりC-STSデータのベースライン性能を向上させる新手法を示し、エンティティタイプの型特徴構造（TFS）を用いた条件付きアノテーションの可能性についても議論する。 #Pocket #NLP #AIAgents #SyntheticData #Evaluation #SyntheticDataGeneration Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #AIAgents #Evaluation Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#RecommenderSystems #Pocket #LanguageModel #SessionBased #Personalization #Evaluation Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。 #ComputerVision #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#NeuralNetwork #NaturalLanguageGeneration #NLP #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#NLP #Factuality #Conversation Issue Date: 2024-12-05 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析, rryohei Kamei+, NLP'24, 2024.03 #Multi #Pocket #NLP #LanguageModel #Evaluation #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

#NLP #AES(AutomatedEssayScoring) #Japanese Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL'24, 2024.03 GPT Summary- 第二言語学習の文翻訳演習の自動評価タスクを提案し、評価基準に基づいて学生の回答を採点する。日本語と英語の間で3,498の学生の回答を含むデータセットを作成。ファインチューニングされたBERTモデルは約90%のF1スコアで正しい回答を分類するが、誤った回答は80%未満。少数ショット学習を用いたGPT-3.5はBERTより劣る結果を示し、提案タスクが大規模言語モデルにとっても難しいことを示す。 Comment

#ComputerVision #Pocket Issue Date: 2024-09-30 COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark, Koki Maeda+, N_A, ECCV'24 GPT Summary- 手続き的なビデオ理解のために、COM Kitchensという新しいデータセットを提案。これは、参加者がレシピに基づいて食材を準備する様子を上方視点で撮影した編集されていないビデオで構成されている。多様なデータ収集のためにスマートフォンを使用し、オンラインレシピ検索（OnRR）と密なビデオキャプショニング（DVC-OV）という新しいタスクを提案。実験により、既存のウェブビデオベースの手法の能力と限界を検証。 Comment

とてもおもしろそう！

#ComputerVision #Pocket #NLP #LanguageModel Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv'24 GPT Summary- 視覚と言語のモデル（VLM）の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #QuestionAnswering #COLM Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 GPT Summary- 私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment

該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。
元ツイート:

Loading…

OpenReview: https://openreview.net/forum?id=Ti67584b98

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #LanguageModel #Evaluation #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #NLP #PersonalizedGeneration #ACL Issue Date: 2023-04-26 LaMP: When Large Language Models Meet Personalization, Selemi+, University of Massachusetts Amherst （w_ Google Research）, ACL'24 Comment

LaMPの作成に利用したテンプレート一覧

実装とleaderboard

https://lamp-benchmark.github.io/leaderboard

#Pocket #NLP #LanguageModel #Zero/Few/ManyShotPrompting #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #ComputerVision #Pocket #NLP #Evaluation #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#Survey #MachineLearning #Pocket #Distillation Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23 GPT Summary- データセット蒸留（DD）は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。 Comment

訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。

#Survey #Pocket #NLP #Distillation Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv'23 GPT Summary- 深層学習の普及に伴い、大規模データセットの訓練が高コストで持続可能性に課題をもたらしている。データ蒸留アプローチは、元のデータセットの効果的な代替品を提供し、モデル訓練や推論に役立つ。本研究では、データ蒸留のフレームワークを提示し、既存のアプローチを分類。画像やグラフ、レコメンダーシステムなどの異なるデータモダリティにおける課題と今後の研究方向性を示す。 #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv'23 GPT Summary- GPT-4を用いて指示に従うデータを生成し、LLMのファインチューニングを行う初の試みを報告。生成された52Kの指示データは、従来のモデルよりも新しいタスクに対して優れたゼロショット性能を示した。GPT-4からのフィードバックと比較データも収集し、データとコードベースを公開。 Comment

#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Annotation Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#InformationRetrieval #Pocket #MultiModal Issue Date: 2023-12-01 UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N_A, arXiv'23 GPT Summary- 従来の情報検索モデルは一様な形式を前提としているため、異なる情報検索の要求に対応できない。そこで、UniIRという統一された指示に基づくマルチモーダルリトリーバーを提案する。UniIRは異なるリトリーバルタスクを処理できるように設計され、10のマルチモーダルIRデータセットでトレーニングされる。実験結果はUniIRの汎化能力を示し、M-BEIRというマルチモーダルリトリーバルベンチマークも構築された。 Comment

後で読む（画像は元ツイートより

元ツイート:

Loading…

#Pocket #NLP #LanguageModel #QuestionAnswering #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #NLP #LanguageModel #InstructionTuning #Evaluation #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #NLP #LanguageModel #Alignment #Conversation Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment

# Overview

# RoleBench

#MachineLearning #Pocket #NLP #LanguageModel #AIAgents #Evaluation #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #NLP #LanguageModel #InstructionTuning #NumericReasoning #Mathematics Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

#Pocket #NLP #LanguageModel #StructuredData Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 Comment

#EfficiencyImprovement #MachineLearning #Pocket #NLP #QuestionAnswering #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

#Pocket #NLP #LanguageModel #AIAgents #Evaluation Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

#Pocket #NLP #LanguageModel #InstructionTuning Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv'23 GPT Summary- 私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment

人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。
これにより高品質なinstruction following LLMの構築が可能

手法概要

参考:

Loading…

指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。

#NLP #SpeechProcessing Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 Comment

https://prtimes.jp/main/html/rd/p/000000003.000102162.html

超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

ワンセグのデータにから生成

ライブラリ:

Loading…

#NLP #LanguageModel #Evaluation Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

#ComputerVision #NaturalLanguageGeneration #NLP #Evaluation Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket #NLP #LanguageModel #Evaluation Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#DocumentSummarization #Metrics #NLP #Evaluation Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #Pocket #NLP #LanguageModel #Coding Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA'23 GPT Summary- 本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #NLP #GrammaticalErrorCorrection Issue Date: 2023-07-18 Enhancing Grammatical Error Correction Systems with Explanations, ACL'23 GPT Summary- 文法エラー修正システムの性能向上のために、エビデンスワードと文法エラータイプが注釈付けされた大規模なデータセットであるEXPECTを紹介する。このデータセットを使用して、説明可能なGECシステムのベースラインと分析を提案し、人間の評価によってその有用性を確認する。 #DocumentSummarization #NaturalLanguageGeneration #NLP #Conversation Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL'23 GPT Summary- 会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #DocumentSummarization #NaturalLanguageGeneration #Controllable #NLP #Factuality Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL'23 GPT Summary- 本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #ComputerVision #NLP #Personalization #MultiModal #Conversation Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL'23 GPT Summary- 本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #NLP #InstructionTuning Issue Date: 2023-07-13 Unnatural Instructions: Tuning Language Models with （Almost） No Human Labor, ACL'23 GPT Summary- 本研究では、人間の監督を必要としない方法で収集された大規模なデータセット「Unnatural Instructions」を紹介します。このデータセットを使用して、言語モデルのトレーニングを行い、既存のモデルを上回る性能を実現しました。これにより、クラウドソーシングに頼らずにデータセットを拡張し、多様性を持たせることができることが示されました。 #NLP #LanguageModel #TheoryOfMind #Evaluation Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

#Pocket #NLP #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #NLP #LanguageModel #Evaluation #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

#NLP #LanguageModel #AIAgents #Evaluation #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#Pocket #NLP #LanguageModel #Evaluation Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #NLP #LanguageModel #Evaluation Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #InformationRetrieval #Pocket #NLP #Search #Evaluation #ACL Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, ACL'23 GPT Summary- QUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。 #NLP #Evaluation #Hallucination Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv'23 GPT Summary- 自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 Comment

#Pocket #LanguageModel #Evaluation #EMNLP #Ambiguity Issue Date: 2023-04-28 We're Afraid Language Models Aren't Modeling Ambiguity, Alisa Liu+, EMNLP'23 GPT Summary- 曖昧さは自然言語の重要な特徴であり、言語モデル（LM）が対話や執筆支援において成功するためには、曖昧な言語を扱うことが不可欠です。本研究では、曖昧さの影響を評価するために、1,645の例からなるベンチマーク「AmbiEnt」を収集し、事前学習済みLMの評価を行いました。特にGPT-4の曖昧さ解消の正答率は32%と低く、曖昧さの解消が難しいことが示されました。また、多ラベルのNLIモデルが曖昧さによる誤解を特定できることを示し、NLPにおける曖昧さの重要性を再認識する必要性を提唱しています。 Comment

LLMが曖昧性をどれだけ認知できるかを評価した初めての研究。
言語学者がアノテーションした1,645サンプルの様々な曖昧さを含んだベンチマークデータを利用。
GPT4は32%正解した。
またNLIデータでfinetuningしたモデルでは72.5%のmacroF1値を達成。
応用先として、誤解を招く可能性のある政治的主張に対してアラートをあげることなどを挙げている。

#ComputerVision #Pocket #Evaluation #Robotics #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#Pocket #NeurIPS #KnowledgeEditing Issue Date: 2025-08-26 [Paper Note] Locating and Editing Factual Associations in GPT, Kevin Meng+, NeurIPS'22 GPT Summary- 自回帰型トランスフォーマー言語モデルにおける事実の関連付けの保存と想起を分析し、局所的な計算に対応することを示した。因果介入を用いて事実予測に関与するニューロンを特定し、フィードフォワードモジュールの役割を明らかにした。Rank-One Model Editing（ROME）を用いて特定の事実の関連付けを更新し、他の方法と同等の効果を確認。新しいデータセットに対する評価でも特異性と一般化を両立できることを示した。中間層のフィードフォワードモジュールが事実の関連付けに重要であり、モデル編集の実行可能性を示唆している。 #ComputerVision #Pocket #NLP #MultiModal #CLIP #NeurIPS Issue Date: 2025-05-06 LAION-5B: An open large-scale dataset for training next generation image-text models, Christoph Schuhmann+, NeurIPS'22 GPT Summary- LAION-5Bは、5.85億のCLIPフィルタリングされた画像-テキストペアから成る大規模データセットで、英語のペアが2.32B含まれています。このデータセットは、CLIPやGLIDEなどのモデルの再現とファインチューニングに利用され、マルチモーダルモデルの研究を民主化します。また、データ探索やサブセット生成のためのインターフェースや、コンテンツ検出のためのスコアも提供されます。 #MachineTranslation #Pocket #NLP Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv'22 GPT Summary- 「No Language Left Behind」プロジェクトでは、リソースが乏しい言語の機械翻訳を改善するために、ネイティブスピーカーとのインタビューを通じて必要性を明らかにし、データセットとモデルを開発。新しいデータマイニング技術を用いた条件付き計算モデルを提案し、過学習を防ぐための訓練改善を行った。Flores-200ベンチマークで40,000以上の翻訳方向を評価し、従来技術に対して44%のBLEU改善を達成。全ての成果はオープンソースとして公開。 Comment

low-resourceな言語に対するMTのベンチマーク

#NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Explanation Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv'22 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 Comment

OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6

#NLP #QuestionAnswering Issue Date: 2022-02-07 JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension, So+, arXiv'22 GPT Summary- 日本語の質問応答データセットJaQuADを提案。39,696の質問-回答ペアを含み、テストセットでF1スコア78.92%、EMスコア63.38%を達成。データセットは[こちら](https://github.com/SkelterLabsInc/JaQuAD)から入手可能。 Comment

SQuAD likeな日本語のQAデータセット

https://github.com/SkelterLabsInc/JaQuAD

#Pocket #SpeechProcessing #AutomaticSpeechRecognition(ASR) #One-Line Notes Issue Date: 2025-11-21 [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 GPT Summary- 本論文では、107言語のYouTube動画から自動収集した音声データを用いて音声言語認識を調査。半ランダムな検索フレーズを用いて音声セグメントを抽出し、ポストフィルタリングにより98%の正確なラベル付けを実現。得られたトレーニングセットは6628時間、評価セットは1609の発話から構成され、実験により自動取得データが手動ラベル付けデータと同等の結果を示すことが確認された。このデータセットは公開されている。 Comment

dataset: https://cs.taltech.ee/staff/tanel.alumae/data/voxlingua107/

Whisperでも活用されているLanguage Identifucation用のdataset
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

#ComputerVision #Evaluation #ICCV Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #MachineLearning #Pocket #NLP #ReinforcementLearning #Evaluation #EmbodiedAI #text Issue Date: 2025-10-26 [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#NaturalLanguageGeneration #Pocket #DataToTextGeneration #NAACL Issue Date: 2025-08-30 [Paper Note] DART: Open-Domain Structured Data Record to Text Generation, Linyong Nan+, NAACL'21 GPT Summary- DARTは82,000以上のインスタンスを持つオープンドメインの構造化データからテキスト生成のためのデータセットであり、表形式のデータから意味的トリプルを抽出する手法を提案。ツリーオントロジーアノテーションや質問-回答ペアの変換を活用し、最小限のポストエディティングで異種ソースを統合。DARTは新たな課題を提起し、WebNLG 2017での最先端結果を示すことで、ドメイン外の一般化を促進することを証明。データとコードは公開されている。 #Pocket #NLP #LanguageModel #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #NLP #LanguageModel #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Mathematics #Selected Papers/Blogs #Verification Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 GPT Summary- GSM8Kデータセットを用いて、多段階の数学的推論における言語モデルの限界を分析。検証器を訓練し、候補解を評価して最適解を選択することで、モデルのパフォーマンスを大幅に向上させることを示した。検証はファインチューニングよりもデータ増加に対して効果的にスケールする。 Comment

Todo: 続きをまとめる

#DocumentSummarization #Metrics #Tools #NLP #Evaluation #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#Pocket #NLP #LanguageModel #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#PersonalizedDocumentSummarization #NLP #LanguageModel #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

#PersonalizedDocumentSummarization #NLP #Personalization Issue Date: 2023-04-30 ニュース記事に対する談話構造と興味度のアノテーション～ニュース対話システムのパーソナライズに向けて～, 高津+, 早稲田大学, 言語処理学会'21 Comment

#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #DataToTextGeneration #INLG Issue Date: 2022-08-18 [Paper Note] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan Yermakov+, arXiv'21, 2021.09 GPT Summary- バイオメディカル分野におけるD2T生成の研究を行い、医薬品のパッケージリーフレットを用いた実世界のデータセットに対してファインチューニングされたトランスフォーマーを適用。現実的な複数文のテキスト生成が可能であることを示す一方で、重要な制限も存在。新たにバイオメディカル分野のD2T生成モデルのベンチマーク用データセット（BioLeaflets）を公開。 Comment

biomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。

#DocumentSummarization #Tutorial #NLP #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

#Pocket #NLP #Evaluation #TACL #Grammar Issue Date: 2025-09-07 [Paper Note] BLiMP: The Benchmark of Linguistic Minimal Pairs for English, Alex Warstadt+, TACL'20 GPT Summary- 言語的最小対のベンチマーク（BLiMP）は、言語モデルの文法知識を評価するためのチャレンジセットで、67のサブデータセットから成り、各サブデータセットには特定の文法対比を示す1000の最小対が含まれています。データは専門家によって自動生成され、人間の合意は96.4%です。n-gram、LSTM、Transformerモデルを評価した結果、最先端のモデルは形態論的対比を識別できるが、意味的制約や微妙な文法現象には苦戦していることが示されました。 Comment

#NaturalLanguageGeneration #Pocket #NLP #Evaluation #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

PJ page: https://inklab.usc.edu/CommonGen/

#ComputerVision #Pocket #Evaluation #Robotics #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #NLP #QuestionAnswering #Evaluation #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。 #ComputerVision #Pocket #Evaluation #SIGGRAPH Issue Date: 2025-11-20 [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像（MPI）を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/

#MachineLearning #Pocket #NLP #ReinforcementLearning #Evaluation #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

#Pocket #NLP #QuestionAnswering Issue Date: 2025-08-30 [Paper Note] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, Peter Clark+, arXiv'18 GPT Summary- AI2 Reasoning Challenge（ARC）を提案し、高度な質問応答におけるAI研究を促進することを目的とする。ARCはChallenge SetとEasy Setに分かれ、Challenge Setにはリトリーバルベースのアルゴリズムで不正解とされた質問が含まれる。ARCは最大の公的ドメインセットであり、1400万の科学文を含むコーパスと3つのニューラルベースラインモデルの実装も公開。既存のモデルはランダムベースラインを上回れず、コミュニティへの挑戦としてARCを提起。 Comment

dataset: https://huggingface.co/datasets/allenai/ai2_arc
日本語解説: https://qiita.com/tekunikaruza_jp/items/d2ec3621afc9ba3d225b

#NeuralNetwork #NaturalLanguageGeneration #NLP #DataToTextGeneration #TabularData #ACL #Encoder-Decoder Issue Date: 2025-08-06 Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18 Comment

データセットの日本語解説（過去の自分の資料）: https://speakerdeck.com/akihikowatanabe/data-to-text-datasetmatome-summary-of-data-to-text-datasets?slide=66

#DocumentSummarization #NLP #NAACL Issue Date: 2018-06-29 [Paper Note] Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies, Max+, NAACL'18 Comment

#ComputerVision #Evaluation #TOG Issue Date: 2025-11-20 [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。 #ComputerVision #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。 #ComputerVision #Pocket #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。 #NeuralNetwork #Pocket #InformationExtraction #ReadingComprehension #Zero/FewShotLearning #CoNLL #RelationExtraction Issue Date: 2025-08-26 [Paper Note] Zero-Shot Relation Extraction via Reading Comprehension, Omer Levy+, CoNLL'17 GPT Summary- 関係抽出を自然言語の質問に還元することで、ニューラル読解理解技術を活用し、大規模なトレーニングセットを構築可能にする。これにより、ゼロショット学習も実現。ウィキペディアのスロットフィリングタスクで、既知の関係タイプに対する高精度な一般化と未知の関係タイプへのゼロショット一般化が示されたが、後者の精度は低く、今後の研究の基準を設定。 #Pocket #NLP #QuestionAnswering #Factuality #ReadingComprehension Issue Date: 2025-08-16 [Paper Note] TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension, Mandar Joshi+, ACL'17 GPT Summary- TriviaQAは、650K以上の質問-回答-証拠トリプルを含む読解理解データセットで、95Kの質問-回答ペアと平均6つの証拠文書を提供。複雑な質問や構文的変動があり、文を超えた推論が必要。特徴ベースの分類器と最先端のニューラルネットワークの2つのベースラインアルゴリズムを評価したが、人間のパフォーマンスには及ばず、TriviaQAは今後の研究における重要なテストベッドである。 #NLP #STS (SemanticTextualSimilarity) Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv'17 GPT Summary- 日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Comment

github: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset

単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。

#NLP #Discourse #ICWSM Issue Date: 2018-01-19 [Paper Note] Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM'17, （Reddit Coarse Discourse data） Comment

#ComputerVision #Evaluation #IJCV Issue Date: 2025-11-20 [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16 GPT Summary- 新しいマルチビュー立体視（MVS）データセットを提案し、49または64のカメラ位置から80のシーンを評価。すべての画像は7つの照明条件下で撮影され、正確な構造光スキャンも含まれる。3つの最先端MVSアルゴリズムを適用し、評価プロトコルを拡張。再構築された3Dポイントの品質と物体表面の完全性のトレードオフを観察し、鏡面反射や照明変化の影響は軽微であることを確認。MVSの主要な課題はテクスチャの欠如とメッシングであることが示された。 #Pocket #NLP #QuestionAnswering #ReadingComprehension Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv'16 GPT Summary- NewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 Comment

#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #ConceptToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] Neural Text Generation from Structured Data with Application to the Biography Domain, Remi Lebret+, EMNLP'16, 2016.03 GPT Summary- 大規模なWikipediaの伝記データセットを用いて、テキスト生成のためのニューラルモデルを提案。モデルは条件付きニューラル言語モデルに基づき、固定語彙とサンプル固有の単語を組み合わせるコピーアクションを採用。提案モデルは古典的なKneser-Neyモデルを約15 BLEUポイント上回る性能を示した。 Comment

#Single #DocumentSummarization #NeuralNetwork #Sentence #Document #NLP #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 Comment

CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。

ACL'17のPointer Generator Networkでした。

#Multi #DocumentSummarization #NLP #QueryBiased #Extractive #ACL #Selected Papers/Blogs #Surface-level Note Issue Date: 2017-12-28 [Paper Note] Query-Chain Focused Summarization, Baumel+, ACL'14 Comment

（管理人が作成した過去の紹介資料）
[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)

上記スライドは私が当時作成した論文紹介スライドです。スライド中のスクショは説明のために論文中のものを引用しています。

#ComputerVision #Evaluation #CVPR #CameraPoseEstimation Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。 #ComputerVision #Evaluation #CVPR Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13 GPT Summary- 単一の画像を用いてRGB-Dカメラのポーズを既知の3Dシーンに対して推定する手法を提案。回帰フォレストを使用し、深度とRGBピクセルの比較特徴のみで対応関係を推定。興味点検出器は不要で、堅牢な最適化手法でカメラポーズを推定。事前RANSACにより仮定ポーズを洗練し、様々なシーンで高精度な再局所化を実現し、最先端の手法を大幅に上回る性能を示した。 #ComputerVision #Evaluation #ECCV Issue Date: 2025-11-20 [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。 #ComputerVision #Evaluation #ECCV Issue Date: 2025-11-20 [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12 GPT Summary- 新しい光学フローデータセットを「Sintel」から作成し、長いシーケンスや大きな動き、鏡面反射などの特徴を持つ。既存の光学フローアルゴリズムがこの複雑なデータセットで困難を抱えていることを示し、さらなる研究の必要性を提起。合成データの使用を実際の映像と比較し、類似性を確認。データセットと評価ツールは公開されている。 Comment

dataset: https://www.kaggle.com/datasets/artemmmtry/mpi-sintel-dataset

#ComputerVision #Selected Papers/Blogs #ImageClassification #ObjectRecognition #ObjectLocalization Issue Date: 2025-05-13 ImageNet: A Large-Scale Hierarchical Image Database, Deng+, CVPR'09 #Article #NLP #Education #AIAgents #Evaluation #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Evaluation #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Survey #NLP #LanguageModel #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #Robotics #4D (Video) #EmbodiedAI #One-Line Notes Issue Date: 2025-11-13 Egocentric-10K, Build AI, 2025.11 Comment

元ポスト:

Loading…

工場での主観視点での作業動画の大規模データセット。Apache 2.0!?

#Article #Pretraining #NLP #LanguageModel #SyntheticData #Reasoning #One-Line Notes Issue Date: 2025-11-12 SYNTH: the new data frontier, pleias, 2025.11 Comment

元ポスト:

Loading…

SoTAなReasoning能力を備えたSLMを学習可能な事前学習用合成データ

元ポスト:

Loading…

元ポスト:

Loading…

#Article #ComputerVision #NLP #VisionLanguageModel Issue Date: 2025-10-29 Nemotron-VLM-Dataset-v2, Nvidia, 2025.10 Comment

元ポスト:

Loading…

#Article #Evaluation #SpeechProcessing Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #TabularData #Mathematics #MultiLingual #DataFiltering #One-Line Notes Issue Date: 2025-10-22 FindWiki, Guilherme Penedo, 2025.10 Comment

元ポスト:

Loading…

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #LanguageModel #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Article #NLP #LanguageModel #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Evaluation #Blog #Mathematics Issue Date: 2025-09-24 HMMT. HMMT 2025, 2025.09 Comment

#Article #NLP #MultiLingual #Japanese #Cultural #One-Line Notes Issue Date: 2025-09-24 Nemotron-Personas-Japan: Synthesized Data for Sovereign AI, Nvidia, 2025.09 Comment

dataset: https://huggingface.co/datasets/nvidia/Nemotron-Personas-Japan

元ポスト:

Loading…

アメリカやインドの合成されたペルソナもある:

Loading…

#Article #ComputerVision #NLP #LanguageModel #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #LanguageModel #Evaluation #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #SyntheticData #Blog Issue Date: 2025-09-13 Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+（HuggingFace）, 2024.03 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #LanguageModel #Evaluation #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #Japanese Issue Date: 2025-09-06 FineWeb2 Edu Japanese, Yuichi Tateno, 2025.09 Comment

元ポスト:

Loading…

#Article #ComputerVision #Pretraining #NLP #Blog #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-05 FineVision: Open Data Is All You Need, Wiedmann+, Hugging Face, 2025.09 Comment

HF: https://huggingface.co/datasets/HuggingFaceM4/FineVision

元ポスト:

Loading…

#Article #AIAgents #Evaluation #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #LanguageModel #Supervised-FineTuning (SFT) #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

元ポスト:

Loading…

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

#Article #NLP #LanguageModel #Evaluation Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Verification Issue Date: 2025-07-17 Asymmetry of verification and verifier’s law, Jason Wei, 2025.07 Comment

元ポスト:

Loading…

#Article #TimeSeriesDataProcessing #MachineLearning #Evaluation Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #NLP #LanguageModel #Evaluation #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #LanguageModel #AIAgents #Evaluation #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

元ポスト:

Loading…

既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。

#Article #NLP #LanguageModel #AIAgents Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #NLP #LanguageModel #InstructionTuning Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #ComputerVision #NLP #LanguageModel #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #LanguageModel #Evaluation #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #Survey #NLP #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #InstructionTuning #SyntheticData #PostTraining Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment

元ポスト:

Loading…

Orca-AgenInstruct-1M microsoft/orca-agentinstruct-1M-v1, Microsoft, 2024.11 よりもSmolLMのSFTで各種ベンチで高い性能を獲得

#Article #MachineTranslation #NLP #Zero/Few/ManyShotPrompting Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment

元ポスト:

Loading…

LLM-jp-3 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 の学習に利用されているコーパス

#Article #LanguageModel #Repository Issue Date: 2024-08-30 Firecrawl, 2024.09 Comment

sitemapなしでWebサイト全体をクローリングできるAPI。LLMで利用可能なマークダウンや、構造化データに変換もしてくれる模様。

#Article #Survey #NaturalLanguageGeneration #NLP #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #MachineLearning #SpeechProcessing Issue Date: 2023-08-16 CommonVoice Comment

音声対応のアプリケーションをトレーニングするために誰でも使用できるオープンソースの多言語音声データセット

#Article #NLP #LanguageModel #DialogueGeneration Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

基本的には click/non-click のラベルと、そのclick時の付帯情報によって構成されている模様

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #RecommenderSystems #Tutorial #Tools #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

#Article #RecommenderSystems #Blog Issue Date: 2020-08-29 Open Bandit Dataset, ZOZO RESEARCH, 2020 Comment

Open Bandit pipelineも参照
資料: https://speakerdeck.com/usaito/off-policy-evaluationfalseji-chu-toopen-bandit-dataset-and-pipelinefalseshao-jie

#Article #NeuralNetwork #Tools #NLP #LanguageModel #Library #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

#Article #RecommenderSystems #Selected Papers/Blogs Issue Date: 2019-04-12 Recommender System Datasets, Julian McAuley Comment

#Article #Tutorial #Survey Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

#Article #DocumentSummarization #NLP #Update Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset, 2006.10 Comment

DUC 2007: https://duc.nist.gov/duc2007/tasks.html

LanguageModel (215)

#ComputerVision #Pocket #NLP #Evaluation #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#Pocket #NLP #AIAgents #Evaluation #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#Analysis #Pocket #NLP #Evaluation #read-later
Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #NLP #Evaluation #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pretraining #Pocket #NLP #read-later #Selected Papers/Blogs Issue Date: 2025-11-21 [Paper Note] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser, Ren Ma+, arXiv'25, 2025.11 GPT Summary- ウェブデータの品質向上のため、MinerU-HTMLという新しい抽出パイプラインを提案。これは、言語モデルを用いてコンテンツ抽出をシーケンスラベリング問題として再定義し、意味理解を活用した二段階のフォーマットパイプラインを採用。実験では、MinerU-HTMLが81.8%のROUGE-N F1を達成し、従来の手法よりも構造化要素の保持率が優れていることを示した。AICCという多言語コーパスを構築し、抽出品質がモデルの性能に大きく影響することを確認。MainWebBench、MinerU-HTML、AICCを公開し、HTML抽出の重要性を強調。 Comment

元ポスト:

Loading…

pj page: https://opendatalab.com/ai-ready/AICC

#Pocket #NLP #Evaluation #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Pocket #NLP #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#Pocket #NLP #UserBased #Evaluation #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#GraphBased #Pocket #NLP #Evaluation Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #NLP #Selected Papers/Blogs #DataMixture #PhaseTransition Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #NLP #Search #Evaluation #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #EMNLP #DPO #Cultural Issue Date: 2025-11-06 [Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment

元ポスト:

Loading…

効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。

#ComputerVision #Pocket #NLP #Evaluation #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Evaluation #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#Pocket #NLP #UserBased #AIAgents #Evaluation #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-30 [Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, arXiv'25, 2025.10 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

#Pretraining #NLP #Selected Papers/Blogs #One-Line Notes #German Issue Date: 2025-10-28 [Paper Note] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models, Lukas Gienapp+, arXiv'25, 2025.10 GPT Summary- 「German Commons」は、オープンライセンスのドイツ語テキストの最大コレクションで、41のソースから1545.6億トークンを提供。法律、科学、文化など7つのドメインを含み、品質フィルタリングや重複排除を行い、一貫した品質を確保。すべてのデータは法的遵守を保証し、真にオープンなドイツ語モデルの開発を支援。再現可能で拡張可能なコーパス構築のためのコードも公開。 Comment

HF: https://huggingface.co/datasets/coral-nlp/german-commons

元ポスト:

Loading…

最大級（154B)のドイツ語のLLM（事前）学習用データセットらしい

ODC-By Licence

#Pocket #NLP #Evaluation #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #AIAgents #Evaluation #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #NLP #Evaluation #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Pocket #NLP #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#Pocket #NLP #Alignment #Supervised-FineTuning (SFT) #Reasoning #Safety Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Embeddings #Analysis #Pocket #NLP #RepresentationLearning #SyntheticData #ACL #Findings Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#Pocket #NLP #Evaluation #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #NLP #Evaluation #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#Pocket #NLP #Alignment #Evaluation #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #NLP #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Analysis #Pocket #NLP #AIAgents #Reasoning #Entropy Issue Date: 2025-10-14 [Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10 GPT Summary- エージェント的強化学習（agentic RL）を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #UserBased #Alignment #Evaluation #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #NLP #ReinforcementLearning #NeurIPS #mid-training #PostTraining #GenerativeVerifier Issue Date: 2025-10-12 [Paper Note] General-Reasoner: Advancing LLM Reasoning Across All Domains, Xueguang Ma+, arXiv'25, 2025.05 GPT Summary- 強化学習を用いた新しいトレーニングパラダイム「General-Reasoner」を提案し、LLMの推論能力を向上させる。大規模な高品質データセットを構築し、生成モデルベースの回答検証器を開発。物理学や化学などの多様な分野で評価し、既存手法を上回る性能を示す。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/General-Reasoner/

#Pocket #NLP #ReinforcementLearning #mid-training #PostTraining Issue Date: 2025-10-12 [Paper Note] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels, Zhepeng Cen+, arXiv'25, 2025.10 GPT Summary- Webscale-RLパイプラインを導入し、大規模な事前学習文書から数百万の多様な質問-回答ペアを生成。これにより、120万の例を含むWebscale-RLデータセットを構築。実験結果、RLトレーニングは継続的な事前トレーニングよりも効率的で、パフォーマンスを大幅に向上させることを示した。研究は、RLを事前学習レベルにスケールアップする道筋を示し、より高性能な言語モデルの実現を可能にする。 Comment

元ポスト:

Loading…

Dataset: https://huggingface.co/datasets/Salesforce/Webscale-RL

#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Multi #Pocket #NLP #Evaluation #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #NLP #Coding #mid-training #COLM #Editing #One-Line Notes Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

#Multi #Pocket #NLP #ReinforcementLearning #SyntheticData #COLM #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Synthetic Data Generation & Multi-Step RL for Reasoning & Tool Use, Anna Goldie+, COLM'25, 2025.04 GPT Summary- 段階的強化学習（SWiRL）を提案し、複数のテキスト生成や推論ステップを通じて大規模言語モデルの性能を向上させる手法を紹介。SWiRLは、各アクションに対するサブ軌道を生成し、合成データフィルタリングと強化学習最適化を適用。実験では、GSM8KやHotPotQAなどのタスクでベースラインを上回る精度を達成し、タスク間での一般化も示された。 Comment

openreview: https://openreview.net/forum?id=oN9STRYQVa

元ポスト:

Loading…

#Pocket #NLP #UserModeling #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

#Multi #Pocket #NLP #AIAgents #SyntheticData #MCP Issue Date: 2025-10-04 [Paper Note] TOUCAN: Synthesizing 1.5M Tool-Agentic Data from Real-World MCP Environments, Zhangchen Xu+, arXiv'25, 2025.10 GPT Summary- Toucanは、約500の実世界のモデルコンテキストプロトコルから合成された150万の軌跡を含む、最大の公開ツールエージェントデータセットを提供。多様で現実的なタスクを生成し、マルチツールおよびマルチターンのインタラクションに対応。5つのモデルを用いてツール使用クエリを生成し、厳密な検証を通じて高品質な出力を保証。Toucanでファインチューニングされたモデルは、BFCL V3ベンチマークで優れた性能を示し、MCP-Universe Benchでの進展を実現。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/Agent-Ark/Toucan-1.5M

#ComputerVision #Pocket #NLP #Evaluation #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #NLP #UserModeling #UserBased #Personalization #Evaluation #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#Pocket #NLP #Evaluation #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

#Pocket #ContextAware #Evaluation #EMNLP #Findings #Personality Issue Date: 2025-09-24 [Paper Note] CAPE: Context-Aware Personality Evaluation Framework for Large Language Models, Jivnesh Sandhan+, EMNLP'25 Findings, 2025.08 GPT Summary- 心理測定テストをLLMsの評価に適用するため、文脈対応パーソナリティ評価（CAPE）フレームワークを提案。従来の孤立した質問アプローチから、会話の履歴を考慮した応答の一貫性を定量化する新指標を導入。実験により、会話履歴が応答の一貫性を高める一方で、パーソナリティの変化も引き起こすことが明らかに。特にGPTモデルは堅牢性を示し、Gemini-1.5-FlashとLlama-8Bは感受性が高い。CAPEをロールプレイングエージェントに適用すると、一貫性が改善され人間の判断と一致することが示された。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #NLP #Evaluation #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#MachineTranslation #Pretraining #Pocket #NLP Issue Date: 2025-09-24 [Paper Note] Multilingual Language Model Pretraining using Machine-translated Data, Jiayi Wang+, EMNLP'25, 2025.02 GPT Summary- 高リソース言語の英語から翻訳した高品質なテキストが、多言語LLMsの事前学習に寄与することを発見。英語のデータセットFineWeb-Eduを9言語に翻訳し、17兆トークンのTransWebEduを作成。1.3BパラメータのTransWebLLMを事前学習し、非英語の推論タスクで最先端モデルと同等以上の性能を達成。特に、ドメイン特化データを追加することで、いくつかの言語で新たな最先端を達成。コーパス、モデル、トレーニングパイプラインはオープンソースで公開。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #Evaluation #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #NLP #Search #Evaluation #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#NLP #Evaluation #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Pocket #NLP #AIAgents #Evaluation #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #NLP #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Pocket #NLP #IRT #Evaluation #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #NLP #AIAgents #Evaluation #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Multi #Pocket #NLP #ReinforcementLearning #PostTraining #GRPO #DeepResearch Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Pocket #NLP #Evaluation #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#NLP #AIAgents #Evaluation #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #NLP #AIAgents #Evaluation #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#EfficiencyImprovement #Pocket #NLP #AIAgents #Evaluation #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #Evaluation #SpeechProcessing #read-later #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #NLP #Evaluation #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pretraining #Pocket #NLP #Reasoning #Mathematics #read-later #Selected Papers/Blogs Issue Date: 2025-08-27 [Paper Note] Nemotron-CC-Math: A 133 Billion-Token-Scale High Quality Math Pretraining Dataset, Rabeeh Karimi Mahabadi+, arXiv'25 GPT Summary- 新しい数学コーパス「Nemotron-CC-Math」を提案し、LLMの推論能力を向上させるために、科学テキスト抽出のためのパイプラインを使用。従来のデータセットよりも高品質で、方程式やコードの構造を保持しつつ、表記を標準化。Nemotron-CC-Math-4+は、以前のデータセットを大幅に上回り、事前学習によりMATHやMBPP+での性能向上を実現。オープンソースとしてコードとデータセットを公開。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Multi #ComputerVision #Pocket #NLP #AIAgents #SyntheticData #VisionLanguageModel Issue Date: 2025-08-24 [Paper Note] ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools, Shaofeng Yin+, arXiv'25 GPT Summary- 本研究では、実世界のツール使用能力を向上させるために、23Kのインスタンスからなる大規模マルチモーダルデータセット「ToolVQA」を提案。ToolVQAは、実際の視覚的コンテキストと多段階推論タスクを特徴とし、ToolEngineを用いて人間のようなツール使用推論をシミュレート。7B LFMを微調整した結果、テストセットで優れたパフォーマンスを示し、GPT-3.5-turboを上回る一般化能力を持つことが確認された。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #SmallModel #OpenWeight #SSM (StateSpaceModel) #Selected Papers/Blogs Issue Date: 2025-08-19 [Paper Note] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model, NVIDIA+, arXiv'25, 2025.08 GPT Summary- Nemotron-Nano-9B-v2は、推論スループットを向上させつつ最先端の精度を達成するハイブリッドMamba-Transformerモデルである。自己注意層の一部をMamba-2層に置き換え、長い思考トレースの生成を高速化。12億パラメータのモデルを20兆トークンで事前トレーニングし、Minitron戦略で圧縮・蒸留。既存モデルと比較して、最大6倍の推論スループットを実現し、精度も同等以上。モデルのチェックポイントはHugging Faceで公開予定。 Comment

元ポスト:

Loading…

事前学習に利用されたデータも公開されているとのこと(Nemotron-CC):

Loading…

解説:

Loading…

サマリ:

Loading…

#Pocket #NLP #AIAgents #Evaluation #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #NLP #Evaluation #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #NLP #AIAgents #Evaluation #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #NLP #Evaluation #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #Evaluation #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#Survey #Embeddings #Pocket #NLP #RepresentationLearning #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#Pretraining #Pocket #NLP #SyntheticData #Coding #Mathematics #mid-training #COLM Issue Date: 2025-07-10 [Paper Note] MegaMath: Pushing the Limits of Open Math Corpora, Fan Zhou+, COLM'25 GPT Summary- MegaMathは、数学に特化したオープンデータセットで、LLMの数学的推論能力を向上させるために作成された。ウェブデータの再抽出、数学関連コードの特定、合成データの生成を通じて、371Bトークンの高品質なデータを提供し、既存のデータセットを上回る量と品質を実現した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics Issue Date: 2025-07-09 [Paper Note] CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization, Zhongyuan Peng+, arXiv'25 GPT Summary- 自然言語の数学的表現を実行可能なコードに翻訳する課題に対し、批評者の役割を能動的な学習コンポーネントに変えるCriticLeanという新しい強化学習フレームワークを提案。CriticLeanGPTを用いて形式化の意味的忠実性を評価し、CriticLeanBenchでその能力を測定。285K以上の問題を含むFineLeanCorpusデータセットを構築し、批評段階の最適化が信頼性のある形式化に重要であることを示す。 Comment

元ポスト:

Loading…

Lean 4 形式に

#Pocket #NLP #Alignment #Supervised-FineTuning (SFT) #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning Issue Date: 2025-07-01 [Paper Note] SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv'25 GPT Summary- マルチモーダルインコンテキスト学習（ICL）は医療分野での可能性があるが、十分に探求されていない。SMMILEという医療タスク向けの初のマルチモーダルICLベンチマークを導入し、111の問題を含む。15のMLLMの評価で、医療タスクにおけるICL能力が中程度から低いことが示された。ICLはSMMILEで平均8%、SMMILE++で9.4%の改善をもたらし、無関係な例がパフォーマンスを最大9.5%低下させることも確認。例の順序による最近性バイアスがパフォーマンス向上に寄与することも明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #NLP #MultiLingual #COLM #Selected Papers/Blogs Issue Date: 2025-06-28 [Paper Note] FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, COLM'25 GPT Summary- 多言語LLMsの性能向上のために、FineWebに基づく新しい事前学習データセットキュレーションパイプラインを提案。9つの言語に対して設計選択肢を検証し、非英語コーパスが従来のデータセットよりも高性能なモデルを生成できることを示す。データセットの再バランス手法も導入し、1000以上の言語にスケールアップした20テラバイトの多言語データセットFineWeb2を公開。 Comment

元ポスト:

Loading…

v1
- The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24

abstを見る限りFinewebを多言語に拡張した模様

openreview: https://openreview.net/forum?id=jnRBe6zatP#discussion

#Pocket #NLP #Alignment #Safety #Japanese #PostTraining Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/

#Pretraining #Pocket #NLP #SyntheticData #COLM Issue Date: 2025-06-25 [Paper Note] Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, COLM'25 GPT Summary- スケーリング法則に基づき、低品質なウェブデータを再利用する手法「REWIRE」を提案。これにより、事前学習データの合成表現を増やし、フィルタリングされたデータのみでのトレーニングと比較して、22のタスクで性能を向上。生データと合成データの混合が効果的であることを示し、ウェブテキストのリサイクルが事前学習データのスケーリングに有効であることを示唆。 Comment

元ポスト:
-

Loading…

学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:
- Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23

data: https://huggingface.co/datasets/facebook/recycling_the_web

#Pocket #NLP #ReinforcementLearning #Reasoning #PostTraining #read-later #RLVR #Selected Papers/Blogs #DataMixture #CrossDomain Issue Date: 2025-06-22 [Paper Note] Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv'25 GPT Summary- Guruを導入し、数学、コード、科学、論理、シミュレーション、表形式の6つの推論ドメインにわたる92KのRL推論コーパスを構築。これにより、LLM推論のためのRLの信頼性と効果を向上させ、ドメイン間の変動を観察。特に、事前学習の露出が限られたドメインでは、ドメイン内トレーニングが必要であることを示唆。Guru-7BとGuru-32Bモデルは、最先端の性能を達成し、複雑なタスクにおいてベースモデルの性能を改善。データとコードは公開。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #FactualKnowledge Issue Date: 2025-06-17 [Paper Note] What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv'25 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Evaluation #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#InformationRetrieval #Pocket #NLP #Search Issue Date: 2025-06-08 [Paper Note] Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv'25 GPT Summary- 検索強化型LLMsに関する「Search Arena」という大規模な人間の好みデータセットを紹介。24,000以上のマルチターンユーザーインタラクションを含み、ユーザーの好みが引用数や引用元に影響されることを明らかにした。特に、コミュニティ主導の情報源が好まれる傾向があり、静的な情報源は必ずしも信頼されない。検索強化型LLMsの性能を評価した結果、非検索設定でのパフォーマンス向上が確認されたが、検索設定ではパラメトリック知識に依存すると品質が低下することが分かった。このデータセットはオープンソースとして提供されている。 Comment

元ポスト:

Loading…

#NLP #SyntheticData #Reasoning Issue Date: 2025-06-06 [Paper Note] SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv'25 GPT Summary- SynLogicは、35の論理的推論タスクを網羅したデータ合成フレームワークで、強化学習（RL）による大規模言語モデル（LLMs）の推論能力向上を目指す。調整可能な難易度で生成されたデータは検証可能で、RLに適している。実験では、SynLogicが最先端の論理的推論性能を達成し、数学やコーディングタスクとの混合によりトレーニング効率が向上することが示された。SynLogicはLLMsの推論能力向上に貴重なリソースとなる。 Comment

元ポスト:

Loading…

Logical Reasoningが重要なタスクを扱う際はこのデータを活用することを検討してみても良いかもしれない

#Pocket #NLP #Evaluation #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#Analysis #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pretraining #Pocket #NLP #ACL #Selected Papers/Blogs Issue Date: 2025-05-10 Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, ACL'25 GPT Summary- FineWeb-EduとDCLMは、モデルベースのフィルタリングによりデータの90%を削除し、トレーニングに適さなくなった。著者は、アンサンブル分類器や合成データの言い換えを用いて、精度とデータ量のトレードオフを改善する手法を提案。1Tトークンで8Bパラメータモデルをトレーニングし、DCLMに対してMMLUを5.6ポイント向上させた。新しい6.3Tトークンデータセットは、DCLMと同等の性能を持ちながら、4倍のユニークなトークンを含み、長トークンホライズンでのトレーニングを可能にする。15Tトークンのためにトレーニングされた8Bモデルは、Llama 3.1の8Bモデルを上回る性能を示した。データセットは公開されている。 #Pocket #NLP #Coding #Mathematics #read-later Issue Date: 2025-05-08 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv'25 GPT Summary- 本研究では、公共データを体系的に書き換えることで大規模言語モデル（LLMs）の性能を向上させる2つのオープンライセンスデータセット、SwallowCodeとSwallowMathを紹介。SwallowCodeはPythonスニペットを洗練させる4段階のパイプラインを用い、低品質のコードをアップグレード。SwallowMathはボイラープレートを削除し、解決策を簡潔に再フォーマット。これにより、Llama-3.1-8Bのコード生成能力がHumanEvalで+17.0、GSM8Kで+12.4向上。すべてのデータセットは公開され、再現可能な研究を促進。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #NLP #AIAgents #Evaluation #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#Pocket #NLP #AIAgents #ICML #SoftwareEngineering Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment

#Pocket #NLP #LongSequence #ContextEngineering Issue Date: 2025-03-20 Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation, Junhao Zhang+, arXiv'25 GPT Summary- 長い入力と出力の生成に特化したLongInOutBenchを導入し、既存手法の「中間での喪失」問題に対処。Retrieval-Augmented Long-Text Writer（RAL-Writer）を開発し、重要なコンテンツを再表現することで性能を向上。提案手法の有効性をベースラインと比較して示す。 Comment

Lost in the Middleに関する研究。

#NLP #QuestionAnswering Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv'25 GPT Summary- SuperGPQAを提案し、285の専門分野におけるLLMsの知識と推論能力を評価する新しいベンチマークを構築。Human-LLM協調フィルタリングを用いて、トリビアルな質問を排除。実験結果は、最先端のLLMsに改善の余地があることを示し、人工一般知能とのギャップを強調。大規模なアノテーションプロセスから得た洞察は、今後の研究に対する方法論的ガイダンスを提供。 Comment

元ポスト:

Loading…

#Pocket #NLP #SyntheticData #Reasoning #Distillation Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv'25 GPT Summary- 多様で高品質な推論質問を生成するためのスケーラブルなアプローチを提案し、280万の質問からなるNaturalReasoningデータセットを構築。知識蒸留実験により、強力な教師モデルが推論能力を引き出せることを実証し、教師なし自己学習にも効果的であることを示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#NLP #Alignment #OpenWeight #ICLR Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, （ICLR'25）, 2024.10 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様

openreview: https://openreview.net/forum?id=MnfHxPP5gs

#Pocket #NLP #Evaluation #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#Pocket #NLP #Evaluation #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #NLP #Evaluation #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #NLP #SyntheticData #Evaluation #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#Pocket #NLP #Evaluation #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #NLP #QuestionAnswering #Evaluation #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #NLP #Evaluation #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #NLP #Evaluation #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #Pocket #NLP #Evaluation #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

#Pretraining #Pocket #NLP #Coding Issue Date: 2025-07-13 [Paper Note] StarCoder 2 and The Stack v2: The Next Generation, Anton Lozhkov+, arXiv'24 GPT Summary- BigCodeプロジェクトは、責任あるCode LLMsの開発に焦点を当て、StarCoder2を発表。Software Heritageと提携し、The Stack v2を構築し、619のプログラミング言語を含む大規模なトレーニングセットを作成。StarCoder2モデルは3B、7B、15Bのパラメータを持ち、徹底的なベンチマーク評価で優れた性能を示す。特にStarCoder2-15Bは、同等の他モデルを大幅に上回り、数学やコード推論でも高い性能を発揮。モデルの重みはOpenRAILライセンスで公開され、トレーニングデータの透明性も確保。 Comment

関連:
- StarCoderBase/StarCoder, 2023

#Pocket #NLP #ReinforcementLearning #Reasoning #ICLR #Selected Papers/Blogs #PRM Issue Date: 2025-06-26 [Paper Note] Let's Verify Step by Step, Hunter Lightman+, ICLR'24 GPT Summary- 大規模言語モデルの多段階推論能力が向上する中、論理的誤りが依然として問題である。信頼性の高いモデルを訓練するためには、結果監視とプロセス監視の比較が重要である。独自の調査により、プロセス監視がMATHデータセットの問題解決において結果監視を上回ることを発見し、78%の問題を解決した。また、アクティブラーニングがプロセス監視の効果を向上させることも示した。関連研究のために、80万の人間フィードバックラベルからなるデータセットPRM800Kを公開した。 Comment

OpenReview: https://openreview.net/forum?id=v8L0pN6EOi

PRM800K: https://github.com/openai/prm800k/tree/main

#Pocket #NLP #ReinforcementLearning #Evaluation Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #NLP #Alignment #InstructionTuning #ICML #PostTraining Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。 #Pretraining #Pocket #NLP Issue Date: 2025-05-10 DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv'24 GPT Summary- DataComp for Language Models（DCLM）を紹介し、240Tトークンのコーパスと53の評価スイートを提供。DCLMでは、モデルスケール412Mから7Bパラメータのデータキュレーション戦略を実験可能。DCLM-Baselineは2.6Tトークンでトレーニングし、MMLUで64%の精度を達成し、従来のMAP-Neoより6.6ポイント改善。計算リソースも40%削減。結果はデータセット設計の重要性を示し、今後の研究の基盤を提供。 #EfficiencyImprovement #Pretraining #Pocket #NLP #NeurIPS #Selected Papers/Blogs Issue Date: 2025-05-10 The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, NeurIPS'24 GPT Summary- 本研究では、15兆トークンからなるFineWebデータセットを紹介し、LLMの性能向上に寄与することを示します。FineWebは高品質な事前学習データセットのキュレーション方法を文書化し、重複排除やフィルタリング戦略を詳細に調査しています。また、FineWebから派生した1.3兆トークンのFineWeb-Eduを用いたLLMは、MMLUやARCなどのベンチマークで優れた性能を発揮します。データセット、コードベース、モデルは公開されています。 Comment

日本語解説: https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9

openreview: https://openreview.net/forum?id=n6SCkn2QaG#discussion

#Pocket #NLP #EMNLP #KnowledgeEditing #read-later Issue Date: 2025-05-07 Editing Large Language Models: Problems, Methods, and Opportunities, Yunzhi Yao+, EMNLP'24 GPT Summary- LLMの編集技術の進展を探求し、特定のドメインでの効率的な動作変更と他の入力への影響を最小限に抑える方法を論じる。モデル編集のタスク定義や課題を包括的にまとめ、先進的な手法の実証分析を行う。また、新しいベンチマークデータセットを構築し、評価の向上と持続的な問題の特定を目指す。最終的に、編集技術の効果に関する洞察を提供し、適切な方法選択を支援する。コードとデータセットは公開されている。 #Tools #Pocket #NLP #API #NeurIPS Issue Date: 2025-04-08 Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS'24 GPT Summary- Gorillaは、API呼び出しの生成においてGPT-4を上回るLLaMAベースのモデルであり、文書検索システムと組み合わせることで、テスト時の文書変更に適応し、ユーザーの柔軟な更新を可能にします。幻覚の問題を軽減し、APIをより正確に使用する能力を示します。Gorillaの評価には新たに導入したデータセット「APIBench」を使用し、信頼性と適用性の向上を実現しています。 Comment

APIBench: https://huggingface.co/datasets/gorilla-llm/APIBench

OpenReview: https://openreview.net/forum?id=tBRNC6YemY

#Pocket #NLP #AIAgents #ICLR Issue Date: 2025-04-02 WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR'24 GPT Summary- 生成AIの進展により、自律エージェントが自然言語コマンドで日常タスクを管理する可能性が生まれたが、現行のエージェントは簡略化された環境でのテストに限られている。本研究では、ウェブ上でタスクを実行するエージェントのための現実的な環境を構築し、eコマースやソーシャルフォーラムなどのドメインを含む完全なウェブサイトを提供する。この環境を基に、タスクの正確性を評価するベンチマークを公開し、実験を通じてGPT-4ベースのエージェントの成功率が14.41%であり、人間の78.24%には及ばないことを示した。これにより、実生活のタスクにおけるエージェントのさらなる開発の必要性が強調される。 Comment

Webにおけるさまざまなrealisticなタスクを評価するためのベンチマーク

実際のexample。スタート地点からピッツバーグのmuseumを巡る最短の経路を見つけるといった複雑なタスクが含まれる。

人間とGPT4,GPT-3.5の比較結果

#Pocket #NLP #AIAgents #Evaluation #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#ComputerVision #Pocket #NLP #Evaluation #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #NLP #AIAgents #Evaluation Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#RecommenderSystems #Pocket #SessionBased #Personalization #Evaluation Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。 #ComputerVision #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#NeuralNetwork #NaturalLanguageGeneration #NLP #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Multi #Pocket #NLP #Evaluation #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

#ComputerVision #Pocket #NLP Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv'24 GPT Summary- 視覚と言語のモデル（VLM）の設計における裏付けのない決定が性能向上の特定を妨げていると指摘。事前学習済みモデルやアーキテクチャ、データ、トレーニング手法に関する実験を行い、80億パラメータの基盤VLM「Idefics2」を開発。Idefics2はマルチモーダルベンチマークで最先端の性能を達成し、4倍のサイズのモデルと同等の性能を示す。モデルとデータセットを公開。 Comment

元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。

元ポスト:

Loading…

#Pocket #NLP #QuestionAnswering #COLM Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 GPT Summary- 私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment

該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。
元ツイート:

Loading…

OpenReview: https://openreview.net/forum?id=Ti67584b98

#ComputerVision #Pocket #NLP #Evaluation #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #Evaluation #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #Pocket #NLP #Zero/Few/ManyShotPrompting #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #NLP #Supervised-FineTuning (SFT) Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv'23 GPT Summary- GPT-4を用いて指示に従うデータを生成し、LLMのファインチューニングを行う初の試みを報告。生成された52Kの指示データは、従来のモデルよりも新しいタスクに対して優れたゼロショット性能を示した。GPT-4からのフィードバックと比較データも収集し、データとコードベースを公開。 Comment

#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #Annotation Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#Pocket #NLP #QuestionAnswering #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #NLP #InstructionTuning #Evaluation #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #NLP #Alignment #Conversation Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment

# Overview

# RoleBench

#MachineLearning #Pocket #NLP #AIAgents #Evaluation #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #NLP #InstructionTuning #NumericReasoning #Mathematics Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

#Pocket #NLP #StructuredData Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 Comment

#Pocket #NLP #AIAgents #Evaluation Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

#Pocket #NLP #InstructionTuning Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv'23 GPT Summary- 私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment

人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。
これにより高品質なinstruction following LLMの構築が可能

手法概要

参考:

Loading…

指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。

#NLP #Evaluation Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

#Pocket #NLP #Evaluation Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#Pocket #NLP #Coding Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA'23 GPT Summary- 本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #NLP #TheoryOfMind #Evaluation Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

#Pocket #NLP #Evaluation #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #NLP #Evaluation #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

#NLP #AIAgents #Evaluation #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#Pocket #NLP #Evaluation Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #NLP #Evaluation Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #Pocket #Evaluation #EMNLP #Ambiguity Issue Date: 2023-04-28 We're Afraid Language Models Aren't Modeling Ambiguity, Alisa Liu+, EMNLP'23 GPT Summary- 曖昧さは自然言語の重要な特徴であり、言語モデル（LM）が対話や執筆支援において成功するためには、曖昧な言語を扱うことが不可欠です。本研究では、曖昧さの影響を評価するために、1,645の例からなるベンチマーク「AmbiEnt」を収集し、事前学習済みLMの評価を行いました。特にGPT-4の曖昧さ解消の正答率は32%と低く、曖昧さの解消が難しいことが示されました。また、多ラベルのNLIモデルが曖昧さによる誤解を特定できることを示し、NLPにおける曖昧さの重要性を再認識する必要性を提唱しています。 Comment

#NaturalLanguageGeneration #Pocket #NLP #Explanation Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv'22 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 Comment

OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6

#Pocket #NLP #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #NLP #Evaluation #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#Pocket #NLP #Supervised-FineTuning (SFT) #Mathematics #Selected Papers/Blogs #Verification Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 GPT Summary- GSM8Kデータセットを用いて、多段階の数学的推論における言語モデルの限界を分析。検証器を訓練し、候補解を評価して最適解を選択することで、モデルのパフォーマンスを大幅に向上させることを示した。検証はファインチューニングよりもデータ増加に対して効果的にスケールする。 Comment

Todo: 続きをまとめる

#Pocket #NLP #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#PersonalizedDocumentSummarization #NLP #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

#Article #NLP #Evaluation #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Evaluation #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Survey #NLP #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #SyntheticData #Reasoning #One-Line Notes Issue Date: 2025-11-12 SYNTH: the new data frontier, pleias, 2025.11 Comment

元ポスト:

Loading…

SoTAなReasoning能力を備えたSLMを学習可能な事前学習用合成データ

元ポスト:

Loading…

#Article #Tutorial #Pretraining #NLP #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #TabularData #Mathematics #MultiLingual #DataFiltering #One-Line Notes Issue Date: 2025-10-22 FindWiki, Guilherme Penedo, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Evaluation #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #NLP #Blog #Japanese #Selected Papers/Blogs Issue Date: 2025-10-01 2025年10月1日国立情報学研究所における大規模言語モデル構築への協力について, 国立国会図書館, 2025.09 Comment

元ポスト:

Loading…

日本語LLMの進展に極めて重要なニュースと思われる

#Article #NLP #Evaluation #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #ComputerVision #NLP #Evaluation #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #Evaluation #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #Pretraining #NLP #SyntheticData #Blog Issue Date: 2025-09-13 Cosmopedia: how to create large-scale synthetic data for pre-training, Allal+（HuggingFace）, 2024.03 Comment

cosmopedia dataset: https://huggingface.co/datasets/HuggingFaceTB/cosmopedia

#Article #NLP #Evaluation #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #Evaluation #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #NLP #Evaluation #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #NLP #Evaluation #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #Pretraining #NLP #Repository #Selected Papers/Blogs Issue Date: 2025-09-07 FinePDFs, HuggingFaceFW, 2025.09 Comment

元ポスト:

Loading…

Thomas Wolf氏のポスト:

Loading…

ODC-By 1.0 license

#Article #ComputerVision #Pocket #NLP #Evaluation #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #Evaluation #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Japanese Issue Date: 2025-09-06 FineWeb2 Edu Japanese, Yuichi Tateno, 2025.09 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Supervised-FineTuning (SFT) #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #Pretraining #NLP Issue Date: 2025-08-25 TxT360, LLM360, 2024.10 #Article #NLP #Evaluation Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #Blog #Verification Issue Date: 2025-07-17 Asymmetry of verification and verifier’s law, Jason Wei, 2025.07 Comment

元ポスト:

Loading…

#Article #Tutorial #Pretraining #NLP #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #ComputerVision #NLP #AWS #MultiModal #Blog #Japanese Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

#Article #NLP #Evaluation #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #AIAgents #Evaluation #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #NLP #Reasoning Issue Date: 2025-03-21 Sudoku-bench, SakanaAI, 2025.03 GPT Summary- Sudoku-Benchは、CTCで紹介された独自のルールを持つ数独パズルを特徴とし、AI推論モデルの評価に最適なベンチマークです。このリポジトリでは、数独ベンチデータセット、LLM評価用のベースラインコード、SudokuPadツール、推論トレースなどを提供します。 Comment

元ポスト:

Loading…

既存モデルでベンチマークを取ったらどういうランキングになるのだろうか。特にまだそういぅたランキングは公開されていない模様。

#Article #NLP #AIAgents Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment

元ポスト:

Loading…

#Article #NLP #Supervised-FineTuning (SFT) #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #NLP #InstructionTuning Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #ComputerVision #NLP #Evaluation Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #Evaluation #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Tools #NLP #Blog #OpenWeight #Japanese Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 Comment

GPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。

実用上はinstructionチューニング済みのモデルの方がbaseモデルよりも使いやすいと思うので、問題ない気もする。

やはりbaseとinstructでライセンスは2種類あるとのこと:

Loading…

#Article #Survey #NLP #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #Supervised-FineTuning (SFT) #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #NLP #AIAgents #Evaluation Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #NLP #Japanese Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 Comment

LLM-jp-3 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 の学習に利用されているコーパス

#Article #Repository Issue Date: 2024-08-30 Firecrawl, 2024.09 Comment

sitemapなしでWebサイト全体をクローリングできるAPI。LLMで利用可能なマークダウンや、構造化データに変換もしてくれる模様。

#Article #Pretraining #Pocket #NLP #InstructionTuning #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #Tutorial #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #NLP #DialogueGeneration Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

#Article #NeuralNetwork #Tools #NLP #Library #Blog Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

Evaluation (201)

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#ComputerVision #Pocket #NLP #AIAgents #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #VisionLanguageModel
Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #NLP #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#ComputerVision #Pocket #NLP #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #read-later Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pocket #NLP #LanguageModel #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Pocket #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Transformer #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Pocket #NLP #LanguageModel #UserBased #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#MachineLearning #Pocket #NLP #TabularData #Selected Papers/Blogs #Live #One-Line Notes Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#GraphBased #Pocket #NLP #LanguageModel Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #NLP #Search #LanguageModel #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 [Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

著者ポスト:

Loading…

#Pocket #NLP #LanguageModel #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #UserBased #AIAgents #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #AIAgents #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

#Pocket #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #NLP #LanguageModel #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Pocket #NLP #VisionLanguageModel #UMM #Pixel-based Issue Date: 2025-10-21 [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01 GPT Summary- 「Perceive Everything as Pixels（PEAP）」の概念を提案し、自然言語や図式的な入力を単一のピクセル空間に統合するベンチマーク「PixelWorld」を公開。PEAPは意味理解タスクで競争力のある精度を示すが、推論が重要なタスクではパフォーマンスが低下。Chain-of-Thoughtプロンプティングがこのギャップを部分的に緩和し、視覚とテキストの統合により前処理の複雑さが軽減されることが確認された。PixelWorldは統一された視覚言語モデルの評価に役立つ。 Comment

元ポスト:

Loading…

#Pocket #CVPR #DocParser #OCR Issue Date: 2025-10-21 [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 #Pocket #SpeechProcessing #Reasoning #AudioLanguageModel #audio Issue Date: 2025-10-21 [Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

#Pocket #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#ComputerVision #Pocket #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pocket #NLP #UserBased #AIAgents #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #NLP #LanguageModel #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #NLP #LanguageModel #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#ComputerVision #EfficiencyImprovement #Pocket #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#Pocket #NLP #LanguageModel #Alignment #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #NLP #LanguageModel #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #NLP #Supervised-FineTuning (SFT) #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #UserBased #Alignment #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Multi #Pocket #NLP #LanguageModel #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #NLP #UserModeling #LanguageModel #UserBased #AIAgents #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

#ComputerVision #Pocket #NLP #LanguageModel #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #NLP #ReinforcementLearning #Conversation #MultiLingual #LLM-as-a-Judge #RewardModel #One-Line Notes Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

#Pocket #NLP #UserModeling #LanguageModel #UserBased #Personalization #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#ComputerVision #EfficiencyImprovement #Pocket #ImageCaptioning #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #QuestionAnswering #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#Pocket #NLP #LanguageModel #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ContextAware #EMNLP #Findings #Personality Issue Date: 2025-09-24 [Paper Note] CAPE: Context-Aware Personality Evaluation Framework for Large Language Models, Jivnesh Sandhan+, EMNLP'25 Findings, 2025.08 GPT Summary- 心理測定テストをLLMsの評価に適用するため、文脈対応パーソナリティ評価（CAPE）フレームワークを提案。従来の孤立した質問アプローチから、会話の履歴を考慮した応答の一貫性を定量化する新指標を導入。実験により、会話履歴が応答の一貫性を高める一方で、パーソナリティの変化も引き起こすことが明らかに。特にGPTモデルは堅牢性を示し、Gemini-1.5-FlashとLlama-8Bは感受性が高い。CAPEをロールプレイングエージェントに適用すると、一貫性が改善され人間の判断と一致することが示された。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #NLP #LanguageModel #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#Pocket #NLP #EMNLP #RewardModel Issue Date: 2025-09-23 [Paper Note] reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs, Zhaofeng Wu+, EMNLP'25, 2025.03 GPT Summary- 報酬モデルはNLPにおいて重要だが、過学習の影響で真の能力が混乱することがある。本研究では、報酬モデルの堅牢性を評価するために**reWordBench**を構築し、入力変換による性能低下を調査。最先端の報酬モデルは小さな変換でも著しい性能低下を示し、脆弱性が明らかになった。堅牢性向上のために同義語に対して類似スコアを割り当てる訓練を提案し、これにより性能低下を約半分に減少させた。さらに、アライメントにおいても高品質な出力を生成し、標準的な報酬モデルに対して最大59%のケースで優れた結果を示した。 Comment

元ポスト:

Loading…

Figure1がRMの過学習の様子を図示しており、非常に端的で分かりやすい。

#Pocket #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #NLP #Reasoning #RewardModel Issue Date: 2025-09-22 [Paper Note] Libra: Assessing and Improving Reward Model by Learning to Think, Meng Zhou+, arXiv'25, 2025.07 GPT Summary- 強化学習（RL）の報酬モデルは、困難な推論シナリオでの性能が低下しており、注釈付き参照回答や制約された出力形式に依存している。これに対処するため、推論指向のベンチマーク「Libra Bench」を提案し、生成的報酬モデルを改善する新しいアプローチを導入。Libra-RMシリーズを開発し、さまざまなベンチマークで最先端の結果を達成。実験結果は、Libra Benchと下流アプリケーションとの相関関係を示し、ラベルのないデータを用いた推論モデルの改善の可能性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #NLP #Search #LanguageModel #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#NLP #LanguageModel #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Pocket #NLP #LanguageModel #AIAgents #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #NLP #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Pocket #NLP #LanguageModel #IRT #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #AIAgents #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #NLP #LanguageModel #AIAgents #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Pocket #NLP #LanguageModel #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#NLP #LanguageModel #AIAgents #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#EfficiencyImprovement #Pocket #NLP #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #LanguageModel #SpeechProcessing #read-later #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #NLP #AIAgents #MCP Issue Date: 2025-08-30 [Paper Note] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers, Zhenting Wang+, arXiv'25 GPT Summary- MCP-Benchは、ツールの使用や調整、計画/推論を必要とする多段階タスクを評価するためのベンチマークであり、250のツールを持つ28のMCPサーバーにLLMsを接続します。従来のベンチマークとは異なり、相互に連携するツールセットを提供し、複雑なタスクを構築可能にします。タスクは、ツールの取得能力や多段階実行経路の計画能力をテストし、既存のベンチマークでは評価されていない能力を明らかにします。20のLLMに対する実験を通じて、MCP-Benchの課題が示されました。 Comment

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

#Pocket #NLP #LanguageModel #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #NLP #AIAgents #MCP Issue Date: 2025-08-22 [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25 GPT Summary- モデルコンテキストプロトコル（MCP）は、LLMを外部データソースに接続する新しい標準であり、MCP-Universeという包括的なベンチマークを導入。これにより、実際のアプリケーションにおけるLLMの評価が可能となる。6つのコアドメインをカバーし、厳密な評価手法を実装。主要なLLMは性能制限を示し、長文コンテキストや未知のツールの課題に直面。UIサポート付きの評価フレームワークをオープンソース化し、MCPエコシステムの革新を促進。 Comment

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

#ComputerVision #Pocket #NLP #AIAgents #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #NLP #LanguageModel #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #AIAgents #SyntheticData #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #LanguageModel #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

#Pocket #NLP #AIAgents #SoftwareEngineering Issue Date: 2025-08-12 [Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

#Pocket #NLP #LanguageModel #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#Survey #Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#EfficiencyImprovement #Pocket #NLP #AIAgents #SoftwareEngineering Issue Date: 2025-07-18 [Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Pocket #NLP #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#ComputerVision #Pocket #NLP #LanguageModel #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#Pocket #NLP #AIAgents #Coding #LongSequence #NeurIPS Issue Date: 2025-06-17 [Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

関連ポスト:

Loading…

NeurIPSにaccept:

Loading…

#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#Analysis #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Pocket #NLP #LanguageModel #AIAgents #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#ComputerVision #Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#InformationRetrieval #NLP #AIAgents #RAG(RetrievalAugmentedGeneration) #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#ComputerVision #Pocket #NLP #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #NLP #LanguageModel #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #NLP #LanguageModel #SyntheticData #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#ComputerVision #Pocket #NLP #QuestionAnswering #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #ComputerVision #Pocket #NLP #InstructionTuning #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #NLP #LanguageModel #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #NLP #LanguageModel #QuestionAnswering #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #NLP #LanguageModel #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #NLP #LanguageModel #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #ComputerVision #Pocket #NLP #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Pocket #NLP #LanguageModel #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

#ComputerVision #Pocket #NLP #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

#Pocket #NLP #LanguageModel #ReinforcementLearning Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #NLP #LanguageModel #AIAgents #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Pocket #NLP #AIAgents #SyntheticData #SyntheticDataGeneration Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #AIAgents Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#RecommenderSystems #Pocket #LanguageModel #SessionBased #Personalization Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。 #NeuralNetwork #NaturalLanguageGeneration #NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Multi #Pocket #NLP #LanguageModel #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

#ComputerVision #Pocket #NLP #LanguageModel #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #LanguageModel #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #Pocket #NLP #LanguageModel #Zero/Few/ManyShotPrompting #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #ComputerVision #Pocket #NLP #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#Pocket #NLP #LanguageModel #QuestionAnswering #AIAgents #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #NLP #LanguageModel #InstructionTuning #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#MachineLearning #Pocket #NLP #LanguageModel #AIAgents #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #NLP #LanguageModel #AIAgents Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

#NLP #LanguageModel Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

#ComputerVision #NaturalLanguageGeneration #NLP Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Pocket #NLP #LanguageModel Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#DocumentSummarization #Metrics #NLP Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #NLP #LanguageModel #TheoryOfMind Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

#Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #NLP #LanguageModel #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

#NLP #LanguageModel #AIAgents #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#Pocket #NLP #LanguageModel Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #NLP #LanguageModel Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #InformationRetrieval #Pocket #NLP #Search #ACL Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, ACL'23 GPT Summary- QUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。 #NLP #Hallucination Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv'23 GPT Summary- 自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 Comment

#Pocket #LanguageModel #EMNLP #Ambiguity Issue Date: 2023-04-28 We're Afraid Language Models Aren't Modeling Ambiguity, Alisa Liu+, EMNLP'23 GPT Summary- 曖昧さは自然言語の重要な特徴であり、言語モデル（LM）が対話や執筆支援において成功するためには、曖昧な言語を扱うことが不可欠です。本研究では、曖昧さの影響を評価するために、1,645の例からなるベンチマーク「AmbiEnt」を収集し、事前学習済みLMの評価を行いました。特にGPT-4の曖昧さ解消の正答率は32%と低く、曖昧さの解消が難しいことが示されました。また、多ラベルのNLIモデルが曖昧さによる誤解を特定できることを示し、NLPにおける曖昧さの重要性を再認識する必要性を提唱しています。 Comment

#ComputerVision #Pocket #Robotics #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#ComputerVision #ICCV Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #MachineLearning #Pocket #NLP #ReinforcementLearning #EmbodiedAI #text Issue Date: 2025-10-26 [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#Pocket #NLP #LanguageModel #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #NLP #LanguageModel #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#DocumentSummarization #Metrics #Tools #NLP #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#Pocket #NLP #LanguageModel #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#Pocket #NLP #TACL #Grammar Issue Date: 2025-09-07 [Paper Note] BLiMP: The Benchmark of Linguistic Minimal Pairs for English, Alex Warstadt+, TACL'20 GPT Summary- 言語的最小対のベンチマーク（BLiMP）は、言語モデルの文法知識を評価するためのチャレンジセットで、67のサブデータセットから成り、各サブデータセットには特定の文法対比を示す1000の最小対が含まれています。データは専門家によって自動生成され、人間の合意は96.4%です。n-gram、LSTM、Transformerモデルを評価した結果、最先端のモデルは形態論的対比を識別できるが、意味的制約や微妙な文法現象には苦戦していることが示されました。 Comment

#NaturalLanguageGeneration #Pocket #NLP #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

PJ page: https://inklab.usc.edu/CommonGen/

#ComputerVision #Pocket #Robotics #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #NLP #QuestionAnswering #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。 #ComputerVision #Pocket #SIGGRAPH Issue Date: 2025-11-20 [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像（MPI）を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/

#MachineLearning #Pocket #NLP #ReinforcementLearning #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

#ComputerVision #TOG Issue Date: 2025-11-20 [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。 #ComputerVision #CVPR Issue Date: 2025-11-20 [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。 #ComputerVision #Pocket #CVPR Issue Date: 2025-11-20 [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。 #ComputerVision #IJCV Issue Date: 2025-11-20 [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16 GPT Summary- 新しいマルチビュー立体視（MVS）データセットを提案し、49または64のカメラ位置から80のシーンを評価。すべての画像は7つの照明条件下で撮影され、正確な構造光スキャンも含まれる。3つの最先端MVSアルゴリズムを適用し、評価プロトコルを拡張。再構築された3Dポイントの品質と物体表面の完全性のトレードオフを観察し、鏡面反射や照明変化の影響は軽微であることを確認。MVSの主要な課題はテクスチャの欠如とメッシングであることが示された。 #ComputerVision #CVPR #CameraPoseEstimation Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。 #ComputerVision #CVPR Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13 GPT Summary- 単一の画像を用いてRGB-Dカメラのポーズを既知の3Dシーンに対して推定する手法を提案。回帰フォレストを使用し、深度とRGBピクセルの比較特徴のみで対応関係を推定。興味点検出器は不要で、堅牢な最適化手法でカメラポーズを推定。事前RANSACにより仮定ポーズを洗練し、様々なシーンで高精度な再局所化を実現し、最先端の手法を大幅に上回る性能を示した。 #ComputerVision #ECCV Issue Date: 2025-11-20 [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。 #ComputerVision #ECCV Issue Date: 2025-11-20 [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12 GPT Summary- 新しい光学フローデータセットを「Sintel」から作成し、長いシーケンスや大きな動き、鏡面反射などの特徴を持つ。既存の光学フローアルゴリズムがこの複雑なデータセットで困難を抱えていることを示し、さらなる研究の必要性を提起。合成データの使用を実際の映像と比較し、類似性を確認。データセットと評価ツールは公開されている。 Comment

dataset: https://www.kaggle.com/datasets/artemmmtry/mpi-sintel-dataset

#Article #NLP #Education #AIAgents #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #SpeechProcessing Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NeuralNetwork #MachineLearning #Pocket #Transformer #AIAgents #SoftwareEngineering #GPUKernel Issue Date: 2025-10-22 FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Blog #Mathematics Issue Date: 2025-09-24 HMMT. HMMT 2025, 2025.09 Comment

#Article #ComputerVision #NLP #LanguageModel #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #LanguageModel #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #NLP #LanguageModel #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #NLP #LanguageModel #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #NLP #LanguageModel #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #ComputerVision #Pocket #NLP #LanguageModel #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #LanguageModel #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #AIAgents #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #Tutorial #Pretraining #NLP #LanguageModel #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #TimeSeriesDataProcessing #MachineLearning Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #LanguageModel #AIAgents #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #ComputerVision #NLP #LanguageModel Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #LanguageModel #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Survey #NLP #LanguageModel #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #LanguageModel #AIAgents Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #Tutorial #LanguageModel Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #Tutorial #NLP #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

Supervised-FineTuning (SFT) (18)

#EfficiencyImprovement #Pocket #NLP #LanguageModel #EMNLP #DPO #Cultural
Issue Date: 2025-11-06 [Paper Note] Culture Cartography: Mapping the Landscape of Cultural Knowledge, Caleb Ziems+, EMNLP'25, 2025.10 GPT Summary- LLMは文化特有の知識を必要とし、CultureCartographyという混合イニシアティブを提案。LLMが自信の低い質問をアノテーションし、人間がそのギャップを埋めることで重要なトピックに導く。CultureExplorerツールを用いた実験で、従来のモデルよりも効果的に知識を生成し、Llama-3.1-8Bの精度を最大19.2%向上させることが示された。 Comment

元ポスト:

Loading…

効率的にLLMにとって未知、かつ重要な文化的な知識バンクを作成する話な模様。アクティブラーニングに似たような思想に見える。

#Pocket #NLP #LanguageModel #AIAgents #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-30 [Paper Note] Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents, Yueqi Song+, arXiv'25, 2025.10 GPT Summary- 本研究では、エージェントデータの収集における課題を解決するために、エージェントデータプロトコル（ADP）を提案。ADPは多様なデータ形式を統一し、簡単に解析・トレーニング可能な表現言語である。実験により、13のエージェントトレーニングデータセットをADP形式に統一し、標準化されたデータでSFTを実施した結果、平均約20％の性能向上を達成。ADPは再現可能なエージェントトレーニングの障壁を下げることが期待される。 Comment

pj page: https://www.agentdataprotocol.com

元ポスト:

Loading…

著者ポスト:

Loading…

解説:

Loading…

エージェントを学習するための統一的なデータ表現に関するプロトコルを提案

#Pocket #NLP #LanguageModel #Alignment #Reasoning #Safety
Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #LanguageModel #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pocket #NLP #Evaluation #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #AIAgents #TabularData #SyntheticData #ScientificDiscovery #numeric #MajorityVoting Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Pocket #NLP #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #NLP #LanguageModel #ReinforcementLearning #Evaluation #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #Mathematics Issue Date: 2025-07-09 [Paper Note] CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization, Zhongyuan Peng+, arXiv'25 GPT Summary- 自然言語の数学的表現を実行可能なコードに翻訳する課題に対し、批評者の役割を能動的な学習コンポーネントに変えるCriticLeanという新しい強化学習フレームワークを提案。CriticLeanGPTを用いて形式化の意味的忠実性を評価し、CriticLeanBenchでその能力を測定。285K以上の問題を含むFineLeanCorpusデータセットを構築し、批評段階の最適化が信頼性のある形式化に重要であることを示す。 Comment

元ポスト:

Loading…

Lean 4 形式に

#Pocket #NLP #LanguageModel #Alignment #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #MultiModal #Reasoning #NeurIPS #VisionLanguageModel #TreeSearch Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, NeurIPS'25 GPT Summary- 本研究では、MLLMを用いて質問解決のための推論ステップを学習する新手法CoMCTSを提案。集団学習を活用し、複数モデルの知識で効果的な推論経路を探索。マルチモーダルデータセットMulberry-260kを構築し、モデルMulberryを訓練。実験により提案手法の優位性を確認。 #NLP #LanguageModel Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv'23 GPT Summary- GPT-4を用いて指示に従うデータを生成し、LLMのファインチューニングを行う初の試みを報告。生成された52Kの指示データは、従来のモデルよりも新しいタスクに対して優れたゼロショット性能を示した。GPT-4からのフィードバックと比較データも収集し、データとコードベースを公開。 Comment

#EfficiencyImprovement #MachineLearning #Pocket #NLP #QuestionAnswering #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

#Pocket #NLP #LanguageModel #Mathematics #Selected Papers/Blogs #Verification Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv'21 GPT Summary- GSM8Kデータセットを用いて、多段階の数学的推論における言語モデルの限界を分析。検証器を訓練し、候補解を評価して最適解を選択することで、モデルのパフォーマンスを大幅に向上させることを示した。検証はファインチューニングよりもデータ増加に対して効果的にスケールする。 Comment

Todo: 続きをまとめる

#Article #Pretraining #NLP #LanguageModel #Coding #Mathematics #Selected Papers/Blogs Issue Date: 2025-09-01 Nemotron-CC-v2, Nvidia, 2025.08 Comment

元ポスト:

Loading…

CCだけでなく、数学やコーディングの事前学習データ、SFT styleの合成データセットも含まれている。

#Article #NLP #LanguageModel #Repository Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 Comment

LLMの事後学習用のデータをまとめたリポジトリ

#Article #NLP #LanguageModel #InstructionTuning Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11

QuestionAnswering (15)

#Multi #ComputerVision #Pocket #NLP #MultiModal #Conversation #VisionLanguageModel #2D (Image)
Issue Date: 2025-10-22 [Paper Note] FineVision: Open Data Is All You Need, Luis Wiedmann+, arXiv'25, 2025.09 GPT Summary- 本研究では、視覚と言語のモデル（VLM）のために、24百万サンプルからなる統一コーパス「FineVision」を紹介。これは200以上のソースを統合し、半自動化されたパイプラインでキュレーションされている。データの衛生と重複排除が行われ、66の公的ベンチマークに対する汚染除去も適用。FineVisionで訓練されたモデルは、既存のオープンミックスモデルを上回る性能を示し、データ中心のVLM研究の加速を目指す。 Comment

pj page: https://huggingface.co/spaces/HuggingFaceM4/FineVision

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #NLP #AIAgents #Evaluation #Coding #SoftwareEngineering
Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#ComputerVision #Pocket #NLP #SyntheticData #MultiModal #Reasoning #EMNLP #PostTraining #VisionLanguageModel
Issue Date: 2025-08-21 [Paper Note] VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search, Yiming Jia+, EMNLP'25 GPT Summary- 本研究では、推論に焦点を当てたマルチモーダルデータセットの不足に対処するため、VisualWebInstructという新しいアプローチを提案。30,000のシード画像からGoogle画像検索を用いて700K以上のユニークなURLを収集し、約900KのQAペアを構築。ファインチューニングされたモデルは、Llava-OVで10-20ポイント、MAmmoTH-VLで5ポイントの性能向上を示し、最良モデルMAmmoTH-VL2は複数のベンチマークで最先端の性能を達成。これにより、Vision-Language Modelsの推論能力向上に寄与することが示された。 Comment

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/VisualWebInstruct/

verified versionが公開:
https://huggingface.co/datasets/TIGER-Lab/VisualWebInstruct_Verified

ポスト:

Loading…

#NLP #LanguageModel Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv'25 GPT Summary- SuperGPQAを提案し、285の専門分野におけるLLMsの知識と推論能力を評価する新しいベンチマークを構築。Human-LLM協調フィルタリングを用いて、トリビアルな質問を排除。実験結果は、最先端のLLMsに改善の余地があることを示し、人工一般知能とのギャップを強調。大規模なアノテーションプロセスから得た洞察は、今後の研究に対する方法論的ガイダンスを提供。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Evaluation #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #Pocket #NLP #LanguageModel #Evaluation #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #NLP #LanguageModel #COLM Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM'24 GPT Summary- 私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment

該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。
元ツイート:

Loading…

OpenReview: https://openreview.net/forum?id=Ti67584b98

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#EfficiencyImprovement #MachineLearning #Pocket #NLP #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

#NLP Issue Date: 2022-02-07 JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension, So+, arXiv'22 GPT Summary- 日本語の質問応答データセットJaQuADを提案。39,696の質問-回答ペアを含み、テストセットでF1スコア78.92%、EMスコア63.38%を達成。データセットは[こちら](https://github.com/SkelterLabsInc/JaQuAD)から入手可能。 Comment

SQuAD likeな日本語のQAデータセット

https://github.com/SkelterLabsInc/JaQuAD

#NLP #Evaluation #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。 #Pocket #NLP Issue Date: 2025-08-30 [Paper Note] Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, Peter Clark+, arXiv'18 GPT Summary- AI2 Reasoning Challenge（ARC）を提案し、高度な質問応答におけるAI研究を促進することを目的とする。ARCはChallenge SetとEasy Setに分かれ、Challenge Setにはリトリーバルベースのアルゴリズムで不正解とされた質問が含まれる。ARCは最大の公的ドメインセットであり、1400万の科学文を含むコーパスと3つのニューラルベースラインモデルの実装も公開。既存のモデルはランダムベースラインを上回れず、コミュニティへの挑戦としてARCを提起。 Comment

dataset: https://huggingface.co/datasets/allenai/ai2_arc
日本語解説: https://qiita.com/tekunikaruza_jp/items/d2ec3621afc9ba3d225b

#Pocket #NLP #Factuality #ReadingComprehension Issue Date: 2025-08-16 [Paper Note] TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension, Mandar Joshi+, ACL'17 GPT Summary- TriviaQAは、650K以上の質問-回答-証拠トリプルを含む読解理解データセットで、95Kの質問-回答ペアと平均6つの証拠文書を提供。複雑な質問や構文的変動があり、文を超えた推論が必要。特徴ベースの分類器と最先端のニューラルネットワークの2つのベースラインアルゴリズムを評価したが、人間のパフォーマンスには及ばず、TriviaQAは今後の研究における重要なテストベッドである。 #Pocket #NLP #ReadingComprehension Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv'16 GPT Summary- NewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 Comment

#Article #ComputerVision #Pretraining #NLP #ImageCaptioning #VisionLanguageModel #OCR Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

NaturalLanguageGeneration (12)

#NeuralNetwork #NLP #LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#DocumentSummarization #Pocket #NLP #LanguageModel #Annotation
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#ComputerVision #NLP #Evaluation
Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。

#DocumentSummarization #NLP #Conversation Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL'23 GPT Summary- 会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #DocumentSummarization #Controllable #NLP #Factuality Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL'23 GPT Summary- 本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #Pocket #NLP #LanguageModel #Explanation Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv'22 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 Comment

OpenReview: https://openreview.net/forum?id=GvMuB-YsiK6

#Pocket #DataToTextGeneration #NAACL Issue Date: 2025-08-30 [Paper Note] DART: Open-Domain Structured Data Record to Text Generation, Linyong Nan+, NAACL'21 GPT Summary- DARTは82,000以上のインスタンスを持つオープンドメインの構造化データからテキスト生成のためのデータセットであり、表形式のデータから意味的トリプルを抽出する手法を提案。ツリーオントロジーアノテーションや質問-回答ペアの変換を活用し、最小限のポストエディティングで異種ソースを統合。DARTは新たな課題を提起し、WebNLG 2017での最先端結果を示すことで、ドメイン外の一般化を促進することを証明。データとコードは公開されている。 #NeuralNetwork #Pocket #NLP #DataToTextGeneration #INLG Issue Date: 2022-08-18 [Paper Note] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan Yermakov+, arXiv'21, 2021.09 GPT Summary- バイオメディカル分野におけるD2T生成の研究を行い、医薬品のパッケージリーフレットを用いた実世界のデータセットに対してファインチューニングされたトランスフォーマーを適用。現実的な複数文のテキスト生成が可能であることを示す一方で、重要な制限も存在。新たにバイオメディカル分野のD2T生成モデルのベンチマーク用データセット（BioLeaflets）を公開。 Comment

biomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。

#Pocket #NLP #Evaluation #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

PJ page: https://inklab.usc.edu/CommonGen/

#NeuralNetwork #NLP #DataToTextGeneration #TabularData #ACL #Encoder-Decoder Issue Date: 2025-08-06 Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18 Comment

データセットの日本語解説（過去の自分の資料）: https://speakerdeck.com/akihikowatanabe/data-to-text-datasetmatome-summary-of-data-to-text-datasets?slide=66

#NeuralNetwork #Pocket #NLP #ConceptToTextGeneration #EMNLP Issue Date: 2017-12-31 [Paper Note] Neural Text Generation from Structured Data with Application to the Biography Domain, Remi Lebret+, EMNLP'16, 2016.03 GPT Summary- 大規模なWikipediaの伝記データセットを用いて、テキスト生成のためのニューラルモデルを提案。モデルは条件付きニューラル言語モデルに基づき、固定語彙とサンプル固有の単語を組み合わせるコピーアクションを採用。提案モデルは古典的なKneser-Neyモデルを約15 BLEUポイント上回る性能を示した。 Comment

#Article #Survey #NLP #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

InstructionTuning (12)

#ComputerVision #Pocket #LanguageModel #Supervised-FineTuning (SFT) #Evaluation #MultiModal #DiffusionModel #UMM #SpatialUnderstanding
Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#ComputerVision #Pocket #NLP #Evaluation #MultiLingual #VisionLanguageModel
Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #NLP #LanguageModel #Alignment #ICML #PostTraining
Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。

#Pocket #NLP #LanguageModel #Evaluation #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #NLP #LanguageModel #NumericReasoning #Mathematics Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

#Pocket #NLP #LanguageModel Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv'23 GPT Summary- 私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment

人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。
これにより高品質なinstruction following LLMの構築が可能

手法概要

参考:

Loading…

指示を予測するモデルは、今回はLLaMAをfinetuningしたモデルを用いており、予測と呼称しているが指示はgenerationされる。

#NLP Issue Date: 2023-07-13 Unnatural Instructions: Tuning Language Models with （Almost） No Human Labor, ACL'23 GPT Summary- 本研究では、人間の監督を必要としない方法で収集された大規模なデータセット「Unnatural Instructions」を紹介します。このデータセットを使用して、言語モデルのトレーニングを行い、既存のモデルを上回る性能を実現しました。これにより、クラウドソーシングに頼らずにデータセットを拡張し、多様性を持たせることができることが示されました。 #Article #NLP #LanguageModel Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 Comment

Loading…

#Article #NLP #SyntheticData #PostTraining Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment

元ポスト:

Loading…

Orca-AgenInstruct-1M microsoft/orca-agentinstruct-1M-v1, Microsoft, 2024.11 よりもSmolLMのSFTで各種ベンチで高い性能を獲得

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #Pretraining #Pocket #NLP #LanguageModel #Repository #Japanese Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #NLP #DataDistillation Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

DocumentSummarization (10)

#NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Annotation
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

#Metrics #NLP #Evaluation
Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #NaturalLanguageGeneration #NLP #Conversation
Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL'23 GPT Summary- 会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。

#NaturalLanguageGeneration #Controllable #NLP #Factuality Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL'23 GPT Summary- 本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #Metrics #Tools #NLP #Evaluation #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#Tutorial #NLP #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

#NLP #NAACL Issue Date: 2018-06-29 [Paper Note] Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies, Max+, NAACL'18 Comment

#Single #NeuralNetwork #Sentence #Document #NLP #Abstractive #EMNLP #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP'15 Comment

CopyNetなどはLCSTSを使って評価している。他にも使ってる論文あったはず。

ACL'17のPointer Generator Networkでした。

#Multi #NLP #QueryBiased #Extractive #ACL #Selected Papers/Blogs #Surface-level Note Issue Date: 2017-12-28 [Paper Note] Query-Chain Focused Summarization, Baumel+, ACL'14 Comment

（管理人が作成した過去の紹介資料）
[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)

上記スライドは私が当時作成した論文紹介スライドです。スライド中のスクショは説明のために論文中のものを引用しています。

#Article #NLP #Update Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset, 2006.10 Comment

DUC 2007: https://duc.nist.gov/duc2007/tasks.html

Analysis (10)

#Pocket #NLP #LanguageModel #Evaluation #read-later
Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#ComputerVision #Pretraining #Pocket #NLP #LanguageModel #Selected Papers/Blogs #DataMixture #PhaseTransition
Issue Date: 2025-11-12 [Paper Note] Why Less is More （Sometimes）: A Theory of Data Curation, Elvis Dohmatob+, arXiv'25, 2025.11 GPT Summary- 本論文では、データを少なく使う方が良い場合についての理論的枠組みを提案し、小規模な厳選データセットが優れた性能を発揮する理由を探ります。データキュレーション戦略を通じて、ラベルに依存しない・依存するルールのテスト誤差のスケーリング法則を明らかにし、特定の条件下で小規模データが大規模データを上回る可能性を示します。ImageNetでの実証結果を通じて、キュレーションが精度を向上させることを確認し、LLMの数学的推論における矛盾する戦略への理論的説明も提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #ICCV #VisionLanguageModel
Issue Date: 2025-10-27 [Paper Note] Kaputt: A Large-Scale Dataset for Visual Defect Detection, Sebastian Höfer+, ICCV'25, 2025.10 GPT Summary- 新しい大規模データセットを提案し、小売物流における欠陥検出の課題に対応。230,000枚の画像と29,000以上の欠陥インスタンスを含み、MVTec-ADの40倍の規模。既存手法の限界を示し、56.96%のAUROCを超えない結果を得た。データセットは今後の研究を促進するために利用可能。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #SyntheticData #ACL #Findings Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#ComputerVision #Pretraining #Pocket #NLP #LanguageModel #Evaluation #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #NLP #LanguageModel #AIAgents #Reasoning #Entropy Issue Date: 2025-10-14 [Paper Note] Demystifying Reinforcement Learning in Agentic Reasoning, Zhaochen Yu+, arXiv'25, 2025.10 GPT Summary- エージェント的強化学習（agentic RL）を用いて、LLMsの推論能力を向上させるための調査を行った。重要な洞察として、合成軌道の実際のツール使用軌道への置き換えや、多様なデータセットの活用がRLのパフォーマンスを向上させることが示された。また、探索を促進する技術や、ツール呼び出しを減らす戦略がトレーニング効率を改善することが確認された。これにより、小型モデルでも強力な結果を達成し、実用的なベースラインを提供する。さらに、高品質なデータセットを用いて、困難なベンチマークでのエージェント的推論能力の向上を示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#MachineLearning #Pocket #ICLR #Robotics #EmbodiedAI Issue Date: 2025-07-19 [Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

#Pocket #NLP #LanguageModel #FactualKnowledge Issue Date: 2025-06-17 [Paper Note] What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv'25 GPT Summary- LLMの文脈情報とパラメトリック知識の対立を評価する診断フレームワークを提案。知識の対立はタスクに影響を与えず、一致時にパフォーマンスが向上。モデルは内部知識を抑制できず、対立の理由が文脈依存を高めることを示した。これにより、LLMの評価と展開における知識の対立の重要性が強調される。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #CVPR #Scaling Laws #VisionLanguageModel #DataFiltering Issue Date: 2025-07-20 [Paper Note] Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic, Sachin Goyal+, CVPR'24 GPT Summary- 視覚と言語のモデル（VLMs）のトレーニングにおいて、高品質なデータのフィルタリングが重要であるが、計算リソースとは無関係に行われることが多い。本研究では、データの品質と量のトレードオフ（QQT）に対処するため、ウェブデータの非均質性を考慮したニューラルスケーリング法則を提案。これにより、データの有用性の違いや繰り返し使用による劣化を評価し、複数のデータプールの組み合わせによるモデルのパフォーマンスを推定可能にする。最適なデータプールのキュレーションを通じて、計算リソースに応じた最高のパフォーマンスを達成できることを示した。 Comment

元ポスト:

Loading…

Tutorial (8)

#DocumentSummarization #NLP #TACL
Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

#Article #Pretraining #NLP #LanguageModel #Infrastructure #PostTraining #Selected Papers/Blogs
Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #Blog
Issue Date: 2025-09-07 オープンデータセットのライセンスガイド, サナミ, 2024.12

#Article #Pretraining #NLP #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #LanguageModel #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #NLP #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #RecommenderSystems #Tools #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

#Article #Survey Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

Survey (8)

#Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #Evaluation
Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #Distillation
Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23 GPT Summary- データセット蒸留（DD）は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。 Comment

訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。

#Pocket #NLP #Distillation
Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv'23 GPT Summary- 深層学習の普及に伴い、大規模データセットの訓練が高コストで持続可能性に課題をもたらしている。データ蒸留アプローチは、元のデータセットの効果的な代替品を提供し、モデル訓練や推論に役立つ。本研究では、データ蒸留のフレームワークを提示し、既存のアプローチを分類。画像やグラフ、レコメンダーシステムなどの異なるデータモダリティにおける課題と今後の研究方向性を示す。

#Article #NLP #LanguageModel #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NaturalLanguageGeneration #NLP #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #Tutorial Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

Alignment (8)

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning #Safety
Issue Date: 2025-10-20 [Paper Note] Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check, Chentao Cao+, arXiv'25, 2025.09 GPT Summary- 脱獄攻撃に対する安全性を向上させるために、Answer-Then-Checkという新しいアプローチを提案。モデルはまず質問に回答し、その後安全性を評価してから応答を提供。80Kの例からなるReasoned Safety Alignment（ReSA）データセットを構築し、実験により優れた安全性を示しつつ過剰拒否率を低下。ReSAでファインチューニングされたモデルは一般的な推論能力を維持し、敏感なトピックに対しても有益な応答を提供可能。少量のデータでのトレーニングでも高いパフォーマンスを達成できることが示唆された。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #One-Line Notes
Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #UserBased #Evaluation #Coding #read-later #Selected Papers/Blogs
Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #MultiLingual #DPO #PostTraining #Cultural Issue Date: 2025-07-04 [Paper Note] CARE: Assessing the Impact of Multilingual Human Preference Learning on Cultural Awareness, Geyang Guo+, arXiv'25 GPT Summary- 本論文では、文化的多様性を考慮した言語モデル（LM）の訓練方法を分析し、ネイティブな文化的好みを取り入れることで、LMの文化的認識を向上させることを目指します。3,490の文化特有の質問と31,700のネイティブな判断を含むリソース「CARE」を紹介し、高品質なネイティブの好みを少量取り入れることで、さまざまなLMの性能が向上することを示します。また、文化的パフォーマンスが強いモデルはアラインメントからの恩恵を受けやすく、地域間でのデータアクセスの違いがモデル間のギャップを生むことが明らかになりました。CAREは一般に公開される予定です。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Safety #Japanese #PostTraining Issue Date: 2025-06-25 [Paper Note] AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv'25 GPT Summary- 日本のLLMの安全性を高めるためのデータセット「AnswerCarefully」を紹介。1,800組の質問と参照回答から成り、リスクカテゴリをカバーしつつ日本の文脈に合わせて作成。微調整により出力の安全性が向上し、12のLLMの安全性評価結果も報告。英語翻訳と注釈を提供し、他言語でのデータセット作成を促進。 Comment

Blog: https://llmc.nii.ac.jp/answercarefully-dataset/

#NLP #LanguageModel #OpenWeight #ICLR Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, （ICLR'25）, 2024.10 GPT Summary- 報酬モデルの訓練にはBradley-Terryスタイルと回帰スタイルがあり、データの一致が重要だが、適切なデータセットが不足している。HelpSteer2データセットでは、Bradley-Terry訓練用の好みの注釈を公開し、初めて両モデルの直接比較を行った。これに基づき、両者を組み合わせた新アプローチを提案し、Llama-3.1-70B-InstructモデルがRewardBenchで94.1のスコアを達成。さらに、REINFORCEアルゴリズムを用いて指示モデルを調整し、Arena Hardで85.0を記録した。このデータセットはオープンソースとして公開されている。 Comment

MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様

openreview: https://openreview.net/forum?id=MnfHxPP5gs

#Pocket #NLP #LanguageModel #InstructionTuning #ICML #PostTraining Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML'24 GPT Summary- 人間のフィードバックに加え、高品質なAIフィードバックを自動収集することで、LLMsのアライメントをスケーラブルに実現。多様なインタラクションをカバーし、注釈バイアスを軽減した結果、25万件の会話に対する100万件以上のGPT-4フィードバックを含むデータセット「UltraFeedback」を構築。これに基づき、LLaMAモデルを強化学習でアライメントし、チャットベンチマークで優れた性能を示す。研究はオープンソースチャットモデルの構築におけるAIフィードバックの有効性を検証。データとモデルは公開中。 #Pocket #NLP #LanguageModel #Conversation Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment

# Overview

# RoleBench

MachineTranslation (5)

#Metrics #Pocket #NLP #LanguageModel #Evaluation #Reference-free #EMNLP #LowResource
Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #LanguageModel
Issue Date: 2025-09-24 [Paper Note] Multilingual Language Model Pretraining using Machine-translated Data, Jiayi Wang+, EMNLP'25, 2025.02 GPT Summary- 高リソース言語の英語から翻訳した高品質なテキストが、多言語LLMsの事前学習に寄与することを発見。英語のデータセットFineWeb-Eduを9言語に翻訳し、17兆トークンのTransWebEduを作成。1.3BパラメータのTransWebLLMを事前学習し、非英語の推論タスクで最先端モデルと同等以上の性能を達成。特に、ドメイン特化データを追加することで、いくつかの言語で新たな最先端を達成。コーパス、モデル、トレーニングパイプラインはオープンソースで公開。 Comment

元ポスト:

Loading…

#Pocket #NLP
Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv'22 GPT Summary- 「No Language Left Behind」プロジェクトでは、リソースが乏しい言語の機械翻訳を改善するために、ネイティブスピーカーとのインタビューを通じて必要性を明らかにし、データセットとモデルを開発。新しいデータマイニング技術を用いた条件付き計算モデルを提案し、過学習を防ぐための訓練改善を行った。Flores-200ベンチマークで40,000以上の翻訳方向を評価し、従来技術に対して44%のBLEU改善を達成。全ての成果はオープンソースとして公開。 Comment

low-resourceな言語に対するMTのベンチマーク

#Article #NLP #SyntheticData #Blog Issue Date: 2025-07-09 PLaMo翻訳による英語ベンチマークの翻訳, PFN, 2025.07 #Article #NLP #Zero/Few/ManyShotPrompting Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment

元ポスト:

Loading…

RAG(RetrievalAugmentedGeneration) (5)

#InformationRetrieval #Pocket #NLP #Evaluation #Factuality #Reasoning #NAACL
Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #NLP #LanguageModel #Evaluation
Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#InformationRetrieval #NLP #AIAgents #Evaluation #NAACL
Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#ComputerVision #InformationRetrieval #NLP #LanguageModel #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Pocket #NLP #LanguageModel #Zero/Few/ManyShotPrompting #Evaluation #Factuality #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。

LLM-as-a-Judge (5)

#ComputerVision #Pocket #NLP #AIAgents #Evaluation #Coding #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #Evaluation #Conversation #MultiLingual #RewardModel #One-Line Notes
Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #Evaluation #ImageCaptioning #LongSequence #EMNLP #VisionLanguageModel #MultiDimensional
Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Evaluation Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#NeuralNetwork #NaturalLanguageGeneration #NLP #LanguageModel #Evaluation Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

DataToTextGeneration (4)

#NaturalLanguageGeneration #Pocket #NAACL
Issue Date: 2025-08-30 [Paper Note] DART: Open-Domain Structured Data Record to Text Generation, Linyong Nan+, NAACL'21 GPT Summary- DARTは82,000以上のインスタンスを持つオープンドメインの構造化データからテキスト生成のためのデータセットであり、表形式のデータから意味的トリプルを抽出する手法を提案。ツリーオントロジーアノテーションや質問-回答ペアの変換を活用し、最小限のポストエディティングで異種ソースを統合。DARTは新たな課題を提起し、WebNLG 2017での最先端結果を示すことで、ドメイン外の一般化を促進することを証明。データとコードは公開されている。 #NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #INLG
Issue Date: 2022-08-18 [Paper Note] Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan Yermakov+, arXiv'21, 2021.09 GPT Summary- バイオメディカル分野におけるD2T生成の研究を行い、医薬品のパッケージリーフレットを用いた実世界のデータセットに対してファインチューニングされたトランスフォーマーを適用。現実的な複数文のテキスト生成が可能であることを示す一方で、重要な制限も存在。新たにバイオメディカル分野のD2T生成モデルのベンチマーク用データセット（BioLeaflets）を公開。 Comment

biomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。

#NeuralNetwork #NaturalLanguageGeneration #NLP #TabularData #ACL #Encoder-Decoder
Issue Date: 2025-08-06 Learning to Generate Move-by-Move Commentary for Chess Games from Large-Scale Social Forum Data, Jhamtani+, ACL'18 Comment

データセットの日本語解説（過去の自分の資料）: https://speakerdeck.com/akihikowatanabe/data-to-text-datasetmatome-summary-of-data-to-text-datasets?slide=66

#Article #Survey #NaturalLanguageGeneration #NLP #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

DeepResearch (4)

#Pocket #NLP #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #Live
Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Multi #Pocket #NLP #LanguageModel #ReinforcementLearning #PostTraining #GRPO
Issue Date: 2025-09-15 [Paper Note] DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL, Rui Lu+, arXiv'25 GPT Summary- DeepDiveは、LLMsにブラウジングツールを追加し、複雑なタスクの解決を目指す深い検索エージェントです。オープンな知識グラフから難解な質問を自動合成し、マルチターン強化学習を適用することで、長期的な推論能力を向上させます。実験により、DeepDive-32Bは複数のベンチマークで優れた性能を示し、ツール呼び出しのスケーリングと並列サンプリングを可能にしました。すべてのデータとコードは公開されています。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #Science #Live
Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #AIAgents #SyntheticData #Evaluation #MultiModal #VisionLanguageModel Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

SpatialUnderstanding (4)

#ComputerVision #Pocket #Transformer #Evaluation #FoundationModel #2D (Image) #4D (Video)
Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#ComputerVision #Pocket #Transformer #FoundationModel #3D Reconstruction #3D (Scene) #UMM
Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

#ComputerVision #Pocket #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #Evaluation #MultiModal #DiffusionModel #UMM
Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#ComputerVision #Embeddings #Pocket #NLP #MultiModal #NeurIPS #Encoder Issue Date: 2025-09-22 [Paper Note] Perception Encoder: The best visual embeddings are not at the output of the network, Daniel Bolya+, NeurIPS'25, 2025.04 GPT Summary- Perception Encoder（PE）は、画像と動画理解のための新しいビジョンエンコーダで、シンプルなビジョンと言語の学習を通じて訓練されています。従来の特定のタスクに依存せず、対照的なビジョンと言語の訓練だけで強力な埋め込みを生成します。埋め込みを引き出すために、言語アライメントと空間アライメントの2つの手法を導入。PEモデルは、ゼロショット画像・動画分類で高い性能を示し、Q&Aタスクや空間タスクでも最先端の結果を達成しました。モデルやデータセットは公開されています。 Comment

元ポスト:

Loading…

解説:

Loading…

Metrics (3)

#MachineTranslation #Pocket #NLP #LanguageModel #Evaluation #Reference-free #EMNLP #LowResource
Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#DocumentSummarization #NLP #Evaluation
Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #DocumentSummarization #Tools #NLP #Evaluation #Selected Papers/Blogs
Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

RepresentationLearning (3)

#Embeddings #Analysis #Pocket #NLP #LanguageModel #SyntheticData #ACL #Findings
Issue Date: 2025-10-19 [Paper Note] Understanding the Influence of Synthetic Data for Text Embedders, Jacob Mitchell Springer+, ACL'25 Findings, 2025.09 GPT Summary- 合成LLM生成データのトレーニングによる汎用テキスト埋め込み器の進展を受け、Wangらの合成データを再現・公開。高品質なデータはパフォーマンス向上をもたらすが、一般化の改善は局所的であり、異なるタスク間でのトレードオフが存在。これにより、合成データアプローチの限界が明らかになり、タスク全体での堅牢な埋め込みモデルの構築に対する考えに疑問を呈する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/jspringer/open-synthetic-embeddings

#Survey #Embeddings #Pocket #NLP #LanguageModel #Evaluation
Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #STS (SemanticTextualSimilarity) #ACL
Issue Date: 2025-01-06 Linguistically Conditioned Semantic Textual Similarity, Jingxuan Tu+, ACL'24 GPT Summary- 条件付きSTS（C-STS）は文の意味的類似性を測定するNLPタスクであるが、既存のデータセットには評価を妨げる問題が多い。本研究では、C-STSの検証セットを再アノテーションし、アノテーター間の不一致を55%観察。QAタスク設定を活用し、アノテーションエラーを80%以上のF1スコアで特定する自動エラー識別パイプラインを提案。また、モデル訓練によりC-STSデータのベースライン性能を向上させる新手法を示し、エンティティタイプの型特徴構造（TFS）を用いた条件付きアノテーションの可能性についても議論する。

PersonalizedGeneration (2)

#NLP #ACL
Issue Date: 2023-04-26 LaMP: When Large Language Models Meet Personalization, Selemi+, University of Massachusetts Amherst （w_ Google Research）, ACL'24 Comment

LaMPの作成に利用したテンプレート一覧

実装とleaderboard

https://lamp-benchmark.github.io/leaderboard

#PersonalizedDocumentSummarization #NLP #LanguageModel #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note
Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

PersonalizedDocumentSummarization (2)

#NLP #LanguageModel #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration #ACL #Surface-level Note
Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

#NLP #Personalization
Issue Date: 2023-04-30 ニュース記事に対する談話構造と興味度のアノテーション～ニュース対話システムのパーソナライズに向けて～, 高津+, 早稲田大学, 言語処理学会'21 Comment

DialogueGeneration (2)

#Multi #Pocket #NLP #Conversation
Issue Date: 2025-09-05 Multi-Relational Multi-Party Chat Corpus: 話者間の関係性に着目したマルチパーティ雑談対話コーパス, 津田+, NLP'25 Comment

コーパス: https://github.com/nu-dialogue/multi-relational-multi-party-chat-corpus

元ポスト:

Loading…

#Article #NLP #LanguageModel
Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment

STS (SemanticTextualSimilarity) (2)

#Embeddings #Pocket #RepresentationLearning #ACL
Issue Date: 2025-01-06 Linguistically Conditioned Semantic Textual Similarity, Jingxuan Tu+, ACL'24 GPT Summary- 条件付きSTS（C-STS）は文の意味的類似性を測定するNLPタスクであるが、既存のデータセットには評価を妨げる問題が多い。本研究では、C-STSの検証セットを再アノテーションし、アノテーター間の不一致を55%観察。QAタスク設定を活用し、アノテーションエラーを80%以上のF1スコアで特定する自動エラー識別パイプラインを提案。また、モデル訓練によりC-STSデータのベースライン性能を向上させる新手法を示し、エンティティタイプの型特徴構造（TFS）を用いた条件付きアノテーションの可能性についても議論する。 #NLP
Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv'17 GPT Summary- 日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Comment

github: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset

単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。

VideoGeneration/Understandings (2)

#ComputerVision #EfficiencyImprovement #Pocket #Evaluation #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes
Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#ComputerVision #Pocket
Issue Date: 2025-06-23 [Paper Note] Sekai: A Video Dataset towards World Exploration, Zhen Li+, arXiv'25 GPT Summary- 高品質な一人称視点のビデオデータセット「Sekai」を紹介。750の都市から5,000時間以上のビデオを収集し、位置やシーンなどの豊富な注釈を付与。データセットを用いてインタラクティブなビデオ世界探査モデル「YUME」をトレーニング。Sekaiはビデオ生成と世界探査に貢献することが期待される。 Comment

元ポスト:

Loading…

ScientificDiscovery (2)

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #AIAgents #TabularData #SyntheticData #numeric #MajorityVoting
Issue Date: 2025-10-09 [Paper Note] Scaling Generalist Data-Analytic Agents, Shuofei Qiao+, arXiv'25, 2025.09 GPT Summary- DataMindは、オープンソースのデータ分析エージェントを構築するためのスケーラブルなデータ合成とエージェントトレーニングの手法を提案。主な課題であるデータリソース、トレーニング戦略、マルチターンロールアウトの不安定性に対処し、合成クエリの多様性を高めるタスク分類や、動的なトレーニング目標を採用。DataMind-12Kという高品質なデータセットを作成し、DataMind-14Bはデータ分析ベンチマークで71.16%のスコアを達成し、最先端のプロプライエタリモデルを上回った。DataMind-7Bも68.10%でオープンソースモデル中最高のパフォーマンスを示した。今後、これらのモデルをコミュニティに公開予定。 Comment

元ポスト:

Loading…

7B程度のSLMで70B級のモデルと同等以上の性能に到達しているように見える。論文中のp.2にコンパクトに内容がまとまっている。

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Reproducibility
Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

ImageCaptioning (2)

#ComputerVision #EfficiencyImprovement #Pocket #Evaluation #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional
Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Article #ComputerVision #Pretraining #NLP #QuestionAnswering #VisionLanguageModel #OCR
Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

OCR (2)

#Pocket #Evaluation #CVPR #DocParser
Issue Date: 2025-10-21 [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 #Article #ComputerVision #Pretraining #NLP #QuestionAnswering #ImageCaptioning #VisionLanguageModel
Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。

CodeGeneration (2)

#Pocket #NLP #LanguageModel #Evaluation #Selected Papers/Blogs
Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #NLP #LanguageModel #Evaluation #Selected Papers/Blogs
Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

AutomaticSpeechRecognition(ASR) (2)

#Pocket #SpeechProcessing #One-Line Notes
Issue Date: 2025-11-21 [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 GPT Summary- 本論文では、107言語のYouTube動画から自動収集した音声データを用いて音声言語認識を調査。半ランダムな検索フレーズを用いて音声セグメントを抽出し、ポストフィルタリングにより98%の正確なラベル付けを実現。得られたトレーニングセットは6628時間、評価セットは1609の発話から構成され、実験により自動取得データが手動ラベル付けデータと同等の結果を示すことが確認された。このデータセットは公開されている。 Comment

dataset: https://cs.taltech.ee/staff/tanel.alumae/data/voxlingua107/

Whisperでも活用されているLanguage Identifucation用のdataset
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

#Article #SpeechProcessing #SimulST(SimultaneousSpeechTranslation)
Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment

元ポスト:

Loading…

TextToImageGeneration (2)

#ComputerVision #Pocket #NLP #Evaluation #NeurIPS #read-later #Selected Papers/Blogs
Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#Article #ComputerVision #NLP #LanguageModel #Evaluation #UMM
Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

Editing (2)

#Pocket #NLP #LanguageModel #Coding #mid-training #COLM #One-Line Notes
Issue Date: 2025-10-08 [Paper Note] D3: A Dataset for Training Code LMs to Act Diff-by-Diff, Piterbarg+, COLM'25 Comment

openreview: https://openreview.net/forum?id=sy71y74U80#discussion

#Pocket #NLP #LanguageModel #Evaluation #RewardModel #One-Line Notes
Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

FoundationModel (2)

#ComputerVision #Pocket #Transformer #Evaluation #2D (Image) #4D (Video) #SpatialUnderstanding
Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#ComputerVision #Pocket #Transformer #3D Reconstruction #3D (Scene) #UMM #SpatialUnderstanding
Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

ConceptToTextGeneration (1)

#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #EMNLP
Issue Date: 2017-12-31 [Paper Note] Neural Text Generation from Structured Data with Application to the Biography Domain, Remi Lebret+, EMNLP'16, 2016.03 GPT Summary- 大規模なWikipediaの伝記データセットを用いて、テキスト生成のためのニューラルモデルを提案。モデルは条件付きニューラル言語モデルに基づき、固定語彙とサンプル固有の単語を組み合わせるコピーアクションを採用。提案モデルは古典的なKneser-Neyモデルを約15 BLEUポイント上回る性能を示した。 Comment

Library (1)

#Article #NeuralNetwork #Tools #NLP #LanguageModel #Blog
Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 Comment

NICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。

StudentPerformancePrediction (1)

#Article #Survey #EducationalDataMining #LearningAnalytics #KnowledgeTracing
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

KnowledgeTracing (1)

#Article #Survey #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

CTRPrediction (1)

#Article #RecommenderSystems
Issue Date: 2021-06-01 Criteo Dataset, Display Advertising Challenge, Kaggle, 2014 Comment

基本的には click/non-click のラベルと、そのclick時の付帯情報によって構成されている模様

ScorePrediction (1)

#Article #Education #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-08-23 Score Prediction dataset

DataDistillation (1)

#Article #NLP #InstructionTuning
Issue Date: 2023-04-26 LaMini-instruction GPT Summary- 私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment

既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット

PersonalizedHeadlineGeneration (1)

#PersonalizedDocumentSummarization #NLP #LanguageModel #PersonalizedGeneration #Personalization #ACL #Surface-level Note
Issue Date: 2023-05-31 [Paper Note] PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL'21 GPT Summary- この論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment

NaturalLanguageUnderstanding (1)

#Article #RecommenderSystems #NLP
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions GPT Summary- データセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。

GrammaticalErrorCorrection (1)

#NLP
Issue Date: 2023-07-18 Enhancing Grammatical Error Correction Systems with Explanations, ACL'23 GPT Summary- 文法エラー修正システムの性能向上のために、エビデンスワードと文法エラータイプが注釈付けされた大規模なデータセットであるEXPECTを紹介する。このデータセットを使用して、説明可能なGECシステムのベースラインと分析を提案し、人間の評価によってその有用性を確認する。

NumericReasoning (1)

#Pocket #NLP #LanguageModel #InstructionTuning #Mathematics
Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv'23 GPT Summary- MAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment

AutoML (1)

#MachineLearning #Pocket #NLP #LanguageModel #AIAgents #Evaluation
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

Annotation (1)

#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #LanguageModel
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv'23 GPT Summary- LLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Comment

AES(AutomatedEssayScoring) (1)

#NLP #Japanese
Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL'24, 2024.03 GPT Summary- 第二言語学習の文翻訳演習の自動評価タスクを提案し、評価基準に基づいて学生の回答を採点する。日本語と英語の間で3,498の学生の回答を含むデータセットを作成。ファインチューニングされたBERTモデルは約90%のF1スコアで正しい回答を分類するが、誤った回答は80%未満。少数ショット学習を用いたGPT-3.5はBERTより劣る結果を示し、提案タスクが大規模言語モデルにとっても難しいことを示す。 Comment

SyntheticDataGeneration (1)

#Pocket #NLP #AIAgents #SyntheticData #Evaluation
Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

QuestionGeneration (1)

#Pocket #NLP #LanguageModel #AIAgents #Evaluation
Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

AWS (1)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #Blog #Japanese
Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment

貴重なVLMデータセット構築ノウハウ

青塗りのフィルタリングタスクを具体的にどうやっているのか気になる

TimeSeriesDataProcessing (1)

#Article #MachineLearning #Evaluation
Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

InformationExtraction (1)

#NeuralNetwork #Pocket #ReadingComprehension #Zero/FewShotLearning #CoNLL #RelationExtraction
Issue Date: 2025-08-26 [Paper Note] Zero-Shot Relation Extraction via Reading Comprehension, Omer Levy+, CoNLL'17 GPT Summary- 関係抽出を自然言語の質問に還元することで、ニューラル読解理解技術を活用し、大規模なトレーニングセットを構築可能にする。これにより、ゼロショット学習も実現。ウィキペディアのスロットフィリングタスクで、既知の関係タイプに対する高精度な一般化と未知の関係タイプへのゼロショット一般化が示されたが、後者の精度は低く、今後の研究の基準を設定。

RelationExtraction (1)

#NeuralNetwork #Pocket #InformationExtraction #ReadingComprehension #Zero/FewShotLearning #CoNLL
Issue Date: 2025-08-26 [Paper Note] Zero-Shot Relation Extraction via Reading Comprehension, Omer Levy+, CoNLL'17 GPT Summary- 関係抽出を自然言語の質問に還元することで、ニューラル読解理解技術を活用し、大規模なトレーニングセットを構築可能にする。これにより、ゼロショット学習も実現。ウィキペディアのスロットフィリングタスクで、既知の関係タイプに対する高精度な一般化と未知の関係タイプへのゼロショット一般化が示されたが、後者の精度は低く、今後の研究の基準を設定。

IRT (1)

#Pocket #NLP #LanguageModel #Evaluation #COLM
Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

ObjectDetection (1)

#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #Evaluation #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes
Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

3D Reconstruction (1)

#ComputerVision #Pocket #Transformer #FoundationModel #3D (Scene) #UMM #SpatialUnderstanding
Issue Date: 2025-10-28 [Paper Note] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction, Hao Li+, arXiv'25, 2025.10 GPT Summary- 人間の3Dシーン理解を模倣するため、空間再構築とインスタンス理解を統合したInstanceGrounded Geometry Transformer（IGGT）を提案。IGGTは2D視覚入力を用いて幾何学的構造とインスタンスクラスタリングを統一的に表現し、3Dシーンの一貫性を向上させる。新たに構築したInsScene-15Kデータセットを用いて、3D一貫性のあるインスタンスレベルのマスク注釈を提供。 Comment

pj page: https://lifuguan.github.io/IGGT_official/

元ポスト:

Loading…

ポイント解説:

Loading…

Safeguard (1)

#ComputerVision #Pocket #NLP #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live
Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

ConceptErasure (1)

#Pocket #NLP #LanguageModel #Evaluation #EMNLP #read-later #Selected Papers/Blogs
Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

CameraPoseEstimation (1)

#ComputerVision #Evaluation #CVPR
Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。

Evaluation (357)

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Coding #LLM-as-a-Judge #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #VisionLanguageModel
Issue Date: 2025-11-25 [Paper Note] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- VCodeは、視覚中心のコーディングを促進するためにSVGコードを用いた新しいアプローチを提案。画像から象徴的な意味を持つSVGを生成し、CodeVQAという評価プロトコルでその忠実性を測定。VCoderを導入し、SVGコードの不一致を分析・洗練する「Thinking with Revision」と、構造的手がかりを提供する「Acting with Visual Tools」を通じて、言語中心と視覚中心のコーディングのギャップを埋める。実験により、VCoderは最前線のVLMに対して12.3ポイントの性能向上を実現。 Comment

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

#Pocket #NLP #Dataset #LanguageModel #AIAgents #One-Line Notes Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#ComputerVision #Pocket #NLP #Dataset #NeurIPS #VisionLanguageModel #One-Line Notes #Poster Issue Date: 2025-11-25 [Paper Note] Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers, Wei Pang+, NeurIPS'25, 2025.05 GPT Summary- 学術ポスター生成のための新しいベンチマークとメトリクスを導入し、PosterAgentというマルチエージェントパイプラインを提案。Parserが論文を構造化し、Plannerがレイアウトを整え、Painter-Commenterが視覚的整合性を確保。評価では、GPT-4oの出力は視覚的には魅力的だが、テキストの質が低く、PaperQuizスコアも不十分であることが判明。オープンソースのバリアントは、既存のシステムを上回り、コスト効率も良好。これにより、次世代の自動ポスター生成モデルの方向性が示された。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Analysis #Pocket #NLP #Dataset #LanguageModel #read-later Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #Transformer #FoundationModel #2D (Image) #4D (Video) #SpatialUnderstanding Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Pocket #NLP #Dataset #LanguageModel #UserBased #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#MachineLearning #Pocket #NLP #Dataset #TabularData #Selected Papers/Blogs #Live #One-Line Notes Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#GraphBased #Pocket #NLP #Dataset #LanguageModel Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #NLP #Search #Dataset #LanguageModel #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#Multi #Metrics #Pocket #NLP #LanguageModel #ReinforcementLearning #Conversation #NeurIPS #Personality Issue Date: 2025-11-06 [Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Dataset #MultiModal #Reasoning #Selected Papers/Blogs #VisionLanguageModel #2D (Image) #KeyPoint Notes #text #Visual-CoT Issue Date: 2025-11-05 [Paper Note] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought, Yiyang Zhou+, arXiv'25, 2025.11 GPT Summary- MIRAは、中間的な視覚画像を生成し推論を支援する新しいベンチマークで、従来のテキスト依存の手法とは異なり、スケッチや構造図を用いる。546のマルチモーダル問題を含み、評価プロトコルは画像と質問、テキストのみのCoT、視覚的ヒントを含むVisual-CoTの3レベルを網羅。実験結果は、中間的な視覚的手がかりがモデルのパフォーマンスを33.7%向上させることを示し、視覚情報の重要性を強調している。 Comment

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

著者ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #EMNLP #VisionLanguageModel #One-Line Notes #Short Issue Date: 2025-11-04 [Paper Note] Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint, Heekyung Lee+, EMNLP'25, 2025.05 GPT Summary- リバスパズルは視覚的な謎であり、VLMに特有の挑戦をもたらす。従来のタスクとは異なり、マルチモーダルな抽象化や象徴的推論が必要。本研究では、英語のリバスパズルのベンチマークを構築し、VLMの解釈能力を調査。結果、VLMはシンプルな視覚的手がかりには強いが、抽象的推論や視覚的メタファーの理解には苦労することが明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #UserBased #AIAgents #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Safety #ComputerUse #VisionLanguageModel #Live #Safeguard Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes #ObjectDetection Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

#Pocket #NLP #Dataset #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #NLP #Dataset #LanguageModel #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Pocket #NLP #Dataset #VisionLanguageModel #UMM #Pixel-based Issue Date: 2025-10-21 [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01 GPT Summary- 「Perceive Everything as Pixels（PEAP）」の概念を提案し、自然言語や図式的な入力を単一のピクセル空間に統合するベンチマーク「PixelWorld」を公開。PEAPは意味理解タスクで競争力のある精度を示すが、推論が重要なタスクではパフォーマンスが低下。Chain-of-Thoughtプロンプティングがこのギャップを部分的に緩和し、視覚とテキストの統合により前処理の複雑さが軽減されることが確認された。PixelWorldは統一された視覚言語モデルの評価に役立つ。 Comment

元ポスト:

Loading…

#Pocket #Dataset #CVPR #DocParser #OCR Issue Date: 2025-10-21 [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 #Pocket #Dataset #SpeechProcessing #Reasoning #AudioLanguageModel #audio Issue Date: 2025-10-21 [Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

#Pocket #NLP #Dataset #LanguageModel #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#ComputerVision #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pocket #NLP #LanguageModel #Alignment #NeurIPS #PostTraining #One-Line Notes Issue Date: 2025-10-19 [Paper Note] Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment, Samuel Yeh+, NeurIPS'25, 2025.09 GPT Summary- 人間のフィードバックはLLMのアライメントに重要だが、ノイズや一貫性の欠如が問題を引き起こす。これを解決するために、13のデータクリーニング手法を評価する初のベンチマーク「PrefCleanBench」を導入。さまざまな条件下でのアライメント性能を比較し、データクリーニングの成功要因を明らかにする。これにより、LLMアライメントの改善に向けた再現可能なアプローチを提供し、データ前処理の重要性を強調する。すべての手法の実装は公開されている。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #UserBased #AIAgents #read-later #Selected Papers/Blogs #DeepResearch #Live Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #NLP #Dataset #LanguageModel #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #NLP #LanguageModel #Education #AIAgents #Coding #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

#Pocket #NLP #Dataset #LanguageModel #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#Multi #Pocket #NLP #UserModeling #LanguageModel #UserBased #Conversation #EMNLP #One-Line Notes Issue Date: 2025-10-16 [Paper Note] SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?, Yao Dou+, arXiv'25, 2025.10 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #Dataset #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VideoGeneration/Understandings #VisionLanguageModel #KeyPoint Notes Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Alignment #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #NLP #Dataset #LanguageModel #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #UserBased #Alignment #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #NLP #UserModeling #LanguageModel #UserBased #Conversation #Robustness Issue Date: 2025-10-12 [Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル（User LMs）を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…

#Pocket #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-10-09 [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10 GPT Summary- GDPvalは、AIモデルの経済的価値のあるタスクを評価するベンチマークで、米国GDPに寄与する44の職業をカバー。最前線モデルのパフォーマンスは時間と共に改善し、業界専門家に近づいている。人間の監視を加えたモデルは、無援助の専門家よりも効率的にタスクを実行可能であることを示唆。推論努力やタスクコンテキストの増加がモデルの性能向上に寄与。220のタスクのゴールドサブセットをオープンソース化し、研究促進のための自動採点サービスを提供。 Comment

元ポスト:

Loading…

#Multi #Pocket #NLP #Dataset #LanguageModel #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #NLP #UserModeling #Dataset #LanguageModel #UserBased #AIAgents #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #COLM #VisionLanguageModel #Geometric Issue Date: 2025-10-06 [Paper Note] VisOnlyQA: Large Vision Language Models Still Struggle with Visual Perception of Geometric Information, Ryo Kamoi+, COLM'25, 2024.12 GPT Summary- LVLMsの幾何学的認識を評価するためのデータセット「VisOnlyQA」を導入し、LVLMsが画像内の幾何学的情報を正確に認識できないことを明らかにした。23のLVLMs（GPT-4oやGemini 2.5 Proを含む）は、VisOnlyQAでの性能が低く、追加のトレーニングデータでは改善されない。より強力なLLMを使用するLVLMsは幾何学的認識が向上するが、視覚エンコーダーからの情報処理がボトルネックであることが示唆された。 Comment

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

#Controllable #Pocket #NLP #LanguageModel #AIAgents #LongSequence #Contamination-free Issue Date: 2025-10-04 [Paper Note] Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling, Seiji Maekawa+, arXiv'25, 2025.09 GPT Summary- TaLMsの評価のために、汚染のないフレームワークFuncBenchGenを提案。ツール使用をDAG上のトラバーサルとして捉え、モデルは正しい関数呼び出しシーケンスを構成。7つのLLMを異なる難易度のタスクで評価した結果、GPT-5が特に優れた性能を示し、依存の深さが増すと性能が低下。古い引数値の伝播が問題であることが判明し、再表現戦略を導入したところ、成功率が62.5%から81.3%に向上した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #NLP #Dataset #ReinforcementLearning #Conversation #MultiLingual #LLM-as-a-Judge #RewardModel #One-Line Notes Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

#Pocket #NLP #UserModeling #Dataset #LanguageModel #UserBased #Personalization #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#ComputerVision #EfficiencyImprovement #Pocket #Dataset #ImageCaptioning #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #QuestionAnswering #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#Pocket #NLP #Dataset #LanguageModel #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

#Pocket #Dataset #LanguageModel #ContextAware #EMNLP #Findings #Personality Issue Date: 2025-09-24 [Paper Note] CAPE: Context-Aware Personality Evaluation Framework for Large Language Models, Jivnesh Sandhan+, EMNLP'25 Findings, 2025.08 GPT Summary- 心理測定テストをLLMsの評価に適用するため、文脈対応パーソナリティ評価（CAPE）フレームワークを提案。従来の孤立した質問アプローチから、会話の履歴を考慮した応答の一貫性を定量化する新指標を導入。実験により、会話履歴が応答の一貫性を高める一方で、パーソナリティの変化も引き起こすことが明らかに。特にGPTモデルは堅牢性を示し、Gemini-1.5-FlashとLlama-8Bは感受性が高い。CAPEをロールプレイングエージェントに適用すると、一貫性が改善され人間の判断と一致することが示された。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #NLP #Dataset #LanguageModel #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #EMNLP #RewardModel Issue Date: 2025-09-23 [Paper Note] reWordBench: Benchmarking and Improving the Robustness of Reward Models with Transformed Inputs, Zhaofeng Wu+, EMNLP'25, 2025.03 GPT Summary- 報酬モデルはNLPにおいて重要だが、過学習の影響で真の能力が混乱することがある。本研究では、報酬モデルの堅牢性を評価するために**reWordBench**を構築し、入力変換による性能低下を調査。最先端の報酬モデルは小さな変換でも著しい性能低下を示し、脆弱性が明らかになった。堅牢性向上のために同義語に対して類似スコアを割り当てる訓練を提案し、これにより性能低下を約半分に減少させた。さらに、アライメントにおいても高品質な出力を生成し、標準的な報酬モデルに対して最大59%のケースで優れた結果を示した。 Comment

元ポスト:

Loading…

Figure1がRMの過学習の様子を図示しており、非常に端的で分かりやすい。

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #NLP #Dataset #Reasoning #RewardModel Issue Date: 2025-09-22 [Paper Note] Libra: Assessing and Improving Reward Model by Learning to Think, Meng Zhou+, arXiv'25, 2025.07 GPT Summary- 強化学習（RL）の報酬モデルは、困難な推論シナリオでの性能が低下しており、注釈付き参照回答や制約された出力形式に依存している。これに対処するため、推論指向のベンチマーク「Libra Bench」を提案し、生成的報酬モデルを改善する新しいアプローチを導入。Libra-RMシリーズを開発し、さまざまなベンチマークで最先端の結果を達成。実験結果は、Libra Benchと下流アプリケーションとの相関関係を示し、ラベルのないデータを用いた推論モデルの改善の可能性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #NLP #Search #Dataset #LanguageModel #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #InstructionTuning #NeurIPS #RLVR #InstructionFollowingCapability Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#NLP #Dataset #LanguageModel #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Analysis #MachineLearning #Pocket #NLP #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #NLP #LanguageModel #AIAgents #Safety #NeurIPS Issue Date: 2025-09-19 [Paper Note] OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents, Thomas Kuntz+, NeurIPS'25 GPT Summary- コンピュータ使用エージェントの安全性を評価するために、新しいベンチマークOS-Harmを導入。OS-Harmは、意図的な誤用、プロンプトインジェクション攻撃、不適切な行動の3つの危害をテストする150のタスクを含む。自動ジャッジを用いてエージェントの正確性と安全性を評価し、高い一致率を達成。最前線モデルの評価から、意図的な誤用に従う傾向や脆弱性が明らかになった。OS-Harmは、エージェントの安全性向上に寄与することを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #NLP #Dataset #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #NLP #Dataset #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Analysis #Pocket #NLP #LanguageModel #Hallucination #TMLR #read-later Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル（LLMs）の類似性を理解するために、想像上の質問応答（IQA）という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #IRT #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #AIAgents #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Pocket #NLP #Dataset #LanguageModel #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#Pocket #NLP #LanguageModel #Factuality Issue Date: 2025-09-11 [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25 GPT Summary- SimpleQA Verifiedは、OpenAIのSimpleQAに基づく1,000プロンプトのベンチマークで、LLMの短文事実性を評価します。ノイズの多いラベルやトピックバイアスに対処するため、厳密なフィルタリングプロセスを経て信頼性の高い評価セットを生成しました。Gemini 2.5 Proは55.6のF1スコアを達成し、他のモデルを上回りました。この研究は、事実性の進展を追跡し、幻覚を軽減するためのツールを提供します。 Comment

leaderboard: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified

元ポスト:

Loading…

#NLP #Dataset #LanguageModel #AIAgents #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #NLP #LanguageModel #NAACL #Decoding #Non-Determinism Issue Date: 2025-09-09 [Paper Note] The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism, Yifan Song+, NAACL'25 GPT Summary- LLMの評価は非決定性を見落としがちで、単一出力に焦点を当てるため性能の変動理解が制限される。本研究では、貪欲デコーディングとサンプリングの性能差を探求し、非決定性に関するベンチマークの一貫性を特定。実験により、貪欲デコーディングが多くのタスクで優れていることを確認し、アライメントがサンプリングの分散を減少させる可能性を示した。また、小型LLMが大型モデルに匹敵する性能を持つことを明らかにし、LLM評価における非決定性の重要性を強調した。 Comment

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#Pocket #NLP #LanguageModel #Reasoning #read-later #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2025-09-05 [Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #NLP #Dataset #LanguageModel #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #Dataset #LanguageModel #SpeechProcessing #read-later #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #MCP Issue Date: 2025-08-30 [Paper Note] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers, Zhenting Wang+, arXiv'25 GPT Summary- MCP-Benchは、ツールの使用や調整、計画/推論を必要とする多段階タスクを評価するためのベンチマークであり、250のツールを持つ28のMCPサーバーにLLMsを接続します。従来のベンチマークとは異なり、相互に連携するツールセットを提供し、複雑なタスクを構築可能にします。タスクは、ツールの取得能力や多段階実行経路の計画能力をテストし、既存のベンチマークでは評価されていない能力を明らかにします。20のLLMに対する実験を通じて、MCP-Benchの課題が示されました。 Comment

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

#Pocket #NLP #Dataset #LanguageModel #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Pocket #NLP #Dataset #AIAgents #MCP Issue Date: 2025-08-22 [Paper Note] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers, Ziyang Luo+, arXiv'25 GPT Summary- モデルコンテキストプロトコル（MCP）は、LLMを外部データソースに接続する新しい標準であり、MCP-Universeという包括的なベンチマークを導入。これにより、実際のアプリケーションにおけるLLMの評価が可能となる。6つのコアドメインをカバーし、厳密な評価手法を実装。主要なLLMは性能制限を示し、長文コンテキストや未知のツールの課題に直面。UIサポート付きの評価フレームワークをオープンソース化し、MCPエコシステムの革新を促進。 Comment

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

#Analysis #NaturalLanguageGeneration #Pocket #NLP #LanguageModel #EMNLP #read-later Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Factuality #read-later #Selected Papers/Blogs Issue Date: 2025-08-22 [Paper Note] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents, Shilong Li+, arXiv'25 GPT Summary- MM-BrowseCompは、AIエージェントのマルチモーダル検索および推論能力を評価する新しいベンチマークで、224の手作りの質問を含む。これにより、画像や動画を含む情報の重要性を考慮し、テキストのみの手法の限界を示す。最先端モデルの評価では、OpenAI o3などのトップモデルでも29.02%の精度にとどまり、マルチモーダル能力の最適化不足が明らかになった。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #NLP #Dataset #LanguageModel #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #NLP #Dataset #LanguageModel #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #NLP #Dataset #LanguageModel #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #SoftwareEngineering Issue Date: 2025-08-12 [Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

#Pocket #NLP #Dataset #LanguageModel #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#Survey #Embeddings #Pocket #NLP #Dataset #LanguageModel #RepresentationLearning Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#Pocket #NLP #LanguageModel #Reasoning #LongSequence #Scaling Laws Issue Date: 2025-07-22 [Paper Note] Inverse Scaling in Test-Time Compute, Aryo Pradipta Gema+, arXiv'25 GPT Summary- LRMsの推論の長さが性能に与える影響を評価するタスクを構築し、計算量と精度の逆スケーリング関係を示す。4つのカテゴリのタスクを通じて、5つの失敗モードを特定。これにより、長時間の推論が問題のあるパターンを強化する可能性があることが明らかになった。結果は、LRMsの失敗モードを特定し対処するために、推論の長さに応じた評価の重要性を示している。 Comment

元ポスト:

Loading…

#RecommenderSystems #Pocket #LanguageModel #Prompting #RecSys #Reproducibility #KeyPoint Notes Issue Date: 2025-07-21 [Paper Note] Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation, Genki Kusano+, RecSys'25 GPT Summary- LLMを用いた単一ユーザー設定の推薦タスクにおいて、プロンプトエンジニアリングが重要であることを示す。23種類のプロンプトタイプを比較した結果、コスト効率の良いLLMでは指示の言い換え、背景知識の考慮、推論プロセスの明確化が効果的であり、高性能なLLMではシンプルなプロンプトが優れることが分かった。精度とコストのバランスに基づくプロンプトとLLMの選択に関する提案を行う。 Comment

元ポスト:

Loading…

RecSysにおける網羅的なpromptingの実験。非常に興味深い

実験で利用されたPrompting手法と相対的な改善幅

RePhrase,StepBack,Explain,Summalize-User,Recency-Focusedが、様々なモデル、データセット、ユーザの特性（Light, Heavy)において安定した性能を示しており（少なくともベースラインからの性能の劣化がない）、model agnosticに安定した性能を発揮できるpromptingが存在することが明らかになった。一方、Phi-4, nova-liteについてはBaselineから有意に性能が改善したPromptingはなかった。これはモデルは他のモデルよりもそもそもの予測性能が低く、複雑なinstructionを理解する能力が不足しているため、Promptデザインが与える影響が小さいことが示唆される。

特定のモデルでのみ良い性能を発揮するPromptingも存在した。たとえばRe-Reading, Echoは、Llama3.3-70Bでは性能が改善したが、gpt-4.1-mini, gpt-4o-miniでは性能が悪化した。ReActはgpt-4.1-miniとLlamd3.3-70Bで最高性能を達成したが、gpt-4o-miniでは最も性能が悪かった。

NLPにおいて一般的に利用されるprompting、RolePlay, Mock, Plan-Solve, DeepBreath, Emotion, Step-by-Stepなどは、推薦のAcc.を改善しなかった。このことより、ユーザの嗜好を捉えることが重要なランキングタスクにおいては、これらプロンプトが有効でないことが示唆される。

続いて、LLMやデータセットに関わらず高い性能を発揮するpromptingをlinear mixed-effects model（ランダム効果として、ユーザ、LLM、メトリックを導入し、これらを制御する項を線形回帰に導入。promptingを固定効果としAccに対する寄与をfittingし、多様な状況で高い性能を発揮するPromptを明らかにする)によって分析した結果、ReAct, Rephrase, Step-Backが有意に全てのデータセット、LLMにおいて高い性能を示すことが明らかになった。

#EfficiencyImprovement #Pocket #NLP #Dataset #AIAgents #SoftwareEngineering Issue Date: 2025-07-18 [Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge, Yueqi Song+, arXiv'25 GPT Summary- VisualPuzzlesは、専門知識への依存を最小限に抑えた視覚的推論を評価する新しいベンチマークで、5つの推論カテゴリーから成る多様な質問を含む。実験により、VisualPuzzlesはドメイン特有の知識を大幅に減少させ、より複雑な推論を要求することが示された。最先端のマルチモーダルモデルは、VisualPuzzlesで人間のパフォーマンスに遅れをとり、知識集約型タスクでの成功が推論タスクでの成功に必ずしもつながらないことが明らかになった。また、モデルのサイズとパフォーマンスの間に明確な相関は見られず、VisualPuzzlesは事実の記憶を超えた推論能力を評価する新たな視点を提供する。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Pocket #NLP #Dataset #MultiModal #ICLR #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks, Ziyan Jiang+, ICLR'25 GPT Summary- 本研究では、ユニバーサルマルチモーダル埋め込みモデルの構築を目指し、二つの貢献を行った。第一に、MMEB（Massive Multimodal Embedding Benchmark）を提案し、36のデータセットを用いて分類や視覚的質問応答などのメタタスクを網羅した。第二に、VLM2Vecというコントラストトレーニングフレームワークを開発し、視覚-言語モデルを埋め込みモデルに変換する手法を示した。実験結果は、VLM2Vecが既存のモデルに対して10%から20%の性能向上を達成することを示し、VLMの強力な埋め込み能力を証明した。 Comment

openreview: https://openreview.net/forum?id=TE0KOzWYAF

#Analysis #Pocket #NLP #LanguageModel #LLM-as-a-Judge #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#Pocket #NLP #LanguageModel #read-later Issue Date: 2025-07-05 [Paper Note] Answer Matching Outperforms Multiple Choice for Language Model Evaluation, Nikhil Chandak+, arXiv'25 GPT Summary- 複数選択のベンチマークは言語モデル評価において重要だが、質問を見ずに回答できることが多い。これに対し、回答マッチングという生成的評価を提案し、自由形式の応答を生成させて参照回答と一致するかを判断。MMLU-ProとGPQA-Diamondで人間の採点データを取得し、回答マッチングがほぼ完璧な一致を達成することを示した。評価方法の変更により、モデルのランキングが大きく変わる可能性がある。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

まだ冒頭しか読めていないので後で読む

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#Metrics #Pocket #Transformer #SpokenLanguageProcessing Issue Date: 2025-07-02 [Paper Note] AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences, Minoru Kishi+, arXiv'25 GPT Summary- 新しい客観的評価指標AudioBERTScoreを提案し、合成音声の性能向上を目指す。従来の客観的指標は主観的評価との相関が弱いため、AudioBERTScoreは合成音声と参照音声の埋め込みの類似性を計算し、主観的評価との相関が高いことを実験で示した。 Comment

元ポスト:

Loading…

text-to-audioの自動評価が可能な模様

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#Pocket #NLP #Dataset #AIAgents #Coding #LongSequence #NeurIPS Issue Date: 2025-06-17 [Paper Note] ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, NeurIPS'25 GPT Summary- AIシステムの最適化問題に対するパフォーマンスを評価する新しいベンチマークALE-Benchを提案。ALE-Benchは実際のタスクに基づき、長期的な解決策の洗練を促進する。大規模言語モデル（LLM）の評価では特定の問題で高いパフォーマンスを示すが、一貫性や長期的な問題解決能力において人間とのギャップが残ることが明らかになり、今後のAI進展に向けた必要性を示唆している。 Comment

元ポスト:

Loading…

関連ポスト:

Loading…

NeurIPSにaccept:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#Analysis #Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ICLR #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-05-23 LiveBench: A Challenging, Contamination-Limited LLM Benchmark, Colin White+, ICLR'25 GPT Summary- テストセットの汚染を防ぐために、LLM用の新しいベンチマーク「LiveBench」を導入。LiveBenchは、頻繁に更新される質問、自動スコアリング、さまざまな挑戦的タスクを含む。多くのモデルを評価し、正答率は70%未満。質問は毎月更新され、LLMの能力向上を測定可能に。コミュニティの参加を歓迎。 Comment

テストデータのコンタミネーションに対処できるように設計されたベンチマーク。重要研究

#Survey #InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Analysis #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#Pocket #NLP #Dataset #LanguageModel #AIAgents #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#Metrics #NLP #LanguageModel #GenerativeAI #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#InformationRetrieval #Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-03-25 ExpertGenQA: Open-ended QA generation in Specialized Domains, Haz Sameen Shahgir+, arXiv'25 GPT Summary- ExpertGenQAは、少数ショット学習とトピック・スタイル分類を組み合わせたQAペア生成プロトコルで、米国連邦鉄道局の文書を用いて94.4%のトピックカバレッジを維持しつつ、ベースラインの2倍の効率を達成。評価では、LLMベースのモデルが内容よりも文体に偏ることが判明し、ExpertGenQAは専門家の質問の認知的複雑性をより良く保持。生成したクエリは、リトリーバルモデルの精度を13.02%向上させ、技術分野での有効性を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#InformationRetrieval #NLP #Dataset #AIAgents #RAG(RetrievalAugmentedGeneration) #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Hallucination #Factuality #COLM Issue Date: 2023-07-27 [Paper Note] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, COLM'25, 2023.07 GPT Summary- 生成的事前学習モデルによるテキスト合成は進展したが、事実誤認の特定には課題が残る。特に、生成モデルによる事実誤認のリスク増加、長文化による粒度の欠如、明示的証拠の不足が問題である。これらを解決するために、タスクやドメインに依存しない事実誤認検出フレームワークFacToolを提案。知識ベースのQA、コード生成、数学的推論、科学文献レビューの4つのタスクで有効性を実証し、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=hJkQL9VtWT#discussion

#Pocket #NLP #LanguageModel #AIAgents #NeurIPS #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

#Pocket #NLP #Dataset #LanguageModel #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#ComputerVision #Pocket #NLP #Dataset #DiffusionModel #read-later #Selected Papers/Blogs #UMM Issue Date: 2025-09-11 [Paper Note] ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment, Xiwei Hu+, arXiv'24 GPT Summary- 拡散モデルに大規模言語モデル（LLM）を組み込む「効率的な大規模言語モデルアダプター（ELLA）」を提案。これにより、複雑なプロンプトの整合性を向上させ、意味的特徴を適応させる新しいモジュール「時間ステップ認識セマンティックコネクタ（TSC）」を導入。ELLAは密なプロンプトに対する性能が最先端手法を上回ることを実験で示し、特に複数のオブジェクト構成において優位性を発揮。 Comment

pj page: https://ella-diffusion.github.io

#Pocket #NLP #Dataset #LanguageModel #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #NLP #Dataset #LanguageModel #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #NLP #Dataset #LanguageModel #SyntheticData #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#ComputerVision #Pocket #NLP #Dataset #QuestionAnswering #MultiModal #MultiLingual #VisionLanguageModel #Cultural Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #ComputerVision #Pocket #NLP #Dataset #InstructionTuning #MultiLingual #VisionLanguageModel Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。 #Pocket #NLP #Dataset #LanguageModel #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #NLP #Dataset #LanguageModel #QuestionAnswering #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #NLP #Dataset #LanguageModel #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #NLP #Dataset #LanguageModel #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #ComputerVision #Pocket #NLP #Dataset #MultiModal #Reasoning #CVPR Issue Date: 2025-08-09 [Paper Note] MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI, Xiang Yue+, CVPR'24 GPT Summary- MMMUは、大学レベルの専門知識と意図的な推論を必要とするマルチモーダルモデルの評価のための新しいベンチマークで、11,500のマルチモーダル質問を含む。6つの主要分野をカバーし、30種類の画像タイプを使用。既存のベンチマークと異なり、専門家が直面するタスクに類似した課題を提供。GPT-4VとGeminiの評価では、56%と59%の精度にとどまり、改善の余地があることを示す。MMMUは次世代のマルチモーダル基盤モデルの構築に寄与することが期待されている。 Comment

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

#Metrics #Pocket #NLP #Search #LanguageModel #Factuality #LongSequence Issue Date: 2025-08-08 [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24 GPT Summary- VERISCOREという新しい指標を提案し、検証可能な主張と検証不可能な主張の両方を含む長文生成タスクに対応。人間評価ではVERISCOREが他の方法よりも理にかなっていることが確認され、16のモデルを評価した結果、GPT-4oが最も優れた性能を示したが、オープンウェイトモデルも差を縮めていることが分かった。また、異なるタスク間でVERISCOREの相関がないことから、事実性評価の拡張が必要であることを示唆している。 Comment

#Pocket #NLP #Dataset #LanguageModel #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

#ComputerVision #Pocket #NLP #Dataset #Mathematics #VisionLanguageModel Issue Date: 2025-07-14 [Paper Note] Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset, Ke Wang+, NeurIPS'24 Datasets and Benchmarks Track GPT Summary- MATH-Vision（MATH-V）データセットを提案し、3,040の視覚的文脈を持つ数学問題を収集。16の数学分野と5つの難易度で構成され、LMMsの数学的推論能力を評価。実験により、LMMsと人間のパフォーマンス間に顕著なギャップがあることを示し、さらなる進展の必要性を強調。エラー分析を通じて今後の研究に貴重な洞察を提供。 Comment

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

#Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #NLP #LanguageModel #Decoding #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-04-14 Non-Determinism of "Deterministic" LLM Settings, Berk Atil+, arXiv'24 GPT Summary- 本研究では、5つの決定論的LLMにおける非決定性を8つのタスクで調査し、最大15%の精度変動と70%のパフォーマンスギャップを観察。全てのタスクで一貫した精度を提供できないことが明らかになり、非決定性が計算リソースの効率的使用に寄与している可能性が示唆された。出力の合意率を示す新たなメトリクスTARr@NとTARa@Nを導入し、研究結果を定量化。コードとデータは公開されている。 Comment

#RecommenderSystems #Analysis #CollaborativeFiltering #Library #RecSys Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#Pocket #NLP #Dataset #LanguageModel #AIAgents #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Pocket #LanguageModel #Bias #ACL Issue Date: 2025-01-06 ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models, Aparna Elangovan+, arXiv'24 GPT Summary- 本ポジションペーパーでは、生成的な大規模言語モデル（LLMs）の人間評価は多分野にわたる取り組みであるべきと主張し、実験デザインの信頼性を確保するためにユーザーエクスペリエンスや心理学の洞察を活用する必要性を強調します。評価には使いやすさや認知バイアスを考慮し、強力なモデルの能力と弱点を区別するための効果的なテストセットが求められます。さらに、スケーラビリティも重要であり、6つの柱から成るConSiDERS-The-Human評価フレームワークを提案します。これらの柱は、一貫性、評価基準、差別化、ユーザーエクスペリエンス、責任、スケーラビリティです。 #Pocket #NLP #Dataset #AIAgents #SyntheticData #SyntheticDataGeneration Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

#NLP #Dataset #LanguageModel #AIAgents Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#RecommenderSystems #Pocket #Dataset #LanguageModel #SessionBased #Personalization Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。 #Survey #Pocket #NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #NLP #LanguageModel Issue Date: 2024-12-15 When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards, Norah Alzahrani+, ACL'24 GPT Summary- LLMのリーダーボードは、ベンチマークランキングに基づいてモデル選択を支援するが、ランキングは微細な変更に敏感であり、最大8位変動することがある。3つのベンチマーク摂動のカテゴリにわたる実験を通じて、この現象の原因を特定し、ハイブリッドスコアリング方法の利点を含むベストプラクティスを提案。単純な評価に依存する危険性を強調し、より堅牢な評価スキームの必要性を示した。 Comment

#Pocket #NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2024-12-15 BatchEval: Towards Human-like Text Evaluation, Peiwen Yuan+, ACL'24 GPT Summary- BatchEvalという新しい評価パラダイムを提案し、LLMを用いた自動テキスト評価の問題を解決。バッチ単位での反復評価により、プロンプト設計の敏感さやノイズ耐性の低さを軽減。実験により、BatchEvalは最先端手法に対して10.5%の改善を示し、APIコストを64%削減。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に日本語によるサマリが掲載されているので参照のこと。

#NeuralNetwork #NaturalLanguageGeneration #NLP #Dataset #LanguageModel #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Multi #Pocket #NLP #Dataset #LanguageModel #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

#InformationRetrieval #Pocket #RelevanceJudgment #LanguageModel Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル（LLM）を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment

元ポスト:

Loading…

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-ntenei-r-h3qlECirT3G9O2BGk765_g)

Perplexityの生成結果では、27個のシステムと記述されているが、これは実際はトピックで、各トピックごとに300件程度の0--3のRelevance Scoreが、人手評価、UMBRELA共に付与されている模様（Table1）。

評価結果

- Fully Manual Assessment: 既存のNIST methodologyと同様に人手でRelevance Scoreを付与する方法
- Manual Aspessment with Filtering: LLMのnon-Relevantと判断したpassageを人手評価から除外する方法
- Manual Post-Editing of Automatic Assessment: LLMがnon-Relevantと判断したpassageを人手評価から除外するだけでなく、LLMが付与したスコアを評価者にも見せ、評価者が当該ラベルを修正するようなスコアリングプロセス
- Fully Automatic Assessment:UMBRELAによるRelevance Scoreをそのまま利用する方法

LLMはGPT4-oを用いている。

19チームの77個のRunがどのように実行されているか、それがTable1の統計量とどう関係しているかがまだちょっとよくわかっていない。

UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。

#Survey #NLP #LanguageModel #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#InformationRetrieval #LanguageModel Issue Date: 2024-09-24 Report on the 1st Workshop on Large Language Model for Evaluation in Information Retrieval （LLM4Eval 2024） at SIGIR 2024, Hossein A. Rahmani+, N_A, arXiv'24 GPT Summary- LLM4Eval 2024ワークショップがSIGIR 2024で開催され、情報検索における評価のための大規模言語モデルに関する研究者が集まりました。新規性を重視し、受理論文のパネルディスカッションやポスターセッションを通じて多面的な議論が行われました。 Comment

LLMを用いたIRシステムの評価方法に関するワークショップのレポート。レポート中にAccepted Paperがリストアップされている。

#Survey #Pocket #SpokenLanguageProcessing #FoundationModel #Speech Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

#Survey #NaturalLanguageGeneration #Pocket #NLP #LLM-as-a-Judge Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #Dataset #LanguageModel #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #Pocket #NLP #Dataset #LanguageModel #Zero/Few/ManyShotPrompting #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #ComputerVision #Pocket #NLP #Dataset #TextToImageGeneration #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#NaturalLanguageGeneration #Metrics #Pocket #NLP #EMNLP #Finetuning Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

#NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Explanation #Supervised-FineTuning (SFT) #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#Pocket #NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP'23 GPT Summary- 従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル（LLMs）を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment

伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究

#Pocket #NLP #Dataset #LanguageModel #QuestionAnswering #AIAgents #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #NLP #Dataset #LanguageModel #InstructionTuning #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #NLP #LanguageModel #Factuality #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv'23 GPT Summary- 自律型の事実チェックにおいて、大規模言語モデル（LLMs）を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Comment

#NLP #LanguageModel Issue Date: 2023-10-29 Large Language Models are not Fair Evaluators, Peiyi Wang+, N_A, arXiv'23 GPT Summary- この論文では、大規模言語モデル（LLMs）を使用して、候補モデルの応答品質を評価する評価パラダイムにおける系統的なバイアスを明らかにします。さらに、バイアスを軽減するためのキャリブレーションフレームワークを提案し、実験によってその有効性を示します。また、コードとデータを公開して、今後の研究を支援します。 #Pocket #NLP #LanguageModel Issue Date: 2023-10-28 Human Feedback is not Gold Standard, Tom Hosking+, N_A, arXiv'23 GPT Summary- 人間のフィードバックは、大規模言語モデルの性能評価に使用されているが、その好みのスコアがどの特性を捉えているのかは明確ではない。この研究では、人間のフィードバックの使用を分析し、重要なエラー基準を適切に捉えているかどうかを検証した。結果として、好みのスコアは広範なカバレッジを持っているが、事実性などの重要な側面が過小評価されていることがわかった。また、好みのスコアとエラーアノテーションは交絡因子の影響を受ける可能性があり、出力の断定性が事実性エラーの知覚率を歪めることも示された。さらに、人間のフィードバックを訓練目標として使用することが、モデルの出力の断定性を過度に増加させることも示された。今後の研究では、好みのスコアが望ましい目標と一致しているかどうかを慎重に考慮する必要がある。 Comment

参考:

Loading…

#Pocket #NLP #LanguageModel Issue Date: 2023-10-25 Branch-Solve-Merge Improves Large Language Model Evaluation and Generation, Swarnadeep Saha+, N_A, arXiv'23 GPT Summary- 本研究では、多面的な言語生成および評価タスクにおいて、大規模言語モデルプログラム（BSM）を提案します。BSMは、ブランチ、ソルブ、マージの3つのモジュールから構成され、タスクを複数のサブタスクに分解し、独立して解決し、解決策を統合します。実験により、BSMが評価の正確性と一貫性を向上させ、パフォーマンスを向上させることが示されました。 #MachineLearning #Pocket #NLP #Dataset #LanguageModel #AIAgents #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #NLP #Dataset #LanguageModel #AIAgents Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #NLP #LM-based #Coherence Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #DocumentSummarization #Pocket #NLP #Reference-free Issue Date: 2023-08-13 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N_A, Findings of ACL'23 GPT Summary- 自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。 Comment

#DocumentSummarization #Pocket #NLP #LLM-as-a-Judge Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv'23 GPT Summary- 本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 Comment

BERTScoreと同様、評価したいテキストの対数尤度で評価している
BERTScoreよりも相関が高く、instructionによって性能が向上することが示されている

#DocumentSummarization #Pocket #NLP Issue Date: 2023-08-13 Large Language Models are Diverse Role-Players for Summarization Evaluation, Ning Wu+, N_A, arXiv'23 GPT Summary- 本研究では、テキスト要約の評価フレームワークを提案し、生成されたテキストと参照テキストを客観的および主観的な側面から比較することで包括的な評価を行います。具体的には、ロールプレイヤーのプロンプティングメカニズムを使用してテキストの評価をモデル化し、コンテキストベースのプロンプティングメカニズムを導入して動的なロールプレイヤープロファイルを生成します。さらに、バッチプロンプティングに基づいたマルチロールプレイヤープロンプティング技術を使用して複数の評価結果を統合します。実験結果は、提案モデルが競争力があり、人間の評価者と高い一致性を持つことを示しています。 #DocumentSummarization #Pocket #NLP #Factuality Issue Date: 2023-08-13 ChatGPT as a Factual Inconsistency Evaluator for Text Summarization, Zheheng Luo+, N_A, arXiv'23 GPT Summary- 事前学習された言語モデルによるテキスト要約の性能向上が注目されているが、生成された要約が元の文書と矛盾することが問題となっている。この問題を解決するために、効果的な事実性評価メトリクスの開発が進められているが、計算複雑性や不確実性の制約があり、人間の判断との一致に限定されている。最近の研究では、大規模言語モデル（LLMs）がテキスト生成と言語理解の両方で優れた性能を示していることがわかっている。本研究では、ChatGPTの事実的な矛盾評価能力を評価し、バイナリエンテイルメント推論、要約ランキング、一貫性評価などのタスクで優れた性能を示した。ただし、ChatGPTには語彙的な類似性の傾向や誤った推論、指示の不適切な理解などの制限があることがわかった。 #NLP #Dataset #LanguageModel Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

#Pocket #NLP #LanguageModel #LLM-as-a-Judge #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 Comment

`LLM-as-a-Judge` という用語を最初に提唱したのも本研究となる（p.2参照）

#NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL'23 GPT Summary- 本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル（LLMs）を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #ComputerVision #NaturalLanguageGeneration #NLP #Dataset Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Metrics #NLP #LanguageModel #QuestionAnswering #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

#Pocket #NLP #ChatGPT Issue Date: 2023-07-22 How is ChatGPT's behavior changing over time?, Lingjiao Chen+, N_A, arXiv'23 GPT Summary- GPT-3.5とGPT-4は、大規模言語モデル（LLM）のサービスであり、その性能と振る舞いは時間とともに変動することがわかった。例えば、GPT-4は素数の特定に優れていたが、後のバージョンでは低い正答率となった。また、GPT-3.5はGPT-4よりも優れた性能を示した。さらに、GPT-4とGPT-3.5の両方が時間とともに敏感な質問への回答やコード生成でのミスが増えた。この結果から、LLMの品質を継続的に監視する必要性が示唆される。 Comment

#Pocket #NLP #LanguageModel #InstructionTuning Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv'23 GPT Summary- 本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #Pocket #NLP #Dataset #LanguageModel Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#DocumentSummarization #Metrics #NLP #Dataset Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #NaturalLanguageGeneration #NLP #Explanation #Faithfulness Issue Date: 2023-07-18 Faithfulness Tests for Natural Language Explanations, ACL'23 GPT Summary- 本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。 #NaturalLanguageGeneration #NLP #Novelty Issue Date: 2023-07-14 [TACL] How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, TACL'23 GPT Summary- この研究では、言語モデルが生成するテキストの新規性を評価するための分析スイートRAVENを紹介しています。英語で訓練された4つのニューラル言語モデルに対して、局所的な構造と大規模な構造の新規性を評価しました。結果として、生成されたテキストは局所的な構造においては新規性に欠けており、大規模な構造においては人間と同程度の新規性があり、時には訓練セットからの重複したテキストを生成することもあります。また、GPT-2の詳細な手動分析により、組成的および類推的な一般化メカニズムの使用が示され、新規テキストが形態的および構文的に妥当であるが、意味的な問題が比較的頻繁に発生することも示されました。 #MachineLearning #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #NLP #Dataset #LanguageModel #TheoryOfMind Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

#Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #NLP #Dataset #LanguageModel #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

#NLP #Dataset #LanguageModel #AIAgents #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#Pocket #NLP #Dataset #LanguageModel Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #NLP #LanguageModel Issue Date: 2023-07-03 Bring Your Own Data Self-Supervised Evaluation for Large Language Models, Neel Jain+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の振る舞いを評価するための自己教師あり評価フレームワークを提案する。これにより、人間によるラベル付けが必要なくなり、実際のデータに対してモデルの感度や不変性を評価できる。自己教師あり評価は、クローズドブックの知識や有害性、文脈依存性などの側面を評価することができる。また、人間による教師あり評価との相関関係も高い。自己教師あり評価は、現在の評価戦略を補完するものである。 Comment

Loading…

図が非常にわかりやすい

#Pocket #NLP #Dataset #LanguageModel Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #NLP #LanguageModel #SyntheticData Issue Date: 2023-05-22 Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models, Emily Reif+, N_A, arXiv'23 GPT Summary- LLMsを使用して生成されたデータセットの構文的多様性を理解し分析するための新しい可視化ツールであるLinguisticLensが提供された。このツールは、テキストを構文、語彙、および意味の軸に沿ってクラスタリングし、階層的な可視化をサポートしている。ライブデモはshorturl.at/zHOUVで利用可能。 Comment

可視化例

実装: https://github.com/PAIR-code/interpretability/tree/master/data-synth-syntax

#InformationRetrieval #Pocket #NLP #Search #Dataset #ACL Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, ACL'23 GPT Summary- QUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。 #NLP #Dataset #Hallucination Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv'23 GPT Summary- 自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 Comment

#Pocket #Dataset #LanguageModel #EMNLP #Ambiguity Issue Date: 2023-04-28 We're Afraid Language Models Aren't Modeling Ambiguity, Alisa Liu+, EMNLP'23 GPT Summary- 曖昧さは自然言語の重要な特徴であり、言語モデル（LM）が対話や執筆支援において成功するためには、曖昧な言語を扱うことが不可欠です。本研究では、曖昧さの影響を評価するために、1,645の例からなるベンチマーク「AmbiEnt」を収集し、事前学習済みLMの評価を行いました。特にGPT-4の曖昧さ解消の正答率は32%と低く、曖昧さの解消が難しいことが示されました。また、多ラベルのNLIモデルが曖昧さによる誤解を特定できることを示し、NLPにおける曖昧さの重要性を再認識する必要性を提唱しています。 Comment

#ComputerVision #Pocket #Dataset #Robotics #RA-L Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#Metrics #Pocket #AutomaticSpeechRecognition(ASR) #NAACL #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-04-30 Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22 GPT Summary- SimulSTシステムの遅延評価において、ALが長い予測に対して過小評価される問題を指摘。過剰生成の傾向を持つシステムに対し、過小生成と過剰生成を公平に評価する新指標LAALを提案。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #RecSys Issue Date: 2025-04-15 [Paper Note] Revisiting the Performance of iALS on Item Recommendation Benchmarks, Steffen Rendle+, RecSys'22 GPT Summary- iALSを再検討し、調整を行うことで、レコメンダーシステムにおいて競争力を持つことを示す。特に、4つのベンチマークで他の手法を上回る結果を得て、iALSのスケーラビリティと高品質な予測が再評価されることを期待。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization #Metrics #Pocket #NLP #Reference-free #Reference-based Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR'22 GPT Summary- 本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment

先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #DocumentSummarization #NLP #LM-based #Factuality Issue Date: 2023-08-13 SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization, Laban+, TACL'22 GPT Summary- 要約の領域では、入力ドキュメントと要約が整合していることが重要です。以前の研究では、自然言語推論（NLI）モデルを不整合検出に適用するとパフォーマンスが低下することがわかりました。本研究では、NLIを不整合検出に再評価し、過去の研究での入力の粒度の不一致が問題であることを発見しました。新しい手法SummaCConvを提案し、NLIモデルを文単位にドキュメントを分割してスコアを集計することで、不整合検出に成功裏に使用できることを示しました。さらに、新しいベンチマークSummaCを導入し、74.4%の正確さを達成し、先行研究と比較して5%の改善を実現しました。 #DocumentSummarization #Metrics #NLP #Factuality Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering'22 GPT Summary- 事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 Comment

FactualConsistencyに関するMetricが良くまとまっている

#DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification, Yu Lu Liu+, N_A, arXiv'22 GPT Summary- 本研究では、テキストの要約と簡素化のための参照のない評価尺度であるMaskEvalを提案しています。MaskEvalは、候補テキストとソーステキストの連結に対してマスクされた言語モデリングを行い、重要な品質の側面ごとに相対的な重要性を調整することができます。さらに、英語の要約と簡素化における人間の判断との相関に基づいて、その効果を示し、両方のタスク間での転移シナリオを探索します。 #DocumentSummarization #Metrics #NLP #Reference-free Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI'22 GPT Summary- この研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #DocumentSummarization #Metrics #NLP #Reference-free Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL'22 GPT Summary- 本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #DocumentSummarization #NLP Issue Date: 2023-08-13 Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics, Deutsch+, NAACL'22 GPT Summary- 本研究では、自動要約評価尺度のシステムレベルの相関に関する不整合を修正するための変更を提案しています。具体的には、全テストセットを使用して自動評価尺度のシステムスコアを計算し、実際のシナリオでよく見られる自動スコアのわずかな差によって分離されたシステムのペアに対してのみ相関を計算することを提案しています。これにより、より正確な相関推定と高品質な人間の判断の収集が可能となります。 #DocumentSummarization #NLP Issue Date: 2023-08-13 Does Summary Evaluation Survive Translation to Other Languages?, Braun+, NAACL'22 GPT Summary- 要約データセットの作成は費用と時間がかかるが、機械翻訳を使用して既存のデータセットを他の言語に翻訳することで、追加の言語での使用が可能になる。この研究では、英語の要約データセットを7つの言語に翻訳し、自動評価尺度によるパフォーマンスを比較する。また、人間と自動化された要約のスコアリング間の相関を評価し、翻訳がパフォーマンスに与える影響も考慮する。さらに、データセットの再利用の可能性を見つけるために、特定の側面に焦点を当てる。 #DocumentSummarization #Metrics #NLP #TrainedMetrics Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv'22 GPT Summary- 要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling, Bao+, NAACL'22 GPT Summary- 従来の自動要約評価メトリックは語彙の類似性に焦点を当てており、意味や言語的な品質を十分に捉えることができない。参照要約が必要であるためコストがかかる。本研究では、参照要約が存在しない弱教師あり要約評価手法を提案する。既存の要約データセットを文書と破損した参照要約のペアに変換してトレーニングする。ドメイン間のテストでは、提案手法がベースラインを上回り、言語的な品質を評価する上で大きな利点を示した。 #DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 PrefScore: Pairwise Preference Learning for Reference-free Summarization Quality Assessment, Luo+, COLING'22 GPT Summary- 人間による参照要約のない機械生成の要約の評価を行うために、ブラッドリー・テリーのパワーランキングモデルを使用して要約の優劣を判断する方法を提案する。実験結果は、この方法が人間の評価と高い相関を持つスコアを生成できることを示している。 #DocumentSummarization #Pocket #NLP Issue Date: 2023-08-13 How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation, Steen+, COLING'22 GPT Summary- 要約の一貫性を自動的に評価することは重要であり、さまざまな方法が提案されていますが、異なるデータセットと評価指標を使用して評価されるため、相対的なパフォーマンスを理解することが困難です。本研究では、要約の一貫性モデリングのさまざまな方法について調査し、新しい分析尺度を導入します。現在の自動一貫性尺度はすべての評価指標において信頼性のある一貫性スコアを割り当てることができませんが、大規模言語モデルは有望な結果を示しています。 #DocumentSummarization #Pocket #NLP Issue Date: 2023-08-13 Universal Evasion Attacks on Summarization Scoring, Wenchuan Mu+, N_A, BlackboxNLP workshop on ACL'22 GPT Summary- 要約の自動評価は重要であり、その評価は複雑です。しかし、これまで要約の評価は機械学習のタスクとは考えられていませんでした。本研究では、自動評価の堅牢性を探るために回避攻撃を行いました。攻撃システムは、要約ではない文字列を予測し、一般的な評価指標であるROUGEやMETEORにおいて優れた要約器と競合するスコアを達成しました。また、攻撃システムは最先端の要約手法を上回るスコアを獲得しました。この研究は、現在の評価システムの堅牢性の低さを示しており、要約スコアの開発を促進することを目指しています。 #DocumentSummarization #Pocket #NLP Issue Date: 2023-08-13 DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely, Forrest Sheng Bao+, N_A, arXiv'22 GPT Summary- 参照ベースと参照フリーの要約評価メトリックがあります。参照ベースは正確ですが、制約があります。参照フリーは独立していますが、ゼロショットと正確さの両方を満たせません。本研究では、参照ベースのメトリックを使用してゼロショットかつ正確な参照フリーのアプローチを提案します。実験結果は、このアプローチが最も優れた参照フリーのメトリックを提供できることを示しています。また、参照ベースのメトリックの再利用と追加の調整についても調査しています。 #ComputerVision #Dataset #ICCV Issue Date: 2025-11-20 [Paper Note] Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life 3D Category Reconstruction, Reizenstein+, ICCV'21 GPT Summary- 実世界の3Dオブジェクトカテゴリの学習を促進するため、約19,000本のビデオから150万フレームを含む大規模データセット「Common Objects in 3D」を収集。これにより、合成データセットと同程度の規模の実データを提供。新しいビュー合成と3D再構築手法の評価を行い、少数のビューからオブジェクトを再構築するためのTransformerを用いたニューラルレンダリング手法「NerFormer」を提案。 #MachineLearning #Pocket #NLP #Dataset #ReinforcementLearning #EmbodiedAI #text Issue Date: 2025-10-26 [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#Pocket #NLP #Dataset #LanguageModel #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #NLP #Dataset #LanguageModel #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#Analysis #NaturalLanguageGeneration #Pocket #NLP #Annotation Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

#MachineTranslation #Analysis #NaturalLanguageGeneration #Metrics #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#DocumentSummarization #Metrics #Tools #NLP #Dataset #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#DocumentSummarization #NLP Issue Date: 2023-08-13 How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation, Steen+, EACL'21 GPT Summary- 要約システムの評価方法についての調査結果を報告しました。要約の言語的品質についての評価実験を行い、最適な評価方法は側面によって異なることを示しました。また、研究パラメータや統計分析方法についても問題点を指摘しました。さらに、現行の方法では固定された研究予算の下では信頼性のある注釈を提供できないことを強調しました。 Comment

要約の人手評価に対する研究

#DocumentSummarization #NLP Issue Date: 2023-08-13 Reliability of Human Evaluation for Text Summarization: Lessons Learned and Challenges Ahead, Iskender+, EACL'21 GPT Summary- 人間評価の信頼性に関する研究では、参加者の情報や実験の詳細が提供されていないことが多い。また、人間評価の信頼性に影響を与える要因についても研究されていない。そこで、私たちは人間評価実験を行い、参加者の情報や実験の詳細を提供し、異なる実験結果を比較した。さらに、専門家と非専門家の評価の信頼性を確保するためのガイドラインを提供し、信頼性に影響を与える要因を特定した。 Comment

要約の人手評価に対する信頼性に関して研究。人手評価のガイドラインを提供している。

#DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

C-ELMO/C-SBERT

#DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

#NaturalLanguageGeneration #Metrics #NLP #DialogueGeneration #Reference-free #QA-based #Factuality Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

#DocumentSummarization #Metrics #NLP #LM-based #Factuality Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP''21 GPT Summary- 本研究では、自然言語生成（NLG）タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 Comment

CTC

#NaturalLanguageGeneration #Metrics #NLP #Reference-free #QA-based Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP'21 GPT Summary- 本研究では、画像キャプションの評価において、Question Generation（QG）とQuestion Answering（QA）システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 Comment

#DocumentSummarization #Metrics #NLP #Reference-free #LM-based #Selected Papers/Blogs Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubig氏）, NeurIPS'21 GPT Summary- 本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 Comment

BARTScore

#DocumentSummarization #Metrics #NLP #Reference-based Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL'21 GPT Summary- 要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答（QA）を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #DocumentSummarization #Metrics #NLP #Reference-free Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP'21 GPT Summary- 私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Pocket #NLP #Dataset #LanguageModel #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#Pocket #NLP #Dataset #TACL #Grammar Issue Date: 2025-09-07 [Paper Note] BLiMP: The Benchmark of Linguistic Minimal Pairs for English, Alex Warstadt+, TACL'20 GPT Summary- 言語的最小対のベンチマーク（BLiMP）は、言語モデルの文法知識を評価するためのチャレンジセットで、67のサブデータセットから成り、各サブデータセットには特定の文法対比を示す1000の最小対が含まれています。データは専門家によって自動生成され、人間の合意は96.4%です。n-gram、LSTM、Transformerモデルを評価した結果、最先端のモデルは形態論的対比を識別できるが、意味的制約や微妙な文法現象には苦戦していることが示されました。 Comment

#NaturalLanguageGeneration #Pocket #NLP #Dataset #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

PJ page: https://inklab.usc.edu/CommonGen/

#Metrics #Pocket #NLP #AutomaticSpeechRecognition(ASR) #AACL #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20 GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22

#MachineTranslation #Metrics #Pocket #NLP #EMNLP #Selected Papers/Blogs Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 GPT Summary- COMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 Comment

ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう

#MachineTranslation #Analysis #NaturalLanguageGeneration #Metrics #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #Metrics #Pocket #NLP #Reference-free #QA-based Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL'20 GPT Summary- 要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 Comment

QAGS

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #Metrics #NLP #QA-based Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL'20 GPT Summary- ニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 Comment

FEQA

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #Metrics #NLP #Reference-based Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING'20 GPT Summary- 要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 Comment

Hybrid Lexical and MOdel-based evaluation of Summaries (HOLMS)

#DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#DocumentSummarization #Metrics #NLP #LM-based #Factuality Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP'20 GPT Summary- 本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 Comment

FactCC

近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した

#DocumentSummarization #Metrics #NLP #Reference-free #LM-based Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP'20 GPT Summary- パラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 Comment

PRISM

#DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 Fill in the BLANC: Human-free quality estimation of document summaries, Vasilyev+, Eval4NLP'20 GPT Summary- BLANCは、要約の品質を自動的に推定するための新しいアプローチです。BLANCは、事前学習済みの言語モデルを使用してドキュメントの要約にアクセスし、要約の機能的なパフォーマンスを測定します。BLANCスコアは、ROUGEと同様に人間の評価と良好な相関関係を持ち、人間によって書かれた参照要約が不要なため、完全に人間不在の要約品質推定が可能です。 #DocumentSummarization #NLP #Reference-free #Training-Free Issue Date: 2023-08-13 SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL'20 GPT Summary- この研究では、教師なしの複数文書要約評価メトリックスについて調査しています。提案手法SUPERTは、擬似的な参照要約として選択された重要な文を使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて要約の品質を評価します。SUPERTは従来の教師なし評価メトリックスよりも人間の評価との相関が高く、18〜39％の向上が見られます。また、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、有利なパフォーマンスを実現しています。ソースコードはGitHubで入手可能です。 Comment

#DocumentSummarization #Metrics #NLP #Reference-based #TrainedMetrics Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL'20 GPT Summary- BLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#RecommenderSystems #RecSys #Reproducibility Issue Date: 2022-04-05 [Paper Note] Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison, Sun+, RecSys'20 Comment

日本語解説： https://qiita.com/smochi/items/c4cecc48e4aba0071ead

#Survey #NaturalLanguageGeneration #Pocket #NLP Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。 #ComputerVision #Pocket #Dataset #Robotics #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #NLP #Dataset #QuestionAnswering #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。 #DocumentSummarization #Pocket #NLP Issue Date: 2023-08-16 Neural Text Summarization: A Critical Evaluation, Krysciski+ （w_ Richard Socher）, EMNLP-IJCNLP'19 GPT Summary- テキスト要約の研究は進展が停滞しており、データセット、評価指標、モデルの3つの要素に問題があることが指摘されている。自動収集されたデータセットは制約が不十分であり、ノイズを含んでいる可能性がある。評価プロトコルは人間の判断と相関が弱く、重要な特性を考慮していない。モデルはデータセットのバイアスに過適合し、出力の多様性が限られている。 #DocumentSummarization #Metrics #NLP #QA-based Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL'19 GPT Summary- 最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 Comment

APES

#DocumentSummarization #Metrics #NLP Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL'19 GPT Summary- 自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment

要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘

#DocumentSummarization #MachineTranslation #NLP #TrainedMetrics Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv'19 GPT Summary- 私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #DocumentSummarization #NLP #Reference-based Issue Date: 2023-08-13 MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 GPT Summary- 本研究では、テキスト生成システムの評価尺度について調査し、システムの出力と参照テキストの意味に基づいて比較する尺度を提案します。この尺度は、要約、機械翻訳、画像キャプション、データからテキストへの生成などのタスクで有効であり、文脈化表現と距離尺度を組み合わせたものが最も優れています。また、提案した尺度は強力な汎化能力を持っており、ウェブサービスとして提供されています。 Comment

Word Mover Distance (WMD)の解説: https://yubessy.hatenablog.com/entry/2017/01/10/122737

#DocumentSummarization #NLP #Reference-free #QA-based Issue Date: 2023-08-13 Answers Unite Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP'19 GPT Summary- 最近、再強化学習（RL）を使用した抽象的要約手法が提案されており、従来の尤度最大化を克服するために使用されています。この手法は、複雑で微分不可能なメトリクスを考慮することで、生成された要約の品質と関連性を総合的に評価することができます。ROUGEという従来の要約メトリクスにはいくつかの問題があり、代替的な評価尺度を探求する必要があります。報告された人間評価の分析によると、質問応答に基づく提案されたメトリクスはROUGEよりも有利であり、参照要約を必要としないという特徴も持っています。これらのメトリクスを使用してRLベースのモデルをトレーニングすることは、現在の手法に比べて改善をもたらします。 Comment

SummaQA

#RecommenderSystems #NeuralNetwork #CollaborativeFiltering #Pocket #RecSys #Selected Papers/Blogs Issue Date: 2022-04-11 [Paper Note] Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches, Maurizio Ferrari Dacrema+, RecSys'19, 2019.07 GPT Summary- 深層学習技術はレコメンダーシステムの研究で広く用いられているが、再現性やベースライン選択に問題がある。18のトップnレコメンデーションアルゴリズムを分析した結果、再現できたのは7つのみで、6つは単純なヒューリスティック手法に劣っていた。残りの1つはベースラインを上回ったが、非ニューラル手法には及ばなかった。本研究は機械学習の実践における問題を指摘し、改善を呼びかけている。 Comment

RecSys'19のベストペーパー

日本語解説： https://qiita.com/smochi/items/98dbd9429c15898c5dc7

重要研究

#ComputerVision #Pocket #Dataset #SIGGRAPH Issue Date: 2025-11-20 [Paper Note] Stereo Magnification: Learning View Synthesis using Multiplane Images, Tinghui Zhou+, SIGGRAPH'18, 2018.05 GPT Summary- 視点合成問題において、狭ベースラインのステレオカメラから新しい視点を生成する手法を提案。マルチプレーン画像（MPI）を用いた学習フレームワークを構築し、YouTube動画をデータソースとして活用。これにより、入力画像ペアからMPIを予測し、従来の手法よりも優れた視点外挿を実現。 Comment

pj page: https://tinghuiz.github.io/projects/mpi/

#MachineLearning #Pocket #NLP #Dataset #ReinforcementLearning #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

#DocumentSummarization #Metrics #Pocket #NLP #QA-based Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI'18 GPT Summary- 自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 Comment

QGQAを提案した研究

#ComputerVision #Dataset #TOG Issue Date: 2025-11-20 [Paper Note] Tanks and temples: Benchmarking large-scale scene reconstruction, Knapitsch+, TOG'17 GPT Summary- 画像ベースの3D再構築のための新しいベンチマークを提案。実際の条件下で取得された高解像度ビデオシーケンスを用い、産業用レーザースキャナーでキャプチャしたグラウンドトゥルースデータを含む。屋外と屋内のシーンを対象に、再構築の忠実度向上を目指す新しいパイプラインの開発を支援し、既存の3D再構築手法の性能を報告。結果は今後の研究の課題と機会を示唆。 #ComputerVision #Dataset #CVPR Issue Date: 2025-11-20 [Paper Note] A Multi-view Stereo Benchmark with High-Resolution Images and Multi-camera Videos, Schöps+, CVPR'17 GPT Summary- 新しいマルチビュー立体視データセットを提案し、高精度のレーザースキャナーと低解像度のステレオビデオを用いて多様なシーンを記録。幾何学に基づく手法で画像とレーザースキャンを整合。従来のデータセットとは異なり、自然および人工環境をカバーし、高解像度のデータを提供。データセットは手持ちのモバイルデバイスの使用ケースにも対応し、オンライン評価サーバーで利用可能。 #ComputerVision #Pocket #Dataset #CVPR Issue Date: 2025-11-20 [Paper Note] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes, Angela Dai+, CVPR'17, 2017.02 GPT Summary- 限られたRGB-Dシーン理解のために、1513シーンの2.5Mビューを含むScanNetデータセットを導入。自動表面再構築とクラウドソースによるセマンティックアノテーションを用いたキャプチャシステムを設計し、3Dオブジェクト分類やセマンティックボクセルラベリングで最先端のパフォーマンスを達成。データセットは無料で提供。 #NaturalLanguageGeneration #Metrics #NLP Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP'17 GPT Summary- NLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment

既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究

#ComputerVision #Dataset #IJCV Issue Date: 2025-11-20 [Paper Note] Large-Scale Data for Multiple-View Stereopsis, Aanæs+, IJCV'16 GPT Summary- 新しいマルチビュー立体視（MVS）データセットを提案し、49または64のカメラ位置から80のシーンを評価。すべての画像は7つの照明条件下で撮影され、正確な構造光スキャンも含まれる。3つの最先端MVSアルゴリズムを適用し、評価プロトコルを拡張。再構築された3Dポイントの品質と物体表面の完全性のトレードオフを観察し、鏡面反射や照明変化の影響は軽微であることを確認。MVSの主要な課題はテクスチャの欠如とメッシングであることが示された。 #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#MachineTranslation #Pocket #NLP Issue Date: 2023-08-13 Document-Level Machine Translation Evaluation with Gist Consistency and Text Cohesion, Gong+, DiscoMT'15 #DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #NLP #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #ComputerVision #Dataset #CVPR #CameraPoseEstimation Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。 #ComputerVision #Dataset #CVPR Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images,Shotton+, CVPR'13 GPT Summary- 単一の画像を用いてRGB-Dカメラのポーズを既知の3Dシーンに対して推定する手法を提案。回帰フォレストを使用し、深度とRGBピクセルの比較特徴のみで対応関係を推定。興味点検出器は不要で、堅牢な最適化手法でカメラポーズを推定。事前RANSACにより仮定ポーズを洗練し、様々なシーンで高精度な再局所化を実現し、最先端の手法を大幅に上回る性能を示した。 #DocumentSummarization #NLP Issue Date: 2023-08-23 Automatically Assessing Machine Summary Content Without a Gold Standard, Louis+（w_ Nenkova）, ACL'13 GPT Summary- 本研究では、要約の評価において新しい技術を提案しています。これにより、人間の要約が利用できない場合や、単一のモデルしか利用できない場合でも正確な評価が可能となります。具体的には、モデルに依存しない評価技術や、システム要約の類似性を定量化する尺度などを提案しています。これにより、要約の評価を人間の評価と正確に再現することができます。また、擬似モデルを導入することで、利用可能なモデルのみを使用する場合よりも人間の判断との相関が高くなることも示しています。さらに、システム要約のランキング方法についても探求しており、驚くほど正確なランキングが可能となります。 Comment

メタ評価の具体的な手順について知りたければこの研究を読むべし

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #ComputerVision #Dataset #ECCV Issue Date: 2025-11-20 [Paper Note] Indoor Segmentation and Support Inference from RGBD Images, Silberman+, ECCV'12 GPT Summary- RGBD画像を用いて、散らかった屋内シーンの主要な表面や物体、支持関係を解析するアプローチを提案。物理的相互作用を考慮し、3Dの手がかりが構造化された解釈に与える影響を探求。新たに1449のRGBD画像からなるデータセットを作成し、支持関係の推測能力を実験で検証。3D手がかりと推測された支持が物体セグメンテーションの向上に寄与することを示す。 #ComputerVision #Dataset #ECCV Issue Date: 2025-11-20 [Paper Note] A naturalistic open source movie for optical flow evaluation, Butler+, ECCV'12 GPT Summary- 新しい光学フローデータセットを「Sintel」から作成し、長いシーケンスや大きな動き、鏡面反射などの特徴を持つ。既存の光学フローアルゴリズムがこの複雑なデータセットで困難を抱えていることを示し、さらなる研究の必要性を提起。合成データの使用を実際の映像と比較し、類似性を確認。データセットと評価ツールは公開されている。 Comment

dataset: https://www.kaggle.com/datasets/artemmmtry/mpi-sintel-dataset

#DocumentSummarization #Pocket #NLP #CrossLingual Issue Date: 2023-08-13 Evaluating the Efficacy of Summarization Evaluation across Languages, Koto+ （w_ Tim先生）, Findings of ACL'12 GPT Summary- この研究では、異なる言語の要約コーパスを使用して、マルチリンガルBERTを用いたBERTScoreが他の要約評価メトリックスよりも優れたパフォーマンスを示すことが示されました。これは、英語以外の言語においても有効であることを示しています。 #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#DocumentSummarization #NLP #QA-based Issue Date: 2023-08-20 Discourse constraints for document compression, Clarke+ （w_ Lapata）, Computational Linguistics'10 Comment

QAベースドなアプローチを人手評価に導入した初めての研究

#DocumentSummarization #Metrics #NLP #Reference-free Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing'08 GPT Summary- この論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #DocumentSummarization #Metrics #NLP #Reference-based #TrainedMetrics Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management'07 GPT Summary- 要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル（VRM）を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 Comment

VRM

#Article #NLP #Dataset #Education #AIAgents #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #VisionLanguageModel #OCR #One-Line Notes Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #LongSequence Issue Date: 2025-11-24 Context Arena, DillonUzar, 2025.04 Comment

元ポスト:

Loading…

関連:

Loading…

#Article #NLP #Dataset #LanguageModel #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #AIAgents #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

元ポスト:

Loading…

#Article #Dataset #SpeechProcessing Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #LanguageModel #Blog #Reasoning #LongSequence Issue Date: 2025-10-17 Evaluating Long Context （Reasoning） Ability, wh., 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #OpenWeight Issue Date: 2025-10-12 K2 Vendor Verifier, MoonshotAI, 2025.09 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #LanguageModel #Blog #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Robotics #VisionLanguageActionModel Issue Date: 2025-09-29 RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies, Atreya+, 2025.09 Comment

元ポスト:

Loading…

#Article #Dataset #Blog #Mathematics Issue Date: 2025-09-24 HMMT. HMMT 2025, 2025.09 Comment

#Article #ComputerVision #NLP #Dataset #LanguageModel #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #Dataset #LanguageModel #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #Dataset #LanguageModel #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #Dataset #AIAgents #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #Reasoning Issue Date: 2025-08-31 Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08 Comment

元ポスト:

Loading…

#Article #Blog Issue Date: 2025-08-29 Introducing Research-Eval: A Benchmark for Search-Augmented LLMs, Reka, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Coding #Reasoning Issue Date: 2025-08-21 Aider LLM Leaderboards, 2024.12 Comment

データセット: https://github.com/Aider-AI/polyglot-benchmark

#Article #NLP #LanguageModel #OpenWeight #ProprietaryLLM #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08 Comment

元ポスト:

Loading…

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

#Article #Pocket #NLP #LanguageModel Issue Date: 2025-08-14 Concept Poisoning: Probing LLMs without probes, Betley+, 2025.08 Comment

元ポスト:

Loading…

#Article #Tools #NLP #LanguageModel #Blog Issue Date: 2025-08-08 Agent Maze, LlamaIndex, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Blog #Game Issue Date: 2025-08-06 Introducing Kaggle Game Arena, Meg Risdal, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #LanguageModel Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #Tutorial #Pretraining #NLP #Dataset #LanguageModel #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #TimeSeriesDataProcessing #MachineLearning #Dataset Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #TimeSeriesDataProcessing #Blog Issue Date: 2025-05-09 時系列データのvalidationに関する質問に回答します, カレーちゃん, 2022.07 Comment

元スレッド:

Loading…

めちゃめちゃ参考になる・・・

#Article #NLP #Dataset #LanguageModel #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #Dataset #LanguageModel #AIAgents #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #ComputerVision #NLP #Dataset #LanguageModel Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #Dataset #LanguageModel #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Survey #NLP #LanguageModel #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Survey #NLP #Dataset #LanguageModel #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #LanguageModel #Coding Issue Date: 2024-11-13 Copilot Arena, CMU and UC Berkeley, 2024.11 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

LLM-as-a-judgeについて網羅的に書かれた記事

あと、定性評価は重要

#Article #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tutorial #Dataset #LanguageModel Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #Tools #NLP #LanguageModel #Library #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #NLP #LanguageModel #Blog Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） Comment

JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボードなどもある

#Article #NLP #LanguageModel Issue Date: 2023-10-02 Nejumi LLMリーダーボード Comment

JGLUEを使ったLLMの日本語タスクベンチマーク

v4が公開:
https://wandb.ai/llm-leaderboard/nejumi-leaderboard4/reports/Nejumi-LLM-4--VmlldzoxMzc1OTk1MA

元ポスト:

Loading…

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

LanguageModel (203)

#ComputerVision #Pocket #NLP #Dataset #MultiModal #Selected Papers/Blogs #Medical
Issue Date: 2025-11-26 [Paper Note] MTBBench: A Multimodal Sequential Clinical Decision-Making Benchmark in Oncology, Kiril Vasilev+, arXiv'25, 2025.11 GPT Summary- MTBBenchは、臨床ワークフローの複雑さを反映したマルチモーダル大規模言語モデル（LLMs）のための新しいベンチマークで、腫瘍学の意思決定をシミュレートします。既存の評価が単一モーダルであるのに対し、MTBBenchは異種データの統合や時間に基づく洞察の進化を考慮しています。臨床医によって検証されたグラウンドトゥルースの注釈を用い、複数のLLMを評価した結果、信頼性の欠如や幻覚の発生、データの調和に苦労することが明らかになりました。MTBBenchは、マルチモーダルおよび長期的な推論を強化するツールを提供し、タスクレベルのパフォーマンスを最大9.0%および11.2%向上させることが示されました。 Comment

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

#Pocket #NLP #Dataset #AIAgents #One-Line Notes
Issue Date: 2025-11-25 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の複雑なワークフローを処理する言語エージェント向けの新しいベンチマークで、32のアプリケーションと604のツールを網羅。実際の環境状態を提供し、108のタスクを通じてエージェントのパフォーマンスを評価。最先端モデルの評価結果は、成功率が低いことを示し、Toolathlonがより能力の高いエージェントの開発を促進することを期待。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

#Analysis #Pocket #NLP #Dataset #read-later
Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#Pocket #NLP #Dataset #Reasoning #read-later #Selected Papers/Blogs #Physics Issue Date: 2025-11-23 [Paper Note] Probing the Critical Point （CritPt） of AI Reasoning: a Frontier Physics Research Benchmark, Minhui Zhu+, arXiv'25, 2025.09 GPT Summary- CritPtは、物理学研究における複雑な推論タスクを評価するための初のベンチマークであり、71の研究課題と190のチェックポイントタスクから構成される。これらの問題は現役の物理学者によって作成され、機械的に検証可能な答えを持つように設計されている。現在のLLMsは、単独のチェックポイントでは期待を示すが、全体の研究課題を解決するには不十分であり、最高精度は5.7%にとどまる。CritPtは、AIツールの開発に向けた基盤を提供し、モデルの能力と物理学研究の要求とのギャップを明らかにする。 Comment

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

#Pocket #NLP #Dataset #Reasoning #Mathematics Issue Date: 2025-11-20 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMsが52.4%の正答率を記録し、ほとんどが40%未満であった。これにより、LLMsの数学的推論能力には改善の余地があることが示された。AMO-Benchは、今後の研究を促進するために公開されている。 Comment

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

#Pocket #NLP #Dataset #AIAgents #Coding #SoftwareEngineering #read-later Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #UserBased #Conversation #ACL Issue Date: 2025-11-15 [Paper Note] ChatBench: From Static Benchmarks to Human-AI Evaluation, Serina Chang+, ACL'25, 2025.03 GPT Summary- LLMベースのチャットボットの能力を評価するために、ユーザーとAIの会話を通じてMMLUの質問を変換する研究を実施。新しいデータセット「ChatBench」には396の質問と144Kの回答、7,336のユーザー-AI会話が含まれ、AI単独の精度はユーザー-AIの精度を予測できないことが示された。ユーザー-AIの会話分析により、AI単独のベンチマークとの違いが明らかになり、ユーザーシミュレーターのファインチューニングにより精度推定能力が向上した。 Comment

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

#GraphBased #Pocket #NLP #Dataset Issue Date: 2025-11-14 [Paper Note] PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning, Wanjia Zhao+, arXiv'25, 2025.10 GPT Summary- PRISM-Physicsは、物理推論問題に対するプロセスレベルの評価フレームワークを提供し、因果関係を持つ数式の有向非巡回グラフ（DAG）を用いて解決策を表現。これにより、理論的に基づいたスコアリングが可能となり、ヒューリスティックな判断なしに一貫した検証を実現。実験結果は、評価フレームワークが人間の専門家のスコアリングと整合していることを示し、LLMの推論の限界を明らかにする。PRISM-Physicsは、科学的推論能力を向上させるための基盤を提供する。 Comment

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

#Pocket #NLP #Dataset #Reasoning #Mathematics #Proofs Issue Date: 2025-11-12 Stress-Testing the Reasoning Competence of Language Models With Formal Proofs, Arkoudas+, EMNLP'25 Findings GPT Summary- ProofGridという新しい論理推論タスクを用いて、LLMsとLRMsの性能を広範に評価。タスクは命題論理と方程式論理の証明作成・検証を含み、証明のインペインティングとギャップ埋めも新たに導入。実験ではトップモデルの優れたパフォーマンスが示される一方、体系的な失敗も確認。1万件以上の形式的推論問題と証明からなる新データリソースも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #MultiModal #read-later #Selected Papers/Blogs #Robotics #EmbodiedAI Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #NLP #Search #Dataset #EMNLP #read-later #Contamination-free #Selected Papers/Blogs Issue Date: 2025-11-09 [Paper Note] Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index, Hao Xu+, EMNLP'25 Best Paper, 2025.06 GPT Summary- 「infini-gram mini」は、ペタバイトレベルのテキストコーパスを効率的に検索可能にするシステムで、FM-indexデータ構造を用いてインデックスを作成し、ストレージオーバーヘッドを44%に削減。インデックス作成速度やメモリ使用量を大幅に改善し、83TBのインターネットテキストを99日でインデックス化。大規模なベンチマーク汚染の分析を行い、主要なLM評価ベンチマークがインターネットクローリングで汚染されていることを発見。汚染率を共有する公報をホストし、検索クエリ用のウェブインターフェースとAPIも提供。 Comment

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

#Multi #Metrics #Pocket #NLP #ReinforcementLearning #Conversation #NeurIPS #Personality Issue Date: 2025-11-06 [Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #MultiModal #SpeechProcessing #2D (Image) #4D (Video) #Omni #text Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Dataset #EMNLP #ConceptErasure #read-later #Selected Papers/Blogs Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #UserBased #AIAgents #Coding Issue Date: 2025-11-03 [Paper Note] CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments, Forough Mehralian+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルのコード生成能力を評価するために、指示に従う能力を測るマルチランゲージベンチマークを導入。初期問題の制約遵守とフォローアップ指示への対応能力を評価。LiveBenchのプログラミングタスクを用いて、PythonからJavaおよびJavaScriptへの自動翻訳タスクで実証。結果、モデルは指示に従う能力において異なる性能を示し、ベンチマークがコード生成モデルの包括的な評価を提供することを明らかにした。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #MultiLingual #Cultural #CommonsenseReasoning Issue Date: 2025-11-03 [Paper Note] Global PIQA: Evaluating Physical Commonsense Reasoning Across 100+ Languages and Cultures, Tyler A. Chang+, arXiv'25, 2025.10 GPT Summary- 「Global PIQA」は、65カ国の335人の研究者によって構築された、100以上の言語に対応した常識推論ベンチマークであり、116の言語バリエーションを含む。多くの例が文化特有の要素に関連しており、LLMは全体で良好なパフォーマンスを示すが、リソースが限られた言語では精度が低下することが発見された。Global PIQAは、言語と文化における日常的な知識の改善の必要性を示し、LLMの評価や文化の多様性の理解に寄与することを期待されている。 Comment

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

#Pocket #NLP #Dataset #Mathematics Issue Date: 2025-11-01 [Paper Note] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions, Shengnan An+, arXiv'25, 2025.10 GPT Summary- AMO-Benchは、オリンピックレベルの数学的推論を評価するための新しいベンチマークで、50の専門家作成の問題から成る。既存のベンチマークが飽和状態にある中、AMO-BenchはIMO基準を満たし、オリジナルの問題を提供することで厳格な評価を実現。実験では、26のLLMが52.4%の精度しか達成できず、数学的推論の改善の余地が大きいことが示された。AMO-Benchは、言語モデルの推論能力向上のための研究を促進することを目的としている。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Reasoning #read-later #Selected Papers/Blogs #One-Line Notes #LongHorizon Issue Date: 2025-10-27 [Paper Note] R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?, Yi Lu+, arXiv'25, 2025.10 GPT Summary- R-HORIZONを提案し、長期的な推論行動を刺激する手法を通じて、LRMの評価を改善。複雑なマルチステップ推論タスクを含むベンチマークを構築し、LRMの性能低下を明らかに。R-HORIZONを用いた強化学習データ（RLVR）は、マルチホライズン推論タスクの性能を大幅に向上させ、標準的な推論タスクの精度も向上。AIME2024で7.5の増加を達成。R-HORIZONはLRMの長期推論能力を向上させるための有効なパラダイムと位置付けられる。 Comment

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #Dataset #AIAgents #MultiModal #Reasoning #SoftwareEngineering #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #NLP #Dataset #MultiLingual #Safety #ICLR Issue Date: 2025-10-24 [Paper Note] SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal, Tinghao Xie+, ICLR'25, 2024.06 GPT Summary- SORRY-Benchは、整合された大規模言語モデル（LLMs）の安全でないユーザーリクエストの認識能力を評価する新しいベンチマークです。既存の評価方法の限界を克服するために、44の細かい安全でないトピック分類と440のクラスバランスの取れた指示を提供し、20の言語的拡張を追加しました。また、高速で正確な自動安全評価者を開発し、微調整された7B LLMがGPT-4と同等の精度を持つことを示しました。これにより、50以上のLLMの安全拒否行動を分析し、体系的な評価の基盤を提供します。デモやデータは公式サイトから入手可能です。 Comment

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

#Pocket #NLP #Dataset #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-10-21 [Paper Note] Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation, Sayash Kapoor+, arXiv'25, 2025.10 GPT Summary- AIエージェントの評価における課題を解決するため、Holistic Agent Leaderboard（HAL）を導入。標準化された評価ハーネスにより評価時間を短縮し、三次元分析を通じて21,730のエージェントを評価。高い推論努力が精度を低下させることを発見し、LLMを用いたログ検査で新たな行動を明らかに。エージェント評価の標準化を進め、現実世界での信頼性向上を目指す。 Comment

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

#ComputerVision #Pocket #Dataset #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #DiffusionModel #UMM #SpatialUnderstanding Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pocket #NLP #Alignment #NeurIPS #PostTraining #One-Line Notes Issue Date: 2025-10-19 [Paper Note] Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment, Samuel Yeh+, NeurIPS'25, 2025.09 GPT Summary- 人間のフィードバックはLLMのアライメントに重要だが、ノイズや一貫性の欠如が問題を引き起こす。これを解決するために、13のデータクリーニング手法を評価する初のベンチマーク「PrefCleanBench」を導入。さまざまな条件下でのアライメント性能を比較し、データクリーニングの成功要因を明らかにする。これにより、LLMアライメントの改善に向けた再現可能なアプローチを提供し、データ前処理の重要性を強調する。すべての手法の実装は公開されている。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Mathematics #read-later #Selected Papers/Blogs #Proofs Issue Date: 2025-10-18 [Paper Note] Reliable Fine-Grained Evaluation of Natural Language Math Proofs, Wenjie Ma+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）による数学的証明の生成と検証における信頼性の高い評価者が不足している問題に対処するため、0から7のスケールで評価する新たな評価者ProofGraderを開発。ProofBenchという専門家注釈付きデータセットを用いて、評価者の設計空間を探求し、低い平均絶対誤差（MAE）0.926を達成。ProofGraderは、最良の選択タスクにおいても高いスコアを示し、下流の証明生成の進展に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

#Pocket #NLP #Education #AIAgents #Coding #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

#Pocket #NLP #Dataset #Mathematics #PRM #Verification Issue Date: 2025-10-17 [Paper Note] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math, Shrey Pandit+, arXiv'25, 2025.10 GPT Summary- LLMに基づく推論システムがIMO 2025コンペで金メダルレベルのパフォーマンスを達成したが、各ステップの正確性と支持が求められる。これを実現するために、500時間以上の人間の労力で作成された「Hard2Verify」というステップレベル検証ベンチマークを提案。最前線のLLMによる応答のステップレベル注釈を提供し、エラーを特定する能力を評価。オープンソースの検証者はクローズドソースモデルに劣ることが示され、検証パフォーマンスの低下要因や計算能力の影響について分析を行った。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #DiffusionModel #Decoding Issue Date: 2025-10-17 [Paper Note] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs, Wonjun Kang+, arXiv'25, 2025.10 GPT Summary- dLLMは並列デコードにより推論を加速するが、トークンの依存関係を無視するため生成品質が低下する可能性がある。既存の研究はこの問題を見落としており、標準ベンチマークでは評価が不十分である。これに対処するため、情報理論的分析と合成リスト操作のケーススタディを行い、dLLMの限界を明らかにした。新たに提案するParallelBenchは、dLLMにとって困難なタスクを特徴とし、分析の結果、dLLMは実世界での品質低下を引き起こし、現在のデコード戦略は適応性に欠けることが示された。この発見は、スピードと品質のトレードオフを克服する新しいデコード手法の必要性を強調している。 Comment

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

#Multi #Pocket #NLP #UserModeling #UserBased #Conversation #EMNLP #One-Line Notes Issue Date: 2025-10-16 [Paper Note] SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?, Yao Dou+, arXiv'25, 2025.10 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Alignment #One-Line Notes Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#ComputerVision #Analysis #Pretraining #Pocket #NLP #Dataset #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#Pocket #NLP #Dataset #UserBased #Alignment #Coding #read-later #Selected Papers/Blogs Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

#Pocket #NLP #UserModeling #UserBased #Conversation #Robustness Issue Date: 2025-10-12 [Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル（User LMs）を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…

#Pocket #NLP #Selected Papers/Blogs Issue Date: 2025-10-09 [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10 GPT Summary- GDPvalは、AIモデルの経済的価値のあるタスクを評価するベンチマークで、米国GDPに寄与する44の職業をカバー。最前線モデルのパフォーマンスは時間と共に改善し、業界専門家に近づいている。人間の監視を加えたモデルは、無援助の専門家よりも効率的にタスクを実行可能であることを示唆。推論努力やタスクコンテキストの増加がモデルの性能向上に寄与。220のタスクのゴールドサブセットをオープンソース化し、研究促進のための自動採点サービスを提供。 Comment

元ポスト:

Loading…

#Multi #Pocket #NLP #Dataset #Conversation #Safety #COLM Issue Date: 2025-10-08 [Paper Note] X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents, Salman Rahman+, COLM'25, 2025.04 GPT Summary- X-Teamingを提案し、無害なインタラクションが有害な結果にエスカレートする過程を探求。協力的なエージェントを用いて、最大98.1%の成功率でマルチターン攻撃を実現。特に、Claude 3.7 Sonnetモデルに対して96.2%の成功率を達成。さらに、30Kの脱獄を含むオープンソースのトレーニングデータセットXGuard-Trainを導入し、LMのマルチターン安全性を向上させる。 Comment

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

#Pocket #NLP #UserModeling #Dataset #UserBased #AIAgents #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#Controllable #Pocket #NLP #AIAgents #LongSequence #Contamination-free Issue Date: 2025-10-04 [Paper Note] Towards Reliable Benchmarking: A Contamination Free, Controllable Evaluation Framework for Multi-step LLM Function Calling, Seiji Maekawa+, arXiv'25, 2025.09 GPT Summary- TaLMsの評価のために、汚染のないフレームワークFuncBenchGenを提案。ツール使用をDAG上のトラバーサルとして捉え、モデルは正しい関数呼び出しシーケンスを構成。7つのLLMを異なる難易度のタスクで評価した結果、GPT-5が特に優れた性能を示し、依存の深さが増すと性能が低下。古い引数値の伝播が問題であることが判明し、再表現戦略を導入したところ、成功率が62.5%から81.3%に向上した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Financial Issue Date: 2025-10-04 [Paper Note] StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets?, Yanxu Chen+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）の金融分野における評価のために、StockBenchという新しいベンチマークを導入。これは、株式取引環境でのLLMエージェントのパフォーマンスを評価し、累積リターンやリスク管理能力を測定する。多くのLLMエージェントはシンプルな戦略を超えるのが難しいが、一部のモデルは高いリターンを示す可能性がある。StockBenchは再現性を支援し、今後の研究を促進するためにオープンソースとして公開される。 Comment

元ポスト:

Loading…

pj page: https://stockbench.github.io

#ComputerVision #Pocket #NLP #Dataset #VisionLanguageModel #Medical Issue Date: 2025-10-03 [Paper Note] Radiology's Last Exam （RadLE）: Benchmarking Frontier Multimodal AI Against Human Experts and a Taxonomy of Visual Reasoning Errors in Radiology, Suvrankar Datta+, arXiv'25, 2025.09 GPT Summary- 医療画像の解釈におけるAIモデルのパフォーマンスを評価するため、50の専門的な「スポット診断」ケースを用いたベンチマークを開発。5つの最前線AIモデル（GPT-5、o3、Gemini 2.5 Pro、Grok-4、Claude Opus 4.1）をテストした結果、ボード認定放射線医が最高の診断精度（83%）を達成し、AIモデルは最良のGPT-5でも30%に留まった。これにより、AIモデルが難しい診断ケースにおいて放射線医には及ばないことが示され、医療画像におけるAIの限界と無監視使用への警告が強調された。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket #NLP #UserModeling #Dataset #UserBased #Personalization #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #RewardModel #Editing #One-Line Notes Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

#Pocket #NLP #Dataset #Legal Issue Date: 2025-09-27 [Paper Note] CLaw: Benchmarking Chinese Legal Knowledge in Large Language Models - A Fine-grained Corpus and Reasoning Analysis, Xinzhe Xu+, arXiv'25, 2025.09 GPT Summary- 法的文書の分析において、LLMの信頼性が損なわれる問題を解決するために、新しいベンチマークCLawを提案。CLawは、中国の法令を網羅した詳細なコーパスと、ケースベースの推論インスタンスから構成され、法的知識の実際の応用を評価。実証的評価では、現代のLLMが法的規定の正確な取得に苦労していることが明らかになり、信頼できる法的推論には正確な知識の取得と強力な推論能力の統合が必要であると主張。ドメイン特化型LLM推論の進展に向けた重要な洞察を提供。 Comment

元ポスト:

Loading…

#Pocket #Dataset #ContextAware #EMNLP #Findings #Personality Issue Date: 2025-09-24 [Paper Note] CAPE: Context-Aware Personality Evaluation Framework for Large Language Models, Jivnesh Sandhan+, EMNLP'25 Findings, 2025.08 GPT Summary- 心理測定テストをLLMsの評価に適用するため、文脈対応パーソナリティ評価（CAPE）フレームワークを提案。従来の孤立した質問アプローチから、会話の履歴を考慮した応答の一貫性を定量化する新指標を導入。実験により、会話履歴が応答の一貫性を高める一方で、パーソナリティの変化も引き起こすことが明らかに。特にGPTモデルは堅牢性を示し、Gemini-1.5-FlashとLlama-8Bは感受性が高い。CAPEをロールプレイングエージェントに適用すると、一貫性が改善され人間の判断と一致することが示された。 Comment

元ポスト:

Loading…

#MachineTranslation #Metrics #Pocket #NLP #Dataset #Reference-free #EMNLP #LowResource Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-23 [Paper Note] ARE: Scaling Up Agent Environments and Evaluations, Pierre Andrews+, arXiv'25, 2025.09 GPT Summary- Meta Agents Research Environments (ARE)を紹介し、エージェントのオーケストレーションや環境のスケーラブルな作成を支援するプラットフォームを提供。Gaia2というベンチマークを提案し、エージェントの能力を測定するために設計され、動的環境への適応や他のエージェントとの協力を要求。Gaia2は非同期で実行され、新たな失敗モードを明らかにする。実験結果は、知能のスペクトル全体での支配的なシステムが存在しないことを示し、AREの抽象化が新しいベンチマークの迅速な作成を可能にすることを強調。AIの進展は、意味のあるタスクと堅牢な評価に依存する。 Comment

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

#Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #LLM-as-a-Judge Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #NLP #Search #Dataset #Financial Issue Date: 2025-09-21 [Paper Note] FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning, Liang Hu+, arXiv'25, 2025.09 GPT Summary- FinSearchCompは、金融検索と推論のための初の完全オープンソースエージェントベンチマークであり、時間に敏感なデータ取得や複雑な歴史的調査を含む3つのタスクで構成されています。70人の金融専門家によるアノテーションと厳格な品質保証を経て、635の質問が用意され、21のモデルが評価されました。Grok 4とDouBaoがそれぞれグローバルおよび大中華圏でトップの精度を示し、ウェブ検索と金融プラグインの活用が結果を改善することが確認されました。FinSearchCompは、現実のアナリストタスクに基づく高難易度のテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LongSequence #Emotion Issue Date: 2025-09-21 [Paper Note] LongEmotion: Measuring Emotional Intelligence of Large Language Models in Long-Context Interaction, Weichu Liu+, arXiv'25, 2025.09 GPT Summary- 長文の感情知能（EI）タスク専用のベンチマーク「LongEmotion」を提案。感情分類や感情会話など多様なタスクをカバーし、平均入力長は8,777トークン。Retrieval-Augmented Generation（RAG）とCollaborative Emotional Modeling（CoEM）を組み込み、従来の手法と比較してEIパフォーマンスを向上。実験結果は、RAGとCoEMが長文タスクにおいて一貫して効果を示し、LLMsの実用性を高めることを示した。 Comment

pj page: https://longemotion.github.io

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #InstructionTuning #NeurIPS #RLVR #InstructionFollowingCapability Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#NLP #Dataset #NeurIPS #ModelMerge Issue Date: 2025-09-19 [Paper Note] MergeBench: A Benchmark for Merging Domain-Specialized LLMs, Yifei He+, NeurIPS'25 GPT Summary- モデルマージングは、ファインチューニングされたモデルを組み合わせることでマルチタスクトレーニングの効率的なデプロイを可能にする手法です。本研究では、モデルマージングを大規模に評価するための評価スイート「MergeBench」を導入し、指示遵守や数学、多言語理解など5つのドメインをカバーします。8つのマージング手法を評価し、より強力なベースモデルがより良いパフォーマンスを発揮する傾向を示しましたが、大規模モデルの計算コストやドメイン内パフォーマンスのギャップなどの課題も残っています。MergeBenchは今後の研究の基盤となることが期待されています。 Comment

元ポスト: https://yifei-he.github.io/mergebench/

#Analysis #MachineLearning #Pocket #NLP #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #NLP #AIAgents #Safety #NeurIPS Issue Date: 2025-09-19 [Paper Note] OS-Harm: A Benchmark for Measuring Safety of Computer Use Agents, Thomas Kuntz+, NeurIPS'25 GPT Summary- コンピュータ使用エージェントの安全性を評価するために、新しいベンチマークOS-Harmを導入。OS-Harmは、意図的な誤用、プロンプトインジェクション攻撃、不適切な行動の3つの危害をテストする150のタスクを含む。自動ジャッジを用いてエージェントの正確性と安全性を評価し、高い一致率を達成。最前線モデルの評価から、意図的な誤用に従う傾向や脆弱性が明らかになった。OS-Harmは、エージェントの安全性向上に寄与することを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #Factuality Issue Date: 2025-09-18 [Paper Note] BrowseComp-ZH: Benchmarking Web Browsing Ability of Large Language Models in Chinese, Peilin Zhou+, arXiv'25 GPT Summary- BrowseComp-ZHは、中国のウェブ上でLLMエージェントを評価するために設計された高難易度のベンチマークで、289のマルチホップ質問から構成される。二段階の品質管理プロトコルを適用し、20以上の言語モデルを評価した結果、ほとんどのモデルが10%未満の精度で苦戦し、最良のモデルでも42.9%にとどまった。この結果は、効果的な情報取得戦略と洗練された推論能力が必要であることを示している。 Comment

#InformationRetrieval #Pocket #NLP #Dataset #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Analysis #Pocket #NLP #Hallucination #TMLR #read-later Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル（LLMs）の類似性を理解するために、想像上の質問応答（IQA）という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…

#Pocket #NLP #Dataset #IRT #COLM Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #AIAgents #MultiModal #ICLR #SoftwareEngineering #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #NLP #Dataset #AIAgents #Medical Issue Date: 2025-09-13 [Paper Note] MedBrowseComp: Benchmarking Medical Deep Research and Computer Use, Shan Chen+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は臨床意思決定支援に期待されているが、異種の知識ベースを統合する厳格な精度が求められる。既存の評価は実用性が不明確であるため、MedBrowseCompを提案。これは、医療従事者が情報を調整する臨床シナリオを反映した1,000以上の質問を含む初のベンチマークである。最前線のエージェントシステムに適用した結果、パフォーマンス不足が10％に達し、LLMの能力と臨床環境の要求との間に重要なギャップが示された。MedBrowseCompは信頼性の高い医療情報探索のためのテストベッドを提供し、将来のモデル改善の目標を設定する。 Comment

pj page: https://moreirap12.github.io/mbc-browse-app/

#Pocket #NLP #Dataset #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-12 [Paper Note] LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code, Naman Jain+, ICLR'25 GPT Summary- 本研究では、LLMのコード関連能力を評価するための新しいベンチマーク「LiveCodeBench」を提案。LeetCode、AtCoder、CodeForcesから収集した400の高品質なコーディング問題を用い、コード生成や自己修復、コード実行など多様な能力に焦点を当てている。18のベースLLMと34の指示調整されたLLMを評価し、汚染や過剰適合の問題を実証的に分析。すべてのプロンプトとモデルの結果を公開し、さらなる分析や新しいシナリオの追加を可能にするツールキットも提供。 Comment

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#Pocket #NLP #Factuality Issue Date: 2025-09-11 [Paper Note] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge, Lukas Haas+, arXiv'25 GPT Summary- SimpleQA Verifiedは、OpenAIのSimpleQAに基づく1,000プロンプトのベンチマークで、LLMの短文事実性を評価します。ノイズの多いラベルやトピックバイアスに対処するため、厳密なフィルタリングプロセスを経て信頼性の高い評価セットを生成しました。Gemini 2.5 Proは55.6のF1スコアを達成し、他のモデルを上回りました。この研究は、事実性の進展を追跡し、幻覚を軽減するためのツールを提供します。 Comment

leaderboard: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified

元ポスト:

Loading…

#NLP #Dataset #AIAgents #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #NAACL Issue Date: 2025-09-09 [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25 GPT Summary- MMLUベンチマークのエラーを分析し、ウイルス学のサブセットでは57%の質問にエラーがあることを発見。新しいエラー注釈プロトコルを用いてMMLU-Reduxを作成し、6.49%の質問にエラーが含まれると推定。MMLU-Reduxを通じて、モデルのパフォーマンスメトリックとの不一致を示し、MMLUの信頼性向上を提案。 #Pocket #NLP #NAACL #Decoding #Non-Determinism Issue Date: 2025-09-09 [Paper Note] The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism, Yifan Song+, NAACL'25 GPT Summary- LLMの評価は非決定性を見落としがちで、単一出力に焦点を当てるため性能の変動理解が制限される。本研究では、貪欲デコーディングとサンプリングの性能差を探求し、非決定性に関するベンチマークの一貫性を特定。実験により、貪欲デコーディングが多くのタスクで優れていることを確認し、アライメントがサンプリングの分散を減少させる可能性を示した。また、小型LLMが大型モデルに匹敵する性能を持つことを明らかにし、LLM評価における非決定性の重要性を強調した。 Comment

#Pocket #NLP #Dataset #AIAgents #Coding #SoftwareEngineering #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#Pocket #NLP #Reasoning #read-later #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2025-09-05 [Paper Note] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?, Qinyan Zhang+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、標準化されたパターンに従うことに苦労することがある。これを評価するために、Inverse IFEvalというベンチマークを提案し、モデルが対立する指示に従う能力を測定する。8種類の課題を含むデータセットを構築し、既存のLLMに対する実験を行った結果、非従来の文脈での適応性も考慮すべきであることが示された。Inverse IFEvalは、LLMの指示遵守の信頼性向上に寄与することが期待される。 Comment

元ポスト:

Loading…

興味深い

#EfficiencyImprovement #Pocket #NLP #Dataset #AIAgents #Coding #SoftwareEngineering Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #Dataset #SpeechProcessing #read-later #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #read-later #Selected Papers/Blogs #DeepResearch #Science #Live Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#Pocket #NLP #Dataset #read-later #Selected Papers/Blogs #Verification Issue Date: 2025-08-28 [Paper Note] UQ: Assessing Language Models on Unsolved Questions, Fan Nie+, arXiv'25 GPT Summary- 本研究では、AIモデルの評価のために、未解決の質問に基づく新しいベンチマーク「UQ」を提案します。UQは、Stack Exchangeから収集した500の多様な質問を含み、難易度と現実性を兼ね備えています。評価には、ルールベースのフィルター、LLM審査員、人間のレビューを組み合わせたデータセット収集パイプライン、生成者-バリデーターのギャップを活用した複合バリデーション戦略、専門家による共同検証プラットフォームが含まれます。UQは、最前線のモデルが人間の知識を拡張するための現実的な課題を評価する手段を提供します。 Comment

元ポスト:
-

Loading…

ポイント解説:

Loading…

#Pocket #NLP #Dataset #AIAgents #MCP Issue Date: 2025-08-25 [Paper Note] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries, Ming Yin+, arXiv'25 GPT Summary- 本研究では、AIエージェントが複数のMCPツールを協調的に使用してマルチステップタスクを解決する能力を評価するためのベンチマーク「LiveMCP-101」を提案。101の実世界のクエリを用い、真の実行計画を基にした新しい評価アプローチを導入。実験結果から、最前線のLLMの成功率が60％未満であることが示され、ツールのオーケストレーションにおける課題が明らかに。LiveMCP-101は、実世界のエージェント能力を評価するための基準を設定し、自律AIシステムの実現に向けた進展を促進する。 Comment

元ポスト:

Loading…

解説:

Loading…

#Analysis #NaturalLanguageGeneration #Pocket #NLP #EMNLP #read-later Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#Pocket #NLP #Dataset #Coding #MultiLingual Issue Date: 2025-08-19 [Paper Note] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators, Jason Chou+, arXiv'25 GPT Summary- AutoCodeGenを提案し、手動注釈なしで高難易度の多言語コード生成データセットを自動生成。これに基づき、3,920の問題からなるAutoCodeBenchを導入し、20のプログラミング言語に均等に分配。30以上のLLMsを評価した結果、最先端のモデルでも多様性や複雑さに苦労していることが明らかに。AutoCodeBenchシリーズは、実用的な多言語コード生成シナリオに焦点を当てるための貴重なリソースとなることを期待。 Comment

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

#Pocket #NLP #Dataset #Reasoning #Overthinking #Underthinking Issue Date: 2025-08-19 [Paper Note] OptimalThinkingBench: Evaluating Over and Underthinking in LLMs, Pranjal Aggarwal+, arXiv'25 GPT Summary- 思考型LLMは計算コストが高く、単純な問題に対して過剰に考え、非思考型LLMは迅速だが難しい推論に対して考えが浅い。これにより、最適なモデル選択がエンドユーザーに委ねられている。本研究では、OptimalThinkingBenchを導入し、過剰思考と考え不足を評価する統一ベンチマークを提供。72のドメインの単純なクエリと11の挑戦的な推論タスクを含む2つのサブベンチマークで、33のモデルを評価した結果、最適な思考モデルは存在せず、思考型モデルは過剰に考え、非思考型モデルは浅い結果を示した。将来的には、より良い統一的かつ最適なモデルの必要性が浮き彫りとなった。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #read-later #Selected Papers/Blogs #CrossDomain #Live Issue Date: 2025-08-18 [Paper Note] xbench: Tracking Agents Productivity Scaling with Profession-Aligned Real-World Evaluations, Kaiyuan Chen+, arXiv'25 GPT Summary- 「xbench」は、AIエージェントの能力と実世界の生産性のギャップを埋めるために設計された動的な評価スイートで、業界専門家が定義したタスクを用いて商業的に重要なドメインをターゲットにしています。リクルートメントとマーケティングの2つのベンチマークを提示し、エージェントの能力を評価するための基準を確立します。評価結果は継続的に更新され、https://xbench.org で入手可能です。 #Pocket #NLP #Dataset #Trustfulness #Health Issue Date: 2025-08-16 [Paper Note] HealthBench: Evaluating Large Language Models Towards Improved Human Health, Rahul K. Arora+, arXiv'25 GPT Summary- オープンソースのベンチマーク「HealthBench」を発表。5,000件のマルチターン会話を基に、262人の医師による評価基準でモデルの性能と安全性を測定。従来のベンチマークと異なり、48,562のユニークな評価基準を用いて多様な健康コンテキストを評価。GPT-3.5 TurboとGPT-4oの比較で初期の進展を示し、小型モデルの改善が顕著。新たに「HealthBench Consensus」と「HealthBench Hard」の2つのバリエーションもリリース。HealthBenchが健康分野でのモデル開発に寄与することを期待。 #Pocket #NLP #Dataset #AIAgents #read-later #Selected Papers/Blogs Issue Date: 2025-08-16 [Paper Note] BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents, Jason Wei+, arXiv'25 GPT Summary- BrowseCompは、エージェントのウェブブラウジング能力を測定するための1,266の質問からなるベンチマークで、絡み合った情報を探すことを要求します。シンプルで使いやすく、短い回答が求められ、参照回答との照合が容易です。このベンチマークは、ブラウジングエージェントの能力を評価するための重要なツールであり、持続力と創造性を測定します。詳細はGitHubで入手可能です。 #Pocket #NLP #Dataset #Reasoning Issue Date: 2025-08-14 [Paper Note] FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming, Gal Beniamini+, arXiv'25 GPT Summary- フロンティアAIモデルの能力を評価するために、実際の研究問題に基づくベンチマーク「FormulaOne」を構築。これは、グラフ理論やアルゴリズムに関連する難易度の高い問題で、商業的関心や理論計算機科学に関連。最先端モデルはFormulaOneでほとんど解決できず、専門家レベルの理解から遠いことが示された。研究支援のために、簡単なタスクセット「FormulaOne-Warmup」を提供し、評価フレームワークも公開。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #AIAgents #SyntheticData #MultiModal #VisionLanguageModel #DeepResearch Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

#Pocket #NLP #Dataset #Coding #Reasoning #Verification Issue Date: 2025-08-13 [Paper Note] Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation, Shiven Sinha+, arXiv'25 GPT Summary- 言語モデル（LM）の科学的発見を加速するために、微妙に誤った解決策に対する反例を作成する能力を評価する新しいベンチマーク「REFUTE」を提案。これはプログラミング問題からの誤った提出物を用いており、最も優れた推論エージェントでも9%未満の反例しか生成できないことが示された。この研究は、LMの誤った解決策を否定する能力を向上させ、信頼できる推論を通じて自己改善を促進することを目指している。 Comment

pj page: https://falsifiers.github.io

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #MCP Issue Date: 2025-08-13 [Paper Note] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?, Guozhao Mo+, arXiv'25 GPT Summary- LiveMCPBenchは、10,000を超えるMCPサーバーに基づく95の実世界タスクから成る初の包括的なベンチマークで、LLMエージェントの大規模評価を目的としています。70のMCPサーバーと527のツールを含むLiveMCPToolを整備し、LLM-as-a-JudgeフレームワークであるLiveMCPEvalを導入して自動化された適応評価を実現しました。MCP Copilot Agentは、ツールを動的に計画し実行するマルチステップエージェントです。評価の結果、最も優れたモデルは78.95%の成功率を達成しましたが、モデル間で性能のばらつきが見られました。全体として、LiveMCPBenchはLLMエージェントの能力を評価するための新たなフレームワークを提供します。 Comment

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

#Pocket #NLP #Dataset #Coding #Reasoning Issue Date: 2025-08-10 [Paper Note] STEPWISE-CODEX-Bench: Evaluating Complex Multi-Function Comprehension and Fine-Grained Execution Reasoning, Kaiwen Yan+, arXiv'25 GPT Summary- 新しいベンチマーク「STEPWISE-CODEX-Bench（SX-Bench）」を提案し、複雑な多機能理解と細かい実行推論を評価。SX-Benchは、サブ関数間の協力を含むタスクを特徴とし、動的実行の深い理解を測定する。20以上のモデルで評価した結果、最先端モデルでも複雑な推論においてボトルネックが明らかに。SX-Benchはコード評価を進展させ、高度なコードインテリジェンスモデルの評価に貢献する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Composition #ACL #InstructionFollowingCapability #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability, Yusuke Sakai+, ACL'25 GPT Summary- Ordered CommonGenを提案し、LLMsの指示に従う能力と構成的一般化能力を評価するベンチマークを構築。36のLLMsを分析した結果、指示の意図は理解しているが、概念の順序に対するバイアスが低多様性の出力を引き起こすことが判明。最も指示に従うLLMでも約75%の順序付きカバレッジしか達成できず、両能力の改善が必要であることを示唆。 Comment

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

#Survey #Embeddings #Pocket #NLP #Dataset #RepresentationLearning Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Reasoning #PostTraining #Contamination-free #Science Issue Date: 2025-07-23 [Paper Note] MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning, Run-Ze Fan+, arXiv'25 GPT Summary- 科学的推論のためのオープンデータセット「TextbookReasoning」を提案し、65万の推論質問を含む。さらに、125万のインスタンスを持つ「MegaScience」を開発し、各公開科学データセットに最適なサブセットを特定。包括的な評価システムを構築し、既存のデータセットと比較して優れたパフォーマンスを示す。MegaScienceを用いてトレーニングしたモデルは、公式の指示モデルを大幅に上回り、科学的調整におけるスケーリングの利点を示唆。データキュレーションパイプラインやトレーニング済みモデルをコミュニティに公開。 Comment

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

#Pocket #NLP #Reasoning #LongSequence #Scaling Laws Issue Date: 2025-07-22 [Paper Note] Inverse Scaling in Test-Time Compute, Aryo Pradipta Gema+, arXiv'25 GPT Summary- LRMsの推論の長さが性能に与える影響を評価するタスクを構築し、計算量と精度の逆スケーリング関係を示す。4つのカテゴリのタスクを通じて、5つの失敗モードを特定。これにより、長時間の推論が問題のあるパターンを強化する可能性があることが明らかになった。結果は、LRMsの失敗モードを特定し対処するために、推論の長さに応じた評価の重要性を示している。 Comment

元ポスト:

Loading…

#RecommenderSystems #Pocket #Prompting #RecSys #Reproducibility #KeyPoint Notes Issue Date: 2025-07-21 [Paper Note] Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation, Genki Kusano+, RecSys'25 GPT Summary- LLMを用いた単一ユーザー設定の推薦タスクにおいて、プロンプトエンジニアリングが重要であることを示す。23種類のプロンプトタイプを比較した結果、コスト効率の良いLLMでは指示の言い換え、背景知識の考慮、推論プロセスの明確化が効果的であり、高性能なLLMではシンプルなプロンプトが優れることが分かった。精度とコストのバランスに基づくプロンプトとLLMの選択に関する提案を行う。 Comment

元ポスト:

Loading…

RecSysにおける網羅的なpromptingの実験。非常に興味深い

#Analysis #Pocket #NLP #LLM-as-a-Judge #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#Pocket #NLP #read-later Issue Date: 2025-07-05 [Paper Note] Answer Matching Outperforms Multiple Choice for Language Model Evaluation, Nikhil Chandak+, arXiv'25 GPT Summary- 複数選択のベンチマークは言語モデル評価において重要だが、質問を見ずに回答できることが多い。これに対し、回答マッチングという生成的評価を提案し、自由形式の応答を生成させて参照回答と一致するかを判断。MMLU-ProとGPQA-Diamondで人間の採点データを取得し、回答マッチングがほぼ完璧な一致を達成することを示した。評価方法の変更により、モデルのランキングが大きく変わる可能性がある。 Comment

元ポスト:

Loading…

これは非常に重要な研究に見える

まだ冒頭しか読めていないので後で読む

#ComputerVision #Pocket #NLP #Dataset #ACL #VisionLanguageModel #Findings Issue Date: 2025-07-02 [Paper Note] Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）'25 GPT Summary- 内部世界モデル（WMs）はエージェントの理解と予測を支えるが、最近の大規模ビジョン・ランゲージモデル（VLMs）の基本的なWM能力に関する評価は不足している。本研究では、知覚と予測を評価する二段階のフレームワークを提案し、WM-ABenchというベンチマークを導入。15のVLMsに対する660の実験で、これらのモデルが基本的なWM能力に顕著な制限を示し、特に運動軌道の識別においてほぼランダムな精度であることが明らかになった。VLMsと人間のWMとの間には重要なギャップが存在する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #MultiModal Issue Date: 2025-07-02 [Paper Note] MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv'25 GPT Summary- MARBLEという新しいマルチモーダル推論ベンチマークを提案し、MLLMsの複雑な推論能力を評価。MARBLEは、空間的・視覚的・物理的制約下での多段階計画を必要とするM-PortalとM-Cubeの2つのタスクから成る。現在のMLLMsは低いパフォーマンスを示し、視覚的入力からの情報抽出においても失敗が見られる。これにより、次世代モデルの推論能力向上が期待される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #ScientificDiscovery #Reproducibility Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Coding #NeurIPS #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-06-17 [Paper Note] LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）は競技プログラミングで人間のエリートを上回るとされるが、実際には重要な限界があることを調査。新たに導入した「LiveCodeBench Pro」ベンチマークにより、LLMsは中程度の難易度の問題で53%のpass@1を達成する一方、難しい問題では0%という結果が得られた。LLMsは実装重視の問題では成功するが、複雑なアルゴリズム的推論には苦労し、誤った正当化を生成することが多い。これにより、LLMsと人間の専門家との間に重要なギャップがあることが明らかになり、今後の改善のための診断が提供される。 Comment

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

#Pocket #NLP #Dataset #Reasoning Issue Date: 2025-06-01 [Paper Note] BIG-Bench Extra Hard, Mehran Kazemi+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の推論能力を評価するための新しいベンチマーク、BIG-Bench Extra Hard（BBEH）を導入。これは、既存のBIG-Bench Hard（BBH）のタスクを新しいものに置き換え、難易度を大幅に引き上げることで、LLMの限界を押し広げることを目的としている。評価の結果、最良の汎用モデルで9.8%、推論専門モデルで44.8%の平均精度が観察され、LLMの一般的推論能力向上の余地が示された。BBEHは公開されている。 Comment

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

#Analysis #Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#Pocket #NLP #ICLR #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-05-23 LiveBench: A Challenging, Contamination-Limited LLM Benchmark, Colin White+, ICLR'25 GPT Summary- テストセットの汚染を防ぐために、LLM用の新しいベンチマーク「LiveBench」を導入。LiveBenchは、頻繁に更新される質問、自動スコアリング、さまざまな挑戦的タスクを含む。多くのモデルを評価し、正答率は70%未満。質問は毎月更新され、LLMの能力向上を測定可能に。コミュニティの参加を歓迎。 Comment

テストデータのコンタミネーションに対処できるように設計されたベンチマーク。重要研究

#Survey #InformationRetrieval #Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#ComputerVision #Pocket #NLP #Dataset #MultiModal #ICLR #ComputerUse Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR'25 GPT Summary- 本研究では、116のプログラムタスクに対して報酬信号を提供する「AndroidWorld」という完全なAndroid環境を提案。これにより、自然言語で表現されたタスクを動的に構築し、現実的なベンチマークを実現。初期結果では、最良のエージェントが30.6%のタスクを完了し、さらなる研究の余地が示された。また、デスクトップWebエージェントのAndroid適応が効果薄であることが明らかになり、クロスプラットフォームエージェントの実現にはさらなる研究が必要であることが示唆された。タスクの変動がエージェントのパフォーマンスに影響を与えることも確認された。 Comment

Android環境でのPhone Useのベンチマーク

#Analysis #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#Pocket #NLP #Dataset #AIAgents #QuestionGeneration Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

#Metrics #NLP #GenerativeAI #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#ComputerVision #Pocket #NLP #Dataset #Selected Papers/Blogs Issue Date: 2025-01-25 [Paper Note] Humanity's Last Exam, Long Phan+, arXiv'25 GPT Summary- 「人類の最後の試験（HLE）」を導入し、LLMの能力を測定する新しいマルチモーダルベンチマークを提案。HLEは2,500の質問から成り、数学や自然科学など広範な科目をカバー。専門家によって開発され、自動採点が可能な形式で、インターネット検索では迅速に回答できない。最先端のLLMはHLEに対して低い精度を示し、現在のLLMの能力と専門家の知識との間に大きなギャップがあることを明らかに。HLEは公開され、研究や政策立案に役立てられる。 Comment

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

#Pocket #NLP #Hallucination #Factuality #COLM Issue Date: 2023-07-27 [Paper Note] FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, COLM'25, 2023.07 GPT Summary- 生成的事前学習モデルによるテキスト合成は進展したが、事実誤認の特定には課題が残る。特に、生成モデルによる事実誤認のリスク増加、長文化による粒度の欠如、明示的証拠の不足が問題である。これらを解決するために、タスクやドメインに依存しない事実誤認検出フレームワークFacToolを提案。知識ベースのQA、コード生成、数学的推論、科学文献レビューの4つのタスクで有効性を実証し、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=hJkQL9VtWT#discussion

#Pocket #NLP #AIAgents #NeurIPS #SoftwareEngineering #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

#Pocket #NLP #Dataset #Safety #NeurIPS Issue Date: 2025-09-16 [Paper Note] WildGuard: Open One-Stop Moderation Tools for Safety Risks, Jailbreaks, and Refusals of LLMs, Seungju Han+, NeurIPS'24 GPT Summary- WildGuardは、LLMの安全性向上を目的としたオープンで軽量なモデレーションツールで、悪意のある意図の特定、安全リスクの検出、拒否率の判断を行う。92Kのラベル付きデータを用いたWildGuardMixを構築し、敵対的な脱獄や拒否応答をカバー。評価の結果、WildGuardは既存のオープンソースモデレーションモデルに対して最先端のパフォーマンスを示し、特に拒否検出で最大26.4%の改善を達成。GPT-4のパフォーマンスに匹敵し、脱獄攻撃の成功率を79.8%から2.4%に低下させる効果を持つ。 Comment

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

#Pocket #NLP #Dataset #NeurIPS Issue Date: 2025-09-10 [Paper Note] MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures, Jinjie Ni+, NeurIPS'24 GPT Summary- MixEvalは、LLM評価の新しいパラダイムであり、実世界のユーザークエリと真実に基づくベンチマークを組み合わせることで、効率的かつ公正な評価を実現する。これにより、Chatbot Arenaとの高い相関を持ち、迅速かつ安価な評価が可能となる。さらに、動的評価を通じてLLM評価の理解を深め、今後の研究方向を示す。 Comment

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

#Pocket #NLP #Dataset #NeurIPS Issue Date: 2025-09-09 [Paper Note] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark, Yubo Wang+, NeurIPS'24 GPT Summary- MMLUベンチマークの限界を克服するため、推論に焦点を当てた質問を統合し、選択肢を4から10に増やした強化データセットMMLU-Proを提案。MMLU-Proは些細な質問を排除し、精度が16%から33%低下する一方で、プロンプトに対する安定性が向上。Chain of Thought推論を利用するモデルは、MMLU-Proでより良いパフォーマンスを示し、複雑な推論問題を含むことを示唆。MMLU-Proは、より識別的なベンチマークとして分野の進展を追跡するのに適している。 Comment

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

#Pocket #NLP #Dataset #SyntheticData #Reasoning #Mathematics #NeurIPS Issue Date: 2025-08-30 [Paper Note] DART-Math: Difficulty-Aware Rejection Tuning for Mathematical Problem-Solving, Yuxuan Tong+, NeurIPS'24 GPT Summary- 数学問題解決には高度な推論が必要であり、従来のモデルは難しいクエリに対して偏りがあることが明らかになった。そこで、Difficulty-Aware Rejection Tuning（DART）を提案し、難しいクエリに多くの試行を割り当てることでトレーニングを強化。新たに作成した小規模な数学問題データセットで、7Bから70BのモデルをファインチューニングしたDART-MATHは、従来の手法を上回る性能を示した。合成データセットが数学問題解決において効果的でコスト効率の良いリソースであることが確認された。 Comment

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

#Pocket #NLP #Dataset #Mathematics Issue Date: 2025-08-16 [Paper Note] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI, Elliot Glazer+, arXiv'24 GPT Summary- FrontierMathは、専門の数学者によって作成された難易度の高い数学問題のベンチマークで、数論や実解析から代数幾何学や圏論まで幅広い分野をカバー。問題解決には数時間から数日かかることがあり、現在のAIモデルは問題の2%未満しか解決できていない。FrontierMathはAIの数学的能力の進捗を定量化するための厳密なテストベッドを提供する。 #Pocket #NLP #Dataset #QuestionAnswering #Factuality #Trustfulness Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #NLP #Dataset #Coding #Reasoning #MultiLingual Issue Date: 2025-08-15 [Paper Note] CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution, Ruiyang Xu+, arXiv'24 GPT Summary- CRUXEVAL-Xという多言語コード推論ベンチマークを提案。19のプログラミング言語を対象に、各言語で600以上の課題を含む19Kのテストを自動生成。言語間の相関を評価し、Python訓練モデルが他言語でも高い性能を示すことを確認。 Comment

#Pocket #NLP #Dataset #Coding #Reasoning Issue Date: 2025-08-15 [Paper Note] CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution, Alex Gu+, arXiv'24 GPT Summary- CRUXEvalという800のPython関数からなるベンチマークを提案し、入力予測と出力予測の2つのタスクを評価。20のコードモデルをテストした結果、HumanEvalで高得点のモデルがCRUXEvalでは改善を示さないことが判明。GPT-4とChain of Thoughtを用いた場合、入力予測で75%、出力予測で81%のpass@1を達成したが、どのモデルも完全にはクリアできず、GPT-4のコード推論能力の限界を示す例を提供。 #Metrics #Pocket #NLP #Search #Factuality #LongSequence Issue Date: 2025-08-08 [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24 GPT Summary- VERISCOREという新しい指標を提案し、検証可能な主張と検証不可能な主張の両方を含む長文生成タスクに対応。人間評価ではVERISCOREが他の方法よりも理にかなっていることが確認され、16のモデルを評価した結果、GPT-4oが最も優れた性能を示したが、オープンウェイトモデルも差を縮めていることが分かった。また、異なるタスク間でVERISCOREの相関がないことから、事実性評価の拡張が必要であることを示唆している。 Comment

#Pocket #NLP #Dataset #LongSequence #MultiLingual #ACL Issue Date: 2025-08-07 [Paper Note] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding, Yushi Bai+, ACL'24 GPT Summary- 本論文では、長いコンテキスト理解のための初のバイリンガル・マルチタスクベンチマーク「LongBench」を提案。英語と中国語で21のデータセットを含み、平均長はそれぞれ6,711語と13,386文字。タスクはQA、要約、少数ショット学習など多岐にわたる。評価結果から、商業モデルは他のオープンソースモデルを上回るが、長いコンテキストでは依然として課題があることが示された。 Comment

#Pocket #NLP #Dataset #ReinforcementLearning Issue Date: 2025-06-26 [Paper Note] RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv'24 GPT Summary- 報酬モデル（RMs）の評価に関する研究は少なく、我々はその理解を深めるためにRewardBenchというベンチマークデータセットを提案。これは、チャットや推論、安全性に関するプロンプトのコレクションで、報酬モデルの性能を評価する。特定の比較データセットを用いて、好まれる理由を検証可能な形で示し、さまざまなトレーニング手法による報酬モデルの評価を行う。これにより、報酬モデルの拒否傾向や推論の限界についての知見を得ることを目指す。 #Pocket #NLP #Decoding #Selected Papers/Blogs #Non-Determinism Issue Date: 2025-04-14 Non-Determinism of "Deterministic" LLM Settings, Berk Atil+, arXiv'24 GPT Summary- 本研究では、5つの決定論的LLMにおける非決定性を8つのタスクで調査し、最大15%の精度変動と70%のパフォーマンスギャップを観察。全てのタスクで一貫した精度を提供できないことが明らかになり、非決定性が計算リソースの効率的使用に寄与している可能性が示唆された。出力の合意率を示す新たなメトリクスTARr@NとTARa@Nを導入し、研究結果を定量化。コードとデータは公開されている。 Comment

#Pocket #NLP #Dataset #AIAgents #ICLR #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#ComputerVision #Pocket #NLP #Dataset #MultiModal #ACL Issue Date: 2025-01-06 [Paper Note] OlympiadBench: A Challenging Benchmark for Promoting AGI with Olympiad-Level Bilingual Multimodal Scientific Problems, Chaoqun He+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）やマルチモーダルモデル（LMMs）の能力を測定するために、オリンピアドレベルのバイリンガルマルチモーダル科学ベンチマーク「OlympiadBench」を提案。8,476の数学と物理の問題を含み、専門家レベルの注釈が付けられている。トップモデルのGPT-4Vは平均17.97%のスコアを達成したが、物理では10.74%にとどまり、ベンチマークの厳しさを示す。一般的な問題として幻覚や論理的誤謬が指摘され、今後のAGI研究に貴重なリソースとなることが期待される。 #Pocket #Bias #ACL Issue Date: 2025-01-06 ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models, Aparna Elangovan+, arXiv'24 GPT Summary- 本ポジションペーパーでは、生成的な大規模言語モデル（LLMs）の人間評価は多分野にわたる取り組みであるべきと主張し、実験デザインの信頼性を確保するためにユーザーエクスペリエンスや心理学の洞察を活用する必要性を強調します。評価には使いやすさや認知バイアスを考慮し、強力なモデルの能力と弱点を区別するための効果的なテストセットが求められます。さらに、スケーラビリティも重要であり、6つの柱から成るConSiDERS-The-Human評価フレームワークを提案します。これらの柱は、一貫性、評価基準、差別化、ユーザーエクスペリエンス、責任、スケーラビリティです。 #NLP #Dataset #AIAgents Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv'24 GPT Summary- 日常生活や仕事におけるAIエージェントの効果を測定するため、TheAgentCompanyというベンチマークを導入。AIエージェントは、ウェブブラウジングやコード実行などのタスクを自律的に行う能力を評価。テストの結果、最も競争力のあるエージェントはタスクの24%を自律的に完了できることが判明。簡単なタスクは自動化可能だが、難しい長期的なタスクは現行システムでは対応できないことが示された。 Comment

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

#RecommenderSystems #Pocket #Dataset #SessionBased #Personalization Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。 #Survey #Pocket #NLP #LLM-as-a-Judge Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #NLP Issue Date: 2024-12-15 When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards, Norah Alzahrani+, ACL'24 GPT Summary- LLMのリーダーボードは、ベンチマークランキングに基づいてモデル選択を支援するが、ランキングは微細な変更に敏感であり、最大8位変動することがある。3つのベンチマーク摂動のカテゴリにわたる実験を通じて、この現象の原因を特定し、ハイブリッドスコアリング方法の利点を含むベストプラクティスを提案。単純な評価に依存する危険性を強調し、より堅牢な評価スキームの必要性を示した。 Comment

#Pocket #NLP #LLM-as-a-Judge Issue Date: 2024-12-15 BatchEval: Towards Human-like Text Evaluation, Peiwen Yuan+, ACL'24 GPT Summary- BatchEvalという新しい評価パラダイムを提案し、LLMを用いた自動テキスト評価の問題を解決。バッチ単位での反復評価により、プロンプト設計の敏感さやノイズ耐性の低さを軽減。実験により、BatchEvalは最先端手法に対して10.5%の改善を示し、APIコストを64%削減。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に日本語によるサマリが掲載されているので参照のこと。

#NeuralNetwork #NaturalLanguageGeneration #NLP #Dataset #LLM-as-a-Judge Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Multi #Pocket #NLP #Dataset #Factuality #Reasoning #ACL Issue Date: 2024-12-02 Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts?, Sohee Yang+, ACL'24 GPT Summary- 大規模言語モデル（LLMs）のマルチホップクエリに対する事実の想起能力を評価。ショートカットを防ぐため、主語と答えが共に出現するテストクエリを除外した評価データセットSOCRATESを構築。LLMsは特定のクエリにおいてショートカットを利用せずに潜在的な推論能力を示し、国を中間答えとするクエリでは80%の構成可能性を達成する一方、年の想起は5%に低下。潜在的推論能力と明示的推論能力の間に大きなギャップが存在することが明らかに。 Comment

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

#InformationRetrieval #Pocket #RelevanceJudgment Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル（LLM）を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment

元ポスト:

Loading…

UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。

#Survey #NLP #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#InformationRetrieval Issue Date: 2024-09-24 Report on the 1st Workshop on Large Language Model for Evaluation in Information Retrieval （LLM4Eval 2024） at SIGIR 2024, Hossein A. Rahmani+, N_A, arXiv'24 GPT Summary- LLM4Eval 2024ワークショップがSIGIR 2024で開催され、情報検索における評価のための大規模言語モデルに関する研究者が集まりました。新規性を重視し、受理論文のパネルディスカッションやポスターセッションを通じて多面的な議論が行われました。 Comment

LLMを用いたIRシステムの評価方法に関するワークショップのレポート。レポート中にAccepted Paperがリストアップされている。

#ComputerVision #Pocket #NLP #Dataset #MultiLingual #NAACL #VisionLanguageModel Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, NAACL'24 GPT Summary- LLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #NLP #Dataset #ICML Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, ICML'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #Pocket #NLP #Dataset #Zero/Few/ManyShotPrompting #Factuality #RAG(RetrievalAugmentedGeneration) #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #NaturalLanguageGeneration #Pocket #NLP #Explanation #Supervised-FineTuning (SFT) #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#Pocket #NLP #LLM-as-a-Judge Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP'23 GPT Summary- 従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル（LLMs）を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment

伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究

#Pocket #NLP #Dataset #QuestionAnswering #AIAgents #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Pocket #NLP #Dataset #InstructionTuning #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #NLP #Factuality #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv'23 GPT Summary- 自律型の事実チェックにおいて、大規模言語モデル（LLMs）を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Comment

#NLP Issue Date: 2023-10-29 Large Language Models are not Fair Evaluators, Peiyi Wang+, N_A, arXiv'23 GPT Summary- この論文では、大規模言語モデル（LLMs）を使用して、候補モデルの応答品質を評価する評価パラダイムにおける系統的なバイアスを明らかにします。さらに、バイアスを軽減するためのキャリブレーションフレームワークを提案し、実験によってその有効性を示します。また、コードとデータを公開して、今後の研究を支援します。 #Pocket #NLP Issue Date: 2023-10-28 Human Feedback is not Gold Standard, Tom Hosking+, N_A, arXiv'23 GPT Summary- 人間のフィードバックは、大規模言語モデルの性能評価に使用されているが、その好みのスコアがどの特性を捉えているのかは明確ではない。この研究では、人間のフィードバックの使用を分析し、重要なエラー基準を適切に捉えているかどうかを検証した。結果として、好みのスコアは広範なカバレッジを持っているが、事実性などの重要な側面が過小評価されていることがわかった。また、好みのスコアとエラーアノテーションは交絡因子の影響を受ける可能性があり、出力の断定性が事実性エラーの知覚率を歪めることも示された。さらに、人間のフィードバックを訓練目標として使用することが、モデルの出力の断定性を過度に増加させることも示された。今後の研究では、好みのスコアが望ましい目標と一致しているかどうかを慎重に考慮する必要がある。 Comment

参考:

Loading…

#Pocket #NLP Issue Date: 2023-10-25 Branch-Solve-Merge Improves Large Language Model Evaluation and Generation, Swarnadeep Saha+, N_A, arXiv'23 GPT Summary- 本研究では、多面的な言語生成および評価タスクにおいて、大規模言語モデルプログラム（BSM）を提案します。BSMは、ブランチ、ソルブ、マージの3つのモジュールから構成され、タスクを複数のサブタスクに分解し、独立して解決し、解決策を統合します。実験により、BSMが評価の正確性と一貫性を向上させ、パフォーマンスを向上させることが示されました。 #MachineLearning #Pocket #NLP #Dataset #AIAgents #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #NLP #Dataset #AIAgents Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 Comment

#NLP #Dataset Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv'23 GPT Summary- 長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Comment

#Pocket #NLP #LLM-as-a-Judge #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 Comment

`LLM-as-a-Judge` という用語を最初に提唱したのも本研究となる（p.2参照）

#NLP #LLM-as-a-Judge Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL'23 GPT Summary- 本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル（LLMs）を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #Metrics #NLP #QuestionAnswering #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

#Pocket #NLP #InstructionTuning Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv'23 GPT Summary- 本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #Pocket #NLP #Dataset Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 Comment

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

#MachineLearning #NLP #Supervised-FineTuning (SFT) Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #NLP #Dataset #TheoryOfMind Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 Comment

#Pocket #NLP #Dataset #Selected Papers/Blogs Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR'23 GPT Summary- 言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 Comment

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

#Pocket #NLP #Dataset #TMLR Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR'23 GPT Summary- 言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 Comment

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

#NLP #Dataset #AIAgents #NeurIPS #ComputerUse #Selected Papers/Blogs #VisionLanguageModel #One-Line Notes Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, NeurIPS'23 Spotlight GPT Summary- Mind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 Comment

#Pocket #NLP #Dataset Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 Comment

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

#Pocket #NLP Issue Date: 2023-07-03 Bring Your Own Data Self-Supervised Evaluation for Large Language Models, Neel Jain+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の振る舞いを評価するための自己教師あり評価フレームワークを提案する。これにより、人間によるラベル付けが必要なくなり、実際のデータに対してモデルの感度や不変性を評価できる。自己教師あり評価は、クローズドブックの知識や有害性、文脈依存性などの側面を評価することができる。また、人間による教師あり評価との相関関係も高い。自己教師あり評価は、現在の評価戦略を補完するものである。 Comment

Loading…

図が非常にわかりやすい

#Pocket #NLP #Dataset Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv'23 GPT Summary- LLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #NLP #SyntheticData Issue Date: 2023-05-22 Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models, Emily Reif+, N_A, arXiv'23 GPT Summary- LLMsを使用して生成されたデータセットの構文的多様性を理解し分析するための新しい可視化ツールであるLinguisticLensが提供された。このツールは、テキストを構文、語彙、および意味の軸に沿ってクラスタリングし、階層的な可視化をサポートしている。ライブデモはshorturl.at/zHOUVで利用可能。 Comment

可視化例

実装: https://github.com/PAIR-code/interpretability/tree/master/data-synth-syntax

#Pocket #Dataset #EMNLP #Ambiguity Issue Date: 2023-04-28 We're Afraid Language Models Aren't Modeling Ambiguity, Alisa Liu+, EMNLP'23 GPT Summary- 曖昧さは自然言語の重要な特徴であり、言語モデル（LM）が対話や執筆支援において成功するためには、曖昧な言語を扱うことが不可欠です。本研究では、曖昧さの影響を評価するために、1,645の例からなるベンチマーク「AmbiEnt」を収集し、事前学習済みLMの評価を行いました。特にGPT-4の曖昧さ解消の正答率は32%と低く、曖昧さの解消が難しいことが示されました。また、多ラベルのNLIモデルが曖昧さによる誤解を特定できることを示し、NLPにおける曖昧さの重要性を再認識する必要性を提唱しています。 Comment

#Pocket #NLP #Dataset #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #NLP #Dataset #CodeGeneration #Selected Papers/Blogs Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

#Pocket #NLP #Dataset #ICLR #Selected Papers/Blogs Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR'21 GPT Summary- 私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

#Article #NLP #LongSequence Issue Date: 2025-11-24 Context Arena, DillonUzar, 2025.04 Comment

元ポスト:

Loading…

関連:

Loading…

#Article #NLP #Dataset #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #AIAgents #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #Tutorial #NLP #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Blog #Reasoning #LongSequence Issue Date: 2025-10-17 Evaluating Long Context （Reasoning） Ability, wh., 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #OpenWeight Issue Date: 2025-10-12 K2 Vendor Verifier, MoonshotAI, 2025.09 Comment

Kimi K2のプロバイダー間でのツール呼び出しの性能の違いを確認できる

元ポスト:

Loading…

#Article #NLP #Dataset #AIAgents #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #Blog #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-09-29 Failing to Understand the Exponential, Again, Julian Schrittwieser, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #ComputerVision #NLP #Dataset #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #Dataset #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

#Article #NLP #Dataset #Reasoning #Mathematics #Contamination-free #Selected Papers/Blogs Issue Date: 2025-09-13 GAUSS Benchmarking Structured Mathematical Skills for Large Language Models, Zhang+, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #Dataset #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

#Article #NLP #Dataset #InstructionFollowingCapability Issue Date: 2025-09-10 AlpacaEval, tatsu-lab, 2023.06 #Article #NLP #Dataset #Japanese #Selected Papers/Blogs Issue Date: 2025-09-09 『JamC-QA』: 日本の文化や風習に特化した質問応答ベンチマークの構築・公開（前編）, SB Intuitions, 2025.09 Comment

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

#Article #ComputerVision #Pocket #NLP #Dataset #Contamination-free #VisionLanguageModel Issue Date: 2025-09-07 CLOCKBENCH: VISUAL TIME BENCHMARK WHERE HUMANS BEAT THE CLOCK, LLMS DON’T ALEK SAFAR （OLEG CHICHIGIN）, 2025.09 Comment

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #Dataset #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #Blog #Reasoning Issue Date: 2025-08-31 Probing LLM Social Intelligence via Werewolf, foaster.ai, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Coding #Reasoning Issue Date: 2025-08-21 Aider LLM Leaderboards, 2024.12 Comment

データセット: https://github.com/Aider-AI/polyglot-benchmark

#Article #NLP #OpenWeight #ProprietaryLLM #Japanese #Selected Papers/Blogs Issue Date: 2025-08-20 Swallow LLM Leaderboard v2, Swallow LLM Team, 2025.08 Comment

元ポスト:

Loading…

評価に用いられたフレームワークはこちら:
https://github.com/swallow-llm/swallow-evaluation-instruct

主要モデルの性能比較:

Loading…

#Article #Pocket #NLP Issue Date: 2025-08-14 Concept Poisoning: Probing LLMs without probes, Betley+, 2025.08 Comment

元ポスト:

Loading…

#Article #Tools #NLP #Blog Issue Date: 2025-08-08 Agent Maze, LlamaIndex, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #Game Issue Date: 2025-08-06 Introducing Kaggle Game Arena, Meg Risdal, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #Dataset Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #Slide #Japanese #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment

#Article #Tutorial #Pretraining #NLP #Dataset #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #NLP #Dataset #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #Dataset #AIAgents #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #ComputerVision #NLP #Dataset Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #Dataset #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Survey #NLP #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Survey #NLP #Dataset #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #Coding Issue Date: 2024-11-13 Copilot Arena, CMU and UC Berkeley, 2024.11 Comment

元ポスト:

Loading…

- ChatBot Arena, lmsys org, 2023.05 も参照のこと

#Article #NLP #Dataset #AIAgents Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 GPT Summary- MLE-benchを紹介し、AIエージェントの機械学習エンジニアリング能力を測定するためのベンチマークを構築。75のKaggleコンペを基に多様なタスクを作成し、人間のベースラインを確立。最前線の言語モデルを評価した結果、OpenAIのo1-previewが16.9%のコンペでKaggleのブロンズメダル相当の成果を達成。AIエージェントの能力理解を促進するため、ベンチマークコードをオープンソース化。 #Article #Pocket #NLP #Blog #LLM-as-a-Judge Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

#Article #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tutorial #Dataset Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #Tools #NLP #Library #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

#Article #NLP #Blog Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） Comment

JGlueを利用した日本語LLMのリーダーボードとして Nejumi LLMリーダーボードなどもある

#Article #NLP Issue Date: 2023-10-02 Nejumi LLMリーダーボード Comment

JGLUEを使ったLLMの日本語タスクベンチマーク

v4が公開:
https://wandb.ai/llm-leaderboard/nejumi-leaderboard4/reports/Nejumi-LLM-4--VmlldzoxMzc1OTk1MA

元ポスト:

Loading…

#Article #NLP Issue Date: 2023-09-30 LLM-as-a-judge #Article #NLP #Explanation Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations GPT Summary- 本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article #Pretraining #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #Blog #Reasoning Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05

Dataset (201)

dataset: https://huggingface.co/datasets/EeshaanJain/MTBBench

元ポスト:

Loading…

> Ground truth annotations are validated by clinicians via a co-developed app, ensuring clinical relevance.

素晴らしい

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://csu-jpg.github.io/VCode/

画像を意味情報を保持したSVGコードとして書き起こし、書き起こしたSVGに対してQAをすることで正しさを測るようなベンチマークらしい

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

元ポスト:

Loading…

既存のAI Agentベンチマークよりもより多様で複雑な実世界タスクに違いベンチマークらしい

元ポスト:

Loading…

著者ポスト:

Loading…

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

pj page: https://critpt.com/

artificial analysisによるリーダーボード:
https://artificialanalysis.ai/evaluations/critpt

データセットとハーネス:

Loading…

pj page: https://amo-bench.github.io/

元ポスト:

Loading…

HF: https://huggingface.co/datasets/meituan-longcat/AMO-Bench

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

日本語解説:
- ACL2025@ウィーン参加報告, shirotaro, 2025.10

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

pj page: https://open-prism.github.io/PRISM-Physics/

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

興味深い

元ポスト:

Loading…

pj page: https://infini-gram-mini.io

benchmarmk contamination monitoring system: https://huggingface.co/spaces/infini-gram-mini/Benchmark-Contamination-Monitoring-System

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

pj page: https://mira-benchmark.github.io/

元ポスト:

Loading…

Visual CoT

著者ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

pj page: https://reasoning-horizon.github.io

元ポスト:

Loading…

ポイント解説:

Loading…

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

pj page: https://sorry-bench.github.io/

openreview: https://openreview.net/forum?id=YfKNaRktan

元ポスト:

Loading…

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

pj page: https://hal.cs.princeton.edu

元ポスト:

Loading…

よ、40,000ドル！？💸

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

元ポスト:

Loading…

これは非常に重要な研究に見える

元ポスト:

Loading…

元ポスト: https://parallelbench.github.io

pj page: https://parallelbench.github.io

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

元ポスト:

Loading…

元ポスト:

Loading…

良さそう

openreview: https://openreview.net/forum?id=gKfj7Jb1kj#discussion

元ポスト:

Loading…

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=PYHwlyu2fa#discussion

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://stockbench.github.io

元ポスト:

Loading…

所見:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

元ポスト:

Loading…

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

Figure1がRMの過学習の様子を図示しており、非常に端的で分かりやすい。

元ポスト:

Loading…

GAIAはこちら:
- GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N/A, arXiv'23

Execution, Search, Ambiguity, Adaptability, Time, Noise, Agent2Agentの6つのcapabilityを評価可能。興味深い。

- [Paper Note] GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models, GLM-4. 5 Team+, arXiv'25

しっかりと読めていないがGLM-4.5は含まれていないように見える。

ポイント解説:

Loading…

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://longemotion.github.io

元ポスト:

Loading…

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

元ポスト: https://yifei-he.github.io/mergebench/

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

元ポスト:

Loading…

著者ポスト:

Loading…

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

pj page: https://moreirap12.github.io/mbc-browse-app/

pj page: https://livecodebench.github.io

openreview: https://openreview.net/forum?id=chfJJYC3iL

Loading…

#NLP #LanguageModel #AIAgents #read-later #Medical #Biological Issue Date: 2025-09-10 BioML-bench: Evaluation of AI Agents for End-to-End Biomedical ML, Miller+, bioRxiv'25 Comment

元ポスト:

Loading…

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

元ポスト:

Loading…

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

元ポスト:

Loading…

またしてもMCPに基づいたtool useのベンチマークが出た模様

元ポスト:
-

Loading…

ポイント解説:

Loading…

元ポスト:

Loading…

解説:

Loading…

pj page: https://mcp-universe.github.io/

元ポスト:

Loading…

解説:

Loading…

元ポスト:

Loading…

pj page: https://autocodebench.github.io/

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

公式:

Loading…

pj page: https://falsifiers.github.io

元ポスト:

Loading…

pj page: https://icip-cas.github.io/LiveMCPBench/

元ポスト:

Loading…

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

元ポスト:

Loading…

LLMの意味の構成性と指示追従能力を同時に発揮する能力を測定可能なOrderedCommonGenを提案

元ポスト:

Loading…

元ポスト:

Loading…

LLMベースでdecontaminationも実施している模様

元ポスト:

Loading…

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=TE0KOzWYAF

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://livecodebenchpro.com

アップデート(NeurIPSにaccept):

Loading…

元ポスト:

Loading…

関連ポスト:

Loading…

NeurIPSにaccept:

Loading…

Big-Bench論文はこちら:
- Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N/A, TMLR'23

元ポスト:

Loading…

Android環境でのPhone Useのベンチマーク

o1, DeepSeekR1の正解率が10%未満の新たなベンチマーク

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

openreview: https://openreview.net/forum?id=Ich4tv4202#discussion

pj page: https://ella-diffusion.github.io

openreview: https://openreview.net/forum?id=6A29LUZhfv&referrer=%5Bthe%20profile%20of%20Yang%20You%5D(%2Fprofile%3Fid%3D~Yang_You1)

openreview: https://openreview.net/forum?id=y10DM6R2r3&referrer=%5Bthe%20profile%20of%20Ge%20Zhang%5D(%2Fprofile%3Fid%3D~Ge_Zhang5)#discussion

MMLUはこちら:
- Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N/A, ICLR'21

openreview: https://openreview.net/forum?id=zLU21oQjD5&referrer=%5Bthe%20profile%20of%20Rui%20Wang%5D(%2Fprofile%3Fid%3D~Rui_Wang1)

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

MMMUのリリースから20ヶ月経過したが、いまだに人間のエキスパートのアンサンブルには及ばないとのこと

Loading…

MMMUのサンプルはこちら。各分野ごとに専門家レベルの知識と推論が求められるとのこと。

openreview: https://openreview.net/forum?id=QWTCcxMpPA#discussion
project page: https://mathllm.github.io/mathvision/

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

元ポスト:

Loading…

元ポスト:

Loading…

（画像は著者ツイートより引用）

Loading…

まだまだAI Agentが完全に'同僚'として機能することとは現時点ではなさそうだが、このベンチマークのスコアが今後どこまで上がっていくだろうか。

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

SNLP'24での解説スライド:
https://docs.google.com/presentation/d/1Q_UzOzn0qYX1gq_4FC4YGXK8okd5pwEHaLzVCzp3yWg/edit?usp=drivesdk

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

このベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。

OpenReview: https://openreview.net/forum?id=iO4LZibEqW

HELMを提案した研究
当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:
https://crfm.stanford.edu/helm/

OpenReview: https://openreview.net/forum?id=uyTL5Bvosj

BIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。

Mturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした

pj page: http://calvin.cs.uni-freiburg.de

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#DocumentSummarization #Metrics #Tools #NLP #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

OpenReview: https://openreview.net/forum?id=d7KBjmI3GmQ

MMLU論文

- [Paper Note] Are We Done with MMLU?, Aryo Pradipta Gema+, NAACL'25

において、多くのエラーが含まれることが指摘され、再アノテーションが実施されている。

PJ page: https://inklab.usc.edu/CommonGen/

pj page: https://tinghuiz.github.io/projects/mpi/

リポジトリ: https://github.com/microsoft/TextWorld

dataset: https://www.kaggle.com/datasets/artemmmtry/mpi-sintel-dataset

#Article #NLP #Education #AIAgents #Financial #Legal Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #read-later Issue Date: 2025-11-21 Benchmark Scores = General Capability + Claudiness, EpochAI, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #Blog Issue Date: 2025-11-19 AI Model Benchmarks Nov 2025, lmcouncil, 2025.11 Comment

元ポスト:

Loading…

50% time horizonなどを含む良さそうなベンチマークと主要モデルの比較が簡単にできそうなサイト

#Article #SpeechProcessing Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #LanguageModel #AIAgents #SoftwareEngineering Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Selected Papers/Blogs Issue Date: 2025-09-29 GDPVAL: EVALUATING AI MODEL PERFORMANCE ON REAL-WORLD ECONOMICALLY VALUABLE TASKS, Patwardhan+, 2025.09 Comment

テクニカルペーパー:
- [Paper Note] GDPval: Evaluating AI Model Performance on Real-World Economically Valuable Tasks, Tejal Patwardhan+, arXiv'25, 2025.10

#Article #Blog #Mathematics Issue Date: 2025-09-24 HMMT. HMMT 2025, 2025.09 Comment

#Article #ComputerVision #NLP #LanguageModel #TextToImageGeneration #UMM Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

#Article #NLP #LanguageModel #Safety #Japanese Issue Date: 2025-09-16 WildGuardTestJP: 日本語ガードレールベンチマークの開発, SB Intuitions, 2025.09 Comment

HF: https://huggingface.co/datasets/sbintuitions/WildGuardTestJP

元ポスト:

Loading…

元ポスト:

Loading…

#Article #NLP #LanguageModel #Conversation #Live Issue Date: 2025-09-10 From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline, Li+, 2024.04 Comment

ArenaHardデータセット

元ポスト:

Loading…

後編も参照のこと: https://www.sbintuitions.co.jp/blog/entry/2025/09/09/113132

NLP'25: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q2-18.pdf

リーダーボード: https://clockbench.ai

元ポスト:

Loading…

続報:

Loading…

Qwen3-VL-235B-InstructがGPT-5 Chat超え

#Article #NLP #LanguageModel #Japanese #Cultural Issue Date: 2025-09-07 MECHA-ja, llm-jp, 2025.09 Comment

元ポスト:

Loading…

#Article #AIAgents #Repository #Coding #SoftwareEngineering #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel Issue Date: 2025-07-31 Bits per Character （BPC）によるLLM性能予測, Kazuki Fujii （PFN）, 2025.07 Comment

元ポスト:

Loading…

#Article #Tutorial #Pretraining #NLP #LanguageModel #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #TimeSeriesDataProcessing #MachineLearning Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #LongSequence Issue Date: 2025-04-09 Fiction.liveBench, Kas, 2025.04 Comment

long contextではGemini-2.5-proの圧勝

#Article #NLP #LanguageModel #AIAgents #API #Selected Papers/Blogs Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 Comment

LLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク

BFCLv3:
https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

#Article #ComputerVision #NLP #LanguageModel Issue Date: 2025-01-05 Killed by LLM, R0bk Comment

Saturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。

#Article #NLP #LanguageModel #Japanese Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment

参考:

Loading…

日本語プレプリント: https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008

arXivはこれからっぽい

#Article #Survey #NLP #LanguageModel #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #Tutorial #NLP #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

DocumentSummarization (61)

#MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #NLP #LM-based #Coherence
Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #Pocket #NLP #Reference-free
Issue Date: 2023-08-13 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N_A, Findings of ACL'23 GPT Summary- 自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。 Comment

#Pocket #NLP #LLM-as-a-Judge
Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv'23 GPT Summary- 本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 Comment

BERTScoreと同様、評価したいテキストの対数尤度で評価している
BERTScoreよりも相関が高く、instructionによって性能が向上することが示されている

#Pocket #NLP Issue Date: 2023-08-13 Large Language Models are Diverse Role-Players for Summarization Evaluation, Ning Wu+, N_A, arXiv'23 GPT Summary- 本研究では、テキスト要約の評価フレームワークを提案し、生成されたテキストと参照テキストを客観的および主観的な側面から比較することで包括的な評価を行います。具体的には、ロールプレイヤーのプロンプティングメカニズムを使用してテキストの評価をモデル化し、コンテキストベースのプロンプティングメカニズムを導入して動的なロールプレイヤープロファイルを生成します。さらに、バッチプロンプティングに基づいたマルチロールプレイヤープロンプティング技術を使用して複数の評価結果を統合します。実験結果は、提案モデルが競争力があり、人間の評価者と高い一致性を持つことを示しています。 #Pocket #NLP #Factuality Issue Date: 2023-08-13 ChatGPT as a Factual Inconsistency Evaluator for Text Summarization, Zheheng Luo+, N_A, arXiv'23 GPT Summary- 事前学習された言語モデルによるテキスト要約の性能向上が注目されているが、生成された要約が元の文書と矛盾することが問題となっている。この問題を解決するために、効果的な事実性評価メトリクスの開発が進められているが、計算複雑性や不確実性の制約があり、人間の判断との一致に限定されている。最近の研究では、大規模言語モデル（LLMs）がテキスト生成と言語理解の両方で優れた性能を示していることがわかっている。本研究では、ChatGPTの事実的な矛盾評価能力を評価し、バイナリエンテイルメント推論、要約ランキング、一貫性評価などのタスクで優れた性能を示した。ただし、ChatGPTには語彙的な類似性の傾向や誤った推論、指示の不適切な理解などの制限があることがわかった。 #Metrics #NLP #Dataset Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #NaturalLanguageGeneration #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #Metrics #Pocket #NLP #Reference-free #Reference-based Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR'22 GPT Summary- 本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment

先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。

#NaturalLanguageGeneration #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #NaturalLanguageGeneration #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #NLP #LM-based #Factuality Issue Date: 2023-08-13 SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization, Laban+, TACL'22 GPT Summary- 要約の領域では、入力ドキュメントと要約が整合していることが重要です。以前の研究では、自然言語推論（NLI）モデルを不整合検出に適用するとパフォーマンスが低下することがわかりました。本研究では、NLIを不整合検出に再評価し、過去の研究での入力の粒度の不一致が問題であることを発見しました。新しい手法SummaCConvを提案し、NLIモデルを文単位にドキュメントを分割してスコアを集計することで、不整合検出に成功裏に使用できることを示しました。さらに、新しいベンチマークSummaCを導入し、74.4%の正確さを達成し、先行研究と比較して5%の改善を実現しました。 #Metrics #NLP #Factuality Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering'22 GPT Summary- 事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 Comment

FactualConsistencyに関するMetricが良くまとまっている

#NLP #Reference-free Issue Date: 2023-08-13 MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification, Yu Lu Liu+, N_A, arXiv'22 GPT Summary- 本研究では、テキストの要約と簡素化のための参照のない評価尺度であるMaskEvalを提案しています。MaskEvalは、候補テキストとソーステキストの連結に対してマスクされた言語モデリングを行い、重要な品質の側面ごとに相対的な重要性を調整することができます。さらに、英語の要約と簡素化における人間の判断との相関に基づいて、その効果を示し、両方のタスク間での転移シナリオを探索します。 #Metrics #NLP #Reference-free Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI'22 GPT Summary- この研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #Metrics #NLP #Reference-free Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL'22 GPT Summary- 本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #NLP Issue Date: 2023-08-13 Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics, Deutsch+, NAACL'22 GPT Summary- 本研究では、自動要約評価尺度のシステムレベルの相関に関する不整合を修正するための変更を提案しています。具体的には、全テストセットを使用して自動評価尺度のシステムスコアを計算し、実際のシナリオでよく見られる自動スコアのわずかな差によって分離されたシステムのペアに対してのみ相関を計算することを提案しています。これにより、より正確な相関推定と高品質な人間の判断の収集が可能となります。 #NLP Issue Date: 2023-08-13 Does Summary Evaluation Survive Translation to Other Languages?, Braun+, NAACL'22 GPT Summary- 要約データセットの作成は費用と時間がかかるが、機械翻訳を使用して既存のデータセットを他の言語に翻訳することで、追加の言語での使用が可能になる。この研究では、英語の要約データセットを7つの言語に翻訳し、自動評価尺度によるパフォーマンスを比較する。また、人間と自動化された要約のスコアリング間の相関を評価し、翻訳がパフォーマンスに与える影響も考慮する。さらに、データセットの再利用の可能性を見つけるために、特定の側面に焦点を当てる。 #Metrics #NLP #TrainedMetrics Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv'22 GPT Summary- 要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #NLP #Reference-free Issue Date: 2023-08-13 SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling, Bao+, NAACL'22 GPT Summary- 従来の自動要約評価メトリックは語彙の類似性に焦点を当てており、意味や言語的な品質を十分に捉えることができない。参照要約が必要であるためコストがかかる。本研究では、参照要約が存在しない弱教師あり要約評価手法を提案する。既存の要約データセットを文書と破損した参照要約のペアに変換してトレーニングする。ドメイン間のテストでは、提案手法がベースラインを上回り、言語的な品質を評価する上で大きな利点を示した。 #NLP #Reference-free Issue Date: 2023-08-13 PrefScore: Pairwise Preference Learning for Reference-free Summarization Quality Assessment, Luo+, COLING'22 GPT Summary- 人間による参照要約のない機械生成の要約の評価を行うために、ブラッドリー・テリーのパワーランキングモデルを使用して要約の優劣を判断する方法を提案する。実験結果は、この方法が人間の評価と高い相関を持つスコアを生成できることを示している。 #Pocket #NLP Issue Date: 2023-08-13 How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation, Steen+, COLING'22 GPT Summary- 要約の一貫性を自動的に評価することは重要であり、さまざまな方法が提案されていますが、異なるデータセットと評価指標を使用して評価されるため、相対的なパフォーマンスを理解することが困難です。本研究では、要約の一貫性モデリングのさまざまな方法について調査し、新しい分析尺度を導入します。現在の自動一貫性尺度はすべての評価指標において信頼性のある一貫性スコアを割り当てることができませんが、大規模言語モデルは有望な結果を示しています。 #Pocket #NLP Issue Date: 2023-08-13 Universal Evasion Attacks on Summarization Scoring, Wenchuan Mu+, N_A, BlackboxNLP workshop on ACL'22 GPT Summary- 要約の自動評価は重要であり、その評価は複雑です。しかし、これまで要約の評価は機械学習のタスクとは考えられていませんでした。本研究では、自動評価の堅牢性を探るために回避攻撃を行いました。攻撃システムは、要約ではない文字列を予測し、一般的な評価指標であるROUGEやMETEORにおいて優れた要約器と競合するスコアを達成しました。また、攻撃システムは最先端の要約手法を上回るスコアを獲得しました。この研究は、現在の評価システムの堅牢性の低さを示しており、要約スコアの開発を促進することを目指しています。 #Pocket #NLP Issue Date: 2023-08-13 DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely, Forrest Sheng Bao+, N_A, arXiv'22 GPT Summary- 参照ベースと参照フリーの要約評価メトリックがあります。参照ベースは正確ですが、制約があります。参照フリーは独立していますが、ゼロショットと正確さの両方を満たせません。本研究では、参照ベースのメトリックを使用してゼロショットかつ正確な参照フリーのアプローチを提案します。実験結果は、このアプローチが最も優れた参照フリーのメトリックを提供できることを示しています。また、参照ベースのメトリックの再利用と追加の調整についても調査しています。 #Metrics #Tools #NLP #Dataset #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#NLP Issue Date: 2023-08-13 How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation, Steen+, EACL'21 GPT Summary- 要約システムの評価方法についての調査結果を報告しました。要約の言語的品質についての評価実験を行い、最適な評価方法は側面によって異なることを示しました。また、研究パラメータや統計分析方法についても問題点を指摘しました。さらに、現行の方法では固定された研究予算の下では信頼性のある注釈を提供できないことを強調しました。 Comment

要約の人手評価に対する研究

#NLP Issue Date: 2023-08-13 Reliability of Human Evaluation for Text Summarization: Lessons Learned and Challenges Ahead, Iskender+, EACL'21 GPT Summary- 人間評価の信頼性に関する研究では、参加者の情報や実験の詳細が提供されていないことが多い。また、人間評価の信頼性に影響を与える要因についても研究されていない。そこで、私たちは人間評価実験を行い、参加者の情報や実験の詳細を提供し、異なる実験結果を比較した。さらに、専門家と非専門家の評価の信頼性を確保するためのガイドラインを提供し、信頼性に影響を与える要因を特定した。 Comment

要約の人手評価に対する信頼性に関して研究。人手評価のガイドラインを提供している。

#NaturalLanguageGeneration #Metrics #NLP #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

C-ELMO/C-SBERT

#NaturalLanguageGeneration #Metrics #NLP #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #NaturalLanguageGeneration #Metrics #NLP #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

#Metrics #NLP #LM-based #Factuality Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP''21 GPT Summary- 本研究では、自然言語生成（NLG）タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 Comment

CTC

#Metrics #NLP #Reference-free #LM-based #Selected Papers/Blogs Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubig氏）, NeurIPS'21 GPT Summary- 本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 Comment

BARTScore

#Metrics #NLP #Reference-based Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL'21 GPT Summary- 要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答（QA）を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #Metrics #NLP #Reference-free Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP'21 GPT Summary- 私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Metrics #Pocket #NLP #Reference-free #QA-based Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL'20 GPT Summary- 要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 Comment

QAGS

生成された要約からQuestionを生成する手法。precision-oriented

#Metrics #NLP #QA-based Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL'20 GPT Summary- ニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 Comment

FEQA

生成された要約からQuestionを生成する手法。precision-oriented

#Metrics #NLP #Reference-based Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING'20 GPT Summary- 要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 Comment

Hybrid Lexical and MOdel-based evaluation of Summaries (HOLMS)

#NaturalLanguageGeneration #Metrics #NLP #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#Metrics #NLP #LM-based #Factuality Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP'20 GPT Summary- 本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 Comment

FactCC

近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した

#Metrics #NLP #Reference-free #LM-based Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP'20 GPT Summary- パラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 Comment

PRISM

#NLP #Reference-free Issue Date: 2023-08-13 Fill in the BLANC: Human-free quality estimation of document summaries, Vasilyev+, Eval4NLP'20 GPT Summary- BLANCは、要約の品質を自動的に推定するための新しいアプローチです。BLANCは、事前学習済みの言語モデルを使用してドキュメントの要約にアクセスし、要約の機能的なパフォーマンスを測定します。BLANCスコアは、ROUGEと同様に人間の評価と良好な相関関係を持ち、人間によって書かれた参照要約が不要なため、完全に人間不在の要約品質推定が可能です。 #NLP #Reference-free #Training-Free Issue Date: 2023-08-13 SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL'20 GPT Summary- この研究では、教師なしの複数文書要約評価メトリックスについて調査しています。提案手法SUPERTは、擬似的な参照要約として選択された重要な文を使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて要約の品質を評価します。SUPERTは従来の教師なし評価メトリックスよりも人間の評価との相関が高く、18〜39％の向上が見られます。また、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、有利なパフォーマンスを実現しています。ソースコードはGitHubで入手可能です。 Comment

#Metrics #NLP #Reference-based #TrainedMetrics Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL'20 GPT Summary- BLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #NaturalLanguageGeneration #Metrics #NLP #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#Pocket #NLP Issue Date: 2023-08-16 Neural Text Summarization: A Critical Evaluation, Krysciski+ （w_ Richard Socher）, EMNLP-IJCNLP'19 GPT Summary- テキスト要約の研究は進展が停滞しており、データセット、評価指標、モデルの3つの要素に問題があることが指摘されている。自動収集されたデータセットは制約が不十分であり、ノイズを含んでいる可能性がある。評価プロトコルは人間の判断と相関が弱く、重要な特性を考慮していない。モデルはデータセットのバイアスに過適合し、出力の多様性が限られている。 #Metrics #NLP #QA-based Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL'19 GPT Summary- 最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 Comment

APES

#Metrics #NLP Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL'19 GPT Summary- 自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment

要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘

#MachineTranslation #NLP #TrainedMetrics Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv'19 GPT Summary- 私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #NLP #Reference-based Issue Date: 2023-08-13 MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 GPT Summary- 本研究では、テキスト生成システムの評価尺度について調査し、システムの出力と参照テキストの意味に基づいて比較する尺度を提案します。この尺度は、要約、機械翻訳、画像キャプション、データからテキストへの生成などのタスクで有効であり、文脈化表現と距離尺度を組み合わせたものが最も優れています。また、提案した尺度は強力な汎化能力を持っており、ウェブサービスとして提供されています。 Comment

Word Mover Distance (WMD)の解説: https://yubessy.hatenablog.com/entry/2017/01/10/122737

#NLP #Reference-free #QA-based Issue Date: 2023-08-13 Answers Unite Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP'19 GPT Summary- 最近、再強化学習（RL）を使用した抽象的要約手法が提案されており、従来の尤度最大化を克服するために使用されています。この手法は、複雑で微分不可能なメトリクスを考慮することで、生成された要約の品質と関連性を総合的に評価することができます。ROUGEという従来の要約メトリクスにはいくつかの問題があり、代替的な評価尺度を探求する必要があります。報告された人間評価の分析によると、質問応答に基づく提案されたメトリクスはROUGEよりも有利であり、参照要約を必要としないという特徴も持っています。これらのメトリクスを使用してRLベースのモデルをトレーニングすることは、現在の手法に比べて改善をもたらします。 Comment

SummaQA

#Metrics #Pocket #NLP #QA-based Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI'18 GPT Summary- 自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 Comment

QGQAを提案した研究

#MachineTranslation #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#NaturalLanguageGeneration #Metrics #NLP #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#ComputerVision #NaturalLanguageGeneration #Pocket #NLP #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #NLP Issue Date: 2023-08-23 Automatically Assessing Machine Summary Content Without a Gold Standard, Louis+（w_ Nenkova）, ACL'13 GPT Summary- 本研究では、要約の評価において新しい技術を提案しています。これにより、人間の要約が利用できない場合や、単一のモデルしか利用できない場合でも正確な評価が可能となります。具体的には、モデルに依存しない評価技術や、システム要約の類似性を定量化する尺度などを提案しています。これにより、要約の評価を人間の評価と正確に再現することができます。また、擬似モデルを導入することで、利用可能なモデルのみを使用する場合よりも人間の判断との相関が高くなることも示しています。さらに、システム要約のランキング方法についても探求しており、驚くほど正確なランキングが可能となります。 Comment

メタ評価の具体的な手順について知りたければこの研究を読むべし

#MachineTranslation #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #Pocket #NLP #CrossLingual Issue Date: 2023-08-13 Evaluating the Efficacy of Summarization Evaluation across Languages, Koto+ （w_ Tim先生）, Findings of ACL'12 GPT Summary- この研究では、異なる言語の要約コーパスを使用して、マルチリンガルBERTを用いたBERTScoreが他の要約評価メトリックスよりも優れたパフォーマンスを示すことが示されました。これは、英語以外の言語においても有効であることを示しています。 #MachineTranslation #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#NLP #QA-based Issue Date: 2023-08-20 Discourse constraints for document compression, Clarke+ （w_ Lapata）, Computational Linguistics'10 Comment

QAベースドなアプローチを人手評価に導入した初めての研究

#Metrics #NLP #Reference-free Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing'08 GPT Summary- この論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #Metrics #NLP #Reference-based #TrainedMetrics Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management'07 GPT Summary- 要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル（VRM）を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 Comment

VRM

#Article #Metrics #NLP #Reference-based Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。

Metrics (51)

#Multi #Pocket #NLP #LanguageModel #ReinforcementLearning #Conversation #NeurIPS #Personality
Issue Date: 2025-11-06 [Paper Note] Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning, Marwa Abdulhai+, arXiv'25, 2025.10 GPT Summary- LLMを用いた対話におけるペルソナの一貫性を評価・改善するフレームワークを提案。3つの自動メトリックを定義し、マルチターン強化学習でファインチューニングを行うことで、一貫性を55%以上向上させる。 Comment

pj page: https://sites.google.com/view/consistent-llms

元ポスト:

Loading…

#MachineTranslation #Pocket #NLP #Dataset #LanguageModel #Reference-free #EMNLP #LowResource
Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#Pocket #Transformer #SpokenLanguageProcessing
Issue Date: 2025-07-02 [Paper Note] AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences, Minoru Kishi+, arXiv'25 GPT Summary- 新しい客観的評価指標AudioBERTScoreを提案し、合成音声の性能向上を目指す。従来の客観的指標は主観的評価との相関が弱いため、AudioBERTScoreは合成音声と参照音声の埋め込みの類似性を計算し、主観的評価との相関が高いことを実験で示した。 Comment

元ポスト:

Loading…

text-to-audioの自動評価が可能な模様

#NLP #LanguageModel #GenerativeAI #Selected Papers/Blogs #KeyPoint Notes #Reference Collection Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

#Pocket #NLP #Search #LanguageModel #Factuality #LongSequence Issue Date: 2025-08-08 [Paper Note] VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation, Yixiao Song+, arXiv'24 GPT Summary- VERISCOREという新しい指標を提案し、検証可能な主張と検証不可能な主張の両方を含む長文生成タスクに対応。人間評価ではVERISCOREが他の方法よりも理にかなっていることが確認され、16のモデルを評価した結果、GPT-4oが最も優れた性能を示したが、オープンウェイトモデルも差を縮めていることが分かった。また、異なるタスク間でVERISCOREの相関がないことから、事実性評価の拡張が必要であることを示唆している。 Comment

#NaturalLanguageGeneration #Pocket #NLP #EMNLP #Finetuning Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Pocket #NLP #LM-based #Coherence Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #NLP #LanguageModel #QuestionAnswering #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

#DocumentSummarization #NLP #Dataset Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL'23 GPT Summary- 要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #Pocket #AutomaticSpeechRecognition(ASR) #NAACL #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-04-30 Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22 GPT Summary- SimulSTシステムの遅延評価において、ALが長い予測に対して過小評価される問題を指摘。過剰生成の傾向を持つシステムに対し、過小生成と過剰生成を公平に評価する新指標LAALを提案。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20

#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization #Pocket #NLP #Reference-free #Reference-based Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR'22 GPT Summary- 本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment

先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。

#DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization #NaturalLanguageGeneration #Pocket #NLP #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #DocumentSummarization #NLP #Factuality Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering'22 GPT Summary- 事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 Comment

FactualConsistencyに関するMetricが良くまとまっている

#DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI'22 GPT Summary- この研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL'22 GPT Summary- 本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #DocumentSummarization #NLP #TrainedMetrics Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv'22 GPT Summary- 要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #MachineTranslation #Analysis #NaturalLanguageGeneration #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#DocumentSummarization #Tools #NLP #Dataset #Selected Papers/Blogs Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL'21 Comment

#DocumentSummarization #NaturalLanguageGeneration #NLP #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

C-ELMO/C-SBERT

#DocumentSummarization #NaturalLanguageGeneration #NLP #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization #NaturalLanguageGeneration #NLP #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

#NaturalLanguageGeneration #NLP #DialogueGeneration #Reference-free #QA-based #Factuality Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

#DocumentSummarization #NLP #LM-based #Factuality Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP''21 GPT Summary- 本研究では、自然言語生成（NLG）タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 Comment

CTC

#NaturalLanguageGeneration #NLP #Reference-free #QA-based Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP'21 GPT Summary- 本研究では、画像キャプションの評価において、Question Generation（QG）とQuestion Answering（QA）システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 Comment

#DocumentSummarization #NLP #Reference-free #LM-based #Selected Papers/Blogs Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubig氏）, NeurIPS'21 GPT Summary- 本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 Comment

BARTScore

#DocumentSummarization #NLP #Reference-based Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL'21 GPT Summary- 要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答（QA）を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP'21 GPT Summary- 私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Pocket #NLP #AutomaticSpeechRecognition(ASR) #AACL #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20 GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22

#MachineTranslation #Pocket #NLP #EMNLP #Selected Papers/Blogs Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 GPT Summary- COMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 Comment

ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう

#MachineTranslation #Analysis #NaturalLanguageGeneration #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #Pocket #NLP #Reference-free #QA-based Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL'20 GPT Summary- 要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 Comment

QAGS

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #NLP #QA-based Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL'20 GPT Summary- ニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 Comment

FEQA

生成された要約からQuestionを生成する手法。precision-oriented

#DocumentSummarization #NLP #Reference-based Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING'20 GPT Summary- 要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 Comment

Hybrid Lexical and MOdel-based evaluation of Summaries (HOLMS)

#DocumentSummarization #NaturalLanguageGeneration #NLP #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#DocumentSummarization #NLP #LM-based #Factuality Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP'20 GPT Summary- 本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 Comment

FactCC

近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した

#DocumentSummarization #NLP #Reference-free #LM-based Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP'20 GPT Summary- パラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 Comment

PRISM

#DocumentSummarization #NLP #Reference-based #TrainedMetrics Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL'20 GPT Summary- BLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #DocumentSummarization #NaturalLanguageGeneration #NLP #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#DocumentSummarization #NLP #QA-based Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL'19 GPT Summary- 最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 Comment

APES

#DocumentSummarization #NLP Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL'19 GPT Summary- 自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment

要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘

#DocumentSummarization #Pocket #NLP #QA-based Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI'18 GPT Summary- 自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 Comment

QGQAを提案した研究

#NaturalLanguageGeneration #NLP Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP'17 GPT Summary- NLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment

既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #NLP #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#DocumentSummarization #NaturalLanguageGeneration #NLP #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #NLP #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #NLP #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

#DocumentSummarization #NLP #Reference-free Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing'08 GPT Summary- この論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #DocumentSummarization #NLP #Reference-based #TrainedMetrics Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management'07 GPT Summary- 要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル（VRM）を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 Comment

VRM

#Article #DocumentSummarization #NLP #Reference-based Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization GPT Summary- 本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。

NaturalLanguageGeneration (30)

#Analysis #Pocket #NLP #LanguageModel #EMNLP #read-later
Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#NeuralNetwork #NLP #Dataset #LanguageModel #LLM-as-a-Judge
Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Survey #Pocket #NLP #LLM-as-a-Judge
Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#Metrics #Pocket #NLP #EMNLP #Finetuning Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

#Pocket #NLP #LanguageModel #Explanation #Supervised-FineTuning (SFT) #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#DocumentSummarization #MachineTranslation #Metrics #Pocket #NLP #LM-based #Coherence Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #ComputerVision #NLP #Dataset Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL'23 GPT Summary- 自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #NLP #Explanation #Faithfulness Issue Date: 2023-07-18 Faithfulness Tests for Natural Language Explanations, ACL'23 GPT Summary- 本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。 #NLP #Novelty Issue Date: 2023-07-14 [TACL] How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, TACL'23 GPT Summary- この研究では、言語モデルが生成するテキストの新規性を評価するための分析スイートRAVENを紹介しています。英語で訓練された4つのニューラル言語モデルに対して、局所的な構造と大規模な構造の新規性を評価しました。結果として、生成されたテキストは局所的な構造においては新規性に欠けており、大規模な構造においては人間と同程度の新規性があり、時には訓練セットからの重複したテキストを生成することもあります。また、GPT-2の詳細な手動分析により、組成的および類推的な一般化メカニズムの使用が示され、新規テキストが形態的および構文的に妥当であるが、意味的な問題が比較的頻繁に発生することも示されました。 #DocumentSummarization #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv'22 GPT Summary- 本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI'22 GPT Summary- 自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization #Metrics #Pocket #NLP #Reference-based Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR'22 GPT Summary- 自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #Analysis #Pocket #NLP #Annotation Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

#MachineTranslation #Analysis #Metrics #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#DocumentSummarization #Metrics #NLP #Reference-free Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP'21, Sun+ Comment

C-ELMO/C-SBERT

#DocumentSummarization #Metrics #NLP #Reference-free Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP'21 GPT Summary- 参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization #Metrics #NLP #Reference-free #QA-based Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP'21 GPT Summary- 要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 Comment

QuestEval

#Metrics #NLP #DialogueGeneration #Reference-free #QA-based #Factuality Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

#Metrics #NLP #Reference-free #QA-based Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP'21 GPT Summary- 本研究では、画像キャプションの評価において、Question Generation（QG）とQuestion Answering（QA）システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 Comment

#Pocket #NLP #Dataset #Composition #EMNLP #Findings #CommonsenseReasoning Issue Date: 2025-07-31 [Paper Note] CommonGen: A Constrained Text Generation Challenge for Generative Commonsense Reasoning, Bill Yuchen Lin+, EMNLP'20 Findings GPT Summary- 生成的常識推論をテストするためのタスクCommonGenを提案し、35,000の概念セットに基づく79,000の常識的記述を含むデータセットを構築。タスクは、与えられた概念を用いて一貫した文を生成することを求め、関係推論と構成的一般化能力が必要。実験では、最先端モデルと人間のパフォーマンスに大きなギャップがあることが示され、生成的常識推論能力がCommonsenseQAなどの下流タスクに転送可能であることも確認。 Comment

PJ page: https://inklab.usc.edu/CommonGen/

#MachineTranslation #Analysis #Metrics #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #Metrics #NLP #Reference-free Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP'20 GPT Summary- 本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 Comment

LS_Score

色々なメトリックが簡潔にまとまっている

#DocumentSummarization #Metrics #NLP #Reference-based #Selected Papers/Blogs Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR'20 GPT Summary- BERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment

#Survey #Pocket #NLP Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。 #Metrics #NLP Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP'17 GPT Summary- NLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment

既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究

#DocumentSummarization #MachineTranslation #Metrics #NLP #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#DocumentSummarization #Metrics #NLP #Reference-based Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR'15 GPT Summary- 私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 Comment

WMS/SMS/S+WMS

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP'19 はこれらからinspiredされ提案された

#DocumentSummarization #ComputerVision #Pocket #NLP #ImageCaptioning #Reference-based Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #DocumentSummarization #MachineTranslation #Metrics #NLP #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #DocumentSummarization #MachineTranslation #Metrics #NLP #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

LLM-as-a-Judge (15)

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Coding #ComputerUse #VisionLanguageModel #One-Line Notes #UI
Issue Date: 2025-11-26 [Paper Note] Computer-Use Agents as Judges for Generative User Interface, Kevin Qinghong Lin+, arXiv'25, 2025.11 GPT Summary- CUAはGUIを自律的に操作する能力が向上しているが、従来のGUIは人間向けに設計されているため、効率的なタスク実行に不必要な行動を強いられる。Coderの進展により、自動GUI設計が変革される中、CUAがCoderを支援する役割を果たせるかを探るためにAUI-Gymを導入。1560のタスクをシミュレートし、信頼性を確保する検証ツールを開発。Coder-CUA協力フレームワークを提案し、CUAがデザインを評価し、タスク解決可能性を測定。CUAダッシュボードを設計し、ナビゲーション履歴を視覚的に要約。これにより、エージェントの能動的な参加を促進する。 Comment

pj page: https://showlab.github.io/AUI/

元ポスト:

Loading…

#Pocket #NLP #Dataset #ReinforcementLearning #Conversation #MultiLingual #RewardModel #One-Line Notes
Issue Date: 2025-10-03 [Paper Note] MENLO: From Preferences to Proficiency -- Evaluating and Modeling Native-like Quality Across 47 Languages, Chenxi Whitehouse+, arXiv'25, 2025.09 GPT Summary- MENLOフレームワークを用いて、47言語の6,423のプロンプト-応答ペアのデータセットを作成し、LLMの応答品質を評価。ゼロショット評価者はペアワイズ評価から利益を得るが、人間には及ばず。強化学習によるファインチューニングで改善を示し、RL訓練評価者がLLMの多言語能力向上に寄与することを確認。ただし、人間の判断との不一致は残る。データセットと評価フレームワークを公開し、多言語LLM評価の研究を支援。 Comment

元ポスト:

Loading…

#ComputerVision #EfficiencyImprovement #Pocket #Dataset #ImageCaptioning #LongSequence #EMNLP #VisionLanguageModel #MultiDimensional
Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Analysis #Pocket #NLP #LanguageModel #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#Survey #Pocket #NLP #LanguageModel Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #NLP #LanguageModel Issue Date: 2024-12-15 BatchEval: Towards Human-like Text Evaluation, Peiwen Yuan+, ACL'24 GPT Summary- BatchEvalという新しい評価パラダイムを提案し、LLMを用いた自動テキスト評価の問題を解決。バッチ単位での反復評価により、プロンプト設計の敏感さやノイズ耐性の低さを軽減。実験により、BatchEvalは最先端手法に対して10.5%の改善を示し、APIコストを64%削減。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に日本語によるサマリが掲載されているので参照のこと。

#NeuralNetwork #NaturalLanguageGeneration #NLP #Dataset #LanguageModel Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL'24 GPT Summary- 自動広告テキスト生成（ATG）のために、標準化されたベンチマークデータセットCAMERAを提案。これにより、マルチモーダル情報の活用と業界全体での評価が促進される。9つのベースラインを用いた実験で、現状と課題を明らかにし、LLMベースの評価者と人間の評価の一致を探求。 Comment

- 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12

に著者によるサマリが記載されているので参照のこと。

#Survey #NaturalLanguageGeneration #Pocket #NLP Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#Pocket #NLP #LanguageModel Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP'23 GPT Summary- 従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル（LLMs）を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment

伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究

#DocumentSummarization #Pocket #NLP Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv'23 GPT Summary- 本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 Comment

BERTScoreと同様、評価したいテキストの対数尤度で評価している
BERTScoreよりも相関が高く、instructionによって性能が向上することが示されている

#Pocket #NLP #LanguageModel #NeurIPS #Selected Papers/Blogs Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, NeurIPS'23 GPT Summary- 大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 Comment

`LLM-as-a-Judge` という用語を最初に提唱したのも本研究となる（p.2参照）

#NLP #LanguageModel Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL'23 GPT Summary- 本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル（LLMs）を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #Article #Survey #NLP #LanguageModel #Blog Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #Pocket #NLP #LanguageModel #Blog Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 Comment

LLM-as-a-judgeについて網羅的に書かれた記事

Analysis (12)

#Pocket #NLP #Dataset #LanguageModel #read-later
Issue Date: 2025-11-24 [Paper Note] Why Do Language Model Agents Whistleblow?, Kushal Agrawal+, arXiv'25, 2025.11 GPT Summary- LLMをエージェントとして展開する際の内部告発行動を調査。内部告発の頻度はモデルによって異なり、タスクの複雑さが増すと傾向が低下。道徳的行動を促すプロンプトで内部告発率が上昇し、明確な手段を提供すると低下。評価認識のテストにより、データセットの堅牢性を確認。 Comment

元ポスト:

Loading…

興味深い

所見（OLMo関係者）:

Loading…

#ComputerVision #Pretraining #Pocket #NLP #Dataset #LanguageModel #MultiModal #Reasoning #read-later #DataMixture #VisionLanguageModel
Issue Date: 2025-10-15 [Paper Note] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training, Junlin Han+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）は、テキストのみで訓練されながらも視覚的先入観を発展させ、少量のマルチモーダルデータで視覚タスクを実行可能にする。視覚的先入観は、言語の事前訓練中に獲得された知識であり、推論中心のデータから発展する。知覚の先入観は広範なコーパスから得られ、視覚エンコーダーに敏感である。視覚を意識したLLMの事前訓練のためのデータ中心のレシピを提案し、500,000 GPU時間をかけた実験に基づく完全なMLLM構築パイプラインを示す。これにより、視覚的先入観を育成する新しい方法を提供し、次世代のマルチモーダルLLMの発展に寄与する。 Comment

元ポスト:

Loading…

MLE Bench (Multi-Level Existence Bench)

#MachineLearning #Pocket #NLP #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs
Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #NLP #LanguageModel #Hallucination #TMLR #read-later Issue Date: 2025-09-18 [Paper Note] Shared Imagination: LLMs Hallucinate Alike, Yilun Zhou+, TMLR'25, 2025.08 GPT Summary- 大規模言語モデル（LLMs）の類似性を理解するために、想像上の質問応答（IQA）という新しい設定を提案。IQAでは、1つのモデルが架空の質問を生成し、別のモデルがそれに答える。驚くべきことに、全てのモデルがフィクションの質問に成功裏に応答できることから、共通の「想像空間」が存在することが示唆される。この現象について調査し、モデルの均質性や幻覚、計算的創造性に関する考察を行う。 Comment

openreview: https://openreview.net/forum?id=NUXpBMtDYs

元ポスト:

Loading…

#NaturalLanguageGeneration #Pocket #NLP #LanguageModel #EMNLP #read-later Issue Date: 2025-08-22 [Paper Note] Are Checklists Really Useful for Automatic Evaluation of Generative Tasks?, Momoka Furuhashi+, EMNLP'25 GPT Summary- 生成タスクの自動評価における曖昧な基準の課題を解決するため、チェックリストの使用方法を検討。6つの生成方法と8つのモデルサイズで評価し、選択的チェックリストがペアワイズ評価でパフォーマンスを改善する傾向があることを発見。ただし、直接スコアリングでは一貫性がない。人間の評価基準との相関が低いチェックリスト項目も存在し、評価基準の明確化が必要であることを示唆。 Comment

元ポスト:

Loading…

pj page: https://momo0817.github.io/checklist-effectiveness-study-github.io/

#Pocket #NLP #LanguageModel #LLM-as-a-Judge #ICML Issue Date: 2025-07-05 [Paper Note] Correlated Errors in Large Language Models, Elliot Kim+, ICML'25 GPT Summary- 350以上のLLMを評価し、リーダーボードと履歴書スクリーニングタスクで実証的な分析を実施。モデル間のエラーには実質的な相関があり、特に大きく正確なモデルは異なるアーキテクチャやプロバイダーでも高い相関を示す。相関の影響はLLMを評価者とするタスクや採用タスクにおいても確認された。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=kzYq2hfyHB&referrer=%5Bthe%20profile%20of%20Kenny%20Peng%5D(%2Fprofile%3Fid%3D~Kenny_Peng1)

履歴書のスクリーニングタスクについてもケーススタディをしている。こちらも詳細に分析されているので興味がある場合は参照のこと。

#Pocket #NLP #Dataset #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#RecommenderSystems #CollaborativeFiltering #Library #RecSys Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#NaturalLanguageGeneration #Pocket #NLP #Annotation Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

#MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

MachineTranslation (10)

#Metrics #Pocket #NLP #Dataset #LanguageModel #Reference-free #EMNLP #LowResource
Issue Date: 2025-09-24 [Paper Note] SSA-COMET: Do LLMs Outperform Learned Metrics in Evaluating MT for Under-Resourced African Languages?, Senyu Li+, EMNLP'25, 2025.06 GPT Summary- アフリカの言語における機械翻訳の品質評価は依然として課題であり、既存の指標は限られた性能を示しています。本研究では、13のアフリカ言語ペアを対象とした大規模な人間注釈付きMT評価データセット「SSA-MTE」を紹介し、63,000以上の文レベルの注釈を含んでいます。これに基づき、改良された評価指標「SSA-COMET」と「SSA-COMET-QE」を開発し、最先端のLLMを用いたプロンプトベースのアプローチをベンチマークしました。実験結果は、SSA-COMETがAfriCOMETを上回り、特に低リソース言語で競争力があることを示しました。すべてのリソースはオープンライセンスで公開されています。 Comment

元ポスト:

Loading…

#DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #NLP #LM-based #Coherence
Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL'23 GPT Summary- 本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #Analysis #NaturalLanguageGeneration #Metrics #Pocket #NLP
Issue Date: 2024-01-25 [Paper Note] Experts, Errors, and Context: A Large-Scale Study of Human Evaluation for Machine Translation, Markus Freitag+, arXiv'21 GPT Summary- 機械翻訳システムの人間による評価は難しく、標準的な手続きが欠如している。そこで、MQMフレームワークに基づく評価方法論を提案し、WMT 2020のトップシステムの出力をプロの翻訳者による注釈でスコアリングした。分析の結果、クラウドワーカーによる評価とは異なり、人間の出力が機械の出力より好まれることが示された。また、事前学習された埋め込みに基づく自動メトリクスが人間の評価を上回ることも明らかになった。コーパスは今後の研究のために公開される。 Comment

embedding basedなNLGの性能指標が、意味の等価性や流暢性を評価できる一方、適用範囲が限定的で柔軟性に欠けることを示した研究

#Metrics #Pocket #NLP #EMNLP #Selected Papers/Blogs Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP'20 GPT Summary- COMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 Comment

ACL2024, EMNLP2024あたりのMT研究のmetricをざーっと見る限り、BLEU/COMETの双方で評価する研究が多そう

#Analysis #NaturalLanguageGeneration #Metrics #Pocket #NLP Issue Date: 2024-01-25 [Paper Note] BLEU might be Guilty but References are not Innocent, Markus Freitag+, arXiv'20 GPT Summary- 機械翻訳の自動評価指標の質が疑問視される中、参照の性質が評価に与える影響を研究。異なる参照収集方法を比較し、翻訳の多様性不足に対抗するために言語学者によるパラフレーズタスクを開発。これにより、WMT 2019の英独翻訳やバックトランスレーションで人間の評価との相関が向上。多参照BLEUの限界を指摘し、より効果的な評価方法を提案。 Comment

surface levelのNLGの性能指標がsemanticを評価できないことを示した研究

#DocumentSummarization #NLP #TrainedMetrics Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv'19 GPT Summary- 私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL'16 Comment

#Pocket #NLP Issue Date: 2023-08-13 Document-Level Machine Translation Evaluation with Gist Consistency and Text Cohesion, Gong+, DiscoMT'15 #DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL'13 GPT Summary- 私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #NLP #Coherence Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP'12 GPT Summary- この論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 Comment

RC-LC

Survey (9)

#Embeddings #Pocket #NLP #Dataset #LanguageModel #RepresentationLearning
Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #NLP #LanguageModel #LLM-as-a-Judge
Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#NLP #LanguageModel #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#Pocket #SpokenLanguageProcessing #FoundationModel #Speech Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

#NaturalLanguageGeneration #Pocket #NLP #LLM-as-a-Judge Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#NaturalLanguageGeneration #Pocket #NLP Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。 #Article #NLP #LanguageModel #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #NLP #Dataset #LanguageModel #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

Supervised-FineTuning (SFT) (9)

#ComputerVision #Pocket #Dataset #LanguageModel #InstructionTuning #MultiModal #DiffusionModel #UMM #SpatialUnderstanding
Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pocket #NLP #Dataset #In-ContextLearning #PostTraining #Selected Papers/Blogs #meta-learning #KeyPoint Notes #Steering
Issue Date: 2025-10-14 [Paper Note] Spectrum Tuning: Post-Training for Distributional Coverage and In-Context Steerability, Taylor Sorensen+, arXiv'25, 2025.10 GPT Summary- ポストトレーニングは言語モデルの性能を向上させるが、操作性や出力空間のカバレッジ、分布の整合性においてコストが伴う。本研究では、これらの要件を評価するためにSpectrum Suiteを導入し、90以上のタスクを網羅。ポストトレーニング技術が基礎的な能力を引き出す一方で、文脈内操作性を損なうことを発見。これを改善するためにSpectrum Tuningを提案し、モデルの操作性や出力空間のカバレッジを向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #LLM-as-a-Judge
Issue Date: 2025-09-22 [Paper Note] JudgeLM: Fine-tuned Large Language Models are Scalable Judges, Lianghui Zhu+, ICLR'25, 2023.10 GPT Summary- 大規模言語モデル（LLMs）のオープンエンド評価のために、ファインチューニングされたJudgeLMを提案。高品質なデータセットを用いて、異なるパラメータサイズでトレーニングし、バイアスを分析。新技術を導入し、パフォーマンスを向上。JudgeLMは既存ベンチマークで最先端の結果を達成し、高い一致率を示す。拡張された能力も持ち、コードは公開されている。 Comment

openreview: https://openreview.net/forum?id=xsELpEPn4A

dataset: https://huggingface.co/datasets/BAAI/JudgeLM-100K

#Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #Reasoning #Biological Issue Date: 2025-09-20 [Paper Note] BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model, Adibvafa Fallahpour+, NeurIPS'25 GPT Summary- BioReasonは、DNA基盤モデルと大規模言語モデル（LLM）を統合した新しいアーキテクチャで、複雑なゲノムデータからの生物学的推論を深く解釈可能にする。多段階推論を通じて、精度が88%から97%に向上し、バリアント効果予測でも平均15%の性能向上を達成。未見の生物学的エンティティに対する推論を行い、解釈可能な意思決定を促進することで、AIにおける生物学の進展を目指す。 Comment

HF: https://huggingface.co/collections/wanglab/bioreason-683cd17172a037a31d208f70
pj page: https://bowang-lab.github.io/BioReason/

元ポスト:

Loading…

#Analysis #Pocket #NLP #Dataset #LanguageModel #ReinforcementLearning #Mathematics #InstructionFollowingCapability Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv'25 GPT Summary- 指示に従う能力はLLMにとって重要であり、MathIFという数学的推論タスク用のベンチマークを提案。推論能力の向上と指示遵守の間には緊張関係があり、特に長い思考の連鎖を持つモデルは指示に従いにくい。介入により部分的な従順さを回復できるが、推論性能が低下することも示された。これらの結果は、指示に敏感な推論モデルの必要性を示唆している。 Comment

元ポスト:

Loading…

#Analysis #NLP #LanguageModel #ReinforcementLearning #SmallModel #COLM #PostTraining #Selected Papers/Blogs #In-Depth Notes Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, COLM'25 GPT Summary- 推論は言語モデルの重要な課題であり、進展が見られるが、評価手法には透明性や堅牢性が欠けている。本研究では、数学的推論ベンチマークが実装の選択に敏感であることを発見し、標準化された評価フレームワークを提案。再評価の結果、強化学習アプローチは改善が少なく、教師ありファインチューニング手法は強い一般化を示した。再現性を高めるために、関連するコードやデータを公開し、今後の研究の基盤を築く。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=90UrTTxp5O#discussion

#NaturalLanguageGeneration #Pocket #NLP #LanguageModel #Explanation #EMNLP #PostTraining Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP'23 GPT Summary- 自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment

伝統的なNLGの性能指標の解釈性が低いことを主張する研究

#MachineLearning #NLP #LanguageModel Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #Article #Pretraining #Pocket #LanguageModel #ReinforcementLearning #Chain-of-Thought #Blog #Reasoning Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models, Yao Fu, 2023.05

RAG(RetrievalAugmentedGeneration) (9)

#InformationRetrieval #Pocket #NLP #Dataset #Factuality #Reasoning #NAACL
Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #InformationRetrieval #Pocket #NLP #Dataset #LanguageModel
Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Survey #InformationRetrieval #Pocket #NLP #LanguageModel
Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#InformationRetrieval #Pocket #NLP Issue Date: 2025-03-25 ExpertGenQA: Open-ended QA generation in Specialized Domains, Haz Sameen Shahgir+, arXiv'25 GPT Summary- ExpertGenQAは、少数ショット学習とトピック・スタイル分類を組み合わせたQAペア生成プロトコルで、米国連邦鉄道局の文書を用いて94.4%のトピックカバレッジを維持しつつ、ベースラインの2倍の効率を達成。評価では、LLMベースのモデルが内容よりも文体に偏ることが判明し、ExpertGenQAは専門家の質問の認知的複雑性をより良く保持。生成したクエリは、リトリーバルモデルの精度を13.02%向上させ、技術分野での有効性を示した。 Comment

元ポスト:

Loading…

#InformationRetrieval #NLP #Dataset #AIAgents #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #Zero/Few/ManyShotPrompting #Factuality #ACL #Findings Issue Date: 2025-09-24 [Paper Note] FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation, Tu Vu+, ACL'23 Findings, 2023.10 GPT Summary- 大規模言語モデル（LLMs）は変化する世界に適応できず、事実性に課題がある。本研究では、動的QAベンチマーク「FreshQA」を導入し、迅速に変化する知識や誤った前提を含む質問に対するLLMの性能を評価。評価の結果、全モデルがこれらの質問に苦労していることが明らかに。これを受けて、検索エンジンからの最新情報を組み込む「FreshPrompt」を提案し、LLMのパフォーマンスを向上させることに成功。FreshPromptは、証拠の数と順序が正確性に影響を与えることを示し、簡潔な回答を促すことで幻覚を減少させる効果も確認。FreshQAは公開され、今後も更新される予定。 #Pocket #NLP #LanguageModel #Factuality Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv'23 GPT Summary- 自律型の事実チェックにおいて、大規模言語モデル（LLMs）を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Comment

#Article #NLP #LanguageModel #Blog Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. Comment

Zephyr-7B-betaのRAGでの性能がデータセットで評価されている

下記Xポストによるとgpt-3.5-turboと同等

Loading…

#Article #Tools #NLP #LanguageModel #Library #Blog Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

QuestionAnswering (6)

#Pocket #NLP #Dataset #AIAgents #Coding #SoftwareEngineering
Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#ComputerVision #Pocket #NLP #Dataset #MultiModal #MultiLingual #VisionLanguageModel #Cultural
Issue Date: 2025-08-18 [Paper Note] CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark, David Romero+, arXiv'24 GPT Summary- CVQAは、文化的に多様な多言語のVisual Question Answeringベンチマークで、30か国からの画像と質問を含み、31の言語と13のスクリプトをカバー。データ収集にはネイティブスピーカーを関与させ、合計10,000の質問を提供。マルチモーダル大規模言語モデルをベンチマークし、文化的能力とバイアスを評価するための新たな基準を示す。 #Pocket #NLP #Dataset #LanguageModel #Factuality #Trustfulness
Issue Date: 2025-08-16 [Paper Note] Measuring short-form factuality in large language models, Jason Wei+, arXiv'24 GPT Summary- SimpleQAは、言語モデルの短い事実に関する質問への応答能力を評価するためのベンチマークであり、挑戦的かつ評価が容易な質問を特徴とする。各回答は正解、不正解、未試行のいずれかとして評価され、理想的なモデルは自信がない質問には挑戦せず、正解を多く得ることを目指す。SimpleQAは、モデルが「自分が知っていることを知っているか」を評価するためのシンプルな手段であり、次世代モデルにとっても重要な評価基準となることが期待されている。 Comment

https://openai.com/index/introducing-simpleqa/

最近よくLLMのベンチで見かけるSimpleQA

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Selected Papers/Blogs Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv'23 GPT Summary- GAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 Comment

Yann LeCun氏の紹介ツイート

Loading…

- Open-source DeepResearch – Freeing our search agents, HuggingFace, 2025.02

で言及されているLLM Agentの評価で最も有名なベンチマークな模様

データセット: https://huggingface.co/datasets/gaia-benchmark/GAIA

#Metrics #NLP #LanguageModel #Reference-free Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL'23 GPT Summary- 既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment

#NLP #Dataset #Factuality #ReadingComprehension Issue Date: 2025-08-16 Natural Questions: A Benchmark for Question Answering Research, Kwiatkowski+, TACL'19 GPT Summary- Natural Questionsコーパスは、Google検索エンジンからの実際の匿名化されたクエリを基にした質問応答データセットで、307,373のトレーニング例と7,830の開発例、7,842のテスト例が含まれています。アノテーターは、質問に対してWikipediaページから長い回答と短い回答を注釈し、質の検証実験や人間の変動性に関する分析を行っています。また、質問応答システムの評価のためのメトリクスを導入し、競争的手法を用いてベースライン結果を確立しています。

InstructionTuning (5)

#ComputerVision #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #MultiModal #DiffusionModel #UMM #SpatialUnderstanding
Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

#Pocket #NLP #LanguageModel #ReinforcementLearning #NeurIPS #RLVR #InstructionFollowingCapability
Issue Date: 2025-09-21 [Paper Note] Generalizing Verifiable Instruction Following, Valentina Pyatkin+, NeurIPS'25, 2025.07 GPT Summary- 人間とAIの相互作用において、言語モデルが指示に従う能力が重要であるが、現在のモデルは出力制約を満たすのに苦労している。多くのモデルは既存のベンチマークに過剰適合しており、未見の制約に対して一般化できない。これを解決するために、新しいベンチマークIFBenchを導入し、指示遵守の一般化を評価する。さらに、制約検証モジュールと強化学習（RLVR）を用いて指示遵守を改善する方法を示し、関連するデータや訓練プロンプトを公開する。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #MultiLingual #VisionLanguageModel
Issue Date: 2025-08-18 [Paper Note] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages, Xiang Yue+, arXiv'24 GPT Summary- Pangeaは、39の言語にわたる6M指示データセットPangeaInsを用いて訓練された多言語マルチモーダルLLMであり、異文化間のカバレッジを確保しています。Pangeaは、47の言語をカバーする評価スイートPangeaBenchで既存のモデルを大幅に上回る性能を示し、英語データの比率やマルチモーダル訓練サンプルの重要性を明らかにしました。データ、コード、訓練済みチェックポイントはオープンソース化され、言語的および文化的公平性を推進します。

#Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs #InstructionFollowingCapability Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 Comment

#Pocket #NLP #LanguageModel Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv'23 GPT Summary- 本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。

Tutorial (4)

#Article #NLP #LanguageModel #Slide #One-Line Notes
Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Dataset #LanguageModel #Blog #OpenWeight #Japanese #PostTraining
Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #Dataset #LanguageModel
Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #NLP #Dataset #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

CollaborativeFiltering (3)

#RecommenderSystems #Analysis #Library #RecSys
Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#RecommenderSystems #NeuralNetwork #Pocket #RecSys
Issue Date: 2025-04-15 [Paper Note] Revisiting the Performance of iALS on Item Recommendation Benchmarks, Steffen Rendle+, RecSys'22 GPT Summary- iALSを再検討し、調整を行うことで、レコメンダーシステムにおいて競争力を持つことを示す。特に、4つのベンチマークで他の手法を上回る結果を得て、iALSのスケーラビリティと高品質な予測が再評価されることを期待。 #RecommenderSystems #NeuralNetwork #Pocket #RecSys #Selected Papers/Blogs
Issue Date: 2022-04-11 [Paper Note] Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches, Maurizio Ferrari Dacrema+, RecSys'19, 2019.07 GPT Summary- 深層学習技術はレコメンダーシステムの研究で広く用いられているが、再現性やベースライン選択に問題がある。18のトップnレコメンデーションアルゴリズムを分析した結果、再現できたのは7つのみで、6つは単純なヒューリスティック手法に劣っていた。残りの1つはベースラインを上回ったが、非ニューラル手法には及ばなかった。本研究は機械学習の実践における問題を指摘し、改善を呼びかけている。 Comment

RecSys'19のベストペーパー

日本語解説： https://qiita.com/smochi/items/98dbd9429c15898c5dc7

重要研究

DeepResearch (3)

#Pocket #NLP #Dataset #UserBased #AIAgents #read-later #Selected Papers/Blogs #Live
Issue Date: 2025-10-18 [Paper Note] LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild, Jiayu Wang+, arXiv'25, 2025.10 GPT Summary- 深層研究は、ライブウェブソースから情報を検索・統合し、引用に基づいたレポートを生成する技術であり、評価にはユーザー中心、動的、明確、多面的な原則が必要。既存のベンチマークはこれらを満たしていないため、LiveResearchBenchを導入し、100の専門家がキュレーションしたタスクを提供。さらに、レポート評価のためにDeepEvalを提案し、品質を包括的に評価するプロトコルを統合。これにより、17の深層研究システムの包括的な評価を行い、強みや改善点を明らかにする。 Comment

元ポスト:

Loading…

データセットとソースコードがリリース:

Loading…

dataset: https://huggingface.co/datasets/Salesforce/LiveResearchBench

pj page: https://livedeepresearch.github.io/

#Pocket #NLP #Dataset #LanguageModel #read-later #Selected Papers/Blogs #Science #Live
Issue Date: 2025-08-31 [Paper Note] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis, Liana Patel+, arXiv'25 GPT Summary- 生成的研究合成の評価のために、DeepScholar-benchというライブベンチマークと自動評価フレームワークを提案。これは、ArXiv論文からクエリを引き出し、関連研究セクションを生成する実際のタスクに焦点を当て、知識合成、検索品質、検証可能性を評価。DeepScholar-baseは強力なベースラインを確立し、他の手法と比較して競争力のあるパフォーマンスを示した。DeepScholar-benchは依然として難易度が高く、生成的研究合成のAIシステムの進歩に重要であることを示す。 Comment

leaderboard: https://guestrin-lab.github.io/deepscholar-leaderboard/leaderboard/deepscholar_bench_leaderboard.html

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #AIAgents #SyntheticData #MultiModal #VisionLanguageModel
Issue Date: 2025-08-14 [Paper Note] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent, Xinyu Geng+, arXiv'25 GPT Summary- WebWatcherは、視覚と言語の推論能力を強化したマルチモーダルエージェントであり、情報探索の困難さに対処する。合成マルチモーダル軌跡を用いた効率的なトレーニングと強化学習により、深い推論能力を向上させる。新たに提案されたBrowseComp-VLベンチマークでの実験により、WebWatcherは複雑なVQAタスクで他のエージェントを大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

公式:

Loading…

Alignment (3)

#Pocket #NLP #LanguageModel #NeurIPS #PostTraining #One-Line Notes
Issue Date: 2025-10-19 [Paper Note] Clean First, Align Later: Benchmarking Preference Data Cleaning for Reliable LLM Alignment, Samuel Yeh+, NeurIPS'25, 2025.09 GPT Summary- 人間のフィードバックはLLMのアライメントに重要だが、ノイズや一貫性の欠如が問題を引き起こす。これを解決するために、13のデータクリーニング手法を評価する初のベンチマーク「PrefCleanBench」を導入。さまざまな条件下でのアライメント性能を比較し、データクリーニングの成功要因を明らかにする。これにより、LLMアライメントの改善に向けた再現可能なアプローチを提供し、データ前処理の重要性を強調する。すべての手法の実装は公開されている。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #One-Line Notes
Issue Date: 2025-10-15 [Paper Note] EVALUESTEER: Measuring Reward Model Steerability Towards Values and Preferences, Kshitish Ghate+, arXiv'25, 2025.10 GPT Summary- EVALUESTEERは、ユーザーの多様な価値観やスタイルに対応するためのベンチマークであり、LLMsと報酬モデル（RMs）の操縦性を測定します。165,888の好みペアを生成し、ユーザーのプロファイルに基づく応答の選択精度を評価。完全なプロファイルでは75%未満の精度に対し、関連する好みのみで99%以上の精度を達成。EVALUESTEERは、RMsの限界を明らかにし、多様な価値観に対応するためのテストベッドを提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #UserBased #Coding #read-later #Selected Papers/Blogs
Issue Date: 2025-10-13 [Paper Note] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution, Terry Yue Zhuo+, arXiv'25, 2025.10 GPT Summary- BigCodeArenaは、LLMが生成したコードの質をリアルタイムで評価するためのクラウドソーシングプラットフォームで、Chatbot Arenaを基盤に構築されています。14,000以上のコード中心の会話セッションから4,700のマルチターンサンプルを収集し、人間の好みを明らかにしました。これに基づき、LLMのコード理解と生成能力を評価するためのBigCodeRewardとAutoCodeArenaという2つのベンチマークを策定しました。評価の結果、実行結果が利用可能な場合、ほとんどのLLMが優れたパフォーマンスを示し、特にGPT-5やClaudeシリーズがコード生成性能でリードしていることが確認されました。 Comment

元ポスト:

Loading…

良さそう

ImageCaptioning (2)

#ComputerVision #EfficiencyImprovement #Pocket #Dataset #LongSequence #LLM-as-a-Judge #EMNLP #VisionLanguageModel #MultiDimensional
Issue Date: 2025-10-01 [Paper Note] VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions, Kazuki Matsuda+, EMNLP'25, 2025.09 GPT Summary- 本研究では、長い画像キャプションの自動評価に特化した新しい指標VELAを提案し、マルチモーダル大規模言語モデル（MLLMs）を活用した評価フレームワークを構築。さらに、評価指標を検証するためのLongCap-Arenaベンチマークを導入し、7,805枚の画像と32,246件の人間の判断を用いて、VELAが既存の指標を上回る性能を示した。 Comment

元ポスト:

Loading…

#DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #NLP #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR'15 GPT Summary- 画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。

Library (2)

#RecommenderSystems #Analysis #CollaborativeFiltering #RecSys
Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#Article #Tools #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog
Issue Date: 2023-10-29 Evaluating RAG Pipelines Comment

FoundationModel (2)

#ComputerVision #Pocket #Dataset #Transformer #2D (Image) #4D (Video) #SpatialUnderstanding
Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#Survey #Pocket #SpokenLanguageProcessing #Speech
Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

AutomaticSpeechRecognition(ASR) (2)

#Metrics #Pocket #NAACL #SimulST(SimultaneousSpeechTranslation)
Issue Date: 2025-04-30 Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22 GPT Summary- SimulSTシステムの遅延評価において、ALが長い予測に対して過小評価される問題を指摘。過剰生成の傾向を持つシステムに対し、過小生成と過剰生成を公平に評価する新指標LAALを提案。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20

#Metrics #Pocket #NLP #AACL #SimulST(SimultaneousSpeechTranslation)
Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL'20 GPT Summary- 同時テキスト翻訳手法をエンドツーエンドの同時音声翻訳に適応させる研究を行い、事前決定モジュールを導入。レイテンシと品質のトレードオフを分析し、新しいレイテンシメトリックを設計。 Comment

同時翻訳研究で主要なmetricの一つ
関連:
- Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation, Sara Papi+, NAACL'22

TimeSeriesDataProcessing (2)

#Article #MachineLearning #Dataset
Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #Blog
Issue Date: 2025-05-09 時系列データのvalidationに関する質問に回答します, カレーちゃん, 2022.07 Comment

元スレッド:

Loading…

めちゃめちゃ参考になる・・・

CodeGeneration (2)

#Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs
Issue Date: 2025-08-15 [Paper Note] Program Synthesis with Large Language Models, Jacob Austin+, arXiv'21 GPT Summary- 本論文では、汎用プログラミング言語におけるプログラム合成の限界を大規模言語モデルを用いて評価します。MBPPとMathQA-Pythonの2つのベンチマークで、モデルサイズに対する合成性能のスケールを調査。最も大きなモデルは、少数ショット学習でMBPPの59.6％の問題を解決可能で、ファインチューニングにより約10％の性能向上が見られました。MathQA-Pythonでは、ファインチューニングされたモデルが83.8％の精度を達成。人間のフィードバックを取り入れることでエラー率が半減し、エラー分析を通じてモデルの弱点を明らかにしました。最終的に、プログラム実行結果の予測能力を探るも、最良のモデルでも特定の入力に対する出力予測が困難であることが示されました。 Comment

#Pocket #NLP #Dataset #LanguageModel #Selected Papers/Blogs
Issue Date: 2025-08-15 [Paper Note] Evaluating Large Language Models Trained on Code, Mark Chen+, arXiv'21 GPT Summary- CodexはGitHubのコードでファインチューニングされたGPT言語モデルで、Pythonコード生成能力を評価。新しい評価セットHumanEvalでは、Codexが28.8%の問題を解決し、GPT-3は0%、GPT-Jは11.4%だった。繰り返しサンプリングが難しいプロンプトに対しても効果的な戦略を用い、70.2%の問題を解決。モデルの限界として、長い操作の説明や変数へのバインドに苦労する点が明らかに。最後に、コード生成技術の影響について安全性や経済に関する議論を行う。 Comment

TextToImageGeneration (2)

#ComputerVision #Pocket #NLP #Dataset #NeurIPS #read-later #Selected Papers/Blogs
Issue Date: 2025-09-11 [Paper Note] GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment, Dhruba Ghosh+, NeurIPS'23 GPT Summary- テキストから画像への生成モデルの自動評価方法「GenEval」を提案。物体の共起、位置、数、色などの特性を評価し、現在の物体検出モデルを活用して生成タスクを分析。最近のモデルは改善を示すが、複雑な能力には課題が残る。GenEvalは失敗モードの発見にも寄与し、次世代モデルの開発に役立つ。コードは公開中。 Comment

openreview: https://openreview.net/forum?id=Wbr51vK331¬eId=NpvYJlJFqK

#Article #ComputerVision #NLP #Dataset #LanguageModel #UMM
Issue Date: 2025-09-19 MagicBench, ByteDance-Seed, 2025.09 Comment

元ポスト:

Loading…

英文と中文両方存在する

SpatialUnderstanding (2)

#ComputerVision #Pocket #Dataset #Transformer #FoundationModel #2D (Image) #4D (Video)
Issue Date: 2025-11-17 [Paper Note] Depth Anything 3: Recovering the Visual Space from Any Views, Haotong Lin+, arXiv'25, 2025.11 GPT Summary- Depth Anything 3（DA3）は、カメラポーズの有無にかかわらず、視覚入力から空間的一貫性のあるジオメトリを予測するモデルです。DA3は、単一のプレーンなトランスフォーマーをバックボーンとして使用し、複雑なマルチタスク学習を排除することで、Depth Anything 2（DA2）と同等の性能を達成しました。新たに設立した視覚ジオメトリベンチマークでは、DA3がすべてのタスクで最先端の結果を示し、カメラポーズ精度で従来の最先端を44.3%、ジオメトリ精度で25.1%上回りました。すべてのモデルは公共の学術データセットでトレーニングされています。 Comment

元ポスト:

Loading…

pj page: https://depth-anything-3.github.io/

#ComputerVision #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT) #InstructionTuning #MultiModal #DiffusionModel #UMM
Issue Date: 2025-10-20 [Paper Note] Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation, Kang Liao+, arXiv'25, 2025.10 GPT Summary- カメラ中心の理解と生成を統合したマルチモーダルモデル「Puffin」を提案。Puffinは、言語回帰と拡散生成を組み合わせ、カメラを言語として扱う新しいアプローチを採用。400万の視覚-言語-カメラのデータセット「Puffin-4M」で訓練され、空間的な視覚的手がかりを考慮した推論を実現。実験結果では、専門モデルを上回る性能を示し、指示チューニングにより多様なタスクに対応可能。研究成果はコードやデータセットと共に公開予定。 Comment

元ポスト:

Loading…

pj page: https://kangliao929.github.io/projects/puffin/

OCR (2)

#Pocket #Dataset #CVPR #DocParser
Issue Date: 2025-10-21 [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 #Article #ComputerVision #NLP #VisionLanguageModel #One-Line Notes
Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

ChatGPT (1)

#Pocket #NLP
Issue Date: 2023-07-22 How is ChatGPT's behavior changing over time?, Lingjiao Chen+, N_A, arXiv'23 GPT Summary- GPT-3.5とGPT-4は、大規模言語モデル（LLM）のサービスであり、その性能と振る舞いは時間とともに変動することがわかった。例えば、GPT-4は素数の特定に優れていたが、後のバージョンでは低い正答率となった。また、GPT-3.5はGPT-4よりも優れた性能を示した。さらに、GPT-4とGPT-3.5の両方が時間とともに敏感な質問への回答やコード生成でのミスが増えた。この結果から、LLMの品質を継続的に監視する必要性が示唆される。 Comment

DialogueGeneration (1)

#NaturalLanguageGeneration #Metrics #NLP #Reference-free #QA-based #Factuality
Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP'21 GPT Summary- 本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment

AutoML (1)

#MachineLearning #Pocket #NLP #Dataset #LanguageModel #AIAgents
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

Annotation (1)

#Analysis #NaturalLanguageGeneration #Pocket #NLP
Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP'21 GPT Summary- 最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 Comment

Finetuning (1)

#NaturalLanguageGeneration #Metrics #Pocket #NLP #EMNLP
Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings'23 GPT Summary- 埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 Comment

OpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ

CTRPrediction (1)

#Article #RecommenderSystems #NeuralNetwork #NewsRecommendation #MLOps #Blog #A/B Testing
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

NewsRecommendation (1)

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #MLOps #Blog #A/B Testing
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

MLOps (1)

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #Blog #A/B Testing
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

A/B Testing (1)

#Article #RecommenderSystems #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Blog
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

RelevanceJudgment (1)

#InformationRetrieval #Pocket #LanguageModel
Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル（LLM）を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment

元ポスト:

Loading…

UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。

SyntheticDataGeneration (1)

#Pocket #NLP #Dataset #AIAgents #SyntheticData
Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv'24 GPT Summary- MAG-Vというマルチエージェントフレームワークを提案し、顧客クエリを模倣したデータセットを生成してエージェントのパフォーマンスを向上させる。軌跡の検証手法は従来のMLモデルを上回り、GPT-4と同等の性能を示す。多様なタスクエージェントを統一するアプローチを提供。 Comment

元ポスト:

Loading…

GenerativeAI (1)

#Metrics #NLP #LanguageModel #Selected Papers/Blogs #KeyPoint Notes #Reference Collection
Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv'25, 2025.03 GPT Summary- 新しい指標「50%-タスク完了時間ホライズン」を提案し、AIモデルの能力を人間の観点から定量化。Claude 3.7 Sonnetは約50分の時間ホライズンを持ち、AIの能力は2019年以降約7か月ごとに倍増。信頼性や論理的推論の向上が要因とされ、5年以内にAIが多くのソフトウェアタスクを自動化できる可能性を示唆。 Comment

元ポスト:

Loading…

確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。

こちらで最新モデルも随時更新される:
https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

QuestionGeneration (1)

#Pocket #NLP #Dataset #LanguageModel #AIAgents
Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv'25 GPT Summary- AIエージェントはあいまいな指示に基づくタスク自動化に利用されるが、誤った仮定や質問不足がリスクを生む。本研究では、LLMエージェントのあいまいな指示処理能力を評価し、インタラクティビティを活用したパフォーマンス向上、あいまいさの検出、目標を絞った質問の実施を検討。結果、モデルは明確な指示と不十分な指示を区別するのが難しいが、インタラクションを通じて重要な情報を取得し、パフォーマンスが向上することが示された。これにより、現在のモデルの限界と改善のための評価手法の重要性が明らかになった。 Comment

ScientificDiscovery (1)

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Reproducibility
Issue Date: 2025-06-30 [Paper Note] The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）の進展を活用し、AIエージェントの研究再現能力を評価するために、LLMスピードランベンチマークを導入。19のタスクで訓練スクリプトとヒントを提供し、迅速な実行を促進。既知の革新の再実装が難しいことを発見し、科学的再現を自動化するための指標を提供。 Comment

元ポスト:

Loading…

RepresentationLearning (1)

#Survey #Embeddings #Pocket #NLP #Dataset #LanguageModel
Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

IRT (1)

#Pocket #NLP #Dataset #LanguageModel #COLM
Issue Date: 2025-09-17 [Paper Note] Fluid Language Model Benchmarking, Valentin Hofmann+, COLM'25 GPT Summary- Fluid Benchmarkingという新しい言語モデル（LM）評価アプローチを提案。これは、LMの能力に応じて評価項目を動的に選択し、評価の質を向上させる。実験では、Fluid Benchmarkingが効率、妥当性、分散、飽和の4つの次元で優れたパフォーマンスを示し、静的評価を超えることでLMベンチマークを改善できることを示した。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Editing (1)

#Pocket #NLP #Dataset #LanguageModel #RewardModel #One-Line Notes
Issue Date: 2025-10-02 [Paper Note] EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing, Keming Wu+, arXiv'25, 2025.09 GPT Summary- 自然言語指示による画像編集の進展において、オープンソースモデルは遅れをとっている。これを解決するために、20万以上の選好ペアを含む新しいデータセット\mnameを構築し、指示に基づく画像編集タスクで人間の選好と高い整合性を示した。実験では、\mnameが既存のベンチマークで最先端の人間相関を達成し、ノイズの多いデータセットから高品質なサブセットを選択することで、画像編集モデルの性能を大幅に向上させることができた。今後、\mnameはコミュニティに公開され、高品質な画像編集トレーニングデータセットの構築を支援する予定である。 Comment

pj page: https://tiger-ai-lab.github.io/EditReward/
HF: https://huggingface.co/collections/TIGER-Lab/editreward-68ddf026ef9eb1510458abc6

VideoGeneration/Understandings (1)

#ComputerVision #EfficiencyImprovement #Pocket #Dataset #Attention #LongSequence #AttentionSinks #read-later #Selected Papers/Blogs #VisionLanguageModel #KeyPoint Notes
Issue Date: 2025-10-15 [Paper Note] StreamingVLM: Real-Time Understanding for Infinite Video Streams, Ruyi Xu+, arXiv'25, 2025.10 GPT Summary- StreamingVLMは、無限のビデオストリームをリアルタイムで理解するためのモデルで、トレーニングと推論を統一したフレームワークを採用。アテンションシンクの状態を再利用し、短いビジョントークンと長いテキストトークンのウィンドウを保持することで、計算コストを抑えつつ高い性能を実現。新しいベンチマークInf-Streams-Evalで66.18%の勝率を達成し、一般的なVQA能力を向上させることに成功。 Comment

元ポスト:

Loading…

これは興味深い

↑これは元ポストを読んで（と論文斜め読み）の感想のようなものなので、詳細は後で元論文を読む。

関連:

Loading…

ObjectDetection (1)

#ComputerVision #Pocket #Dataset #Zero/Few/ManyShotPrompting #MultiModal #In-ContextLearning #NeurIPS #read-later #Selected Papers/Blogs #OOD #Generalization #VisionLanguageModel #One-Line Notes
Issue Date: 2025-10-27 [Paper Note] Roboflow100-VL: A Multi-Domain Object Detection Benchmark for Vision-Language Models, Peter Robicheaux+, NeurIPS'25, 2025.05 GPT Summary- 視覚と言語のモデル（VLMs）は、一般的な物体に対して優れたゼロショット検出性能を示すが、分布外のクラスやタスクに対しては一般化が難しい。そこで、少数の視覚例と豊富なテキスト記述を用いてVLMを新しい概念に整合させる必要があると提案。Roboflow100-VLという多様な概念を持つ100のマルチモーダル物体検出データセットを導入し、最先端モデルの評価を行った。特に、難しい医療画像データセットでのゼロショット精度が低く、少数ショットの概念整合が求められることを示した。 Comment

元ポスト:

Loading…

pj page: https://rf100-vl.org

うーんあとでしっかり読みたい、、、

Safeguard (1)

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Safety #ComputerUse #VisionLanguageModel #Live
Issue Date: 2025-11-03 [Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment

dataset: https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page: https://qiushisun.github.io/OS-Sentinel-Home/

元ポスト:

Loading…

ConceptErasure (1)

#Pocket #NLP #Dataset #LanguageModel #EMNLP #read-later #Selected Papers/Blogs
Issue Date: 2025-11-04 [Paper Note] Intrinsic Test of Unlearning Using Parametric Knowledge Traces, Yihuai Hong+, EMNLP'25, 2024.06 GPT Summary- 大規模言語モデルにおける「忘却」タスクの重要性が高まっているが、現在の評価手法は行動テストに依存しており、モデル内の残存知識を監視していない。本研究では、忘却評価においてパラメトリックな知識の変化を考慮する必要性を主張し、語彙投影を用いた評価方法論を提案。これにより、ConceptVectorsというベンチマークデータセットを作成し、既存の忘却手法が概念ベクトルに与える影響を評価した。結果、知識を直接消去することでモデルの感受性が低下することが示され、今後の研究においてパラメータに基づく評価の必要性が強調された。 Comment

元ポスト:

Loading…

CameraPoseEstimation (1)

#ComputerVision #Dataset #CVPR
Issue Date: 2025-11-20 [Paper Note] Scene Coordinate Regression Forests for Camera Relocalization in RGB-D Images, Shotton+, CVPR'13 GPT Summary- RGB-Dカメラのポーズ推定を、単一画像から3Dシーンに対して行う手法を提案。回帰フォレストを用いて、RGBおよび深度ピクセルの比較特徴から3Dポイントとの対応関係を推定し、興味点検出器は不要。カメラポーズは、初期仮定からRANSACを用いて洗練され、高精度な再位置決めを実現。提案手法は、最先端のベースラインを大幅に上回る性能を示した。

MachineLearning (236)

LanguageModel (85)

#Pocket #NLP #AIAgents #Reasoning #ScientificDiscovery #Diversity #One-Line Notes
Issue Date: 2025-11-21 [Paper Note] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity, Alexis Audran-Reiss+, arXiv'25, 2025.11 GPT Summary- AI研究エージェントのパフォーマンスにおけるアイデアの多様性の役割を検討。MLE-benchでの分析により、パフォーマンスの高いエージェントはアイデアの多様性が増加する傾向があることが明らかに。制御実験でアイデアの多様性が高いほどパフォーマンスが向上することを示し、追加の評価指標でも発見が有効であることを確認。 Comment

元ポスト:

Loading…

ideation時点における多様性を向上させる話らしい

#Analysis #Pocket #NLP #In-ContextLearning #ActivationSteering/ITI
Issue Date: 2025-11-12 [Paper Note] Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering, Eric Bigelow+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）の制御手法をベイズ的視点から統一的に説明。文脈に基づく介入と活性化に基づく介入がモデルの信念を変え、挙動に影響を与えることを示す。新たなベイズモデルにより、介入の効果を高精度で予測し、行動の急激な変化を引き起こす特異なフェーズを明らかにする。プロンプトと活性化の制御手法の統一的な理解を提供。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #ReinforcementLearning #Reasoning #One-Line Notes
Issue Date: 2025-11-12 [Paper Note] On a few pitfalls in KL divergence gradient estimation for RL, Yunhao Tang+, arXiv'25, 2025.06 GPT Summary- LLMのRLトレーニングにおけるKLダイバージェンスの勾配推定に関する落とし穴を指摘。特に、KL推定を通じて微分する実装が不正確であることや、逐次的な性質を無視した実装が部分的な勾配しか生成しないことを示す。表形式の実験とLLM実験を通じて、正しいKL勾配の実装方法を提案。 Comment

元ポスト:

Loading…

RLにおけるKL Divergenceによるポリシー正則化の正しい実装方法

#Analysis #Pocket #NLP #ReinforcementLearning #read-later #On-Policy Issue Date: 2025-11-12 [Paper Note] On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning, Yifan Zhang+, arXiv'25, 2025.05 GPT Summary- ポリシー勾配アルゴリズムを用いてLLMの推論能力を向上させるため、正則化ポリシー勾配（RPG）を提案。RPGは、正規化されたKLと非正規化されたKLを統一し、REINFORCEスタイルの損失の微分可能性を特定。オフポリシー設定での重要度重み付けの不一致を修正し、RPGスタイルクリップを導入することで安定したトレーニングを実現。数学的推論ベンチマークで最大6%の精度向上を達成。 Comment

元ポスト:

Loading…

pj page: https://complex-reasoning.github.io/RPG/

#Pocket #NLP #In-ContextLearning #meta-learning Issue Date: 2025-11-03 [Paper Note] Iterative Amortized Inference: Unifying In-Context Learning and Learned Optimizers, Sarthak Mittal+, arXiv'25, 2025.10 GPT Summary- アモータイズド学習に基づく統一的フレームワークを提案し、タスク適応の方法をパラメトリック、暗黙的、明示的に分類。推論時のタスクデータ処理能力の制限を指摘し、反復アモータイズド推論を導入。これにより、最適化ベースのメタ学習とLLMのアプローチを結びつけ、汎用タスク適応のためのスケーラブルな基盤を提供。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Transformer #Architecture #Normalization Issue Date: 2025-10-28 [Paper Note] SeeDNorm: Self-Rescaled Dynamic Normalization, Wenrui Cai+, arXiv'25, 2025.10 GPT Summary- SeeDNormは、入力に基づいて動的にスケーリング係数を調整する新しい正規化層であり、RMSNormの限界を克服します。これにより、入力のノルム情報を保持し、データ依存の自己再スケーリングを実現。大規模言語モデルやコンピュータビジョンタスクでの有効性を検証し、従来の正規化手法と比較して優れた性能を示しました。 #Analysis #Pocket #NLP #NeurIPS #Test-Time Scaling Issue Date: 2025-10-27 [Paper Note] A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning, Zhi Zhou+, NeurIPS'25, 2025.10 GPT Summary- テスト時スケーリングにおけるサンプリング手法の理論的枠組みを提供し、自己一貫性と困惑度の制限を明らかに。新たに提案したRPC手法は、困惑度一貫性と推論剪定を活用し、推論誤差の収束を改善。7つのベンチマークでの実証結果により、RPCは自己一貫性に匹敵する性能を達成し、サンプリングコストを50%削減することが示された。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://zhouz.dev/RPC/

#Analysis #Pocket #NLP #Reasoning Issue Date: 2025-10-25 [Paper Note] Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models, Samuel Lippl+, arXiv'25, 2025.10 GPT Summary- 本研究では、大規模言語モデル（LLMs）が多段階の推論を解決するためのアルゴリズム的原則を追跡し、操作するフレームワークを提案。推論のトレースを内部の活性化パターンにリンクさせ、原則を残差ストリームに注入することで、推論ステップやタスクのパフォーマンスへの影響を評価。旅行セールスマン問題や3SATなどのベンチマークを用いて、原則ベクトルの導出と幾何学的論理の明示化を行い、ファインチューニングによる一般化の強調を示した。これにより、LLMsの推論がアルゴリズム的原則の構成的幾何学に支えられている可能性が示唆され、原則の転送とドメイン間の一般化が強化されることが明らかになった。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #NLP #Transformer #Optimizer Issue Date: 2025-10-16 [Paper Note] Cautious Weight Decay, Lizhang Chen+, arXiv'25, 2025.10 GPT Summary- Cautious Weight Decay（CWD）は、オプティマイザに依存しない修正で、更新と符号が一致するパラメータにのみウェイト減衰を適用します。これにより、元の損失を保持しつつ、局所的なパレート最適点を探索可能にします。CWDは、既存のオプティマイザに簡単に適用でき、新たなハイパーパラメータを必要とせず、言語モデルの事前学習やImageNet分類で損失と精度を向上させます。 Comment

元ポスト:

Loading…

#Pocket #NLP #Abstractive #Reasoning #Generalization #memory #One-Line Notes #Test-time Learning Issue Date: 2025-10-13 [Paper Note] ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory, Matthew Ho+, arXiv'25, 2025.09 GPT Summary- LLMは推論時に外部メモリを活用し、概念レベルのメモリを導入することで、再利用可能でスケーラブルな知識の保存を実現。これにより、関連する概念を選択的に取得し、テスト時の継続的学習を可能にする。評価はARC-AGIベンチマークで行い、メモリなしのベースラインに対して7.5%の性能向上を達成。動的なメモリ更新が自己改善を促進することを示唆。 Comment

元ポスト:

Loading…

ARC-AGIでしか評価されていないように見える。

#Analysis #Pocket #NLP #Optimizer Issue Date: 2025-10-08 [Paper Note] Muon Outperforms Adam in Tail-End Associative Memory Learning, Shuche Wang+, arXiv'25, 2025.09 GPT Summary- Muonオプティマイザーは、LLMsのトレーニングにおいてAdamよりも高速であり、そのメカニズムを連想記憶の観点から解明。VOアテンションウェイトとFFNがMuonの優位性の要因であり、重い尾を持つデータにおいて尾クラスを効果的に最適化する。Muonは一貫したバランスの取れた学習を実現し、Adamは不均衡を引き起こす可能性がある。これにより、Muonの更新ルールが重い尾を持つ分布における効果的な学習を可能にすることが示された。 Comment

元ポスト:

Loading…

#Pocket #NLP #Finetuning #EvolutionaryAlgorithm Issue Date: 2025-10-07 [Paper Note] Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning, Xin Qiu+, arXiv'25, 2025.09 GPT Summary- 進化戦略（ES）を用いて、事前学習済みの大規模言語モデル（LLMs）の全パラメータをファインチューニングする初の成功事例を報告。ESは数十億のパラメータに対して効率的に探索でき、サンプル効率やロバスト性、パフォーマンスの安定性において既存の強化学習（RL）手法を上回ることを示す。これにより、LLMファインチューニングの新たな方向性が開かれる。 Comment

元ポスト:

Loading…

続報:

Loading…

#ComputerVision #Pocket #NLP #MultiModal #NeurIPS #PostTraining #OOD #Generalization Issue Date: 2025-10-05 [Paper Note] Visual Instruction Bottleneck Tuning, Changdae Oh+, NeurIPS'25, 2025.05 GPT Summary- MLLMは未知のクエリに対して性能が低下するが、既存の改善策は多くのデータや計算コストを要する。本研究では、情報ボトルネック原理に基づき、MLLMの堅牢性を向上させるためのVittleを提案。45のデータセットでの実証実験により、VittleがMLLMの堅牢性を一貫して改善することを示した。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #Reasoning #NeurIPS #read-later Issue Date: 2025-09-19 [Paper Note] The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, Parshin Shojaee+, arXiv'25 GPT Summary- LRMsは思考プロセスを生成するが、その能力や限界は未解明。評価は主に最終回答の正確性に焦点を当てており、推論の痕跡を提供しない。本研究では制御可能なパズル環境を用いて、LRMsの推論過程を分析。実験により、LRMsは特定の複雑さを超えると正確性が崩壊し、スケーリングの限界が明らかに。低複雑性では標準モデルが優位、中複雑性ではLRMsが優位、高複雑性では両者が崩壊することを示した。推論の痕跡を調査し、LRMsの強みと限界を明らかに。 Comment

元ポスト:

Loading…

出た当初相当話題になったIllusion of thinkingがNeurIPSにacceptされた模様。Appendix A.1に当時のcriticismに対するレスポンスが記述されている。

#Analysis #EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-19 [Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

#Analysis #Pocket #NLP #Evaluation #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #NLP #ReinforcementLearning #DiffusionModel #On-Policy #Inpainting Issue Date: 2025-09-19 [Paper Note] Inpainting-Guided Policy Optimization for Diffusion Large Language Models, Siyan Zhao+, arXiv'25 GPT Summary- dLLMsはインペインティング能力を活用し、強化学習の探索課題を解決するIGPOフレームワークを提案。部分的な真実の推論トレースを挿入し、探索を有望な軌道に導く。これによりサンプル効率が向上し、GSM8K、Math500、AMCの数学ベンチマークで新たな最先端結果を達成。 Comment

元ポスト:

Loading…

部分的にtraceの正解を与えると、正解の方向にバイアスがかかるので多様性が犠牲になる気もするが、その辺はどうなんだろうか。

#Analysis #Pocket #NLP #Transformer #TMLR #Scheduler Issue Date: 2025-09-03 [Paper Note] Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler, Aleksandr Dremov+, TMLR'25 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #Inference Issue Date: 2025-08-24 [Paper Note] Pushing the Envelope of LLM Inference on AI-PC, Evangelos Georganas+, arXiv'25 GPT Summary- 超低ビットLLMモデルの登場により、リソース制約のある環境でのLLM推論が可能に。1ビットおよび2ビットのマイクロカーネルを設計し、PyTorch-TPPに統合することで、推論効率を最大2.2倍向上。これにより、AI PCやエッジデバイスでの超低ビットLLMモデルの効率的な展開が期待される。 Comment

元ポスト:

Loading…

#Pocket #RewardModel #CompoundAISystemsOptimization Issue Date: 2025-08-15 [Paper Note] Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards, Shirley Wu+, arXiv'25 GPT Summary- 複合AIシステムの最適化のために、統一フレームワークOptimasを提案。各コンポーネントにローカル報酬関数を維持し、グローバルパフォーマンスと整合性を保ちながら同時に最大化。これにより、異種構成の独立した更新が可能となり、平均11.92%の性能向上を実現。 Comment

元ポスト:

Loading…

framework: https://github.com/snap-stanford/optimas

複数のコンポーネントのパイプラインによって構成されるシステムがあったときに、パイプライン全体のパフォーマンスを改善したい。このとき、パイプライン全体のパフォーマンスをユーザが定義したGlobal Reward Functionを最大化するように最適化したい。しかし、多くの場合このような異種のコンポーネントが複雑に連携したパイプラインでは、global rewardsは微分不可能なので、end-to-endで最適化することが難しい。また、個々の異種のコンポーネントのコンフィグ（e.g., textual, numerical, continuous vs. discrete）を同時に最適化することがそもそも難しい。全体のAIシステムを動作させて、global rewardを最適化するのは非常にコストがかかる。先行研究では、特定のコンポーネントを別々に最適化してきた（たとえば、promptをフィードバックに基づいて改善する Large Language Models as Optimizers, Chengrun Yang+, N/A, ICLR'24 , モデル選択をiterative searchで改善するなど）。が、個別のコンポーネントを最適化しても別のコンポーネントの最適化が不十分であれば全体の性能は向上せず、全てのコンポーネントを個別に最適化しても、相互作用が最適ではない場合はglobal rewardが最大化されない可能性がある。

このため、個々のコンポーネントにlocal reward function (LRFs)を定義する。local reward functionは、これらが改善することでglobal reward functionも改善することを保証するような形（local-global alignment properfy）で定義され、これらのlocal reward functionを異なるコンポーネントごとに異なる形で最適化しても、global reward functionが改善されるように学習する。個々のコンポーネントごとにLRFsを最適化することは、全体のシステムの実行回数を削減しながら高いglobal rewardを実現可能となる。加えて、他のコンポーネントのコンフィグが改善されたら、それらに適応してLRFsも改善されていく必要があるので lightweight adaptationと呼ばれる、システムからサンプリングされた最小のデータからLRFsをアップデートする手法も提案する、みたいな話な模様。

https://github.com/user-attachments/assets/2d6a1422-c087-455a-813c-97d47da5976d" />

LRFsを定義するときは、共通のLLMをバックボーンとし、個々のコンポーネントに対して別々のヘッドを用意してrewardを出力するようなモデルを定義する。コンポーネントkのinput x, output y が与えられたときに、それらをconcatしてLLMに入力し[x_k, y_k]最終的にヘッドでスカラー値に写像する。また、LRF r_kが *aligned* の定義として、LRF r_kがある共通のinputに対してr_kが高くなるようなoutputをしたときに、downstreamのコンポーネント全体のglobal reward Rが同等以上の性能を達成する場合、alignedであると定義する。このような特性を実現するために、現行のシステムのコンフィグに基づいてそれぞれのコンポーネントを実行し、trajectoryを取得。特定のコンポーネントC_kに対する二つのoutputを（異なるコンフィグに基づいて）サンプリングしてパイプライン全体のmetricを予測し、metricが高い/低いサンプルをchosen/rejectedとし preference dataを用意する。このようなデータを用いて、個々のコンポーネントのLRFsを、chosenなサンプルの場合はrejectedよりもrewardが高くなるようにペアワイズのranking lossを用いて学習する。

(ここまでが4.1節の概要。4.2, 4.3節以後は必要に応じて参照する。4.2ではどのように他コンポーネントが更新された際にLRFsを更新するか、という話と、4.3節では個々のコンポーネントがtext, trainable models, continuous configurationなどの異なるコンポーネントの場合にどのような最適化手法を適用するか、といった話が書かれているように見える。)

評価では5つの実世界のタスクを実現するための複数コンポーネントで構成されるシステムの最適化を試みているようであり、
https://github.com/user-attachments/assets/be6fcb09-a68c-4b4c-998e-9f940cad677f" />

提案手法によって、パイプライン全体の性能がベースラインと比べて改善しシステム全体の実行回数もベースラインと比較して少ない試行回数で済むことが示されている模様。
https://github.com/user-attachments/assets/a4f4c274-920f-4f60-9594-6b19b84f6b34" />

#Pocket #NLP Issue Date: 2025-08-04 [Paper Note] MLE-STAR: Machine Learning Engineering Agent via Search and Targeted Refinement, Jaehyun Nam+, arXiv'25 GPT Summary- MLE-STARは、LLMを用いてMLモデルを自動実装する新しいアプローチで、ウェブから効果的なモデルを取得し、特定のMLコンポーネントに焦点を当てた戦略を探索することで、コード生成の精度を向上させる。実験結果では、MLE-STARがKaggleコンペティションの64%でメダルを獲得し、他の手法を大きく上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Optimizer #read-later #Selected Papers/Blogs Issue Date: 2025-07-14 [Paper Note] Muon is Scalable for LLM Training, Jingyuan Liu+, arXiv'25 GPT Summary- Muonオプティマイザーを大規模モデルにスケールアップするために、ウェイトデケイとパラメータごとの更新スケール調整を導入。これにより、Muonは大規模トレーニングで即座に機能し、計算効率がAdamWの約2倍に向上。新たに提案するMoonlightモデルは、少ないトレーニングFLOPで優れたパフォーマンスを達成し、オープンソースの分散Muon実装や事前トレーニング済みモデルも公開。 Comment

解説ポスト:

Loading…

こちらでも紹介されている:
- きみはNanoGPT speedrunを知っているか？, PredNext, 2025.07

解説:

Loading…

#ComputerVision #Pocket #NLP #Transformer #MultiModal #Architecture #VideoGeneration/Understandings #VisionLanguageModel Issue Date: 2025-07-06 [Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #Supervised-FineTuning (SFT) #PostTraining #read-later Issue Date: 2025-06-13 [Paper Note] Resa: Transparent Reasoning Models via SAEs, Shangshang Wang+, arXiv'25 GPT Summary- Resaという1.5Bの推論モデル群を提案し、効率的なスパースオートエンコーダーチューニング（SAE-Tuning）手法を用いて訓練。これにより、97%以上の推論性能を保持しつつ、訓練コストを2000倍以上削減し、訓練時間を450倍以上短縮。軽いRL訓練を施したモデルで高い推論性能を実現し、抽出された推論能力は一般化可能かつモジュール化可能であることが示された。全ての成果物はオープンソース。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

論文中で利用されているSource Modelの一つ:
- [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25

#Pocket #NLP #ICML #KnowledgeEditing Issue Date: 2025-06-10 [Paper Note] Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing, Kento Nishi+, ICML'25 GPT Summary- 知識編集（KE）アルゴリズムは、モデルの重みを変更して不正確な事実を更新するが、これがモデルの事実の想起精度や推論能力に悪影響を及ぼす可能性がある。新たに定義した合成タスクを通じて、KEがターゲットエンティティを超えて他のエンティティの表現に影響を与え、未見の知識の推論を歪める「表現の破壊」現象を示す。事前訓練されたモデルを用いた実験でもこの発見が確認され、KEがモデルの能力に悪影響を及ぼす理由を明らかにするメカニズム仮説を提供する。 Comment

元ポスト:

Loading…

#Pretraining #Pocket #NLP #ModelMerge Issue Date: 2025-05-20 Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv'25 GPT Summary- モデルマージングは大規模言語モデルの強化に有望な技術であり、本論文ではその事前学習プロセスにおける包括的な調査を行う。実験により、一定の学習率で訓練されたチェックポイントをマージすることで性能向上とアニーリング挙動の予測が可能になることを示し、効率的なモデル開発と低コストのトレーニングに寄与する。マージ戦略やハイパーパラメータに関するアブレーション研究を通じて新たな洞察を提供し、実用的な事前学習ガイドラインをオープンソースコミュニティに提示する。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Analysis #Pocket #NLP #Alignment #Hallucination #ICLR #DPO #Repetition Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Pocket #ReinforcementLearning #Reasoning #LongSequence Issue Date: 2025-04-08 VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks, YuYue+, arXiv'25 GPT Summary- VAPO（Value-based Augmented Proximal Policy Optimization framework）を提案し、AIME 2024データセットで最先端のスコア60.4を達成。VAPOは他の手法を10ポイント以上上回り、5,000ステップで安定したパフォーマンスを示す。価値ベースの強化学習における3つの課題を特定し、VAPOがそれらを軽減する統合ソリューションを提供することで、長い思考過程の推論タスクの性能向上を実現。 Comment

同じくByteDanceの

- DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25

を上回る性能

元ポスト:

Loading…

#Pocket #NLP #Reasoning #GRPO #read-later #KeyPoint Notes Issue Date: 2025-03-22 [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03 GPT Summary- DeepSeek-R1-Zeroは、RLを用いてLLMsの推論能力を向上させる手法を示した。本研究では、ベースモデルとRLの影響を分析し、DeepSeek-V3-Baseが「アハ体験」を示す一方で、Qwen2.5が強力な推論能力を持つことを発見。GRPOの最適化バイアスを特定し、Dr. GRPOを導入してトークン効率を改善。7BベースモデルでAIME 2024において43.3%の精度を達成するR1-Zeroレシピを提案。 Comment

解説ポスト:

Loading…

あとで読む

（参考）Dr.GRPOを実際にBig-MathとQwen-2.5-7Bに適用したら安定して収束したよというポスト:

Loading…

#Pocket #ReinforcementLearning #Reasoning #LongSequence #GRPO #read-later #Selected Papers/Blogs #One-Line Notes #Reference Collection Issue Date: 2025-03-20 DAPO: An Open-Source LLM Reinforcement Learning System at Scale, Qiying Yu+, arXiv'25 GPT Summary- 推論スケーリングによりLLMの推論能力が向上し、強化学習が複雑な推論を引き出す技術となる。しかし、最先端の技術詳細が隠されているため再現が難しい。そこで、$\textbf{DAPO}$アルゴリズムを提案し、Qwen2.5-32Bモデルを用いてAIME 2024で50ポイントを達成。成功のための4つの重要技術を公開し、トレーニングコードと処理済みデータセットをオープンソース化することで再現性を向上させ、今後の研究を支援する。 Comment

ちとこれはあとでしっかり読みたい。重要論文。

プロジェクトページ: https://dapo-sia.github.io/

こちらにアルゴリズムの重要な部分の概要が説明されている。

解説ポスト:

Loading…

コンパクトだが分かりやすくまとまっている。

Loading…

色々な研究で広く使われるのを見るようになった。

著者ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #Attention #ACL #read-later Issue Date: 2025-03-02 Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, Jingyang Yuan+, ACL'25 GPT Summary- 長文コンテキストモデリングのために、計算効率を改善するスパースアテンションメカニズム「NSA」を提案。NSAは動的な階層スパース戦略を用い、トークン圧縮と選択を組み合わせてグローバルなコンテキスト認識とローカルな精度を両立。実装最適化によりスピードアップを実現し、エンドツーエンドのトレーニングを可能にすることで計算コストを削減。NSAはフルアテンションモデルと同等以上の性能を維持しつつ、長シーケンスに対して大幅なスピードアップを達成。 Comment

元ポスト:

Loading…

ACL'25のBest Paperの一つ:

Loading…

#ComputerVision #Analysis #Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#NeuralNetwork #Pretraining #Pocket #NLP #ICLR #Batch Issue Date: 2024-11-25 How Does Critical Batch Size Scale in Pre-training?, Hanlin Zhang+, ICLR'25 GPT Summary- 大規模モデルの訓練には、クリティカルバッチサイズ（CBS）を考慮した並列化戦略が重要である。CBSの測定法を提案し、C4データセットで自己回帰型言語モデルを訓練。バッチサイズや学習率などの要因を調整し、CBSがデータサイズに比例してスケールすることを示した。この結果は、ニューラルネットワークの理論的分析によって支持され、ハイパーパラメータ選択の重要性も強調されている。 Comment

Critical Batch Sizeはモデルサイズにはあまり依存せず、データサイズに応じてスケールする

#Tutorial #Pocket #NLP #PostTraining Issue Date: 2025-10-17 [Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

#Pocket #NLP #PEFT(Adaptor/LoRA) #ICML #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-10-10 [Paper Note] DoRA: Weight-Decomposed Low-Rank Adaptation, Shih-Yang Liu+, ICML'24, 2024.02 GPT Summary- LoRAの精度ギャップを解消するために、Weight-Decomposed Low-Rank Adaptation（DoRA）を提案。DoRAは、ファインチューニングの重みを大きさと方向に分解し、方向性の更新にLoRAを使用することで、効率的にパラメータ数を最小化。これにより、LoRAの学習能力と安定性を向上させ、追加の推論コストを回避。さまざまな下流タスクでLoRAを上回る性能を示す。 Comment

日本語解説:
- LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09

- Tora: Torchtune-LoRA for RL, shangshang-wang, 2025.10

では、通常のLoRA, QLoRAだけでなく本手法でRLをする実装もサポートされている模様

#Pretraining #Pocket #NLP #Subword #Tokenizer Issue Date: 2024-11-12 LBPE: Long-token-first Tokenization to Improve Large Language Models, Haoran Lian+, arXiv'24 GPT Summary- LBPEは、長いトークンを優先する新しいエンコーディング手法で、トークン化データセットにおける学習の不均衡を軽減します。実験により、LBPEは従来のBPEを一貫して上回る性能を示しました。 Comment

#Analysis #Pocket #NLP #PEFT(Adaptor/LoRA) #read-later Issue Date: 2024-11-09 LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv'24 GPT Summary- ファインチューニング手法の違いが事前学習済みモデルに与える影響を、重み行列のスペクトル特性を通じて分析。LoRAと完全なファインチューニングは異なる構造の重み行列を生成し、LoRAモデルは新たな高ランクの特異ベクトル（侵入次元）を持つことが判明。侵入次元は一般化能力を低下させるが、同等の性能を達成することがある。これにより、異なるファインチューニング手法がパラメータ空間の異なる部分にアクセスしていることが示唆される。 Comment

元ポスト:

Loading…

#Pocket #NLP #Alignment #ICML #PostTraining Issue Date: 2024-10-27 KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N_A, ICML'24 GPT Summary- プロスペクト理論に基づき、LLMの人間フィードバック調整におけるバイアスの影響を示す。新たに提案する「人間認識損失」（HALOs）を用いたアプローチKTOは、生成物の効用を最大化し、好みベースの方法と同等またはそれ以上の性能を発揮。研究は、最適な損失関数が特定の設定に依存することを示唆。 Comment

binaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文

#Pocket #NLP #ICLR #read-later #ModelMerge Issue Date: 2024-01-23 Knowledge Fusion of Large Language Models, Fanqi Wan+, N_A, ICLR'24 GPT Summary- 本研究では、既存の事前訓練済みの大規模言語モデル（LLMs）を統合することで、1つの強力なモデルを作成する方法を提案しています。異なるアーキテクチャを持つ3つの人気のあるLLMsを使用して、ベンチマークとタスクのパフォーマンスを向上させることを実証しました。提案手法のコード、モデルの重み、およびデータはGitHubで公開されています。 #Pretraining #NLP #ICLR Issue Date: 2023-10-26 Detecting Pretraining Data from Large Language Models, Weijia Shi+, N_A, ICLR'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）を訓練するためのデータの検出問題を研究し、新しい検出方法であるMin-K% Probを提案します。Min-K% Probは、LLMの下で低い確率を持つアウトライアーワードを検出することに基づいています。実験の結果、Min-K% Probは従来の方法に比べて7.4%の改善を達成し、著作権のある書籍の検出や汚染された下流の例の検出など、実世界のシナリオにおいて効果的な解決策であることが示されました。 Comment

実験結果を見るにAUCは0.73-0.76程度であり、まだあまり高くない印象。また、テキストのlengthはそれぞれ32,64,128,256程度。

openreview: https://openreview.net/forum?id=zWqr3MQuNs

#Pocket #NLP #AutomaticPromptEngineering #ICLR Issue Date: 2023-09-09 Large Language Models as Optimizers, Chengrun Yang+, N_A, ICLR'24 GPT Summary- 本研究では、最適化タスクを自然言語で記述し、大規模言語モデル（LLMs）を使用して最適化を行う手法「Optimization by PROmpting（OPRO）」を提案しています。この手法では、LLMが以前の解とその値を含むプロンプトから新しい解を生成し、評価して次の最適化ステップのためのプロンプトに追加します。実験結果では、OPROによって最適化された最良のプロンプトが、人間が設計したプロンプトよりも優れていることが示されました。 Comment

openreview: https://openreview.net/forum?id=Bb4VGOWELI

#Analysis #Pocket #NLP #In-ContextLearning #ICLR Issue Date: 2023-09-01 CausalLM is not optimal for in-context learning, Nan Ding+, N_A, ICLR'24 GPT Summary- 最近の研究では、トランスフォーマーベースのインコンテキスト学習において、プレフィックス言語モデル（prefixLM）が因果言語モデル（causalLM）よりも優れたパフォーマンスを示すことがわかっています。本研究では、理論的なアプローチを用いて、prefixLMとcausalLMの収束挙動を分析しました。その結果、prefixLMは線形回帰の最適解に収束する一方、causalLMの収束ダイナミクスはオンライン勾配降下アルゴリズムに従い、最適であるとは限らないことがわかりました。さらに、合成実験と実際のタスクにおいても、causalLMがprefixLMよりも性能が劣ることが確認されました。 Comment

参考:

Loading…

#NLP #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #COLM #PostTraining Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, COLM'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）を新しいタスクに適応させるための低ランク適応（LoRA）を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment

複数のLoRAモジュールは組み合わられるか？element wiseの線型結合で今回はやっているが、その疑問にこたえたのがcontribution

OpenReview: https://openreview.net/forum?id=TrloAXEJ2B

#Analysis #NLP #Prompting #In-ContextLearning #TACL #ContextEngineering Issue Date: 2023-07-11 Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N_A, TACL'24 GPT Summary- 最近の言語モデルは、長い文脈を入力として受け取ることができますが、その長い文脈をどれだけうまく利用しているかについてはまだよくわかっていません。この研究では、マルチドキュメントの質問応答とキー・バリューの検索という2つのタスクにおいて、言語モデルのパフォーマンスを分析しました。その結果、関連情報が入力文脈の始まりや終わりにある場合、パフォーマンスが最も高くなることがわかりましたが、長い文脈の中で関連情報にアクセスする必要がある場合、パフォーマンスが著しく低下します。さらに、入力文脈が長くなるにつれて、明示的に長い文脈を扱うモデルでもパフォーマンスが大幅に低下します。この分析は、言語モデルが入力文脈をどのように利用しているかをより良く理解するためのものであり、将来の長い文脈モデルのための新しい評価プロトコルを提供します。 Comment

元ツイート

Loading…

非常に重要な知見がまとめられている

SNLP'24での解説スライド:
https://speakerdeck.com/kichi/snlp2024

#Pocket #NLP #ICML #Selected Papers/Blogs #text #AI Detector Issue Date: 2025-11-17 [Paper Note] DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature, Eric Mitchell+, ICML'23, 2023.01 GPT Summary- LLM生成テキストの検出の必要性を背景に、対数確率関数の負の曲率を利用した新しい検出手法「DetectGPT」を提案。これにより、別の分類器やデータセットを必要とせず、特定のLLMから生成されたテキストを高精度で識別可能。特に、GPT-NeoXによるフェイクニュース記事の検出で、従来の手法を大幅に上回る性能を示した。 #Pocket #NLP #Hallucination #NeurIPS #read-later #ActivationSteering/ITI #Probing #Trustfulness #Selected Papers/Blogs Issue Date: 2025-05-09 Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS'23 GPT Summary- Inference-Time Intervention (ITI)を提案し、LLMsの真実性を向上させる技術を紹介。ITIは推論中にモデルの活性化を調整し、LLaMAモデルの性能をTruthfulQAベンチマークで大幅に改善。Alpacaモデルでは真実性が32.5%から65.1%に向上。真実性と有用性のトレードオフを特定し、介入の強度を調整する方法を示す。ITIは低コストでデータ効率が高く、数百の例で真実の方向性を特定可能。LLMsが虚偽を生成しつつも真実の内部表現を持つ可能性を示唆。 Comment

これは相当汎用的に使えそうな話だから役に立ちそう

#Pocket #NLP #NeurIPS #Scaling Laws #read-later Issue Date: 2025-03-23 Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS'23 GPT Summary- 言語モデルのスケーリングにおいて、データ制約下でのトレーニングを調査。9000億トークンと90億パラメータのモデルを用いた実験で、繰り返しデータを使用しても損失に大きな変化は見られず、繰り返しの価値が減少することを確認。計算最適性のスケーリング法則を提案し、データ不足を軽減するアプローチも実験。得られたモデルとデータセットは公開。 Comment

OpenReview: https://openreview.net/forum?id=j5BuTrEj35

#Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2024-11-25 Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23 GPT Summary- スパース活性化モデルは、計算コストを抑えつつ密なモデルの代替として注目されているが、依然として多くのデータを必要とし、ゼロからのトレーニングは高コストである。本研究では、密なチェックポイントからスパース活性化Mixture-of-Expertsモデルを初期化する「スパースアップサイクリング」を提案。これにより、初期の密な事前トレーニングのコストを約50%再利用し、SuperGLUEやImageNetで密なモデルを大幅に上回る性能を示した。また、アップサイクリングされたモデルは、ゼロからトレーニングされたスパースモデルよりも優れた結果を得た。 Comment

#NLP #Supervised-FineTuning (SFT) Issue Date: 2023-10-26 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, arXiv'23 GPT Summary- 私たちは、言語モデルのファインチューニングを改善するために、ノイズを加えた埋め込みベクトルを使用する手法を提案します。この手法は、AlpacaEvalやEvol-Instructなどのデータセットで強力なベースラインを上回る性能を示しました。また、RLHFでトレーニングされたモデルにも適用可能です。 Comment

Alpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。

HuggingFaceのTRLでサポートされている

https://huggingface.co/docs/trl/sft_trainer

#Pocket #NLP #Chain-of-Thought #Prompting Issue Date: 2023-10-24 Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs' Non-linear Thinking, Yongqi Tong+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）に非線形の思考を促すために、新しいプロンプティング方法であるInferential Exclusion Prompting（IEP）を提案する。IEPは、計画を立てて可能な解を推論し、逆推論を行うことで広い視点を得ることができる。IEPは他の手法と比較して複雑な人間の思考プロセスをシミュレートできることを実証し、LLMsのパフォーマンス向上にも貢献することを示した。さらに、Mental-Ability Reasoning Benchmark（MARB）を導入し、LLMsの論理と言語推論能力を評価するための新しいベンチマークを提案した。IEPとMARBはLLMsの研究において有望な方向性であり、今後の進展が期待される。 Comment

#Pocket #NLP #Dataset #AIAgents #Evaluation #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#NLP #Quantization #ICLR Issue Date: 2023-09-29 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N_A, ICLR'23 GPT Summary- 本研究では、GPTモデルの推論における計算およびストレージコストの問題に取り組み、新しいワンショット重み量子化手法であるGPTQを提案します。GPTQは高い精度と効率性を持ち、1750億のパラメータを持つGPTモデルを4時間のGPU時間で量子化することができます。提案手法は従来の手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。さらに、提案手法は極端な量子化領域でも合理的な精度を提供します。実験結果では、提案手法を使用することでエンドツーエンドの推論速度が約3.25倍から4.5倍向上することが示されています。提案手法の実装はhttps://github.com/IST-DASLab/gptqで利用可能です。 Comment

#EfficiencyImprovement #Pocket #NLP #Selected Papers/Blogs Issue Date: 2023-09-13 Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N_A, arXiv'23 GPT Summary- 私たちは、小さなTransformerベースの言語モデルであるTinyStoriesと、大規模な言語モデルであるphi-1の能力について調査しました。また、phi-1を使用して教科書の品質のデータを生成し、学習プロセスを改善する方法を提案しました。さらに、phi-1.5という新しいモデルを作成し、自然言語のタスクにおいて性能が向上し、複雑な推論タスクにおいて他のモデルを上回ることを示しました。phi-1.5は、良い特性と悪い特性を持っており、オープンソース化されています。 Comment

Textbooks Are All You Need, Suriya Gunasekar+, N/A, arXiv'23 に続く論文

#Pocket #NLP #Prompting #AutomaticPromptEngineering #ICLR Issue Date: 2023-09-05 Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR'23 GPT Summary- 大規模言語モデル（LLMs）は、自然言語の指示に基づいて一般的な用途のコンピュータとして優れた能力を持っています。しかし、モデルのパフォーマンスは、使用されるプロンプトの品質に大きく依存します。この研究では、自動プロンプトエンジニア（APE）を提案し、LLMによって生成された指示候補のプールから最適な指示を選択するために最適化します。実験結果は、APEが従来のLLMベースラインを上回り、19/24のタスクで人間の生成した指示と同等または優れたパフォーマンスを示しています。APEエンジニアリングされたプロンプトは、モデルの性能を向上させるだけでなく、フューショット学習のパフォーマンスも向上させることができます。詳細は、https://sites.google.com/view/automatic-prompt-engineerをご覧ください。 Comment

プロジェクトサイト: https://sites.google.com/view/automatic-prompt-engineer

openreview: https://openreview.net/forum?id=92gvk82DE-

#NLP #Transformer #DataAugmentation #Supervised-FineTuning (SFT) #DataGeneration Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

#NLP #Attention Issue Date: 2023-08-08 The Hydra Effect: Emergent Self-repair in Language Model Computations, Thomas McGrath+, N_A, arXiv'23 GPT Summary- 私たちは、言語モデルの内部構造を調査し、言語モデルの計算における特定の効果を示しました。具体的には、1つの層の削除が他の層によって補完される「Hydra効果」と、遅いMLP層が最大尤度トークンを制御する役割を持つことを示しました。また、ドロップアウトを使用しない言語モデルでも同様の効果が見られることを示しました。これらの効果を事実の回想の文脈で分析し、言語モデルの回路レベルの属性付与について考察しました。 Comment

Issue Date: 2023-07-22 Retentive Network: A Successor to Transformer for Large Language Models, Yutao Sun+, N_A, arXiv'23 GPT Summary- この研究では、Retentive Network（RetNet）という大規模言語モデルのアーキテクチャを提案します。RetNetは、トレーニングの並列化、低コストの推論、良好なパフォーマンスを同時に実現することができます。RetNetは再帰と注意の関係を理論的に導出し、シーケンスモデリングのためのretentionメカニズムを提案します。このメカニズムは、並列、再帰、チャンクごとの再帰の3つの計算パラダイムをサポートします。RetNetの実験結果は、優れたスケーリング結果、並列トレーニング、低コストの展開、効率的な推論を実現していることを示しています。RetNetは、大規模言語モデルの強力な後継者となる可能性があります。 Comment

参考:

Loading…

#NLP #Supervised-FineTuning (SFT) #Evaluation Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #NLP #Poisoning Issue Date: 2023-07-11 On the Exploitability of Instruction Tuning, Manli Shu+, N_A, arXiv'23 GPT Summary- 大規模な言語モデル（LLMs）を使用して、指示の調整を行う効果的な手法を提案する。敵対者が特定の指示に従う例をトレーニングデータに注入することで、指示の調整を悪用する方法を調査する。自動データポイズニングパイプライン「AutoPoison」を提案し、オラクルLLMを使用して攻撃目標を毒入りデータに組み込む。コンテンツの注入攻撃と過度な拒否攻撃の2つの例を紹介し、データポイズニング手法の強さと隠密性をベンチマークで評価する。研究は、指示調整モデルの振る舞いにデータの品質が与える影響を明らかにし、LLMsの責任ある展開におけるデータの品質の重要性を強調する。 Comment

#In-ContextLearning #NeurIPS Issue Date: 2023-07-11 Transformers learn to implement preconditioned gradient descent for in-context learning, Kwangjun Ahn+, N_A, NeurIPS'23 GPT Summary- トランスフォーマーは勾配降下法のアルゴリズムを学習できるかどうかについての研究があります。この研究では、トランスフォーマーが勾配降下法の反復をシミュレートすることができることが示されています。さらに、線形トランスフォーマーについての分析から、訓練目的のグローバル最小値が事前条件付き勾配降下法の単一の反復を実装することが証明されました。また、k個のアテンション層を持つトランスフォーマーについても、特定の臨界点が事前条件付き勾配降下法のk回の反復を実装することが証明されました。これらの結果は、トランスフォーマーを訓練して学習アルゴリズムを実装するための将来の研究を促しています。 Comment

参考:

Loading…

つまり、事前学習の段階でIn context learningが可能なように学習がなされているということなのか。
それはどのような学習かというと、プロンプトとそれによって与えられた事例を前条件とした場合の勾配降下法によって実現されていると。

つまりどういうことかというと、プロンプトと与えられた事例ごとに、それぞれ最適なパラメータが学習されているというイメージだろうか。条件付き分布みたいなもの？

なので、未知のプロンプトと事例が与えられたときに、事前学習時に前条件として与えられているものの中で類似したものがあれば、良い感じに汎化してうまく生成ができる、ということかな？

いや違うな。1つのアテンション層が勾配降下法の1ステップをシミュレーションしており、k個のアテンション層があったらkステップの勾配降下法をシミュレーションしていることと同じ結果になるということ?
そしてその購買降下法では、プロンプトによって与えられた事例が最小となるように学習される（シミュレーションされる）ということなのか。

つまり、ネットワーク上で本当に与えられた事例に基づいて学習している（のと等価な結果）を得ているということなのか？😱

openreview: https://openreview.net/forum?id=LziniAXEI9

#Pocket #NLP #LongSequence Issue Date: 2023-07-03 Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N_A, arXiv'23 GPT Summary- 既存の大規模言語モデル（LLMs）は、入力長の制限により、長い文脈情報を活用できない問題があります。そこで、私たちは「長期記憶を持つ言語モデル（LongMem）」というフレームワークを提案しました。これにより、LLMsは長い履歴を記憶することができます。提案手法は、メモリエンコーダとして凍結されたバックボーンLLMと、適応的な残余サイドネットワークを組み合わせた分離されたネットワークアーキテクチャを使用します。このアーキテクチャにより、長期の過去の文脈を簡単にキャッシュし、利用することができます。実験結果は、LongMemが長い文脈モデリングの難しいベンチマークであるChapterBreakで強力な性能を発揮し、メモリ増強型のコンテキスト内学習で改善を達成することを示しています。提案手法は、言語モデルが長い形式のコンテンツを記憶し利用するのに効果的です。 Comment

LLMに長期のhistoryを記憶させることを可能する新たな手法を提案し、既存のstrongな長いcontextを扱えるモデルを上回るパフォーマンスを示した

#Pruning Issue Date: 2023-06-26 A Simple and Effective Pruning Approach for Large Language Models, Mingjie Sun+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の剪定方法であるWandaを紹介している。Wandaは、重みと活性化による剪定を行い、再トレーニングや重みの更新を必要とせず、剪定されたLLMはそのまま使用できる。Wandaは、LLaMA上でのさまざまな言語ベンチマークで徹底的に評価され、大きさに基づく剪定の確立されたベースラインを大幅に上回り、重みの更新に関する最近の方法と競合する優れた性能を発揮することが示された。コードはhttps://github.com/locuslab/wandaで利用可能である。 Comment

LLMのネットワークのpruning手法を提案。再訓練、パラメータ更新無しで、性能低下が少なくて刈り込みが可能。

#NaturalLanguageGeneration #NLP Issue Date: 2023-06-26 SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking, Chris Cundy+, N_A, arXiv'23 GPT Summary- 自己回帰モデルによるシーケンス生成において、最尤推定（MLE）目的は誤差の蓄積問題を引き起こすため、模倣学習（IL）問題として定式化することが提案された。ILフレームワークを使用することで、バックトラッキングを組み込むことができ、誤差の蓄積問題が軽減される。提案手法であるSequenceMatchは、敵対的なトレーニングや大規模なアーキテクチャの変更なしに実装でき、SequenceMatch-$\chi^2$発散を使用することができる。実験的に、SequenceMatchトレーニングは、言語モデルによるテキスト生成においてMLEよりも改善をもたらすことが示された。 Comment

#EfficiencyImprovement #Supervised-FineTuning (SFT) Issue Date: 2023-06-26 Full Parameter Fine-tuning for Large Language Models with Limited Resources, Kai Lv+, N_A, arXiv'23 GPT Summary- LLMsのトレーニングには膨大なGPUリソースが必要であり、既存のアプローチは限られたリソースでの全パラメーターの調整に対処していない。本研究では、LOMOという新しい最適化手法を提案し、メモリ使用量を削減することで、8つのRTX 3090を搭載した単一のマシンで65Bモデルの全パラメーターファインチューニングが可能になる。 Comment

8xRTX3090 24GBのマシンで65Bモデルの全パラメータをファインチューニングできる手法。LoRAのような（新たに追加しれた）一部の重みをアップデートするような枠組みではない。勾配計算とパラメータのアップデートをone stepで実施することで実現しているとのこと。

#Pretraining #NLP #KnowledgeGraph Issue Date: 2023-06-25 Unifying Large Language Models and Knowledge Graphs: A Roadmap, Shirui Pan+, N_A, arXiv'23 GPT Summary- LLMsとKGsを統合することで、自然言語処理や人工知能の分野で注目を集めている。KGsは豊富な事実知識を明示的に格納しているが、構築が困難であり、進化する性質を持っている。一方、LLMsはブラックボックスモデルであり、事実知識を捉えたりアクセスしたりすることができない。本記事では、LLMsとKGsを統合するための展望を示し、KG-enhanced LLMs、LLM-augmented KGs、Synergized LLMs + KGsの3つのフレームワークを提案する。既存の取り組みをレビューし、今後の研究方向を指摘する。 Comment

#EfficiencyImprovement #Pretraining #NLP #SmallModel #Selected Papers/Blogs Issue Date: 2023-06-25 Textbooks Are All You Need, Suriya Gunasekar+, N_A, arXiv'23 GPT Summary- 本研究では、小規模なphi-1という新しいコード用大規模言語モデルを紹介し、8つのA100で4日間トレーニングした結果、HumanEvalでpass@1の正解率50.6％、MBPPで55.5％を達成したことを報告しています。また、phi-1は、phi-1-baseやphi-1-smallと比較して、驚くべき新しい性質を示しています。phi-1-smallは、HumanEvalで45％を達成しています。 Comment

参考:

Loading…

日本語解説: https://dalab.jp/archives/journal/introduction-textbooks-are-all-you-need/

ざっくり言うと、教科書で事前学習し、エクササイズでFinetuningすると性能が向上する（= より大きいモデルと同等の性能が得られる）。

#NLP #In-ContextLearning Issue Date: 2023-05-20 What In-Context Learning "Learns" In-Context: Disentangling Task Recognition and Task Learning, Jane Pan+, N_A, arXiv'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）がどのようにコンテキスト学習（ICL）を利用してタスクを解決するかを調査しました。タスク認識（TR）とタスク学習（TL）の役割を分離するための実験を行い、LLMsがデモンストレーションを通じて暗黙的に学習を行う可能性があることを示しました。また、モデルがスケールするにつれてTLのパフォーマンスが改善されることも明らかになりました。これらの結果は、ICLの背後にある2つの異なる力を明らかにし、将来のICL研究でそれらを区別することを提唱しています。 Comment

#NeuralNetwork #NeuralArchitectureSearch Issue Date: 2023-04-27 Can GPT-4 Perform Neural Architecture Search? Zhang+, The University of Sydney, arXiv'23 Comment

ドメイン知識の必要のないプロンプトで、ニューラルモデルのアーキテクチャの提案をGPTにしてもらう研究。accをフィードバックとして与え、良い構造を提案するといったループを繰り返す模様

Neural Architecture Search (NAS)においては、ランダムベースラインがよく採用されるらしく、比較した結果ランダムよりよかった

NAS201と呼ばれるベンチマーク（NNアーキテクチャのcell blockをデザインすることにフォーカス; 探索空間は4つのノードと6つのエッジで構成される密接続のDAGとして表される; ノードはfeature mapを表し、エッジはoperationに対応;利用可能なoperationが5つあるため、可能な検索空間の総数は5の6乗で15,625通りとなる）でも評価した結果、提案手法の性能がよかったとのこと。

#Pocket #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #NeurIPS Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS'23 GPT Summary- 本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Comment

なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究

#Pocket #NLP #NeurIPS #Scaling Laws #Selected Papers/Blogs Issue Date: 2025-03-23 Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS'22 GPT Summary- トランスフォーマー言語モデルの訓練において、計算予算内で最適なモデルサイズとトークン数を調査。モデルサイズと訓練トークン数は同等にスケールする必要があり、倍増するごとにトークン数も倍増すべきと提案。Chinchillaモデルは、Gopherなどの大規模モデルに対して優れた性能を示し、ファインチューニングと推論の計算量を削減。MMLUベンチマークで67.5%の精度を達成し、Gopherに対して7%以上の改善を実現。 Comment

OpenReview: https://openreview.net/forum?id=iBBcRUlOAPR

chinchilla則

#Pocket #NLP #Scaling Laws Issue Date: 2025-03-23 Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv'20 GPT Summary- 言語モデルの性能に関するスケーリング法則を研究し、損失がモデルサイズ、データセットサイズ、計算量に対して冪則的にスケールすることを示す。アーキテクチャの詳細は影響が少なく、過学習やトレーニング速度は単純な方程式で説明される。これにより、計算予算の最適な配分が可能となり、大きなモデルはサンプル効率が高く、少量のデータで早期に収束することが示された。 Comment

日本語解説: https://www.slideshare.net/slideshow/dlscaling-laws-for-neural-language-models/243005067

#NeuralNetwork #Pocket #NLP #NeurIPS Issue Date: 2025-08-05 [Paper Note] Deep Equilibrium Models, Shaojie Bai+, NeurIPS'19 GPT Summary- 深い平衡モデル（DEQ）を提案し、逐次データのモデル化において平衡点を直接見つけるアプローチを示す。DEQは無限の深さのフィードフォワードネットワークを解析的に逆伝播可能にし、定数メモリでトレーニングと予測を行える。自己注意トランスフォーマーやトレリスネットワークに適用し、WikiText-103ベンチマークでパフォーマンス向上、計算要件の維持、メモリ消費の最大88%削減を実証。 #Pocket #Transformer #ICML #Normalization #Selected Papers/Blogs Issue Date: 2025-04-02 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift, Sergey Ioffe+, ICML'15 GPT Summary- バッチ正規化を用いることで、深層ニューラルネットワークのトレーニングにおける内部共変量シフトの問題を解決し、高い学習率を可能にし、初期化の注意を軽減。これにより、同じ精度を14倍少ないトレーニングステップで達成し、ImageNet分類で最良の公表結果を4.9%改善。 Comment

メモってなかったので今更ながら追加した

共変量シフトやBatch Normalizationの説明は
- [Paper Note] Layer Normalization, Ba+, arXiv'16

記載のスライドが分かりやすい。

#Article #Pretraining #NLP #ReinforcementLearning #AIAgents #In-ContextLearning #Blog #RewardHacking #PostTraining #Diversity #Selected Papers/Blogs #PRM #Generalization #Cultural #Emotion Issue Date: 2025-10-20 Andrej Karpathy — AGI is still a decade away, DWARKESH PATEL, 2025.10 Comment

元ポスト:

Loading…

とても勉強になる！AIに代替されない20%, 1%になるには果たして

所見:

Loading…

#Article #Infrastructure #GenerativeAI #Slide #read-later #One-Line Notes Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment

元ポスト:

Loading…

#Article #Analysis #NLP #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

#Article #Tutorial #Pretraining #NLP #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #ReinforcementLearning #Blog #GRPO Issue Date: 2025-03-05 GRPO Judge Experiments: Findings & Empirical Observations, kalomaze's kalomazing blog, 2025.03 Comment

他にもrewardの与え方をx^4にすることや、length, xmlフォーマットの場合にボーナスのrewardを与えるなどの工夫を考察している。

#Article #Pretraining #Supervised-FineTuning (SFT) Issue Date: 2025-03-04 The Ultra-Scale Playbook: Training LLMs on GPU Clusters, HuggingFace, 2025.02 Comment

HuggingFaceによる数1000のGPUを用いたAIモデルのトレーニングに関するオープンソースのテキスト

#Article #NLP #Library #ReinforcementLearning #python #Reasoning Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment

元ポスト:

Loading…

#Article #NLP #Alignment #RLHF #Blog #DPO Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Comment

めちゃめちゃ勉強になる…

#Article #Tutorial #ComputerVision #NLP #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #Tools #Supervised-FineTuning (SFT) #Blog #Repository Issue Date: 2023-07-11 Auto train advanced Comment

Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。

#Article #Tools #Supervised-FineTuning (SFT) #FoundationModel Issue Date: 2023-06-26 LM Flow Comment

Loading…

#Article #TimeSeriesDataProcessing #Transformer Issue Date: 2022-12-29 Are Transformers Effective for Time Series Forecasting? Comment

Linear Layerに基づくシンプルな手法がTransformerベースの手法に時系列予測で勝ったという話

Analysis (38)

#Pocket #NLP #LanguageModel #In-ContextLearning #ActivationSteering/ITI
Issue Date: 2025-11-12 [Paper Note] Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering, Eric Bigelow+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）の制御手法をベイズ的視点から統一的に説明。文脈に基づく介入と活性化に基づく介入がモデルの信念を変え、挙動に影響を与えることを示す。新たなベイズモデルにより、介入の効果を高精度で予測し、行動の急激な変化を引き起こす特異なフェーズを明らかにする。プロンプトと活性化の制御手法の統一的な理解を提供。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning #One-Line Notes
Issue Date: 2025-11-12 [Paper Note] On a few pitfalls in KL divergence gradient estimation for RL, Yunhao Tang+, arXiv'25, 2025.06 GPT Summary- LLMのRLトレーニングにおけるKLダイバージェンスの勾配推定に関する落とし穴を指摘。特に、KL推定を通じて微分する実装が不正確であることや、逐次的な性質を無視した実装が部分的な勾配しか生成しないことを示す。表形式の実験とLLM実験を通じて、正しいKL勾配の実装方法を提案。 Comment

元ポスト:

Loading…

RLにおけるKL Divergenceによるポリシー正則化の正しい実装方法

#Pocket #NLP #LanguageModel #ReinforcementLearning #read-later #On-Policy
Issue Date: 2025-11-12 [Paper Note] On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning, Yifan Zhang+, arXiv'25, 2025.05 GPT Summary- ポリシー勾配アルゴリズムを用いてLLMの推論能力を向上させるため、正則化ポリシー勾配（RPG）を提案。RPGは、正規化されたKLと非正規化されたKLを統一し、REINFORCEスタイルの損失の微分可能性を特定。オフポリシー設定での重要度重み付けの不一致を修正し、RPGスタイルクリップを導入することで安定したトレーニングを実現。数学的推論ベンチマークで最大6%の精度向上を達成。 Comment

元ポスト:

Loading…

pj page: https://complex-reasoning.github.io/RPG/

#NeuralNetwork #Pocket #Optimizer #ZeroshotHyperparameterTransfer Issue Date: 2025-10-28 [Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in Practice, Atli Kosson+, arXiv'25, 2025.10 GPT Summary- 学習率の転送は、ニューラルネットワークの効率的なトレーニングを可能にする。Maximal Update Parameterization（muP）は、内部表現の更新を安定させる学習率スケーリングを提案するが、その仮定は実際のトレーニングでは短期間しか維持されないことが示された。トレーニングの後半では、重み減衰が内部表現の安定に寄与し、学習率の転送を促進する。これにより、muPは主に学習率のウォームアップとして機能し、修正されたウォームアップスケジュールで置き換え可能であることが示唆される。これらの結果は、学習率の転送に関する従来の考え方に挑戦し、muPの成功には独立した重み減衰が必要であることを示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #NeurIPS #Test-Time Scaling Issue Date: 2025-10-27 [Paper Note] A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning, Zhi Zhou+, NeurIPS'25, 2025.10 GPT Summary- テスト時スケーリングにおけるサンプリング手法の理論的枠組みを提供し、自己一貫性と困惑度の制限を明らかに。新たに提案したRPC手法は、困惑度一貫性と推論剪定を活用し、推論誤差の収束を改善。7つのベンチマークでの実証結果により、RPCは自己一貫性に匹敵する性能を達成し、サンプリングコストを50%削減することが示された。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

pj page: https://zhouz.dev/RPC/

#Pocket #DiffusionModel #Optimizer Issue Date: 2025-10-26 [Paper Note] Optimization Benchmark for Diffusion Models on Dynamical Systems, Fabian Schaipp, arXiv'25, 2025.10 GPT Summary- 拡散モデルのトレーニングにおける最適化手法を評価し、MuonとSOAPがAdamWに対して効率的な代替手段であることを示し、最終損失が18%低下することを観察。さらに、学習率スケジュールやAdamとSGDのパフォーマンスギャップなど、トレーニングダイナミクスに関連する現象を再考。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-10-25 [Paper Note] Algorithmic Primitives and Compositional Geometry of Reasoning in Language Models, Samuel Lippl+, arXiv'25, 2025.10 GPT Summary- 本研究では、大規模言語モデル（LLMs）が多段階の推論を解決するためのアルゴリズム的原則を追跡し、操作するフレームワークを提案。推論のトレースを内部の活性化パターンにリンクさせ、原則を残差ストリームに注入することで、推論ステップやタスクのパフォーマンスへの影響を評価。旅行セールスマン問題や3SATなどのベンチマークを用いて、原則ベクトルの導出と幾何学的論理の明示化を行い、ファインチューニングによる一般化の強調を示した。これにより、LLMsの推論がアルゴリズム的原則の構成的幾何学に支えられている可能性が示唆され、原則の転送とドメイン間の一般化が強化されることが明らかになった。 Comment

元ポスト:

Loading…

#Multi #Pocket #NLP #AIAgents #TheoryOfMind #read-later #Selected Papers/Blogs #Personality Issue Date: 2025-10-21 [Paper Note] Emergent Coordination in Multi-Agent Language Models, Christoph Riedl, arXiv'25, 2025.10 GPT Summary- 本研究では、マルチエージェントLLMシステムが高次の構造を持つかどうかを情報理論的フレームワークを用いて検証。実験では、エージェント間のコミュニケーションがない状況で、時間的相乗効果が観察される一方、調整された整合性は見られなかった。ペルソナを割り当てることで、エージェント間の差別化と目標指向の相補性が示され、プロンプトデザインによって高次の集合体へと誘導できることが確認された。結果は、効果的なパフォーマンスには整合性と相補的な貢献が必要であることを示唆している。 Comment

元ポスト:

Loading…

#Pocket #NLP #Transformer #ReinforcementLearning #Reasoning #PostTraining #read-later Issue Date: 2025-10-14 [Paper Note] How Reinforcement Learning After Next-Token Prediction Facilitates Learning, Nikolaos Tsilivis+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデルの次のトークン予測を強化学習で最適化するフレームワークを提案。特に、短いおよび長い「思考の連鎖」シーケンスからの学習を通じて、強化学習が次のトークン予測を改善することを理論的に示す。長いシーケンスが稀な場合、強化学習により自己回帰型トランスフォーマーが一般化できることを確認。さらに、長い応答が計算を増加させるメカニズムを説明し、自己回帰型線形モデルが効率的に$d$ビットの偶奇を予測できる条件を理論的に証明。Llamaシリーズモデルのポストトレーニングによる実証も行う。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #Grokking #Optimizer Issue Date: 2025-10-10 [Paper Note] Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking, Yuandong Tian, arXiv'25, 2025.09 GPT Summary- grokkingの現象を理解するために、2層の非線形ネットワークにおける新しい枠組み$\mathbf{Li_2}$を提案。これには、怠惰な学習、独立した特徴学習、相互作用する特徴学習の3段階が含まれる。怠惰な学習では、モデルが隠れ表現に過剰適合し、独立した特徴が学習される。後半段階では、隠れノードが相互作用を始め、学習すべき特徴に焦点を当てることが示される。本研究は、grokkingにおけるハイパーパラメータの役割を明らかにし、特徴の出現と一般化に関するスケーリング法則を導出する。 Comment

元ポスト:

Loading…

#Pocket #NLP #Transformer #Attention #AttentionSinks #CompressionValleys Issue Date: 2025-10-10 [Paper Note] Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin, Enrique Queipo-de-Llano+, arXiv'25, 2025.10 GPT Summary- 注意の沈降と圧縮の谷の関連性を示し、大規模な活性化が表現の圧縮とエントロピーの減少を引き起こすことを理論的に証明。実験により、シーケンスの開始トークンが中間層で極端な活性化を生むと、圧縮の谷と注意の沈降が同時に現れることを確認。TransformerベースのLLMがトークンを三つのフェーズで処理する「Mix-Compress-Refine」理論を提案し、タスク依存の表現の違いを説明。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Optimizer Issue Date: 2025-10-08 [Paper Note] Muon Outperforms Adam in Tail-End Associative Memory Learning, Shuche Wang+, arXiv'25, 2025.09 GPT Summary- Muonオプティマイザーは、LLMsのトレーニングにおいてAdamよりも高速であり、そのメカニズムを連想記憶の観点から解明。VOアテンションウェイトとFFNがMuonの優位性の要因であり、重い尾を持つデータにおいて尾クラスを効果的に最適化する。Muonは一貫したバランスの取れた学習を実現し、Adamは不均衡を引き起こす可能性がある。これにより、Muonの更新ルールが重い尾を持つ分布における効果的な学習を可能にすることが示された。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #Memorization Issue Date: 2025-10-04 [Paper Note] How Diffusion Models Memorize, Juyeop Kim+, arXiv'25, 2025.09 GPT Summary- 拡散モデルは画像生成に成功しているが、トレーニングデータの記憶によるプライバシーや著作権の懸念がある。本研究では、拡散およびデノイジングプロセスを再考し、記憶のメカニズムを探る。記憶は初期のデノイジング中にトレーニングサンプルの過大評価によって引き起こされ、多様性が減少し、記憶された画像への収束が加速されることを示す。具体的には、過学習だけでなく、分類器フリーのガイダンスが記憶を増幅し、トレーニング損失が増加すること、記憶されたプロンプトがノイズ予測に影響を与えること、初期のランダム性が抑制される様子が明らかになる。これにより、過大評価が記憶の中心的なメカニズムであることが特定される。 Comment

#Pocket #DiffusionModel #Memorization #Generalization Issue Date: 2025-10-04 [Paper Note] Selective Underfitting in Diffusion Models, Kiwhan Song+, arXiv'25, 2025.10 GPT Summary- 拡散モデルは生成モデルの主要なパラダイムとして注目されているが、どのスコアを学習しているかが未解決の疑問である。本研究では、選択的過少適合の概念を導入し、拡散モデルが特定の領域でスコアを正確に近似し、他の領域では過少適合することを示す。これにより、拡散モデルの一般化能力と生成性能に関する新たな洞察を提供する。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

#Pocket #NLP #Transformer #Attention #ICML #ContextEngineering Issue Date: 2025-09-26 [Paper Note] Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding, Mingyu Jin+, ICML'25, 2025.02 GPT Summary- 大規模言語モデル（LLMs）は文脈的知識の理解に成功しており、特に注意クエリ（Q）とキー（K）において集中した大規模な値が一貫して現れることを示す。これらの値は、モデルのパラメータに保存された知識ではなく、現在の文脈から得られる知識の解釈に重要である。量子化戦略の調査により、これらの値を無視すると性能が低下することが明らかになり、集中した大規模な値の出現がロタリーポジショナルエンコーディング（RoPE）によって引き起こされることを発見した。これらの結果は、LLMの設計と最適化に関する新たな洞察を提供する。 Comment

openreview: https://openreview.net/forum?id=1SMcxxQiSL¬eId=7BAXSETAwU

#Pocket #NLP #LanguageModel #Reasoning #NeurIPS #read-later Issue Date: 2025-09-19 [Paper Note] The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity, Parshin Shojaee+, arXiv'25 GPT Summary- LRMsは思考プロセスを生成するが、その能力や限界は未解明。評価は主に最終回答の正確性に焦点を当てており、推論の痕跡を提供しない。本研究では制御可能なパズル環境を用いて、LRMsの推論過程を分析。実験により、LRMsは特定の複雑さを超えると正確性が崩壊し、スケーリングの限界が明らかに。低複雑性では標準モデルが優位、中複雑性ではLRMsが優位、高複雑性では両者が崩壊することを示した。推論の痕跡を調査し、LRMsの強みと限界を明らかに。 Comment

元ポスト:

Loading…

出た当初相当話題になったIllusion of thinkingがNeurIPSにacceptされた模様。Appendix A.1に当時のcriticismに対するレスポンスが記述されている。

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #SmallModel #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-19 [Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Evaluation #NeurIPS #read-later #Selected Papers/Blogs Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #DiffusionModel Issue Date: 2025-09-05 [Paper Note] The Information Dynamics of Generative Diffusion, Luca Ambrogioni, arXiv'25 GPT Summary- 生成的拡散モデルの統一的な理論的理解を提供し、動的特性、情報理論的特性、熱力学的特性を結びつける。生成帯域幅はスコア関数の発散によって支配され、生成プロセスは対称性の破れによって駆動される。スコア関数はノイズの帯域幅を調整するフィルターとして機能する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Transformer #TMLR #Scheduler Issue Date: 2025-09-03 [Paper Note] Training Dynamics of the Cooldown Stage in Warmup-Stable-Decay Learning Rate Scheduler, Aleksandr Dremov+, TMLR'25 GPT Summary- WSD学習率スケジューラのクールダウンフェーズを分析し、異なる形状がモデルのバイアス-バリアンスのトレードオフに与える影響を明らかに。探索と活用のバランスが最適なパフォーマンスをもたらすことを示し、特に$\beta_2$の値が高いと改善が見られる。損失のランドスケープを視覚化し、クールダウンフェーズの最適化の重要性を強調。 Comment

元ポスト:

Loading…

#Pocket #Dataset #ICLR #Robotics #EmbodiedAI Issue Date: 2025-07-19 [Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

#Pocket #NLP #Transformer #In-ContextLearning Issue Date: 2025-07-16 [Paper Note] In-context denoising with one-layer transformers: connections between attention and associative memory retrieval, Matthew Smart+, arXiv'25 GPT Summary- 「インコンテキストデノイジング」というタスクを通じて、注意ベースのアーキテクチャと密な連想記憶（DAM）ネットワークの関係を探求。ベイズ的フレームワークを用いて、単層トランスフォーマーが特定のデノイジング問題を最適に解決できることを示す。訓練された注意層は、コンテキストトークンを連想記憶として利用し、デノイジングプロンプトを一回の勾配降下更新で処理。これにより、DAMネットワークの新たな拡張例を提供し、連想記憶と注意メカニズムの関連性を強化する。 Comment

元ポスト:

Loading…

#NLP #Transformer #In-ContextLearning #ICML Issue Date: 2025-07-13 [Paper Note] Nonlinear transformers can perform inference-time feature learning, Nishikawa+, ICML'25 GPT Summary- 事前学習されたトランスフォーマーは、推論時に特徴を学習する能力を持ち、特に単一インデックスモデルにおける文脈内学習に焦点を当てています。勾配ベースの最適化により、異なるプロンプトからターゲット特徴を抽出し、非適応的アルゴリズムを上回る統計的効率を示します。また、推論時のサンプル複雑性が相関統計クエリの下限を超えることも確認されました。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #MoE(Mixture-of-Experts) #ICML Issue Date: 2025-07-11 [Paper Note] Mixture of Experts Provably Detect and Learn the Latent Cluster Structure in Gradient-Based Learning, Ryotaro Kawata+, ICML'25 GPT Summary- Mixture of Experts (MoE)は、入力を専門家に動的に分配するモデルのアンサンブルであり、機械学習で成功を収めているが、その理論的理解は遅れている。本研究では、MoEのサンプルおよび実行時間の複雑さを回帰タスクにおけるクラスタ構造を通じて理論的に分析し、バニラニューラルネットワークがこの構造を検出できない理由を示す。MoEは各専門家の能力を活用し、問題をより単純なサブ問題に分割することで、非線形回帰におけるSGDのダイナミクスを探求する初めての試みである。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Alignment #Hallucination #ICLR #DPO #Repetition Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#NeuralNetwork #Pocket #Optimizer Issue Date: 2025-10-28 [Paper Note] WHEN DOES SECOND-ORDER OPTIMIZATION SPEED UP TRAINING?, Ishikawa+, ICLR'24 Tiny Paper GPT Summary- 二次最適化手法の使用が限られている理由を探り、特にバッチサイズとデータセットサイズに基づく条件を特定。実証的に、大きなバッチサイズと小さなデータセットサイズの組み合わせで二次最適化が一次最適化を上回ることを発見。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #PEFT(Adaptor/LoRA) #read-later Issue Date: 2024-11-09 LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv'24 GPT Summary- ファインチューニング手法の違いが事前学習済みモデルに与える影響を、重み行列のスペクトル特性を通じて分析。LoRAと完全なファインチューニングは異なる構造の重み行列を生成し、LoRAモデルは新たな高ランクの特異ベクトル（侵入次元）を持つことが判明。侵入次元は一般化能力を低下させるが、同等の性能を達成することがある。これにより、異なるファインチューニング手法がパラメータ空間の異なる部分にアクセスしていることが示唆される。 Comment

元ポスト:

Loading…

#Pocket #NLP #SSM (StateSpaceModel) #ICML Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, ICML'24 GPT Summary- SSM（状態空間モデル）は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment

#Pocket #NLP #LanguageModel #In-ContextLearning #ICLR Issue Date: 2023-09-01 CausalLM is not optimal for in-context learning, Nan Ding+, N_A, ICLR'24 GPT Summary- 最近の研究では、トランスフォーマーベースのインコンテキスト学習において、プレフィックス言語モデル（prefixLM）が因果言語モデル（causalLM）よりも優れたパフォーマンスを示すことがわかっています。本研究では、理論的なアプローチを用いて、prefixLMとcausalLMの収束挙動を分析しました。その結果、prefixLMは線形回帰の最適解に収束する一方、causalLMの収束ダイナミクスはオンライン勾配降下アルゴリズムに従い、最適であるとは限らないことがわかりました。さらに、合成実験と実際のタスクにおいても、causalLMがprefixLMよりも性能が劣ることが確認されました。 Comment

参考:

Loading…

#NLP #LanguageModel #Prompting #In-ContextLearning #TACL #ContextEngineering Issue Date: 2023-07-11 Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N_A, TACL'24 GPT Summary- 最近の言語モデルは、長い文脈を入力として受け取ることができますが、その長い文脈をどれだけうまく利用しているかについてはまだよくわかっていません。この研究では、マルチドキュメントの質問応答とキー・バリューの検索という2つのタスクにおいて、言語モデルのパフォーマンスを分析しました。その結果、関連情報が入力文脈の始まりや終わりにある場合、パフォーマンスが最も高くなることがわかりましたが、長い文脈の中で関連情報にアクセスする必要がある場合、パフォーマンスが著しく低下します。さらに、入力文脈が長くなるにつれて、明示的に長い文脈を扱うモデルでもパフォーマンスが大幅に低下します。この分析は、言語モデルが入力文脈をどのように利用しているかをより良く理解するためのものであり、将来の長い文脈モデルのための新しい評価プロトコルを提供します。 Comment

元ツイート

Loading…

非常に重要な知見がまとめられている

SNLP'24での解説スライド:
https://speakerdeck.com/kichi/snlp2024

#NeuralNetwork #Pocket #PMLR Issue Date: 2025-08-28 [Paper Note] Feature Learning in Infinite-Width Neural Networks, Greg Yang+, PMLR'21 GPT Summary- 無限幅の深層ニューラルネットワークにおいて、標準およびNTKパラメータ化は特徴学習を可能にする限界を持たないことを示し、これを克服するための修正を提案。Tensor Programs技術を用いて限界の明示的な式を導出し、Word2VecやMAMLを用いた少数ショット学習でこれらの限界を計算。提案手法はNTKベースラインや有限幅ネットワークを上回る性能を示し、特徴学習を許可するパラメータ化の空間を分類。 #NeuralNetwork #Pocket #ReinforcementLearning #AAAI #Selected Papers/Blogs #Reproducibility #One-Line Notes Issue Date: 2025-10-22 [Paper Note] Deep Reinforcement Learning that Matters, Peter Henderson+, AAAI'18, 2017.09 GPT Summary- 深層強化学習（RL）の進展を持続させるためには、既存研究の再現性と新手法の改善を正確に評価することが重要である。しかし、非決定性や手法のばらつきにより、結果の解釈が難しくなることがある。本論文では、再現性や実験報告の課題を調査し、一般的なベースラインとの比較における指標のばらつきを示す。さらに、深層RLの結果を再現可能にするためのガイドラインを提案し、無駄な努力を最小限に抑えることで分野の進展を促進することを目指す。 Comment

日本語解説: https://www.slideshare.net/slideshow/dldeep-reinforcement-learning-that-matters-83905622/83905622

#NeuralNetwork #ComputerVision #Pocket #Batch Issue Date: 2025-07-12 [Paper Note] Revisiting Small Batch Training for Deep Neural Networks, Dominic Masters+, arXiv'18 GPT Summary- ミニバッチサイズが深層ニューラルネットワークのトレーニング性能に与える影響を実験的に比較。大きなミニバッチは計算の並列性を向上させるが、小さなミニバッチは一般化性能を高め、安定したトレーニングを実現。最良の性能はミニバッチサイズ$m = 2$から$m = 32$の範囲で得られ、数千のミニバッチサイズを推奨する研究とは対照的。 Comment

#Article #NLP #ReinforcementLearning #Repository #Mathematics #Scaling Laws #read-later #reading #One-Line Notes Issue Date: 2025-10-11 RL Scaling Laws for Mathematical Reasoning, Joan Cabezas, 2025.10 Comment

元ポスト:

Loading…

AI2のResearcherからの所見:

Loading…

元の話とこの辺をしっかり読み解いたらとても勉強になりそうな予感👀

RLのScaling Lawsに関する研究がでました:
- [Paper Note] The Art of Scaling Reinforcement Learning Compute for LLMs, Devvrit Khatri+, arXiv'25, 2025.10

#Article #NLP #LanguageModel #ReinforcementLearning #AIAgents #Blog #Selected Papers/Blogs #Stability #train-inference-gap Issue Date: 2025-09-27 When Speed Kills Stability: Demystifying RL Collapse from the Training-Inference Mismatch, Liu+, 2025.09 Comment

元ポスト:

Loading…

FP16にするとtrain-inferenae gapが非常に小さくなるという報告:
- [Paper Note] Defeating the Training-Inference Mismatch via FP16, Penghui Qi+, arXiv'25, 2025.10

A100でvLLMをバックボーンにした時のdisable_cascade_attnの設定値による挙動の違い:

Loading…

#Article #Pocket #DiffusionModel Issue Date: 2025-09-05 Speed-Accuracy Relations for Diffusion Models: Wisdom from Nonequilibrium Thermodynamics and Optimal Transport, Ikeda+, Physical Review X, 2025 #Article #Transformer #Blog Issue Date: 2023-10-29 大規模言語モデルにおいて､「知識は全結合層に蓄積される」という仮説についての文献調査 Comment

Tutorial (24)

#Pocket #NLP #LanguageModel #PostTraining
Issue Date: 2025-10-17 [Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning
Issue Date: 2024-12-10 Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24 GPT Summary- この原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 Comment

あのMurphy本で有名なMurphy氏の強化学習の教科書…だと…

#Pocket #MultitaskLearning
Issue Date: 2018-02-05 [Paper Note] An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, arXiv'17 GPT Summary- マルチタスク学習（MTL）の深層ニューラルネットワークにおける概要を提供し、一般的な手法や文献を紹介。MTLの機能を明らかにし、補助タスク選択のガイドラインを示すことで、実務者のMTL適用を支援することを目指す。

#NeuralNetwork #Pocket #NLP #Optimizer Issue Date: 2025-08-02 [Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 GPT Summary- 勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment

元ポスト:

Loading…

勉強用にメモ

#NeuralNetwork #Slide #ICML Issue Date: 2018-02-22 Tutorial: Deep Reinforcement Learning, David Silver, ICML'16 #Pocket Issue Date: 2018-02-05 [Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 GPT Summary- 勾配降下最適化アルゴリズムの理解を深めるため、さまざまなバリエーションや課題を要約し、一般的なアルゴリズムを紹介。並列・分散設定のアーキテクチャや最適化戦略も検討。 #Article #ComputerVision #DiffusionModel #read-later #ScoreMatching Issue Date: 2025-10-20 Generative Modeling by Estimating Gradients of the Data Distribution, Yang Song, 2021.05 Comment

元ポスト:

Loading…

#Article #ReinforcementLearning #One-Line Notes #ReplayBuffer Issue Date: 2025-10-04 Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03 Comment

#Article #read-later #FlowMatching Issue Date: 2025-09-15 Flow Matching in 5 Minutes, wh., 2025.07 Comment

元ポスト:

Loading…

#Article #ComputerVision #Video #read-later Issue Date: 2025-09-04 【論文解説】高速・高品質な生成を実現するFlow Map Models（Part 1: 概要編）, Masato Ishii （Sony AI）, 2025.09 #Article #Pretraining #NLP #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #Self-SupervisedLearning Issue Date: 2023-04-26 A Cookbook of Self-Supervised Learning, 2023 Comment

MetaによるSelf Supervised Learningの教科書

#Article #NeuralNetwork Issue Date: 2023-01-21 tuning_playbook, Google Research Comment

Googleが公開したDeep Learningモデル学習のノウハウ。必読

日本語訳
https://github.com/Valkyrja3607/tuning_playbook_ja

#Article #Slide Issue Date: 2022-02-07 NeurIPS 2021 技術報告会, 株式会社TDAI Lab, 2022 Comment

#Article #Pocket #Infrastructure Issue Date: 2021-10-19 Hidden Technical Debt in Machine Learning Systems, Sculley+, Google Comment

よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ、の図

#Article #Pocket Issue Date: 2021-10-16 実臨床・Webサービス領域での機械学習研究開発の標準化 Comment

#Article #Slide #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Comment

k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。

yahooのNGTといった実装も転がっている（Apache-2.0 License）：

https://techblog.yahoo.co.jp/data_solution/ngtpython/

ScaNNという手法もあるらしい（SoTA）
https://ai-scholar.tech/articles/vector-search/scann

#Article #Blog Issue Date: 2020-01-16 Key trends from NeurIPS 2019, Chip Huyen, 2019 #Article #NeuralNetwork #NLP Issue Date: 2018-06-29 The Annotated Transformer, harvardnlp, 2018.04 #Article #NeuralNetwork #NLP #Slide Issue Date: 2018-02-19 ニューラルネット勉強会（LSTM編）, Seitaro Shinagawa, 2016 Comment

LSTMの基礎から、実装する上でのTipsがまとまっている。

zero padding, dropoutのかけかた、normalizationの手法など。

#Article #Slide #CurriculumLearning Issue Date: 2018-02-12 Curriculum Learning（関東CV勉強会）, Yoshitaka Ushiku, 2015.05 Comment

牛久先生によるCurriculum Learningチュートリアル

#Article #OnlineLearning Issue Date: 2017-12-31 オンライン学習 Comment

#Article #UserModeling #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Machine Learning for User Modeling, User modeling and User-adapted Interaction, [Webb+, 2001], 2001.03 Comment

Supervised-FineTuning (SFT) (20)

#Analysis #EfficiencyImprovement #Pocket #NLP #LanguageModel #ReinforcementLearning #SmallModel #NeurIPS #PostTraining #On-Policy
Issue Date: 2025-09-19 [Paper Note] BREAD: Branched Rollouts from Expert Anchors Bridge SFT & RL for Reasoning, Xuechen Zhang+, NeurIPS'25 GPT Summary- 小型言語モデル（SLMs）は、トレースが不足している場合に複雑な推論を学ぶのが難しい。本研究では、SFT + RLの限界を調査し、BREADという新しい手法を提案。BREADは、専門家のガイダンスを用いてSFTとRLを統合し、失敗したトレースに対して短いヒントを挿入することで成功を促進。これにより、トレーニングが約3倍速くなり、標準的なGRPOを上回る性能を示す。BREADは、SLMの推論能力を大幅に向上させることが確認された。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #PostTraining #read-later
Issue Date: 2025-06-13 [Paper Note] Resa: Transparent Reasoning Models via SAEs, Shangshang Wang+, arXiv'25 GPT Summary- Resaという1.5Bの推論モデル群を提案し、効率的なスパースオートエンコーダーチューニング（SAE-Tuning）手法を用いて訓練。これにより、97%以上の推論性能を保持しつつ、訓練コストを2000倍以上削減し、訓練時間を450倍以上短縮。軽いRL訓練を施したモデルで高い推論性能を実現し、抽出された推論能力は一般化可能かつモジュール化可能であることが示された。全ての成果物はオープンソース。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

論文中で利用されているSource Modelの一つ:
- [Paper Note] Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv'25

#ComputerVision #Analysis #Pocket #NLP #LanguageModel #ReinforcementLearning #ICML #PostTraining #read-later #Selected Papers/Blogs
Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, ICML'25 GPT Summary- SFTとRLの一般化能力の違いを研究し、GeneralPointsとV-IRLを用いて評価。RLはルールベースのテキストと視覚変種に対して優れた一般化を示す一方、SFTは訓練データを記憶し分布外シナリオに苦労。RLは視覚認識能力を向上させるが、SFTはRL訓練に不可欠であり、出力形式を安定させることで性能向上を促進。これらの結果は、複雑なマルチモーダルタスクにおけるRLの一般化能力を示す。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=dYur3yabMj&referrer=%5Bthe%20profile%20of%20Yi%20Ma%5D(%2Fprofile%3Fid%3D~Yi_Ma4)

#ComputerVision #Pocket #InstructionTuning #PEFT(Adaptor/LoRA) #Catastrophic Forgetting Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv'24 GPT Summary- 破滅的忘却に対処するため、タスクフリーのオンライン継続学習（OCL）フレームワークOnline-LoRAを提案。リハーサルバッファの制約を克服し、事前学習済みビジョントランスフォーマー（ViT）モデルをリアルタイムで微調整。新しいオンライン重み正則化戦略を用いて重要なモデルパラメータを特定し、データ分布の変化を自動認識。多様なベンチマークデータセットで優れた性能を示す。 Comment

#Pocket Issue Date: 2024-10-27 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, ICLR'24 GPT Summary- NEFTuneは、埋め込みベクトルにノイズを加えることで言語モデルのファインチューニングを改善する手法です。LLaMA-2-7Bを用いた標準的なファインチューニングでは29.79%の精度でしたが、ノイジーな埋め込みを使用することで64.69%に向上しました。NEFTuneは、Evol-Instruct、ShareGPT、OpenPlatypusなどの指示データセットでも改善をもたらし、RLHFで強化されたLLaMA-2-Chatにも効果があります。 Comment

ランダムノイズをembeddingに加えて学習するシンプルな手法。モデルがロバストになる。

Unsupervised SimCSEと思想が似ている。実質DataAugmentationともみなせる。

#NLP #LanguageModel #PEFT(Adaptor/LoRA) #COLM #PostTraining Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, COLM'24 GPT Summary- 本研究では、大規模言語モデル（LLMs）を新しいタスクに適応させるための低ランク適応（LoRA）を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment

複数のLoRAモジュールは組み合わられるか？element wiseの線型結合で今回はやっているが、その疑問にこたえたのがcontribution

OpenReview: https://openreview.net/forum?id=TrloAXEJ2B

#Pretraining #Pocket #NLP #LanguageModel #MoE(Mixture-of-Experts) #PostTraining Issue Date: 2024-11-25 Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR'23 GPT Summary- スパース活性化モデルは、計算コストを抑えつつ密なモデルの代替として注目されているが、依然として多くのデータを必要とし、ゼロからのトレーニングは高コストである。本研究では、密なチェックポイントからスパース活性化Mixture-of-Expertsモデルを初期化する「スパースアップサイクリング」を提案。これにより、初期の密な事前トレーニングのコストを約50%再利用し、SuperGLUEやImageNetで密なモデルを大幅に上回る性能を示した。また、アップサイクリングされたモデルは、ゼロからトレーニングされたスパースモデルよりも優れた結果を得た。 Comment

#EfficiencyImprovement #PEFT(Adaptor/LoRA) Issue Date: 2024-01-17 VeRA: Vector-based Random Matrix Adaptation, Dawid J. Kopiczko+, N_A, arXiv'23 GPT Summary- 本研究では、大規模な言語モデルのfine-tuningにおいて、訓練可能なパラメータの数を削減するための新しい手法であるベクトルベースのランダム行列適応（VeRA）を提案する。VeRAは、共有される低ランク行列と小さなスケーリングベクトルを使用することで、同じ性能を維持しながらパラメータ数を削減する。GLUEやE2Eのベンチマーク、画像分類タスクでの効果を示し、言語モデルのインストラクションチューニングにも応用できることを示す。 #NLP #LanguageModel Issue Date: 2023-10-26 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, arXiv'23 GPT Summary- 私たちは、言語モデルのファインチューニングを改善するために、ノイズを加えた埋め込みベクトルを使用する手法を提案します。この手法は、AlpacaEvalやEvol-Instructなどのデータセットで強力なベースラインを上回る性能を示しました。また、RLHFでトレーニングされたモデルにも適用可能です。 Comment

Alpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。

HuggingFaceのTRLでサポートされている

https://huggingface.co/docs/trl/sft_trainer

#EfficiencyImprovement #Pocket #NLP #Dataset #QuestionAnswering #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

#NLP #LanguageModel #Transformer #DataAugmentation #DataGeneration Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

#EfficiencyImprovement #Pocket #Quantization #PEFT(Adaptor/LoRA) #NeurIPS #PostTraining #Selected Papers/Blogs Issue Date: 2023-07-22 QLoRA: Efficient Finetuning of Quantized LLMs, Tim Dettmers+, N_A, NeurIPS'23 GPT Summary- 私たちは、QLoRAという効率的なファインチューニング手法を提案します。この手法は、メモリ使用量を削減し、48GBの単一のGPU上で65Bパラメータモデルをファインチューニングすることができます。また、16ビットのファインチューニングタスクのパフォーマンスを維持します。QLoRAは、凍結された4ビット量子化された事前学習済み言語モデルの勾配をLow Rank Adapters（LoRA）に逆伝播させます。私たちの最良のモデルファミリーであるGuanacoは、Vicunaベンチマークで以前に公開されたすべてのモデルを上回り、ChatGPTのパフォーマンスレベルの99.3%に達します。また、単一のGPU上でのファインチューニングには24時間しかかかりません。QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するためのいくつかの革新を導入しています。具体的には、4ビットNormalFloat（NF4）という情報理論的に最適な新しいデータ型、ダブル量子化による平均メモリフットプリントの削減、およびページドオプティマイザによるメモリスパイクの管理です。私たちはQLoRAを使用して1,000以上のモデルをファインチューニングし、8つの命令データセット、複数のモデルタイプ（LLaMA、T5）、および従来のファインチューニングでは実行不可能なモデルスケール（33Bおよび65Bパラメータモデル）にわたる命令の追跡とチャットボットのパフォーマンスの詳細な分析を提供します。私たちの結果は、QLoRAを使用して小規模な高品質のデータセットでのファインチューニングが、以前のSoTAよりも小さいモデルを使用しても最先端の結果をもたらすことを示しています。また、人間の評価とGPT-4の評価に基づいたチャットボットのパフォーマンスの詳細な分析を提供し、GPT-4の評価が安価で合理的な人間の評価の代替手段であることを示します。さらに、現在のチャットボットのベンチマークは、チャットボットのパフォーマンスレベルを正確に評価するためには信頼性がないことがわかります。GuanacoがChatGPTと比較してどこで失敗するかを示す分析も行っています。私たちは、4ビットトレーニングのためのCUDAカーネルを含む、すべてのモデルとコードを公開しています。 Comment

実装: https://github.com/artidoro/qlora
PEFTにもある

参考:

Loading…

OpenReview: https://openreview.net/forum?id=OUIFPHEgJU&referrer=%5Bthe%20profile%20of%20Ari%20Holtzman%5D(%2Fprofile%3Fid%3D~Ari_Holtzman1)

#NLP #LanguageModel #Evaluation Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #EfficiencyImprovement #LanguageModel Issue Date: 2023-06-26 Full Parameter Fine-tuning for Large Language Models with Limited Resources, Kai Lv+, N_A, arXiv'23 GPT Summary- LLMsのトレーニングには膨大なGPUリソースが必要であり、既存のアプローチは限られたリソースでの全パラメーターの調整に対処していない。本研究では、LOMOという新しい最適化手法を提案し、メモリ使用量を削減することで、8つのRTX 3090を搭載した単一のマシンで65Bモデルの全パラメーターファインチューニングが可能になる。 Comment

#Pocket #NLP #LanguageModel #ReinforcementLearning #NeurIPS Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS'23 GPT Summary- 本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Comment

なぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究

#NeuralNetwork #ComputerVision #Pocket #CLIP #ICLR #OOD Issue Date: 2023-05-15 Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, Ananya Kumar+, N_A, ICLR'22 GPT Summary- 事前学習済みモデルをダウンストリームタスクに転移する際、ファインチューニングと線形プロービングの2つの方法があるが、本研究では、分布のシフトが大きい場合、ファインチューニングが線形プロービングよりも分布外で精度が低くなることを発見した。LP-FTという2段階戦略の線形プロービング後の全体のファインチューニングが、両方のデータセットでファインチューニングと線形プロービングを上回ることを示唆している。 Comment

#Article #Blog #PEFT(Adaptor/LoRA) #SoftwareEngineering #KeyPoint Notes Issue Date: 2025-10-06 Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10 Comment

#Article #Pretraining #LanguageModel Issue Date: 2025-03-04 The Ultra-Scale Playbook: Training LLMs on GPU Clusters, HuggingFace, 2025.02 Comment

HuggingFaceによる数1000のGPUを用いたAIモデルのトレーニングに関するオープンソースのテキスト

#Article #Tools #LanguageModel #Blog #Repository Issue Date: 2023-07-11 Auto train advanced Comment

Hugging Face Hub上の任意のLLMに対して、localのカスタムトレーニングデータを使ってfinetuningがワンラインでできる。
peftも使える。

#Article #Tools #LanguageModel #FoundationModel Issue Date: 2023-06-26 LM Flow Comment

Loading…

Dataset (10)

#Pocket #NLP #TabularData #Evaluation #Selected Papers/Blogs #Live #One-Line Notes
Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#Analysis #Pocket #ICLR #Robotics #EmbodiedAI
Issue Date: 2025-07-19 [Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

#Survey #Pocket #Distillation
Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23 GPT Summary- データセット蒸留（DD）は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。 Comment

訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #AutoML Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#EfficiencyImprovement #Pocket #NLP #QuestionAnswering #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

#Pocket #NLP #ReinforcementLearning #Evaluation #EmbodiedAI #text Issue Date: 2025-10-26 [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#Pocket #NLP #ReinforcementLearning #Evaluation #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

#Article #NeuralNetwork #Pocket #Transformer #AIAgents #Evaluation #SoftwareEngineering #GPUKernel Issue Date: 2025-10-22 FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #TimeSeriesDataProcessing #Evaluation Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #SpeechProcessing Issue Date: 2023-08-16 CommonVoice Comment

音声対応のアプリケーションをトレーニングするために誰でも使用できるオープンソースの多言語音声データセット

Evaluation (8)

#Pocket #NLP #Dataset #TabularData #Selected Papers/Blogs #Live #One-Line Notes
Issue Date: 2025-11-14 [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- TabArenaは、表形式データのための初の生きたベンチマークシステムであり、継続的に更新されることを目的としています。手動でキュレーションされたデータセットとモデルを用いて、公開リーダーボードを初期化しました。結果は、モデルのベンチマークにおける検証方法やハイパーパラメータ設定の影響を示し、勾配ブースティング木が依然として強力である一方、深層学習手法もアンサンブルを用いることで追いついてきていることを観察しました。また、基盤モデルは小規模データセットで優れた性能を発揮し、モデル間のアンサンブルが表形式機械学習の進展に寄与することを示しました。TabArenaは、再現可能なコードとメンテナンスプロトコルを提供し、https://tabarena.ai で利用可能です。 Comment

pj page: https://github.com/autogluon/tabarena
leaderboard: https://huggingface.co/spaces/TabArena/leaderboard

openreview: https://openreview.net/forum?id=jZqCqpCLdU

#Analysis #Pocket #NLP #LanguageModel #NeurIPS #read-later #Selected Papers/Blogs
Issue Date: 2025-09-19 [Paper Note] The Leaderboard Illusion, Shivalika Singh+, NeurIPS'25 GPT Summary- 進捗測定は科学の進展に不可欠であり、Chatbot ArenaはAIシステムのランキングにおいて重要な役割を果たしている。しかし、非公開のテスト慣行が存在し、特定のプロバイダーが有利になることで、スコアにバイアスが生じることが明らかになった。特に、MetaのLlama-4に関連するプライベートLLMバリアントが問題視され、データアクセスの非対称性が生じている。GoogleやOpenAIはArenaデータの大部分を占め、オープンウェイトモデルは少ないデータしか受け取っていない。これにより、Arena特有のダイナミクスへの過剰適合が発生している。研究は、Chatbot Arenaの評価フレームワークの改革と、公正で透明性のあるベンチマーキングの促進に向けた提言を行っている。 Comment

元ポスト:

Loading…

要チェック

#Pocket #NLP #Dataset #LanguageModel #AIAgents #AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL'23 GPT Summary- 事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #Pocket #NLP #Dataset #ReinforcementLearning #EmbodiedAI #text Issue Date: 2025-10-26 [Paper Note] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning, Mohit Shridhar+, ICLR'21, 2020.10 GPT Summary- ALFWorldは、エージェントが抽象的なテキストポリシーを学び、視覚環境で具体的な目標を実行できるシミュレーターである。これにより、視覚的環境での訓練よりもエージェントの一般化が向上し、問題を分解して各部分の改善に集中できる設計を提供する。 Comment

openreview: https://openreview.net/forum?id=0IOX0YcCdTn

pj page: https://alfworld.github.io

#Pocket #NLP #Dataset #ReinforcementLearning #IJCAI #Workshop #Game #text Issue Date: 2025-10-26 [Paper Note] TextWorld: A Learning Environment for Text-based Games, Marc-Alexandre Côté+, Workshop on Computer Games'18 Held in Conjunction with IJCAI'18, 2018.06 GPT Summary- TextWorldは、テキストベースのゲームにおける強化学習エージェントのトレーニングと評価のためのサンドボックス環境であり、ゲームのインタラクティブなプレイを処理するPythonライブラリを提供します。ユーザーは新しいゲームを手作りまたは自動生成でき、生成メカニズムによりゲームの難易度や言語を制御可能です。TextWorldは一般化や転移学習の研究にも利用され、ベンチマークゲームのセットを開発し、いくつかのベースラインエージェントを評価します。 Comment

リポジトリ: https://github.com/microsoft/TextWorld

#Article #NeuralNetwork #Pocket #Dataset #Transformer #AIAgents #SoftwareEngineering #GPUKernel Issue Date: 2025-10-22 FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #TimeSeriesDataProcessing #Dataset Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

TimeSeriesDataProcessing (6)

#Pocket #CIKM
Issue Date: 2017-12-31 [Paper Note] Derivative Delay Embedding: Online Modeling of Streaming Time Series, Zhifei Zhang+, N_A, CIKM'16 Comment

スライド： https://www.slideshare.net/akihikowatanabe3110/brief-survey-of-datatotext-systems

（管理人が作成した過去のスライドより）

#NeuralNetwork #Financial
Issue Date: 2017-12-31 [Paper Note] Recurrent neural network and a hybrid model for prediction of stock returns, Akhter+, Expert Systems with Applications'15, 2015.04 Comment

Stock returnのpredictionタスクに対してNNを適用。

AR-MRNNモデルをRNNに適用、高い性能を示している。 moving referenceをsubtractした値をinput-outputに用いることで、normalizationやdetrending等の前処理が不要となり、regularizationの役割を果たすため汎化能力が向上する。

※ AR-MRN: NNNのinput-outputとして、生のreturn値を用いるのではなく、ある時刻におけるreturnをsubtractした値(moving reference)を用いるモデル ([Paper Note] Prediction-based portfolio optimization model using neural networks, Freitas+, Neurocomputing'09, 2009.06 で提案)

#NeuralNetwork #Financial
Issue Date: 2017-12-31 [Paper Note] Prediction-based portfolio optimization model using neural networks, Freitas+, Neurocomputing'09, 2009.06 Comment

Stock returnのpredictionタスクに対してNNを適用。

NNのinput-outputとして、生のreturn値を用いるのではなく、ある時刻におけるreturnをsubtractした値(moving reference)を用いる、AR-MRNNモデルを提案。

#Article #Transformer #FoundationModel #OpenWeight Issue Date: 2025-05-25 Datadog_Toto-Open-Base-1.0, Datadog, 2025.05 Comment

元ポスト:

Loading…

（あとでコメント追記する

#Article #Dataset #Evaluation Issue Date: 2025-05-25 Datadog_BOOM, Datadog, 2025.05 Comment

元ポスト:

Loading…

#Article #LanguageModel #Transformer Issue Date: 2022-12-29 Are Transformers Effective for Time Series Forecasting? Comment

Linear Layerに基づくシンプルな手法がTransformerベースの手法に時系列予測で勝ったという話

Survey (5)

#Pocket #Dataset #Distillation
Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23 GPT Summary- データセット蒸留（DD）は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。 Comment

訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。

#NeuralNetwork #Pocket
Issue Date: 2021-06-19 Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better, Menghani, ACM Computing Surveys'23 GPT Summary- ディープラーニングの進展に伴い、モデルのパラメータ数やリソース要求が増加しているため、効率性が重要になっている。本研究では、モデル効率性の5つのコア領域を調査し、実務者向けに最適化ガイドとコードを提供する。これにより、効率的なディープラーニングの全体像を示し、読者に改善の手助けとさらなる研究のアイデアを提供することを目指す。 Comment

学習効率化、高速化などのテクニックがまとまっているらしい

Issue Date: 2023-08-24 Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges, Cynthia Rudin+, N_A, arXiv'21 GPT Summary- 本研究では、解釈可能な機械学習（ML）の基本原則とその重要性について説明し、解釈可能なMLの10の技術的な課題を特定します。これには、疎な論理モデルの最適化、スコアリングシステムの最適化、一般化加法モデルへの制約の配置などが含まれます。また、ニューラルネットワークや因果推論のためのマッチング、データ可視化のための次元削減なども取り上げられます。この調査は、解釈可能なMLに興味のある統計学者やコンピュータサイエンティストにとっての出発点となるでしょう。

#Article #ComputerVision #NLP Issue Date: 2023-11-22 ML Papers Explained Comment

#Article #NLP #Blog Issue Date: 2020-01-13 10 ML & NLP Research Highlights of 2019, Sebastian Ruder, 2020

Library (4)

#Article #NLP #LanguageModel #ReinforcementLearning #python #Reasoning
Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 GPT Summary- Open-Reasoner-Zeroは、推論指向の強化学習のオープンソース実装で、スケーラビリティとアクセスのしやすさに重点を置いています。AGI研究の促進を目指し、ソースコードやトレーニングデータを公開しています。 Comment

元ポスト:

Loading…

#Article #Repository #API
Issue Date: 2024-08-25 LitServe, 2024.04 Comment

Loading…

画像は元ツイートより引用

#Article #ComputerVision #NLP #Explanation #Transformer #Blog
Issue Date: 2022-12-01 Transformers Interpret, 2022 Comment

#Article #Embeddings #Tools #KnowledgeGraph #Repository Issue Date: 2021-06-10 OpenKE, 2021 Comment

Wikipedia, Freebase等のデータからKnowledge Embeddingを学習できるオープンソースのライブラリ

FoundationModel (3)

#NeuralNetwork #Pocket #NLP #TabularData
Issue Date: 2025-11-14 [Paper Note] TabPFN-2.5: Advancing the State of the Art in Tabular Foundation Models, Léo Grinsztajn+, arXiv'25, 2025.11 GPT Summary- 次世代の表形式基盤モデルTabPFN-2.5は、最大50,000のデータポイントと2,000の特徴量を持つデータセット向けに設計され、TabPFNv2と比較してデータセルが20倍増加。業界標準のTabArenaで主要な手法となり、以前のモデルを上回る精度を達成。小規模から中規模のデータセットに対して100%の勝率を持ち、大規模データセットでも高い勝率を誇る。商用ユース向けに新しい蒸留エンジンを導入し、低レイテンシーでの展開を実現。これにより、TabPFNエコシステムに基づくアプリケーションのパフォーマンスが向上する。 Comment

TabArenaの2025.11時点でのSoTA
- [Paper Note] TabArena: A Living Benchmark for Machine Learning on Tabular Data, Nick Erickson+, NeurIPS'25 Spotlight, 2025.06

元ポスト:

Loading…

#Article #TimeSeriesDataProcessing #Transformer #OpenWeight
Issue Date: 2025-05-25 Datadog_Toto-Open-Base-1.0, Datadog, 2025.05 Comment

元ポスト:

Loading…

（あとでコメント追記する

#Article #Tools #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2023-06-26 LM Flow Comment

Loading…

Alignment (3)

#Analysis #Pocket #NLP #LanguageModel #Hallucination #ICLR #DPO #Repetition
Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR'25 GPT Summary- 本研究では、大規模言語モデルのファインチューニング中の学習ダイナミクスを分析し、異なる応答間の影響の蓄積を段階的に解明します。指示調整と好み調整のアルゴリズムに関する観察を統一的に解釈し、ファインチューニング後の幻覚強化の理由を仮説的に説明します。また、オフポリシー直接好み最適化（DPO）における「圧縮効果」を強調し、望ましい出力の可能性が低下する現象を探ります。このフレームワークは、LLMのファインチューニング理解に新たな視点を提供し、アラインメント性能向上のためのシンプルな方法を示唆します。 Comment

元ポスト:

Loading…

解説ポスト:

Loading…

#Pocket #NLP #LanguageModel #ICML #PostTraining
Issue Date: 2024-10-27 KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N_A, ICML'24 GPT Summary- プロスペクト理論に基づき、LLMの人間フィードバック調整におけるバイアスの影響を示す。新たに提案する「人間認識損失」（HALOs）を用いたアプローチKTOは、生成物の効用を最大化し、好みベースの方法と同等またはそれ以上の性能を発揮。研究は、最適な損失関数が特定の設定に依存することを示唆。 Comment

binaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文

#Article #NLP #LanguageModel #RLHF #Blog #DPO
Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Comment

めちゃめちゃ勉強になる…

RepresentationLearning (2)

#Embeddings #Pocket
Issue Date: 2025-07-16 [Paper Note] Learning distributed representations with efficient SoftMax normalization, Lorenzo Dall'Amico+, TMLR'25 GPT Summary- 埋め込みを学習するための損失関数として${\rm SoftMax}(XY^T)$を最適化する際の計算負荷を軽減するため、ノルム制限された埋め込みベクトルに対して線形時間のヒューリスティック近似を提案。提案手法は、事前学習されたデータセットで高い精度を示し、クロスエントロピーを最適化する効率的なアルゴリズムを設計。これにより、解釈可能でタスクに依存しない埋め込み学習が可能となり、類似の「2Vec」アルゴリズムと比較して優れた性能と低い計算時間を実現。 Comment

openreview: https://openreview.net/forum?id=9M4NKMZOPu

#RecommenderSystems #NeuralNetwork #General #Embeddings #AAAI #Selected Papers/Blogs
Issue Date: 2017-12-28 [Paper Note] StarSpace: Embed All The Things, Wu+, AAAI'18 Comment

解説：

https://www.slideshare.net/akihikowatanabe3110/starspace-embed-all-the-things

DomainAdaptation (2)

#UserModeling #EMNLP
Issue Date: 2017-12-31 [Paper Note] Human Centered NLP with User-Factor Adaptation, Lynn+, EMNLP'17 Comment

[Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 Frustratingly easy domain adaptationをPersonalization用に拡張している。

Frustratingly easy domain adaptationでは、domain adaptationを行うときに、discreteなクラスに分けてfeature vectorを作る（age>28など）が、Personalizationを行う際は、このようなdiscreteな表現よりも、continousな表現の方が表現力が高いので良い（feature vectorとそのままのageを使いベクトルをcompositionするなど）。

psychologyの分野だと、人間のfactorをdiscreteに表現して、ある人物を表現することはnoisyだと知られているので、continuousなユーザfactorを使って、domain adaptationしましたという話。

やってることは単純で、feature vectorを作る際に、各クラスごとにfeature vectorをコピーして、feature augmentationするのではなく、continuousなuser factorとの積をとった値でfeature augmentationするというだけ。

これをするだけで、Sentiment analysis, sarcasm detection, PP-attachmentなどのタスクにおいて、F1スコアで1〜3ポイント程度のgainを得ている。特に、sarcasm detectionではgainが顕著。

pos tagging, stance detection(against, neutral, forなどの同定)では効果がなく、stance detectionではそもそもdiscrete adaptationの方が良い結果。

正直、もっと色々やり方はある気がするし、user embeddingを作り際などは5次元程度でしか作ってないので、これでいいのかなぁという気はする・・・。

user factorの次元数増やすと、その分feature vectorのサイズも大きくなるから、あまり次元数を増やしたりもできないのかもしれない。

#NLP #ACL #Selected Papers/Blogs
Issue Date: 2017-12-31 [Paper Note] Frustratingly easy domain adaptation, Daum'e, ACL'07 Comment

DataAugmentation (2)

#NLP #LanguageModel #Transformer #Supervised-FineTuning (SFT) #DataGeneration
Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

#MultiModal
Issue Date: 2023-04-26 Learning Multimodal Data Augmentation in Feature Space, ICLR'23 GPT Summary- マルチモーダルデータの共同学習能力は、インテリジェントシステムの特徴であるが、データ拡張の成功は単一モーダルのタスクに限定されている。本研究では、LeMDAという方法を提案し、モダリティのアイデンティティや関係に制約を設けずにマルチモーダルデータを共同拡張することができることを示した。LeMDAはマルチモーダルディープラーニングの性能を向上させ、幅広いアプリケーションで最先端の結果を達成することができる。 Comment

Data Augmentationは基本的に単体のモダリティに閉じて行われるが、

マルチモーダルな設定において、モダリティ同士がどう関係しているか、どの変換を利用すべきかわからない時に、どのようにデータ全体のsemantic structureを維持しながら、Data Augmentationできるか？という話らしい

NeuralArchitectureSearch (2)

#NeuralNetwork #Pocket #NLP #ICLR
Issue Date: 2025-09-27 [Paper Note] STAR: Synthesis of Tailored Architectures, Armin W. Thomas+, ICLR'25, 2024.11 GPT Summary- 新しいアプローチ（STAR）を提案し、特化したアーキテクチャの合成を行う。線形入力変動システムに基づく探索空間を用い、アーキテクチャのゲノムを階層的にエンコード。進化的アルゴリズムでモデルの品質と効率を最適化し、自己回帰型言語モデリングにおいて従来のモデルを上回る性能を達成。 Comment

openreview: https://openreview.net/forum?id=HsHxSN23rM

#NeuralNetwork #LanguageModel
Issue Date: 2023-04-27 Can GPT-4 Perform Neural Architecture Search? Zhang+, The University of Sydney, arXiv'23 Comment

Quantization (2)

#NLP #LanguageModel #ICLR
Issue Date: 2023-09-29 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N_A, ICLR'23 GPT Summary- 本研究では、GPTモデルの推論における計算およびストレージコストの問題に取り組み、新しいワンショット重み量子化手法であるGPTQを提案します。GPTQは高い精度と効率性を持ち、1750億のパラメータを持つGPTモデルを4時間のGPU時間で量子化することができます。提案手法は従来の手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。さらに、提案手法は極端な量子化領域でも合理的な精度を提供します。実験結果では、提案手法を使用することでエンドツーエンドの推論速度が約3.25倍から4.5倍向上することが示されています。提案手法の実装はhttps://github.com/IST-DASLab/gptqで利用可能です。 Comment

#EfficiencyImprovement #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #NeurIPS #PostTraining #Selected Papers/Blogs
Issue Date: 2023-07-22 QLoRA: Efficient Finetuning of Quantized LLMs, Tim Dettmers+, N_A, NeurIPS'23 GPT Summary- 私たちは、QLoRAという効率的なファインチューニング手法を提案します。この手法は、メモリ使用量を削減し、48GBの単一のGPU上で65Bパラメータモデルをファインチューニングすることができます。また、16ビットのファインチューニングタスクのパフォーマンスを維持します。QLoRAは、凍結された4ビット量子化された事前学習済み言語モデルの勾配をLow Rank Adapters（LoRA）に逆伝播させます。私たちの最良のモデルファミリーであるGuanacoは、Vicunaベンチマークで以前に公開されたすべてのモデルを上回り、ChatGPTのパフォーマンスレベルの99.3%に達します。また、単一のGPU上でのファインチューニングには24時間しかかかりません。QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するためのいくつかの革新を導入しています。具体的には、4ビットNormalFloat（NF4）という情報理論的に最適な新しいデータ型、ダブル量子化による平均メモリフットプリントの削減、およびページドオプティマイザによるメモリスパイクの管理です。私たちはQLoRAを使用して1,000以上のモデルをファインチューニングし、8つの命令データセット、複数のモデルタイプ（LLaMA、T5）、および従来のファインチューニングでは実行不可能なモデルスケール（33Bおよび65Bパラメータモデル）にわたる命令の追跡とチャットボットのパフォーマンスの詳細な分析を提供します。私たちの結果は、QLoRAを使用して小規模な高品質のデータセットでのファインチューニングが、以前のSoTAよりも小さいモデルを使用しても最先端の結果をもたらすことを示しています。また、人間の評価とGPT-4の評価に基づいたチャットボットのパフォーマンスの詳細な分析を提供し、GPT-4の評価が安価で合理的な人間の評価の代替手段であることを示します。さらに、現在のチャットボットのベンチマークは、チャットボットのパフォーマンスレベルを正確に評価するためには信頼性がないことがわかります。GuanacoがChatGPTと比較してどこで失敗するかを示す分析も行っています。私たちは、4ビットトレーニングのためのCUDAカーネルを含む、すべてのモデルとコードを公開しています。 Comment

実装: https://github.com/artidoro/qlora
PEFTにもある

参考:

Loading…

OpenReview: https://openreview.net/forum?id=OUIFPHEgJU&referrer=%5Bthe%20profile%20of%20Ari%20Holtzman%5D(%2Fprofile%3Fid%3D~Ari_Holtzman1)

AutoML (2)

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Evaluation
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv'23 GPT Summary- 本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 Comment

#Pocket #NLP
Issue Date: 2023-08-10 MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks, Lei Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、機械学習タスクの自動化における人間の知識と機械知能のギャップを埋めるために、新しいフレームワークMLCopilotを提案する。このフレームワークは、最先端のLLMsを使用して新しいMLタスクのソリューションを開発し、既存のMLタスクの経験から学び、効果的に推論して有望な結果を提供することができる。生成されたソリューションは直接使用して競争力のある結果を得ることができる。

AutomaticPromptEngineering (2)

#Pocket #NLP #LanguageModel #ICLR
Issue Date: 2023-09-09 Large Language Models as Optimizers, Chengrun Yang+, N_A, ICLR'24 GPT Summary- 本研究では、最適化タスクを自然言語で記述し、大規模言語モデル（LLMs）を使用して最適化を行う手法「Optimization by PROmpting（OPRO）」を提案しています。この手法では、LLMが以前の解とその値を含むプロンプトから新しい解を生成し、評価して次の最適化ステップのためのプロンプトに追加します。実験結果では、OPROによって最適化された最良のプロンプトが、人間が設計したプロンプトよりも優れていることが示されました。 Comment

openreview: https://openreview.net/forum?id=Bb4VGOWELI

#Pocket #NLP #LanguageModel #Prompting #ICLR
Issue Date: 2023-09-05 Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR'23 GPT Summary- 大規模言語モデル（LLMs）は、自然言語の指示に基づいて一般的な用途のコンピュータとして優れた能力を持っています。しかし、モデルのパフォーマンスは、使用されるプロンプトの品質に大きく依存します。この研究では、自動プロンプトエンジニア（APE）を提案し、LLMによって生成された指示候補のプールから最適な指示を選択するために最適化します。実験結果は、APEが従来のLLMベースラインを上回り、19/24のタスクで人間の生成した指示と同等または優れたパフォーマンスを示しています。APEエンジニアリングされたプロンプトは、モデルの性能を向上させるだけでなく、フューショット学習のパフォーマンスも向上させることができます。詳細は、https://sites.google.com/view/automatic-prompt-engineerをご覧ください。 Comment

プロジェクトサイト: https://sites.google.com/view/automatic-prompt-engineer

openreview: https://openreview.net/forum?id=92gvk82DE-

CollaborativeFiltering (1)

#RecommenderSystems #FactorizationMachines #ICDM #Selected Papers/Blogs
Issue Date: 2018-12-22 [Paper Note] Factorization Machines, Steffen Rendle, ICDM'10 Comment

解説ブログ： http://echizen-tm.hatenablog.com/entry/2016/09/11/024828

DeepFMに関する動向： https://data.gunosy.io/entry/deep-factorization-machines-2018

上記解説ブログの概要が非常に完結でわかりやすい

FactorizationMachines (1)

#RecommenderSystems #CollaborativeFiltering #ICDM #Selected Papers/Blogs
Issue Date: 2018-12-22 [Paper Note] Factorization Machines, Steffen Rendle, ICDM'10 Comment

解説ブログ： http://echizen-tm.hatenablog.com/entry/2016/09/11/024828

DeepFMに関する動向： https://data.gunosy.io/entry/deep-factorization-machines-2018

上記解説ブログの概要が非常に完結でわかりやすい

MLOps (1)

#Article #Infrastructure #Blog
Issue Date: 2021-06-18 NVIDIA TRITON INFERENCE SERVER, 2021 Comment

Nvidiaのオープンソースのinference server

モデルのデプロイや管理、スケーリング等を良い感じにしてくれるフレームワーク？

KnowledgeTracing (1)

#NeuralNetwork #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-07-22 Deep-IRT: Make Deep Learning Based Knowledge Tracing Explainable Using Item Response Theory, Chun-Kit Yeung, EDM'19 Comment

# 一言で言うと

DKVMN Dynamic Key-Value Memory Networks for Knowledge Tracing, Yeung+, WWW'17
のサマリベクトルf_tと、KC embedding k_tを、それぞれ独立にFully connected layerにかけてスカラー値に変換し、生徒のスキルごとの能力パラメータθと、スキルの困難度パラメータβを求められるようにして、解釈性を向上させた研究。最終的にθとβをitem response function (シグモイド関数)に適用することで、KC j を正しく回答できる確率を推定する。

# モデル

基本的なモデルはDKVMNで、DKVMNのサマリベクトルf_tに対してstudent ability networkを適用し、KC embedding k_tに対してdifficulty networkを適用するだけ。

生徒の能力パラメータθとスキルの困難度パラメータβを求め、最終的に下記item response functionを適用することで、入力されたスキルに対する反応予測を実施する：

# 気持ち

古典的なKnowledge Tracing手法は、学習者の能力パラメータや項目の困難度パラメータといった人間が容易に解釈できるパラメータを用いて反応予測を行えるが、精度が低い。一方、DeepなKnowledge Tracingは性能は高いが学習されるパラメータの解釈性が低い。そこで、IRTと最近提案されたDKVMNを組み合わせることで、高性能な反応予測も実現しつつ、直接的にpsychological interpretationが可能なパラメータを学習するモデルを提案した。

DKVMNがinferenceに利用する情報は、意味のある情報に拡張することができることを主張。

1つめは、各latent conceptのknowledge stateは、生徒の能力パラメータを計算することに利用できる。具体的には、DKVMNによって求められるベクトルf_tは、read vector r （該当スキルに対する生徒のmastery level を表すベクトル）とKCのembedding k_t から求められる。これは、生徒のスキルに対するknowledge staeteとスキルそのもののembeddedされた情報の両者を含んでいるので、f_tをNNで追加で処理することで、生徒のスキルq_tに対する能力を推定することができるのではないかと主張。

同様に、q_tの困難度パラメータもKC embedding vector k_tをNNに渡すことで求めることができると主張。

生徒の能力を求めるネットワークを、student ability network, スキルの困難度パラメータを求めるネットワークをdifficulty networkと呼ぶ。

# 性能

実験の結果、DKT, DKVMN, Deep-IRTはそれぞれ似たようなAUCとなり、反応予測の性能はcomparable

# Discussion

## 学習された困難度パラメータについて

複数のソース（1. データセットのpublisherが設定している3段階の難易度, 2. item analysisによって求めた難易度（生徒が問題に取り組んだとき不正解となった割合）, 3. IRTによって推定した困難度パラメータ, 4. PFAによって推定した困難度パラメータ）とDeep-IRTが学習したKC Difficulty levelの間で相関係数を測ることで、Deep-IRTが学習した困難度パラメータが妥当か検討している。ソース2, 3については、困難度推定に使うデータがtest environmentではなく学習サービスによるものなので、生徒のquestionに対するfirst attemptから困難度パラメータを予測した。一方、PFAの場合はtest environmentによる推定ではなく、knowledge tracingの設定で困難度パラメータを推定した（i.e. 利用するデータをfirst attemptに限定しない）。

相関係数をは測った結果が上図で、正直見方があまりわからない。著者らの主張としては、Deep-IRTは他の困難度ソースの大部分と強い相関があった（ソース1を除く）、と主張しているが、相関係数の値だけ見ると明らかにPFAの方が全てのソースに対して高い相関係数を持っている。また、困難度を推定するモデルの設定（test environment vs. learning environment）や複雑度が近ければ近いほど、相関係数が高かった（ソース2, 3間は相関係数は0.96、一方ソース2とDeep-IRTは相関係数0.56）。また、Deep-IRTはソース1の困難度パラメータとの相関係数が0.08であり非常に低い（他のソースは0.3~0.4程度の相関係数が出ている）。この結果を見ると、Deep-IRTによって推定された困難度パラメータは古典的な手法とは少し違った傾向を持っているのではないかと推察される。

=> DeepIRTによって推定された困難度パラメータは、古典的な手法と比較してめっちゃ近いというわけでもなく、人手で付与された難易度と全く相関がない（そもそも人手で付与された難易度が良いものかどうかも怪しい）。結局DeepIRTによる困難度パラメータがどれだけ適切かは評価されていないので、古典的な手法とは少し似ているけど、なんか傾向が違う困難度パラメータが出ていそうです〜くらいのことしかわからない。

## 学習された生徒の能力パラメータについて

reconstruction問題がDKTと同様に生じている。たとえば、“equation solving more than two steps” (red) に不正解したにもかかわらず、対応する生徒の能力が向上してしまっている。また、スキル間のpre-requisite関係も捉えられない。具体的には、“equation solving two or fewer steps” (blue) に正解したにもかかわらず、“equation solving more than two steps” (red) の能力は減少してしまっている。

# 所感

生徒の能力パラメータは、そもそもDKTVMモデルでも入力されたスキルタグに対する反応予測結果が、まさに生徒の該当スキルタグに対する能力パラメータだったのでは？と思う。困難度パラメータについては推定できることで使い道がありそうだが、DeepIRTによって推定された困難度パラメータがどれだけ良いものかはこの論文では検証されていないので、なんともいえない。

# 関連研究

- Item Response Theory (IRT): 受験者の能力パラメータはテストを受けている間は不変であるという前提をおいており（i.e. testing environmentを前提としている）、Knowledgte Tracingタスクのような、学習者の能力が動的に変化する（i.e. learning environment）状況ではIRTをKnowledge Tracingに直接利用できない（と主張しているが、 Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation, Ekanadham+, EDM'16
あたりではIRTで項目の反応予測に利用してDKTをoutperformしている）

- Bayesian Knowledge Tracing (BKT): 「全ての生徒と、同じスキルを必要とする問題がモデル上で等価に扱われる」という非現実的な仮定が置かれている。言い換えれば、生徒ごとの、あるいは問題ごとのパラメータが存在しないということ。

- Latent Factor Analysis (LFA): IRTと類似しているが、スキルレベルのパラメータを利用してKnowledge Tracingタスクに取り組んだ。生徒の能力パラメータθと、問題に紐づいたスキルごとの難易度パラメータβと学習率γ（γ x 正答数で該当スキルに対する学習度合いを求める）を持つ。これにより「学習」に対してもモデルを適用できるようにしている。

- Performance Factor Analysis (PFA): 生徒の能力値よりも、生徒の過去のパフォーマンスがKTタスクにより強い影響があると考え、LFAを拡張し、スキルごとに正解時と不正解時のlearning rateを導入し、過去の該当スキルの正解/不正解数によって生徒の能力値を求めるように変更。これにより、スキルごとに生徒の能力パラメータが存在するようなモデルとみなすことができる。

=> LFAとPFAでは、複数スキルに対する「学習」タスクを扱うことができる。一方で、スキルタグについては手動でラベル付をする必要があり、またスキル間の依存関係については扱うことができない。また、LFAでは問題に対する正答率が問題に対するattempt数に対して単調増加するため、生徒のknowledge stateがlearnedからunlearnedに遷移することがないという問題がある。PFAでは失敗したattemptの数を導入することでこの仮定を緩和しているが、生徒が大量の正答を該当スキルに対して実施した後では問題に対する正答率を現象させることは依然として困難。

- Deep Knowledge Tracing (DKT): DeepLearningの導入によって、これまで性能を向上させるために人手で設計されたfeature（e.g. recency effect, contextualized trial sequence, inter-skill relationship, student’s ability variation）などを必要とせず、BKTやPFAをoutperformした。しかし、RNNによって捉えられた情報は全て同じベクトル空間（hidden layer）に存在するため、時間の経過とともに一貫性した予測を提供することが困難であり、結果的に生徒が得意な、あるいは不得意なKCをピンポイントに特定できないという問題がある（ある時刻tでは特定のスキルのマスタリーがめっちゃ高かったが、別の問題に回答しているうちにマスタリーがめっちゃ下がるみたいな現象が起きるから？）。

- Dynamic Key Value Memory Network (DKVMN): DKTでは全てのコンセプトに対するknowledge stateを一つのhidden stateに集約することから、生徒が特定のコンセプトをどれだけマスターしたのかをトレースしたり、ピンポイントにどのコンセプトが得意, あるいは不得意なのかを特定することが困難であった（←でもこれはただの感想だと思う）。DKTのこのような問題点を改善するために提案された。DKVMNではDKTと比較して、DKTを予測性能でoutperformするだけでなく（しかしこれは後の追試によって性能に大差がないことがわかっている）、overfittingしづらく、Knowledge Component (=スキルタグ)の背後に潜むコンセプトを正確に見つけられることを示した。しかし、KCの学習プロセスを、KCのベクトルや、コンセプトごとにメモリを用意しメモリ上でknowledge stateを用いて表現することで的確にモデル化したが、依然としてベクトル表現の解釈性には乏しい。したがって、IRTやBKT, PFAのような、パラメータが直接的にpsychological interpretationが可能なモデルと、パラメータやrepresentationの解釈が難しいDKTやDKVMNなどのモデルの間では、learning science communityの間で対立が存在した。

=> なので、IRTとDKVMNを組み合わせることで、DKVMNをよりexplainableにすることで、この対立を緩和します。という流れ

著者による実装: https://github.com/ckyeungac/DeepIRT

NaturalLanguageGeneration (1)

#NLP #LanguageModel
Issue Date: 2023-06-26 SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking, Chris Cundy+, N_A, arXiv'23 GPT Summary- 自己回帰モデルによるシーケンス生成において、最尤推定（MLE）目的は誤差の蓄積問題を引き起こすため、模倣学習（IL）問題として定式化することが提案された。ILフレームワークを使用することで、バックトラッキングを組み込むことができ、誤差の蓄積問題が軽減される。提案手法であるSequenceMatchは、敵対的なトレーニングや大規模なアーキテクチャの変更なしに実装でき、SequenceMatch-$\chi^2$発散を使用することができる。実験的に、SequenceMatchトレーニングは、言語モデルによるテキスト生成においてMLEよりも改善をもたらすことが示された。 Comment

Pruning (1)

#LanguageModel
Issue Date: 2023-06-26 A Simple and Effective Pruning Approach for Large Language Models, Mingjie Sun+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の剪定方法であるWandaを紹介している。Wandaは、重みと活性化による剪定を行い、再トレーニングや重みの更新を必要とせず、剪定されたLLMはそのまま使用できる。Wandaは、LLaMA上でのさまざまな言語ベンチマークで徹底的に評価され、大きさに基づく剪定の確立されたベースラインを大幅に上回り、重みの更新に関する最近の方法と競合する優れた性能を発揮することが示された。コードはhttps://github.com/locuslab/wandaで利用可能である。 Comment

LLMのネットワークのpruning手法を提案。再訓練、パラメータ更新無しで、性能低下が少なくて刈り込みが可能。

Poisoning (1)

#NLP #LanguageModel
Issue Date: 2023-07-11 On the Exploitability of Instruction Tuning, Manli Shu+, N_A, arXiv'23 GPT Summary- 大規模な言語モデル（LLMs）を使用して、指示の調整を行う効果的な手法を提案する。敵対者が特定の指示に従う例をトレーニングデータに注入することで、指示の調整を悪用する方法を調査する。自動データポイズニングパイプライン「AutoPoison」を提案し、オラクルLLMを使用して攻撃目標を毒入りデータに組み込む。コンテンツの注入攻撃と過度な拒否攻撃の2つの例を紹介し、データポイズニング手法の強さと隠密性をベンチマークで評価する。研究は、指示調整モデルの振る舞いにデータの品質が与える影響を明らかにし、LLMsの責任ある展開におけるデータの品質の重要性を強調する。 Comment

DataGeneration (1)

#NLP #LanguageModel #Transformer #DataAugmentation #Supervised-FineTuning (SFT)
Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP'23 GPT Summary- 本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 Comment

QuestionAnswering (1)

#EfficiencyImprovement #Pocket #NLP #Dataset #Supervised-FineTuning (SFT) #LongSequence #PEFT(Adaptor/LoRA) #PostTraining
Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv'23 GPT Summary- 本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment

InstructionTuning (1)

#ComputerVision #Pocket #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Catastrophic Forgetting
Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv'24 GPT Summary- 破滅的忘却に対処するため、タスクフリーのオンライン継続学習（OCL）フレームワークOnline-LoRAを提案。リハーサルバッファの制約を克服し、事前学習済みビジョントランスフォーマー（ViT）モデルをリアルタイムで微調整。新しいオンライン重み正則化戦略を用いて重要なモデルパラメータを特定し、データ分布の変化を自動認識。多様なベンチマークデータセットで優れた性能を示す。 Comment

VideoGeneration/Understandings (1)

#ComputerVision #Pocket #NLP #LanguageModel #Transformer #MultiModal #Architecture #VisionLanguageModel
Issue Date: 2025-07-06 [Paper Note] Energy-Based Transformers are Scalable Learners and Thinkers, Alexi Gladstone+, arXiv'25 GPT Summary- エネルギーベースのトランスフォーマー（EBTs）を用いて、無監督学習から思考を学ぶモデルを提案。EBTsは、入力と候補予測の互換性を検証し、エネルギー最小化を通じて予測を行う。トレーニング中に従来のアプローチよりも高いスケーリング率を達成し、言語タスクでの性能を29%向上させ、画像のノイズ除去でも優れた結果を示す。EBTsは一般化能力が高く、モデルの学習能力と思考能力を向上させる新しいパラダイムである。 Comment

元ポスト:

Loading…

Project Page: https://energy-based-transformers.github.io

First Authorの方による解説ポスト:

Loading…

GraphGeneration (1)

#NeuralNetwork #Pocket #ICML
Issue Date: 2025-07-16 [Paper Note] Learning-Order Autoregressive Models with Application to Molecular Graph Generation, Zhe Wang+, ICML'25 GPT Summary- 自己回帰モデル（ARMs）を用いて、データから逐次的に推測される確率的順序を利用し、高次元データを生成する新しい手法を提案。トレーニング可能なオーダーポリシーを組み込み、対数尤度の変分下限を用いて最適化。実験により、画像生成やグラフ生成で意味のある自己回帰順序を学習し、分子グラフ生成ではQM9およびZINC250kベンチマークで最先端の結果を達成。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=EY6pXIDi3G

CompoundAISystemsOptimization (1)

#Pocket #LanguageModel #RewardModel
Issue Date: 2025-08-15 [Paper Note] Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards, Shirley Wu+, arXiv'25 GPT Summary- 複合AIシステムの最適化のために、統一フレームワークOptimasを提案。各コンポーネントにローカル報酬関数を維持し、グローバルパフォーマンスと整合性を保ちながら同時に最大化。これにより、異種構成の独立した更新が可能となり、平均11.92%の性能向上を実現。 Comment

元ポスト:

Loading…

framework: https://github.com/snap-stanford/optimas

GenerativeAI (1)

#Article #LanguageModel #Infrastructure #Slide #read-later #One-Line Notes
Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment

元ポスト:

Loading…

Finetuning (1)

#Pocket #NLP #LanguageModel #EvolutionaryAlgorithm
Issue Date: 2025-10-07 [Paper Note] Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning, Xin Qiu+, arXiv'25, 2025.09 GPT Summary- 進化戦略（ES）を用いて、事前学習済みの大規模言語モデル（LLMs）の全パラメータをファインチューニングする初の成功事例を報告。ESは数十億のパラメータに対して効率的に探索でき、サンプル効率やロバスト性、パフォーマンスの安定性において既存の強化学習（RL）手法を上回ることを示す。これにより、LLMファインチューニングの新たな方向性が開かれる。 Comment

元ポスト:

Loading…

続報:

Loading…

ZeroshotHyperparameterTransfer (1)

#NeuralNetwork #Analysis #Pocket #Optimizer
Issue Date: 2025-10-28 [Paper Note] Weight Decay may matter more than muP for Learning Rate Transfer in Practice, Atli Kosson+, arXiv'25, 2025.10 GPT Summary- 学習率の転送は、ニューラルネットワークの効率的なトレーニングを可能にする。Maximal Update Parameterization（muP）は、内部表現の更新を安定させる学習率スケーリングを提案するが、その仮定は実際のトレーニングでは短期間しか維持されないことが示された。トレーニングの後半では、重み減衰が内部表現の安定に寄与し、学習率の転送を促進する。これにより、muPは主に学習率のウォームアップとして機能し、修正されたウォームアップスケジュールで置き換え可能であることが示唆される。これらの結果は、学習率の転送に関する従来の考え方に挑戦し、muPの成功には独立した重み減衰が必要であることを示す。 Comment

元ポスト:

Loading…

ScientificDiscovery (1)

#Pocket #NLP #LanguageModel #AIAgents #Reasoning #Diversity #One-Line Notes
Issue Date: 2025-11-21 [Paper Note] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity, Alexis Audran-Reiss+, arXiv'25, 2025.11 GPT Summary- AI研究エージェントのパフォーマンスにおけるアイデアの多様性の役割を検討。MLE-benchでの分析により、パフォーマンスの高いエージェントはアイデアの多様性が増加する傾向があることが明らかに。制御実験でアイデアの多様性が高いほどパフォーマンスが向上することを示し、追加の評価指標でも発見が有効であることを確認。 Comment

元ポスト:

Loading…

ideation時点における多様性を向上させる話らしい

Others (71)

#Pocket #Theory
Issue Date: 2025-11-14 [Paper Note] Wasserstein-Cramér-Rao Theory of Unbiased Estimation, Nicolás García Trillos+, arXiv'25, 2025.11 GPT Summary- 本論文では、無偏推定量の不安定性を「感度」と定義し、Wasserstein幾何学に基づく理論を提案。これにより、Wasserstein-Cramér-Rao下限や無偏推定量の特性を明らかにし、既存の推定量の最適性や新しい推定量の発見に寄与する結果を示す。 Comment

元ポスト:

Loading…

む、むずかしい...!!

#NeuralNetwork #Pocket #Optimizer
Issue Date: 2025-10-28 [Paper Note] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning, Zhiyuan Fan+, arXiv'25, 2025.10 GPT Summary- 経験的スケーリング法則と最大更新パラメータ化（$\mu$P）を考慮し、幅にわたるサブレイヤーのゲインを保持するための重み減衰スケーリングルールを提案。特異値スペクトルのスケーリング観察に基づき、サブレイヤーゲインを幅不変に保つルールを導出し、プロキシからターゲット幅への学習率と重み減衰のゼロショット転送を実現。LLaMAスタイルのトランスフォーマーで検証し、オプティマイザによるスケール制御が$\mu$Pの拡張に寄与することを示す。 Comment

元ポスト:

Loading…

#Pocket #DiffusionModel #ICLR #PhysicalConstraints
Issue Date: 2025-10-24 [Paper Note] Physics-Informed Diffusion Models, Jan-Hendrik Bastek+, ICLR'25, 2024.03 GPT Summary- 生成モデルと偏微分方程式を統一するフレームワークを提案し、生成サンプルが物理的制約を満たすように損失項を導入。流体の流れに関するケーススタディで残差誤差を最大2桁削減し、構造トポロジー最適化においても優れた性能を示す。過学習に対する正則化効果も確認。実装が簡単で、多様な制約に適用可能。 Comment

openreview: https://openreview.net/forum?id=tpYeermigp&utm_source=chatgpt.com

#Pocket #Transformer #VariationalAutoEncoder #Architecture #Decoder Issue Date: 2025-10-22 [Paper Note] The Free Transformer, François Fleuret, arXiv'25, 2025.10 GPT Summary- 無監督で学習された潜在変数に条件付けるデコーダーTransformerの拡張を提案し、下流タスクでの性能が大幅に向上することを実験で示した。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#ComputerVision #Pocket #NLP #MultiModal #DiffusionModel #SSM (StateSpaceModel) #UMM Issue Date: 2025-10-21 [Paper Note] End-to-End Multi-Modal Diffusion Mamba, Chunhao Lu+, arXiv'25, 2025.10 GPT Summary- MDM（Multi-modal Diffusion Mamba）という新しいアーキテクチャを提案し、エンドツーエンドのマルチモーダル処理を統一。Mambaベースの選択拡散モデルを用いて、エンコーディングとデコーディングでモダリティ特有の情報を段階的に生成。高解像度画像とテキストを同時に生成し、既存モデルを大幅に上回る性能を示す。計算効率を保ちながらマルチモーダルプロセスを統一する新たな方向性を確立。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning Issue Date: 2025-10-11 [Paper Note] Dual Goal Representations, Seohong Park+, arXiv'25, 2025.10 GPT Summary- 本研究では、目標条件付き強化学習のために二重目標表現を提案し、状態を時間的距離の集合として特徴付ける。この表現は環境の内的ダイナミクスに依存し、外部ノイズをフィルタリングしつつ最適なポリシーを回復するのに十分な情報を提供する。実験により、二重目標表現がOGBenchタスクスイートにおいてオフラインの目標到達性能を向上させることを示した。 Comment

pj page: https://seohong.me/blog/dual-representations/

元ポスト:

Loading…

ゴールを明示的に与えるRLにおいて（Goal conditioned RLと呼ぶらしい, pi(a|s,g)、つまりアクションが状態とゴールから決まる設定)、ゴールgを表現する際に有用なrepresentation方法の提案（ある状態sを定義する際に状態sそのものの情報を使うのではなく、他のとりうる状態からのtemporal distance（何ステップで到達できるか）のベクトルで表現する）らしい。

たとえば、gはロボットであれば到達したい特定の座標であり、sは現在の座標、のようなイメージだろうか。

解説:

Loading…

#Pretraining #Pocket #MultiModal #UMM #One-Line Notes Issue Date: 2025-10-10 [Paper Note] Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models, Sharut Gupta+, arXiv'25, 2025.10 GPT Summary- UML（Unpaired Multimodal Learner）を提案し、非ペアのマルチモーダルデータを活用して表現学習を強化する新しいトレーニングパラダイムを示す。異なるモダリティからの入力を交互に処理し、明示的なペアを必要とせずにクロスモーダル構造から利益を得る。実験により、テキスト、音声、画像などの非ペアデータを用いることで、単一モダルターゲットのパフォーマンスが向上することを確認。 Comment

pj page: https://unpaired-multimodal.github.io

モダリティ間で（モダリティごとのエンコーダとデコーダ以外の）パラメータを共有し（UMMs)、通常はpair-dataで学習するが、unpaired data（+self-supervised / 分類ヘッドを用いた（ここはしっかり読めてないので自信ない）supervised learning)で学習する。これによりダウンストリームタスクでの性能が向上する。

unpaired dataで学習するという点が革新的に見える。unpaired dataで学習する枠組みにより大量のデータを活用し表現を学習できる。また、ペアデータで学習することによりパラメータに埋め込める知識やスキルが（おそらく）限られていたが、より広範な知識やスキルを埋め込めるのでは、という印象がある。

元ポスト:

Loading…

著者ポスト:

Loading…

#ComputerVision #Pocket #ReinforcementLearning #DiffusionModel #FlowMatching Issue Date: 2025-10-10 [Paper Note] DiffusionNFT: Online Diffusion Reinforcement with Forward Process, Kaiwen Zheng+, arXiv'25, 2025.09 GPT Summary- Diffusion Negative-aware FineTuning（DiffusionNFT）は、オンライン強化学習を用いて拡散モデルを最適化する新しい手法で、ポジティブとネガティブな生成を対比させることで強化信号を組み込みます。このアプローチにより、尤度推定が不要になり、クリーンな画像のみでポリシー最適化が可能になります。DiffusionNFTは、FlowGRPOよりも最大25倍効率的で、GenEvalスコアを短期間で大幅に改善し、複数の報酬モデルを活用することでSD3.5-Mediumのパフォーマンスを向上させます。 Comment

元ポスト:

Loading…

#ComputerVision #Embeddings #Pocket #read-later Issue Date: 2025-10-09 [Paper Note] Gaussian Embeddings: How JEPAs Secretly Learn Your Data Density, Randall Balestriero+, arXiv'25, 2025.10 GPT Summary- JEPAは、潜在空間予測と反収束を組み合わせたアーキテクチャで、データ密度を推定する能力を持つ。成功裏に訓練されたJEPAは、データキュレーションや外れ値検出に利用可能で、サンプルの確率を効率的に計算できる。JEPA-SCOREと呼ばれる手法を用いて、さまざまなデータセットや自己教師あり学習手法でその効果が実証されている。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#NeuralNetwork #Pocket #Architecture #NeurIPS #read-later Issue Date: 2025-09-28 [Paper Note] Continuous Thought Machines, Luke Darlow+, NeurIPS'25 Spotlight, 2025.05 GPT Summary- 本論文では、神経細胞のタイミングと相互作用を重視した「Continuous Thought Machine（CTM）」を提案し、神経ダイナミクスをコア表現として活用することで深層学習の限界に挑戦します。CTMは、神経レベルの時間的処理と神経同期を取り入れ、計算効率と生物学的リアリズムのバランスを図ります。さまざまなタスクにおいて強力なパフォーマンスを示し、適応的な計算を活用することで、タスクの難易度に応じた効率的な処理が可能です。CTMは、より生物学的に妥当な人工知能システムの開発に向けた重要なステップと位置付けられています。 Comment

元ポスト:

Loading…

NeurIPS'25 Spotlight:
https://www.linkedin.com/posts/sakana-ai_neurips2025-neurips2025-activity-7380889531815923712-94pk?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#EfficiencyImprovement #Pocket #NLP #ReinforcementLearning #NeurIPS #PostTraining #On-Policy Issue Date: 2025-09-27 [Paper Note] Angles Don't Lie: Unlocking Training-Efficient RL Through the Model's Own Signals, Qinsi Wang+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- 大規模言語モデル（LLMs）の強化学習微調整（RFT）におけるサンプル効率の低下を改善するため、モデル固有の信号「角度集中」を特定。これに基づき、勾配駆動型角度情報ナビゲート強化学習フレームワーク（GAIN-RL）を提案し、トレーニングデータを動的に選択することで効率を向上。実証評価では、GAIN-RLがトレーニング効率を2.5倍以上向上させ、元のデータの半分でより良いパフォーマンスを達成したことが示された。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #Search #Coding #NeurIPS #Encoder-Decoder Issue Date: 2025-09-21 [Paper Note] Searching Latent Program Spaces, Matthew V Macfarlane+, NeurIPS'25, 2024.11 GPT Summary- 新しいスキルを効率的に習得し、一般化するためのLatent Program Network（LPN）を提案。LPNは、入力を出力にマッピングする潜在空間を学習し、テスト時に勾配を用いて探索。シンボリックアプローチの適応性とニューラル手法のスケーラビリティを兼ね備え、事前定義されたDSLを不要にする。ARC-AGIベンチマークでの実験により、LPNは分布外タスクでの性能を2倍に向上させることが示された。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #ReinforcementLearning #Scaling Laws #read-later #Batch Issue Date: 2025-09-04 [Paper Note] Compute-Optimal Scaling for Value-Based Deep RL, Preston Fu+, arXiv'25 GPT Summary- 強化学習における計算スケーリングを調査し、モデル容量とデータ更新比率のリソース配分がサンプル効率に与える影響を分析。特に、バッチサイズの増加が小さなモデルでQ関数の精度を悪化させる「TDオーバーフィッティング」を特定し、大きなモデルではこの影響が見られないことを示す。計算使用を最適化するためのガイドラインを提供し、深層RLのスケーリングに関する基盤を築く。 Comment

元ポスト:

Loading…

#Pocket #Transformer #LongSequence #Architecture #ICLR #Generalization #RecurrentModels Issue Date: 2025-08-30 [Paper Note] Looped Transformers for Length Generalization, Ying Fan+, ICLR'25 GPT Summary- ループトランスフォーマーを用いることで、未見の長さの入力に対する算術的およびアルゴリズム的タスクの長さ一般化が改善されることを示す。RASP-L操作を含む既知の反復解法に焦点を当て、提案する学習アルゴリズムで訓練した結果、さまざまなタスクに対して高い一般化能力を持つ解法を学習した。 Comment

openreview: https://openreview.net/forum?id=2edigk8yoU

#Pocket #ICML Issue Date: 2025-07-15 [Paper Note] Score Matching With Missing Data, Josh Givens+, ICML'25 GPT Summary- スコアマッチングはデータ分布学習の重要な手法ですが、不完全データへの適用は未研究です。本研究では、部分的に欠損したデータに対するスコアマッチングの適応を目指し、重要度重み付け（IW）アプローチと変分アプローチの2つのバリエーションを提案します。IWアプローチは有限サンプル境界を示し、小さなサンプルでの強力な性能を確認。変分アプローチは高次元設定でのグラフィカルモデル推定において優れた性能を発揮します。 Comment

openreview: https://openreview.net/forum?id=mBstuGUaXo

ICML'25 outstanding papers

解説:

Loading…

#NeuralNetwork #Pocket #LearningPhenomena Issue Date: 2025-07-11 [Paper Note] Not All Explanations for Deep Learning Phenomena Are Equally Valuable, Alan Jeffares+, PMLR'25 GPT Summary- 深層学習の驚くべき現象（ダブルディセント、グロッキングなど）を孤立したケースとして説明することには限界があり、実世界のアプリケーションにはほとんど現れないと主張。これらの現象は、深層学習の一般的な原則を洗練するための研究価値があると提案し、研究コミュニティのアプローチを再考する必要性を示唆。最終的な実用的目標に整合するための推奨事項も提案。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning Issue Date: 2025-06-10 [Paper Note] Horizon Reduction Makes RL Scalable, Seohong Park+, arXiv'25 GPT Summary- 本研究では、オフライン強化学習（RL）のスケーラビリティを検討し、既存のアルゴリズムが大規模データセットに対して期待通りの性能を発揮しないことを示しました。特に、長いホライズンがスケーリングの障壁であると仮定し、ホライズン削減技術がスケーラビリティを向上させることを実証しました。新たに提案した手法SHARSAは、ホライズンを削減しつつ優れたパフォーマンスを達成し、オフラインRLのスケーラビリティを向上させることを示しました。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #Transformer #CVPR #Normalization Issue Date: 2025-03-14 Transformers without Normalization, Jiachen Zhu+, CVPR'25 GPT Summary- 本研究では、正規化層なしのトランスフォーマーがDynamic Tanh（DyT）を用いることで、同等またはそれ以上のパフォーマンスを達成できることを示します。DyTは、レイヤー正規化の代替として機能し、ハイパーパラメータの調整なしで効果を発揮します。多様な設定での実験により、正規化層の必要性に対する新たな洞察を提供します。 Comment

なん…だと…。LayerNormalizationを下記アルゴリズムのようなtanhを用いた超絶シンプルなレイヤー（parameterized thnh [Lecun氏ポスト](

Loading…

同等以上の性能を維持しながらモデル全体のinference, trainingの時間を8%程度削減。

#NeuralNetwork #Pocket #NLP #Distillation #ICLR #Off-Policy #On-Policy #One-Line Notes Issue Date: 2025-10-30 [Paper Note] On-Policy Distillation of Language Models: Learning from Self-Generated Mistakes, Rishabh Agarwal+, ICLR'24, 2023.06 GPT Summary- 一般化知識蒸留（GKD）は、教師モデルからのフィードバックを活用し、生徒モデルが自己生成した出力シーケンスで訓練する手法。これにより、出力シーケンスの分布不一致の問題を解決し、柔軟な損失関数の使用が可能になる。GKDは蒸留と強化学習の統合を促進し、要約、翻訳、算術推論タスクにおける自動回帰言語モデルの蒸留においてその有効性を示す。 Comment

openreview: https://openreview.net/forum?id=3zKtaqxLhW

#Pocket #Transformer #Architecture #RecurrentModels Issue Date: 2025-08-30 [Paper Note] Looped Transformers are Better at Learning Learning Algorithms, Liu Yang+, ICLR'24 GPT Summary- ループ型transformerアーキテクチャを提案し、従来のtransformerに反復的特性を組み込むことで、データフィッティング問題を解決。実験により、標準のtransformerと同等の性能を保ちながら、パラメータ数を10%未満に抑えることができることが示された。 Comment

openreview: https://openreview.net/forum?id=HHbRxoDTxE

#Pocket #ReinforcementLearning #TMLR Issue Date: 2025-06-14 [Paper Note] Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models, Avi Singh+, TMLR'24 GPT Summary- 言語モデルを人間データでファインチューニングする際の限界を超えるため、ReST$^{EM$という自己学習手法を提案。モデルから生成したサンプルをバイナリフィードバックでフィルタリングし、繰り返しファインチューニングを行う。PaLM-2モデルを用いた実験で、ReST$^{EM}$は人間データのみのファインチューニングを大幅に上回る性能を示し、フィードバックを用いた自己学習が人間生成データへの依存を減少させる可能性を示唆。 Comment

解説ポスト:

Loading…

#Pocket #Optimizer Issue Date: 2024-11-06 ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS'24 GPT Summary- ADOPTという新しい適応勾配法を提案し、任意のハイパーパラメータ$\beta_2$で最適な収束率を達成。勾配の二次モーメント推定からの除去と更新順序の変更により、Adamの非収束問題を解決。広範なタスクで優れた結果を示し、実装はGitHubで公開。 Comment

画像は元ツイートからの引用:
ライブラリがあるようで、1行変えるだけですぐ使えるとのこと。

元ツイート:

Loading…

Adamでは収束しなかった場合（バッチサイズが小さい場合）でも収束するようになっている模様

#Pocket #NLP #LongSequence #SSM (StateSpaceModel) Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv'24 GPT Summary- RNNの長いコンテキスト処理の課題を研究し、状態崩壊（SC）とメモリ容量の制限に対処。Mamba-2モデルを用いて、SC緩和手法を提案し、1Mトークン以上の処理を実現。256Kコンテキスト長で高精度のパスキー取得を達成し、RNNの長コンテキストモデリングの可能性を示唆。 #NLP #Transformer #EMNLP Issue Date: 2024-01-16 Transformers are Multi-State RNNs, Matanel Oren+, N_A, EMNLP'24 GPT Summary- 本研究では、トランスフォーマーのデコーダーは無限マルチステートRNNとして概念化できることを示し、有限のマルチステートRNNに変換することも可能であることを示します。さらに、新しいキャッシュ圧縮ポリシーであるTOVAを導入し、他のポリシーよりも優れた性能を示すことを実験結果で示しました。TOVAは元のキャッシュサイズの1/8しか使用せず、トランスフォーマーデコーダーLLMが実際にはRNNとして振る舞うことが多いことを示しています。 Comment

#Pocket #Optimizer #learning-rate-free Issue Date: 2025-10-26 [Paper Note] Prodigy: An Expeditiously Adaptive Parameter-Free Learner, Konstantin Mishchenko+, arXiv'23, 2023.06 GPT Summary- 学習率の推定問題に対処するため、Prodigyというアルゴリズムを提案。これはD-Adaptation手法を修正し、収束率を改善。12のベンチマークデータセットでテストした結果、ProdigyはD-Adaptationを上回り、手動調整されたAdamに近い精度を達成。 Comment

openreview: https://openreview.net/forum?id=WpQbM1kBuy

#Single #Pocket #ReinforcementLearning #Scaling Laws Issue Date: 2025-10-13 [Paper Note] Scaling laws for single-agent reinforcement learning, Jacob Hilton+, arXiv'23, 2023.01 GPT Summary- 生成モデルにおけるクロスエントロピー損失の改善がモデルサイズと計算量に依存することが示され、これを強化学習に拡張する際の課題として、平均エピソードリターンの変化が滑らかでないことが挙げられる。これを解決するために、内因的パフォーマンスを導入し、モデルサイズに応じた最小計算量を定義。さまざまな環境で内因的パフォーマンスが冪法則に従ってスケールすることを確認し、最適なモデルサイズも同様にスケールすることを示した。特に、MNISTベースの環境でタスクのホライズン長がこの関係に与える影響を調査した。 Comment

日本語解説: https://www.slideshare.net/slideshow/dlscaling-laws-for-singleagent-reinforcement-learning/255893696

#ComputerVision #Pocket #ICLR #Selected Papers/Blogs #RectifiedFlow Issue Date: 2025-10-10 [Paper Note] Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow, Xingchao Liu+, ICLR'23, 2022.09 GPT Summary- rectified flowという新しいアプローチを提案し、2つの分布間での輸送を学習するODEモデルを用いる。これは、直線的な経路を学習することで計算効率を高め、生成モデルやドメイン転送において統一的な解決策を提供する。rectificationを通じて、非増加の凸輸送コストを持つ新しい結合を生成し、再帰的に適用することで直線的なフローを得る。実証研究では、画像生成や翻訳において優れた性能を示し、高品質な結果を得ることが確認された。 Comment

openreview: https://openreview.net/forum?id=XVjTT1nw5z

#Pocket Issue Date: 2024-12-16 Zero Bubble Pipeline Parallelism, Penghui Qi+, arXiv'23 GPT Summary- 本研究では、パイプライン並列性の効率を向上させるために、ゼロパイプラインバブルを達成する新しいスケジューリング戦略を提案。逆伝播計算を二つに分割し、手作業で設計した新しいパイプラインスケジュールは、ベースライン手法を大幅に上回る性能を示した。さらに、最適なスケジュールを自動的に見つけるアルゴリズムと、オプティマイザステップ中の同期を回避する技術を導入。実験結果では、スループットが最大23%向上し、メモリ制約が緩和されると31%まで改善。実装はオープンソースで提供。 #Pocket #Regularization Issue Date: 2023-10-11 Why Do We Need Weight Decay in Modern Deep Learning?, Maksym Andriushchenko+, N_A, arXiv'23 GPT Summary- ウェイト減衰は、大規模な言語モデルのトレーニングに使用されるが、その役割はまだ理解されていない。本研究では、ウェイト減衰が古典的な正則化とは異なる役割を果たしていることを明らかにし、過パラメータ化されたディープネットワークでの最適化ダイナミクスの変化やSGDの暗黙の正則化の強化方法を示す。また、ウェイト減衰が確率的最適化におけるバイアス-分散トレードオフのバランスを取り、トレーニング損失を低下させる方法も説明する。さらに、ウェイト減衰はbfloat16混合精度トレーニングにおける損失の発散を防ぐ役割も果たす。全体として、ウェイト減衰は明示的な正則化ではなく、トレーニングダイナミクスを変えるものであることが示される。 Comment

参考:

Loading…

WeightDecayは目的関数に普通にL2正則化項を加えることによって実現されるが、深掘りするとこんな効果があるのね

openreview: https://openreview.net/forum?id=RKh7DI23tz

#Pocket #Transformer Issue Date: 2023-10-09 Boolformer: Symbolic Regression of Logic Functions with Transformers, Stéphane d'Ascoli+, N_A, arXiv'23 GPT Summary- この研究では、BoolformerというTransformerアーキテクチャを使用して、ブール関数のシンボリック回帰を実行する方法を紹介します。Boolformerは、クリーンな真理値表やノイズのある観測など、さまざまなデータに対して効果的な式を予測することができます。さらに、実世界のデータセットや遺伝子制御ネットワークのモデリングにおいて、Boolformerは解釈可能な代替手法として優れた性能を発揮します。この研究の成果は、公開されています。 Comment

ブール関数をend-to-endで学習できるtransformeiアーキテクチャを提案した模様

#NeuralNetwork #Pocket #Grokking Issue Date: 2023-09-30 Explaining grokking through circuit efficiency, Vikrant Varma+, N_A, arXiv'23 GPT Summary- グロッキングとは、完璧なトレーニング精度を持つネットワークでも一般化が悪い現象のことである。この現象は、タスクが一般化する解と記憶する解の両方を許容する場合に起こると考えられている。一般化する解は学習が遅く、効率的であり、同じパラメータノルムでより大きなロジットを生成する。一方、記憶回路はトレーニングデータセットが大きくなるにつれて非効率になるが、一般化回路はそうではないと仮説が立てられている。これは、記憶と一般化が同じくらい効率的な臨界データセットサイズが存在することを示唆している。さらに、グロッキングに関して4つの新しい予測が立てられ、それらが確認され、説明が支持される重要な証拠が提供されている。また、グロッキング以外の2つの新しい現象も示されており、それはアングロッキングとセミグロッキングである。アングロッキングは完璧なテスト精度から低いテスト精度に逆戻りする現象であり、セミグロッキングは完璧なテスト精度ではなく部分的なテスト精度への遅れた一般化を示す現象である。 Comment

Grokkingがいつ、なぜ発生するかを説明する理論を示した研究。
理由としては、最初はmemorizationを学習していくのだが、ある時点から一般化回路であるGenに切り替わる。これが切り替わる理由としては、memorizationよりも、genの方がlossが小さくなるから、とのこと。これはより大規模なデータセットで顕著。

Grokkingが最初に報告された研究は GROKKING: GENERALIZATION BEYOND OVERFIT- TING ON SMALL ALGORITHMIC DATASETS, Power+, ICLR'21 Workshop

#Pocket #Optimizer Issue Date: 2023-07-25 DoG is SGD's Best Friend: A Parameter-Free Dynamic Step Size Schedule, Maor Ivgi+, N_A, ICML'23 GPT Summary- 私たちは、チューニング不要の動的SGDステップサイズの式であるDoGを提案します。DoGは、初期点からの距離と勾配のノルムに基づいてステップサイズを計算し、学習率のパラメータを必要としません。理論的には、DoGの式は確率的凸最適化においてパラメータフリーの収束を保証します。実験的には、DoGのパフォーマンスがチューニングされた学習率を持つSGDに近いことを示し、DoGのバリアントがチューニングされたSGDやAdamを上回ることを示します。PyTorchの実装はhttps://github.com/formll/dogで利用できます。 Comment

20 を超える多様なタスクと 8 つのビジョンおよび NLP モデルに対して有効であったシンプルなパラメーターフリーのoptimizer

元ツイート:

Loading…

#EfficiencyImprovement #Pocket #Prompting Issue Date: 2023-07-24 Batch Prompting: Efficient Inference with Large Language Model APIs, Zhoujun Cheng+, N_A, arXiv'23 GPT Summary- 大規模な言語モデル（LLMs）を効果的に使用するために、バッチプロンプティングという手法を提案します。この手法は、LLMが1つのサンプルではなくバッチで推論を行うことを可能にし、トークンコストと時間コストを削減しながらパフォーマンスを維持します。さまざまなデータセットでの実験により、バッチプロンプティングがLLMの推論コストを大幅に削減し、良好なパフォーマンスを達成することが示されました。また、バッチプロンプティングは異なる推論方法にも適用できます。詳細はGitHubのリポジトリで確認できます。 Comment

10種類のデータセットで試した結果、バッチにしても性能は上がったり下がったりしている。著者らは類似した性能が出ているので、コスト削減になると結論づけている。

Batch sizeが大きくなるに連れて性能が低下し、かつタスクの難易度が高いとパフォーマンスの低下が著しいことが報告されている。また、contextが長ければ長いほど、バッチサイズを大きくした際のパフォーマンスの低下が著しい。

#Pretraining #NLP #In-ContextLearning Issue Date: 2023-07-18 Pre-Training to Learn in Context, ACL'23 GPT Summary- インコンテキスト学習は、タスクの例と文脈からタスクを実行する方法であり、注目されています。しかし、現在の方法では十分に活用されていないため、私たちはPICLというフレームワークを提案します。これは、一般的なテキストコーパスでモデルを事前学習し、文脈に基づいてタスクを推論して実行する能力を向上させます。私たちは、PICLでトレーニングされたモデルのパフォーマンスを評価し、他のモデルを上回ることを示しました。コードはGitHubで公開されています。 #NeuralNetwork #EfficiencyImprovement #NLP #DynamicNetworks #Encoder Issue Date: 2023-07-18 PAD-Net: An Efficient Framework for Dynamic Networks, ACL'23 GPT Summary- 本研究では、ダイナミックネットワークの一般的な問題点を解決するために、部分的にダイナミックなネットワーク（PAD-Net）を提案します。PAD-Netは、冗長なダイナミックパラメータを静的なパラメータに変換することで、展開コストを削減し、効率的なネットワークを実現します。実験結果では、PAD-Netが画像分類と言語理解のタスクで高い性能を示し、従来のダイナミックネットワークを上回ることを示しました。 #EfficiencyImprovement #NLP #Zero/Few/ManyShotPrompting #In-ContextLearning Issue Date: 2023-07-13 FiD-ICL: A Fusion-in-Decoder Approach for Efficient In-Context Learning, ACL'23 GPT Summary- 大規模な事前学習モデルを使用したfew-shot in-context learning（ICL）において、fusion-in-decoder（FiD）モデルを適用することで効率とパフォーマンスを向上させることができることを検証する。FiD-ICLは他のフュージョン手法と比較して優れたパフォーマンスを示し、推論時間も10倍速くなる。また、FiD-ICLは大規模なメタトレーニングモデルのスケーリングも可能にする。 #NLP #Transformer Issue Date: 2023-06-30 Faith and Fate: Limits of Transformers on Compositionality, Nouha Dziri+, N_A, arXiv'23 GPT Summary- Transformerの大規模言語モデル（LLMs）は、多段階の推論を必要とするタスクで優れたパフォーマンスを示す一方、些細な問題で失敗することもある。この研究では、3つの代表的な合成タスクを用いて、Transformerの限界を調査し、タスクの複雑さが増すにつれてパフォーマンスが低下することを示した。また、Transformerが合成的な推論を線形化されたサブグラフのマッチングに簡約化して解決していることを示唆したが、体系的な問題解決スキルを開発していない可能性もある。 Comment

参考:

Loading…

#Pocket #Transformer Issue Date: 2023-06-16 Birth of a Transformer: A Memory Viewpoint, Alberto Bietti+, N_A, arXiv'23 GPT Summary- 大規模言語モデルの内部メカニズムを理解するため、トランスフォーマーがグローバルとコンテキスト固有のbigram分布をどのようにバランスするかを研究。2層トランスフォーマーでの実証的分析により、グローバルbigramの高速な学習と、コンテキスト内のbigramの「誘導ヘッド」メカニズムの遅い発達を示し、重み行列が連想記憶としての役割を強調する。データ分布特性の役割も研究。 #NeuralNetwork #ComputerVision #Pocket #NLP #MultitaskLearning #MultiModal #SpeechProcessing #ICLR Issue Date: 2025-07-10 [Paper Note] Perceiver IO: A General Architecture for Structured Inputs & Outputs, Andrew Jaegle+, ICLR'22 GPT Summary- 汎用アーキテクチャPerceiver IOを提案し、任意のデータ設定に対応し、入力と出力のサイズに対して線形にスケール可能。柔軟なクエリメカニズムを追加し、タスク特有の設計を不要に。自然言語、視覚理解、マルチタスクで強力な結果を示し、GLUEベンチマークでBERTを上回る性能を達成。 Comment

当時相当話題となったさまざまなモーダルを統一された枠組みで扱えるPerceiver IO論文

#EfficiencyImprovement #Pocket Issue Date: 2023-08-16 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning, Haokun Liu+, N_A, arXiv'22 GPT Summary- Few-shot in-context learning（ICL）とパラメータ効率の良いファインチューニング（PEFT）を比較し、PEFTが高い精度と低い計算コストを提供することを示す。また、新しいPEFTメソッドである（IA）^3を紹介し、わずかな新しいパラメータしか導入しないまま、強力なパフォーマンスを達成する。さらに、T-Fewというシンプルなレシピを提案し、タスク固有のチューニングや修正なしに新しいタスクに適用できる。RAFTベンチマークでT-Fewを使用し、超人的なパフォーマンスを達成し、最先端を6％絶対的に上回る。 #Pretraining #Pocket #Self-SupervisedLearning Issue Date: 2023-07-22 RankMe: Assessing the downstream performance of pretrained self-supervised representations by their rank, Quentin Garrido+, N_A, arXiv'22 GPT Summary- 共有埋め込み自己教示学習（JE-SSL）は、成功の視覚的な手がかりが欠如しているため、展開が困難である。本研究では、JE-SSL表現の品質を評価するための非教示基準であるRankMeを開発した。RankMeはラベルを必要とせず、ハイパーパラメータの調整も不要である。徹底的な実験により、RankMeが最終パフォーマンスのほとんど減少なしにハイパーパラメータの選択に使用できることを示した。RankMeはJE-SSLの展開を容易にすることが期待される。 #EfficiencyImprovement #Attention Issue Date: 2023-05-20 FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness, Tri Dao+, N_A, arXiv'22 GPT Summary- トランスフォーマーは、長いシーケンスに対して遅く、メモリを多く消費するため、注意アルゴリズムを改善する必要がある。FlashAttentionは、タイリングを使用して、GPUの高帯域幅メモリ（HBM）とGPUのオンチップSRAM間のメモリ読み取り/書き込みの数を減らし、トランスフォーマーを高速にトレーニングできる。FlashAttentionは、トランスフォーマーでより長い文脈を可能にし、より高品質なモデルや、完全に新しい機能を提供する。 Comment

より高速なGPU上のSRAM上で計算できるようにQKVをブロック単位に分割して計算することで、より高い計算効率を実現するFlashAttentionを提案[^1]

[^1]: （2025.05.24追記)下記日本語ブログを参考に一部文言を訂正しました。ありがとうございます。

日本語解説: https://zenn.dev/sinchir0/articles/21bb6e96c7b05b
元ポスト:

Loading…

日本語解説: https://zenn.dev/uchiiii/articles/306d0bb7ef67a7
元ポスト:

Loading…

#NeuralNetwork #Transformer #TabularData Issue Date: 2023-04-28 Why do tree-based models still outperform deep learning on typical tabular data?, Grinsztajn+, Soda, Inria Saclay , arXiv'22 Comment

tree basedなモデルがテーブルデータに対してニューラルモデルよりも優れた性能を発揮することを確認し、なぜこのようなことが起きるかいくつかの理由を説明した論文。

NNよりもtree basedなモデルがうまくいく理由として、モデルの帰納的バイアスがテーブルデータに適していることを調査している。考察としては

1. NNはスムーズなターゲットを学習する能力が高いが、表形式のような不規則なデータを学習するのに適していない

- Random Forestでは、x軸においてirregularなパターンも学習できているが、NNはできていない。

2. uninformativeなfeaatureがMLP-likeなNNに悪影響を与える

- Tabular dataは一般にuninformativeな情報を多く含んでおり、実際MLPにuninformativeなfeatureを組み込んだ場合tree-basedな手法とのgapが増加した

3. データはrotationに対して不変ではないため、学習手順もそうあるべき（この辺がよくわからなかった）

- ResNetはRotationを加えても性能が変わらなかった（rotation invariantな構造を持っている）

#NeuralNetwork #Grokking #ICLR Issue Date: 2023-04-25 GROKKING: GENERALIZATION BEYOND OVERFIT- TING ON SMALL ALGORITHMIC DATASETS, Power+, ICLR'21 Workshop Comment

学習後すぐに学習データをmemorizeして、汎化能力が無くなったと思いきや、10^3ステップ後に突然汎化するという現象（Grokking）を報告

学習データが小さければ小さいほど汎化能力を獲得するのに時間がかかる模様

#Pocket #ReinforcementLearning #NeurIPS #Diversity #Sparse Issue Date: 2025-10-22 [Paper Note] Memory Based Trajectory-conditioned Policies for Learning from Sparse Rewards, Yijie Guo+, NeurIPS'20, 2019.07 GPT Summary- スパース報酬の強化学習において、過去の成功した軌道を利用する手法は短期的な行動を促す可能性がある。本研究では、多様な過去の軌道を追跡し拡張する軌道条件付きポリシーを提案し、エージェントが多様な状態に到達できるようにする。実験により、複雑なタスクにおいて従来の手法を大幅に上回り、特にアタリゲームで最先端のスコアを達成した。 Comment

元ポスト:

Loading…

#NeuralNetwork #Pocket #ICLR #LearningPhenomena Issue Date: 2025-07-12 [Paper Note] Deep Double Descent: Where Bigger Models and More Data Hurt, Preetum Nakkiran+, ICLR'20 GPT Summary- 深層学習タスクにおける「ダブルデセント」現象を示し、モデルサイズの増加に伴い性能が一時的に悪化し、その後改善されることを明らかにした。また、ダブルデセントはモデルサイズだけでなくトレーニングエポック数にも依存することを示し、新たに定義した「効果的なモデルの複雑さ」に基づいて一般化されたダブルデセントを仮定。これにより、トレーニングサンプル数を増やすことで性能が悪化する特定の領域を特定できることを示した。 Comment

参考: https://qiita.com/teacat/items/a8bed22329956b80671f

#NeuralNetwork #ComputerVision #Pocket #NLP #ICLR #KnowledgeEditing #read-later Issue Date: 2025-05-07 Editable Neural Networks, Anton Sinitsin+, ICLR'20 GPT Summary- 深層ニューラルネットワークの誤りを迅速に修正するために、Editable Trainingというモデル非依存の訓練手法を提案。これにより、特定のサンプルの誤りを効率的に修正し、他のサンプルへの影響を避けることができる。大規模な画像分類と機械翻訳タスクでその有効性を実証。 Comment

（おそらく）Knowledge Editingを初めて提案した研究

OpenReview: https://openreview.net/forum?id=HJedXaEtvS

#NeuralNetwork #Pocket #NLP #NeurIPS Issue Date: 2021-06-09 All Word Embeddings from One Embedding, Takase+, NeurIPS'20 Comment

Embedidngのパラメータ数とBLEUスコアの比較。より少ないパラメータ数でcomparableな性能を達成している。

#NeuralNetwork #Pocket #ICLR #LearningPhenomena Issue Date: 2025-07-12 [Paper Note] The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks, Jonathan Frankle+, ICLR'19 GPT Summary- ニューラルネットワークのプルーニング技術は、パラメータ数を90%以上削減しつつ精度を維持できるが、スパースアーキテクチャの訓練は難しい。著者は「ロッタリー・チケット仮説」を提唱し、密なネットワークには効果的に訓練できるサブネットワーク（勝利のチケット）が存在することを発見。これらのチケットは特定の初期重みを持ち、元のネットワークと同様の精度に達する。MNISTとCIFAR10の実験で、10-20%のサイズの勝利のチケットを一貫して特定し、元のネットワークよりも早く学習し高精度に達することを示した。 Comment

参考: https://qiita.com/kyad/items/1f5520a7cc268e979893

#NeuralNetwork #ComputerVision #Pocket #Normalization Issue Date: 2025-04-02 Group Normalization, Yuxin Wu+, arXiv'18 GPT Summary- グループ正規化（GN）は、バッチ正規化（BN）の代替手段として提案され、バッチサイズに依存せず安定した精度を提供します。特に、バッチサイズ2のResNet-50では、GNがBNよりも10.6%低い誤差を示し、一般的なバッチサイズでも同等の性能を発揮します。GNは物体検出やビデオ分類などのタスクでBNを上回る結果を示し、簡単に実装可能です。 Comment

#Pocket Issue Date: 2024-12-16 An Empirical Model of Large-Batch Training, Sam McCandlish+, arXiv'18 GPT Summary- 勾配ノイズスケールを用いて、さまざまな分野での最適なバッチサイズを予測する方法を提案。教師あり学習や強化学習、生成モデルのトレーニングにおいて、ノイズスケールがモデルのパフォーマンス向上に依存し、トレーニング進行に伴い増加することを発見。計算効率と時間効率のトレードオフを説明し、適応バッチサイズトレーニングの利点を示す。 Comment

Critical Batchsize（バッチサイズをこれより大きくすると学習効率が落ちる境界）を提唱した論文

#NeuralNetwork #GraphBased #Pocket #GraphConvolutionalNetwork #ESWC Issue Date: 2019-05-31 [Paper Note] Modeling Relational Data with Graph Convolutional Networks, Michael Schlichtkrull+, N_A, ESWC'18 GPT Summary- 知識グラフは不完全な情報を含んでいるため、関係グラフ畳み込みネットワーク（R-GCNs）を使用して知識ベース補完タスクを行う。R-GCNsは、高度な多関係データに対処するために開発されたニューラルネットワークであり、エンティティ分類とリンク予測の両方で効果的であることを示している。さらに、エンコーダーモデルを使用してリンク予測の改善を行い、大幅な性能向上が見られた。 #NeuralNetwork #Pocket #Catastrophic Forgetting #Selected Papers/Blogs Issue Date: 2024-10-10 Overcoming catastrophic forgetting in neural networks, James Kirkpatrick+, N_A, PNAS'17 GPT Summary- タスクを逐次的に学習する能力を持つネットワークを訓練する方法を提案。重要な重みの学習を選択的に遅くすることで、古いタスクの記憶を維持。MNISTやAtari 2600ゲームでの実験により、アプローチの効果とスケーラビリティを実証。 Comment

Catastrophic Forgettingを防ぐEWCを提案した論文

日本語解説: https://qiita.com/yu4u/items/90c039ec2f1d4f2d2414

ポイント解説:

Loading…

#NeuralNetwork #Online/Interactive #Pocket Issue Date: 2018-01-01 [Paper Note] Online Deep Learning: Learning Deep Neural Networks on the Fly, Doyen Sahoo+, N_A, arXiv'17 GPT Summary- 本研究では、オンライン設定でリアルタイムにディープニューラルネットワーク（DNN）を学習するための新しいフレームワークを提案します。従来のバックプロパゲーションはオンライン学習には適していないため、新しいHedge Backpropagation（HBP）手法を提案します。この手法は、静的およびコンセプトドリフトシナリオを含む大規模なデータセットで効果的であることを検証します。 #NeuralNetwork #Pocket #GraphConvolutionalNetwork #NeurIPS #Selected Papers/Blogs Issue Date: 2018-03-30 [Paper Note] Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering, Michaël Defferrard+, NIPS'16 GPT Summary- 本研究では、CNNを用いて低次元のグリッドから高次元のグラフドメインへの一般化を探求。スペクトルグラフ理論に基づくCNNの定式化を提案し、古典的CNNと同等の計算複雑性を維持しつつ、任意のグラフ構造に対応可能。MNISTおよび20NEWSの実験により、グラフ上での局所的特徴学習の能力を示した。 Comment

GCNを勉強する際は読むと良いらしい。

あわせてこのへんも：

Semi-Supervised Classification with Graph Convolutional Networks, Kipf+, ICLR'17

https://github.com/tkipf/gcn

#NeuralNetwork #Normalization #Selected Papers/Blogs Issue Date: 2018-02-19 [Paper Note] Layer Normalization, Ba+, arXiv'16 GPT Summary- バッチ正規化の代わりにレイヤー正規化を用いることで、リカレントニューラルネットワークのトレーニング時間を短縮。レイヤー内のニューロンの合計入力を正規化し、各ニューロンに独自の適応バイアスとゲインを適用。トレーニング時とテスト時で同じ計算を行い、隠れ状態のダイナミクスを安定させる。実証的に、トレーニング時間の大幅な短縮を確認。 Comment

解説スライド：

https://www.slideshare.net/KeigoNishida/layer-normalizationnips

#NeuralNetwork #ICML #Selected Papers/Blogs Issue Date: 2018-02-19 [Paper Note] An Empirical Exploration of Recurrent Network Architectures, Jozefowicz+, ICML'15 Comment

GRUとLSTMの違いを理解するのに最適

#StructuredLearning Issue Date: 2017-12-31 [Paper Note] Online Distributed Passive-Aggressive Algorithm for Structured Learning, Zhao+, CCL and NLP-NABD'13 Comment

タイトルの通り、構造学習版のpassive-aggressiveアルゴリズムの分散処理による高速化手法について提案されている論文。

論文中のAlgorithm.2がアルゴリズム。

#StructuredLearning #SIGKDD Issue Date: 2017-12-31 [Paper Note] Structured Learning for Non-Smooth Ranking Losses, Chakrabarti+, KDD'08 Comment

従来、structured learningの設定でranking lossを最適化する際は、smoothなmetric、たとえばMAPやAUCなどを最適化するといったことが行われていたが、MRRやNDCGなどのnon-smoothなmetricに対しては適用されていなかった。

なので、それをできるようにしましたという論文。

#StructuredLearning #InformationRetrieval #SIGIR Issue Date: 2017-12-31 [Paper Note] A support vector method for Optimizing Average Precision, Yue+, SIGIR'07 Comment

SVM-MAPの論文

構造化SVMを用いて、MAPを直接最適化する。

#Privacy Issue Date: 2025-09-13 Calibrating Noise to Sensitivity in Private Data Analysis, Dwork+, TCC'06 Comment

差分プライバシーとは何か:
https://www.jstage.jst.go.jp/article/isciesci/63/2/63_58/_pdf/-char/ja

差分プライバシーの概要と機械学習への応用:
https://www.skillupai.com/blog/tech/differential-privacy/

#NeuralNetwork #Pocket #MoE(Mixture-of-Experts) Issue Date: 2025-04-29 Adaptive Mixture of Local Experts, Jacobs+, Neural Computation'91 Comment

Mixture of Expertsの起源

と思ったのだが、下記研究の方が年号が古いようだが、こちらが起源ではなのか・・・？だがアブスト中に上記論文で提案されたMoEのパフォーマンスを比較する、といった旨の記述があるので時系列がよくわからない。
[Evaluation of Adaptive Mixtures of Competing Experts]( http://www.cs.toronto.edu/~fritz/absps/nh91.pdf)

参考: https://speakerdeck.com/onysuke/mixture-of-expertsniguan-suruwen-xian-diao-cha

#Article #ComputerVision #NLP #MultiModal #Repository #PostTraining #Selected Papers/Blogs #UMM #One-Line Notes Issue Date: 2025-10-27 LMMs Engine, EvolvingLMMs-Lab, 2025.10 Comment

元ポスト:

Loading…

#Article #NeuralNetwork #NLP #Blog #Optimizer #read-later Issue Date: 2025-09-27 Modular Manifolds, Jeremy Bernstein+, THINKING MACHINES, 2025.09 Comment

関連:

Loading…

#Article #Blog Issue Date: 2025-04-18 あえて予測の更新頻度を落とす| サプライチェーンの現場目線にたった機械学習の導入, モノタロウ Tech Blog, 2022.03 Comment

とても面白かった。需要予測の予測性能を追求すると現場にフィットしない話が示唆に富んでいて、とてもリアルで興味深い。

#Article #Optimizer Issue Date: 2024-12-12 最近のOptimizerの研究について, Hiroyuki Tokunaga, 2024.12 Comment

#Article #EfficiencyImprovement #NLP #Transformer #Attention Issue Date: 2023-07-23 FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, 2023 GPT Summary- FlashAttention-2は、長いシーケンス長におけるTransformerのスケーリングの問題に対処するために提案された手法です。FlashAttention-2は、非対称なGPUメモリ階層を利用してメモリの節約とランタイムの高速化を実現し、最適化された行列乗算に比べて約2倍の高速化を達成します。また、FlashAttention-2はGPTスタイルのモデルのトレーニングにおいても高速化を実現し、最大225 TFLOPs/sのトレーニング速度に達します。 Comment

Flash Attention1よりも2倍高速なFlash Attention 2

#Article #project_template #python Issue Date: 2023-05-25 Ascender Comment

pythonを利用した研究開発する上でのプロジェクトテンプレート

#Article #Tools Issue Date: 2022-03-09 neptune.ai Comment

#Article #StructuredLearning #Tools #InformationRetrieval Issue Date: 2017-12-31 SVM-MAP Comment

構造化SVMを用いて、MAPを直接最適化する手法

#Article #StructuredLearning Issue Date: 2017-12-31 [Paper Note] Scalable Large-Margin Online Learning for Structured Classification, Crammer+, 2005 Comment

構造学習ガチ勢のCrammer氏の論文

構造学習やるなら読んだ方が良い

RecommenderSystems (207)

Survey (41)

#Multi #NeuralNetwork #Pocket #MultitaskLearning #MultiModal
Issue Date: 2025-03-03 Joint Modeling in Recommendations: A Survey, Xiangyu Zhao+, arXiv'25 GPT Summary- デジタル環境におけるDeep Recommender Systems（DRS）は、ユーザーの好みに基づくコンテンツ推薦に重要だが、従来の手法は単一のタスクやデータに依存し、複雑な好みを反映できない。これを克服するために、共同モデリングアプローチが必要であり、推薦の精度とカスタマイズを向上させる。本論文では、共同モデリングをマルチタスク、マルチシナリオ、マルチモーダル、マルチビヘイビアの4次元で定義し、最新の進展と研究の方向性を探る。最後に、将来の研究の道筋を示し、結論を述べる。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Contents-based
Issue Date: 2025-01-06 Cold-Start Recommendation towards the Era of Large Language Models （LLMs）: A Comprehensive Survey and Roadmap, Weizhi Zhang+, arXiv'25 GPT Summary- コールドスタート問題はレコメンダーシステムの重要な課題であり、新しいユーザーやアイテムのモデル化に焦点を当てている。大規模言語モデル（LLMs）の成功により、CSRに新たな可能性が生まれているが、包括的なレビューが不足している。本論文では、CSRのロードマップや関連文献をレビューし、LLMsが情報を活用する方法を探求することで、研究と産業界に新たな洞察を提供することを目指す。関連リソースはコミュニティのために収集・更新されている。 Comment

元ポスト:

Loading…

#GenerativeRecommendation
Issue Date: 2024-08-06 Large Language Models for Generative Recommendation: A Survey and Visionary Discussions, Lei Li+, N_A, LREC-COLING'24 GPT Summary- LLMを使用した生成的な推薦に焦点を当て、従来の複数段階の推薦プロセスを1つの段階に簡素化する方法を調査。具体的には、生成的推薦の定義、RSの進化、LLMベースの生成的推薦の実装方法について検討。この調査は、LLMベースの生成的推薦に関する進捗状況と将来の方向について提供できる文脈とガイダンスを提供することを目指している。 Comment

Generative Recommendationの定義がわかりやすい：

> Definition 2 (Generative Recommendation) A generative recommender system directly generates recommendations or recommendation-related content without the need to calculate each candidate’s ranking score one by one.

既存の企業におけるRecommenderSystemsは、典型的には非常に膨大なアイテムバンクを扱わなければならず、全てのアイテムに対してスコアリングをしランキングをすることは計算コストが膨大すぎて困難である。このため、まずは軽量なモデル（e.g. logistic regression）やシンプルな手法（e.g. feature matching）などで、明らかに推薦候補ではないアイテムを取り除いてから、少量のcandidate itemsに対して洗練されたモデルを用いてランキングを生成して推薦するというマルチステージのパイプラインを組んでおり、アカデミック側での研究にここでギャップが生じている。

一方で、Generative Recommendationでは、推薦するアイテムのIDを直接生成するため、

- 実質ほぼ無限のアイテムバンクを運用でき

- 推論の過程でimplicitに全てのアイテムに対して考慮をしたうえで

推薦を生成することができる手法である。また、推薦するアイテムを生成するだけでなく、推薦理由を生成したりなど、テキストを用いた様々なdown stream applicationにも活用できる。

#Pocket #GenerativeAI Issue Date: 2024-04-02 A Review of Modern Recommender Systems Using Generative Models （Gen-RecSys）, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル（Gen-RecSys）を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル（LLM）を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。 #InformationRetrieval #Pocket #LanguageModel #SequentialRecommendation Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。 #Pocket #SessionBased #SequentialRecommendation Issue Date: 2019-08-02 [Paper Note] A Survey on Session-based Recommender Systems, Shoujin Wang+, arXiv'19 GPT Summary- レコメンダーシステム（RS）の中で、セッションベースのレコメンダーシステム（SBRS）が短期的なユーザーの好みを捉え、より正確な推奨を提供する新たなパラダイムとして注目されている。しかし、SBRSに関する統一された問題定義や特性の詳細な説明は不足している。本研究では、SBRSのエンティティや行動、特性を探求し、一般的な問題定義やデータ特性、課題を要約し、代表的な研究を分類する方法を提案する。また、SBRS分野における新たな研究機会についても議論する。 #NeuralNetwork #Pocket Issue Date: 2018-04-16 [Paper Note] Deep Learning based Recommender System: A Survey and New Perspectives, Shuai Zhang+, arXiv'17 GPT Summary- レコメンダーシステムは情報過多を克服するための効果的な手段であり、深層学習の進展によりその性能が向上している。本稿では、深層学習に基づくレコメンダーシステムの研究をレビューし、推薦モデルの分類法や最先端技術をまとめ、現在のトレンドと新たな発展について考察する。 #Education Issue Date: 2018-03-30 [Paper Note] A SURVEY OF ARTIFICIAL INTELLIGENCE TECHNIQUES EMPLOYED FOR ADAPTIVE EDUCATIONAL SYSTEMS WITHIN E-LEARNING PLATFORMS, Almohammadi+, JAISCR'17 Issue Date: 2018-01-01 [Paper Note] A survey of transfer learning for collaborative recommendation with auxiliary data, Pan, Neurocomputing'17 #Pocket #Education #TechnologyEnhancedLearning Issue Date: 2018-03-30 [Paper Note] A Survey on Artificial Intelligence and Data Mining for MOOCs, Simon Fauvel+, arXiv'16 GPT Summary- MOOCsは人気を集めており、AIとデータマイニングがその発展に寄与している。データを活用することで、MOOCの理解を深め、学習者の体験を向上させることが可能。論文では、AIとDMの最新研究をレビューし、学生のエンゲージメントや学習成果を向上させる技術を強調。さらに、MOOCsの潜在能力を引き出すための重要な研究課題とトレンドを示す。 Issue Date: 2018-01-01 [Paper Note] A Survey of Collaborative Filtering-Based Recommender Systems for Mobile Internet Applications, Yang+, IEEE Access'16 Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Model in Collaborative Filtering Algorithms: A Survey, Bokde+, Procedia Computer Science'15 Issue Date: 2018-01-01 [Paper Note] セレンディピティ指向情報推薦の研究動向, 奥健太, 知能と情報'13 Issue Date: 2018-01-01 [Paper Note] Recommender systems survey, Bobadilla+, Knowledge-Based Systems'13 Issue Date: 2018-01-01 [Paper Note] A literature review and classification of recommender systems research, Park+, Expert Systems with Applications'12 Issue Date: 2018-01-01 [Paper Note] Explaining the user experience of recommender systems, Knijnenburg+, User Modeling and User-Adapted Interaction'12 #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Collaborative Filtering Recommender Systems, Ekstrand+ （with Joseph A. Konstan）, Foundations and TrendsR in Human–Computer Interaction'11 #Selected Papers/Blogs Issue Date: 2018-01-01 Content-based Recommender Systems: State of the Art and Trends, Lops+, Recommender Systems Handbook'10 Comment

RecSysの内容ベースフィルタリングシステムのユーザプロファイルについて知りたければこれ

Issue Date: 2018-01-01 Content-Based Recommendation Systems, Pazzani+, The Adaptive Web'07 #Explanation #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07 #CollaborativeFiltering #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている

Issue Date: 2018-01-01 [Paper Note] Explanation in Recommender Systems, Mcsherry, Artificial Intelligence Review'05 #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, Adomavicius+, IEEE Transactions on Knowledge and Data Engineering'05 Comment

有名なやつ

#Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Evaluating Collaborative Filtering Recommener Systems, Herlocker+, TOIS'04 Comment

GroupLensのSurvey

Issue Date: 2018-01-01 [Paper Note] Hybrid Recommender Systems: Survey and Experiments, Burke+, User Modeling and User-Adapted Interaction'02 #Article #NLP #LanguageModel #Blog Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #Library #Repository Issue Date: 2024-08-07 list of recommender systems Comment

推薦システムに関するSaaS, OpenSource, Datasetなどがまとめられているリポジトリ

#Article #GenerativeAI Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment

Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ

#Article #InformationRetrieval #Personalization Issue Date: 2023-04-28 Measuring the impact of online personalisation: Past, present and future Comment

#Article #Pretraining Issue Date: 2022-12-01 A Paper List for Recommend-system PreTrained Models #Article #CTRPrediction Issue Date: 2021-10-29 2010年代前半のAIの巨人達のCTR Prediction研究 #Article #SequentialRecommendation Issue Date: 2020-11-13 Sequence-Aware Recommender Systems, ACM Computing Surveys, Vol. 1, No. 1, Article 1, 2018 Comment

#Article #AdaptiveLearning Issue Date: 2018-12-22 Recommender Systems for Technology Enhanced Learning: Research Trends and Applications, Manouselis+, 2014 Comment

最近のトレンドやアプリケーションを知りたい場合はこちら

#Article #AdaptiveLearning Issue Date: 2018-12-22 Panorama of recommender systems to support learning, Drachsler+, 2015 Comment

教育分野に対するRecsysのSurvey

#Article #AdaptiveLearning Issue Date: 2018-12-22 Recommender Systems in Technology Enhanced Learning, Manouselis+, Recommender Systems Handbook, 2011 #Article #Education #TechnologyEnhancedLearning Issue Date: 2018-03-30 Recommender Systems in Technology Enhanced Learning, Manouselis+, Recommender Systems Handbook: A Complete Guide for Research Scientists and Practitioners, 2011 #Article #Education #TechnologyEnhancedLearning Issue Date: 2018-03-30 [Paper Note] Context-Aware Recommender Systems for Learning: A Survey and Future Challenges, Verbert+, IEEE TRANSACTIONS ON LEARNING TECHNOLOGIES, VOL. 5, NO. 4, OCTOBER-DECEMBER 2012 #Article Issue Date: 2018-01-01 [Paper Note] 利用者の好みをとらえ活かす-嗜好抽出技術の最前線, 土方嘉徳, 2007 #Article #Selected Papers/Blogs Issue Date: 2018-01-01 推薦システムのアルゴリズム, 神嶌, 2016 #Article Issue Date: 2018-01-01 [Paper Note] A Survey on Challenges and Methods in News Recommendation, O¨zgo¨bek+, 2014 #Article Issue Date: 2018-01-01 [Paper Note] A Survey and Critique of Deep Learning on Recommender Systems, Lei Zheng

LanguageModel (33)

#Pocket #ReinforcementLearning #VariationalAutoEncoder #PostTraining #read-later #Selected Papers/Blogs #One-Line Notes #Scalability
Issue Date: 2025-11-26 [Paper Note] MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation, Xiaoyu Kong+, arXiv'25, 2025.10 GPT Summary- MiniOneRecを提案し、SID構築から強化学習までのエンドツーエンドの生成レコメンデーションフレームワークを提供。実験により、モデルサイズの増加に伴いトレーニング損失と評価損失が減少し、生成アプローチのパラメータ効率が確認された。さらに、SID整合性の強制と強化学習を用いたポストトレーニングパイプラインにより、ランキング精度と候補の多様性が大幅に向上。 Comment

github: https://github.com/AkaliKong/MiniOneRec

元ポスト:

Loading…

興味深い話ではあるが、generativeなRecSysはlatencyの面で厳しいものがあるという認識ではある。読みたい。

#Pocket #Reasoning #read-later #ColdStart
Issue Date: 2025-11-25 [Paper Note] LLM Reasoning for Cold-Start Item Recommendation, Shijun Li+, arXiv'25, 2025.11 GPT Summary- LLMsを用いたコールドスタートアイテム推薦の新しい推論戦略を提案。特に新規アイテムに対するユーザーの好みを推測し、教師ありファインチューニングと強化学習を組み合わせたアプローチを評価。実験により、Netflixの製品ランキングモデルを最大8%上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #AIAgents
Issue Date: 2025-09-30 [Paper Note] RecoWorld: Building Simulated Environments for Agentic Recommender Systems, Fei Liu+, arXiv'25, 2025.09 GPT Summary- RecoWorldは、エージェント型レコメンダーシステムのためのシミュレーション環境を提案し、エージェントがユーザーに影響を与えずに学習できる場を提供します。ユーザーシミュレーターとエージェント型レコメンダーがマルチターンのインタラクションを行い、ユーザーの保持を最大化します。ユーザーシミュレーターはユーザーの反応を基に指示を生成し、レコメンダーはそれに応じて推奨を適応させる動的なフィードバックループを形成します。さらに、テキストベースやマルチモーダルなコンテンツ表現を探求し、マルチターン強化学習を通じて戦略を洗練させる方法を議論します。RecoWorldは、ユーザーとエージェントが共同でパーソナライズされた情報を形成する新しいインタラクションパラダイムを提示します。 Comment

元ポスト:

Loading…

#Pocket #read-later #Selected Papers/Blogs #interactive #One-Line Notes Issue Date: 2025-09-29 [Paper Note] Interactive Recommendation Agent with Active User Commands, Jiakai Tang+, arXiv'25, 2025.09 GPT Summary- 従来のレコメンダーシステムは受動的なフィードバックに依存し、ユーザーの意図を捉えられないため、嗜好モデルの構築が困難である。これに対処するため、インタラクティブレコメンデーションフィード（IRF）を導入し、自然言語コマンドによる能動的な制御を可能にする。RecBotという二重エージェントアーキテクチャを開発し、ユーザーの嗜好を構造化し、ポリシー調整を行う。シミュレーション強化知識蒸留を用いて効率的なパフォーマンスを実現し、実験によりユーザー満足度とビジネス成果の改善を示した。 Comment

元ポスト:

Loading…

ABテストを実施しているようなので信ぴょう性高め

#Embeddings #InformationRetrieval #Pocket Issue Date: 2025-09-17 [Paper Note] Conan-Embedding-v2: Training an LLM from Scratch for Text Embeddings, Shiyu Li+, arXiv'25 GPT Summary- 新しい1.4BパラメータのLLM「Conan-embedding-v2」をゼロからトレーニングし、テキスト埋め込み器としてファインチューニングする手法を提案。ニュースデータと多言語ペアを追加してデータギャップを埋め、クロスリンガルリトリーバルデータセットを導入。ソフトマスキングメカニズムを用いてトークンレベルと文レベルの損失を統合し、動的ハードネガティブマイニング手法を採用。これにより、MTEBおよびChinese MTEBでSOTA性能を達成。 Comment

元ポスト:

Loading…

#InformationRetrieval #Pocket #SmallModel #Reranking Issue Date: 2025-09-03 [Paper Note] ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking, Xianming Li+, arXiv'25 GPT Summary- 再ランキングにおいて、SLMを用いた新しい二段階トレーニングアプローチProRankを提案。まず、強化学習を用いてSLMがタスクプロンプトを理解し、粗い関連スコアを生成。次に、ファインチューニングを行い再ランキングの質を向上。実験結果では、ProRankが先進的な再ランキングモデルを上回り、特にProRank-0.5Bモデルが32B LLMを超える性能を示した。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #FoundationModel #read-later Issue Date: 2025-08-26 [Paper Note] Large Foundation Model for Ads Recommendation, Shangyu Zhang+, arXiv'25 GPT Summary- LFM4Adsは、オンライン広告のための全表現マルチ粒度転送フレームワークで、ユーザー表現（UR）、アイテム表現（IR）、ユーザー-アイテム交差表現（CR）を包括的に転送。最適な抽出層を特定し、マルチ粒度メカニズムを導入することで転送可能性を強化。テンセントの広告プラットフォームで成功裏に展開され、2.45%のGMV向上を達成。 Comment

元ポスト:

Loading…

#Pocket #Prompting #Evaluation #RecSys #Reproducibility #KeyPoint Notes Issue Date: 2025-07-21 [Paper Note] Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation, Genki Kusano+, RecSys'25 GPT Summary- LLMを用いた単一ユーザー設定の推薦タスクにおいて、プロンプトエンジニアリングが重要であることを示す。23種類のプロンプトタイプを比較した結果、コスト効率の良いLLMでは指示の言い換え、背景知識の考慮、推論プロセスの明確化が効果的であり、高性能なLLMではシンプルなプロンプトが優れることが分かった。精度とコストのバランスに基づくプロンプトとLLMの選択に関する提案を行う。 Comment

元ポスト:

Loading…

RecSysにおける網羅的なpromptingの実験。非常に興味深い

#Embeddings #InformationRetrieval #Pocket #NLP #RepresentationLearning #InstructionTuning #ContrastiveLearning #ICLR #Generalization #Decoder Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#Embeddings #InformationRetrieval #Pocket #SequentialRecommendation #Generalization Issue Date: 2025-07-08 [Paper Note] Do We Really Need Specialization? Evaluating Generalist Text Embeddings for Zero-Shot Recommendation and Search, Matteo Attimonelli+, arXiv'25 GPT Summary- 事前学習済み言語モデル（GTEs）は、逐次推薦や製品検索においてファインチューニングなしで優れたゼロショット性能を発揮し、従来のモデルを上回ることを示す。GTEsは埋め込み空間に特徴を均等に分配することで表現力を高め、埋め込み次元の圧縮がノイズを減少させ、専門モデルの性能向上に寄与する。再現性のためにリポジトリを提供。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-04-29 Generative Product Recommendations for Implicit Superlative Queries, Kaustubh D. Dhole+, arXiv'25 GPT Summary- レコメンダーシステムにおいて、ユーザーの曖昧なクエリに対して大規模言語モデル（LLMs）を用いて暗黙の属性を生成し、製品推薦を改善する方法を探る。新たに提案する4ポイントスキーマ「SUPERB」を用いて最上級クエリに対する製品候補を注釈付けし、既存の検索およびランキング手法を評価する。 Comment

元ポスト:

Loading…

#CollaborativeFiltering #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #Reasoning Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 GPT Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment

元ポスト:

Loading…

Reasoning LLMをRecSysに応用する初めての研究（らしいことがRelated Workに書かれている）

#Pocket #Personalization #FoundationModel Issue Date: 2025-01-29 360Brew: A Decoder-only Foundation Model for Personalized Ranking and Recommendation, Hamed Firooz+, arXiv'25 GPT Summary- ランキングおよび推薦システムの課題に対処するため、テキストインターフェースを持つ大規模基盤モデルを活用した研究を紹介。150Bパラメータのデコーダー専用モデル360Brew V1.0は、LinkedInのデータを用いて30以上の予測タスクを解決し、従来の専用モデルと同等以上のパフォーマンスを達成。特徴エンジニアリングの複雑さを軽減し、複数のタスクを単一モデルで管理可能にする利点を示す。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-01-28 Pre-train and Fine-tune: Recommenders as Large Models, Zhenhao Jiang+, arXiv'25 GPT Summary- ユーザーの興味の変化を捉えるため、レコメンダーを大規模な事前学習モデルとしてファインチューニングするアプローチを提案。情報ボトルネック理論に基づき、知識圧縮と知識マッチングの二つのフェーズを定義したIAK技術を設計。実験により優位性を示し、オンラインプラットフォームでの展開から得た教訓や潜在的な問題への解決策も提示。IAK技術を用いたレコメンダーは、オンラインフードプラットフォームでの展開により大きな利益を上げている。 Comment

元ポスト:

Loading…

#Survey #Pocket #Contents-based Issue Date: 2025-01-06 Cold-Start Recommendation towards the Era of Large Language Models （LLMs）: A Comprehensive Survey and Roadmap, Weizhi Zhang+, arXiv'25 GPT Summary- コールドスタート問題はレコメンダーシステムの重要な課題であり、新しいユーザーやアイテムのモデル化に焦点を当てている。大規模言語モデル（LLMs）の成功により、CSRに新たな可能性が生まれているが、包括的なレビューが不足している。本論文では、CSRのロードマップや関連文献をレビューし、LLMsが情報を活用する方法を探求することで、研究と産業界に新たな洞察を提供することを目指す。関連リソースはコミュニティのために収集・更新されている。 Comment

元ポスト:

Loading…

#NLP #UserModeling #CTRPrediction #RAG(RetrievalAugmentedGeneration) #LongSequence #WWW Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

#Pocket #Dataset #SessionBased #Personalization #Evaluation Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。 #Pocket #SessionBased Issue Date: 2024-12-31 Unifying Generative and Dense Retrieval for Sequential Recommendation, Liu Yang+, arXiv'24 GPT Summary- 逐次密な検索モデルはユーザーとアイテムの内積計算を行うが、アイテム数の増加に伴いメモリ要件が増大する。一方、生成的検索はセマンティックIDを用いてアイテムインデックスを予測する新しいアプローチである。これら二つの手法の比較が不足しているため、LIGERというハイブリッドモデルを提案し、生成的検索と逐次密な検索の強みを統合。これにより、コールドスタートアイテム推薦を強化し、推薦システムの効率性と効果を向上させることを示した。 #KnowledgeGraph #InstructionTuning #Annotation Issue Date: 2024-10-08 COSMO: A large-scale e-commerce common sense knowledge generation and serving system at Amazon , Yu+, SIGMOD_PODS '24 GPT Summary- COSMOは、eコマースプラットフォーム向けにユーザー中心の常識知識をマイニングするためのスケーラブルな知識グラフシステムです。大規模言語モデルから抽出した高品質な知識を用い、指示チューニングによってファインチューニングされたCOSMO-LMは、Amazonの主要カテゴリにわたって数百万の知識を生成します。実験により、COSMOが検索ナビゲーションなどで顕著な改善を達成することが示され、常識知識の活用の可能性が強調されています。 Comment

search navigationに導入しA/Bテストした結果、0.7%のproduct sales向上効果。

#Tutorial #GenerativeAI #DiffusionModel Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

#Contents-based #Supervised-FineTuning (SFT) #PEFT(Adaptor/LoRA) #Zero/FewShotLearning #RecSys #KeyPoint Notes Issue Date: 2025-03-30 [Paper Note] TALLRec: An Effective and Efficient Tuning Framework to Align Large Language Model with Recommendation, Keqin Bao+, RecSys'23 GPT Summary- 大規模言語モデル（LLMs）を推薦システムに活用するため、推薦データで調整するフレームワークTALLRecを提案。限られたデータセットでもLLMsの推薦能力を向上させ、効率的に実行可能。ファインチューニングされたLLMはクロスドメイン一般化を示す。 Comment

下記のようなユーザのプロファイルとターゲットアイテムと、binaryの明示的なrelevance feedbackデータを用いてLoRA、かつFewshot Learningの設定でSFTすることでbinaryのlike/dislikeの予測性能を向上。PromptingだけでなくSFTを実施した初めての研究だと思われる。

既存ベースラインと比較して大幅にAUCが向上

#Survey #InformationRetrieval #Pocket #SequentialRecommendation Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。 #Pocket Issue Date: 2024-12-03 Recommender Systems in the Era of Large Language Models （LLMs）, Zihuai Zhao+, arXiv'23 GPT Summary- レコメンダーシステムは、ユーザーの好みに基づいた提案を提供する重要な要素であり、DNNの限界を克服するためにLLMsの活用が進んでいる。本論文では、LLMを用いたレコメンダーシステムの事前学習、ファインチューニング、プロンプティングに関する包括的なレビューを行い、ユーザーとアイテムの表現学習手法や最近の技術を紹介し、今後の研究方向性について議論する。 Comment

中身を全然読んでいる時間はないので、図には重要な情報が詰まっていると信じ、図を読み解いていく。時間がある時に中身も読みたい。。。

LLM-basedなRecSysでは、NLPにおけるLLMの使い方（元々はT5で提案）と同様に、様々なレコメンド関係タスクを、テキスト生成タスクに落とし込み学習することができる。

RecSysのLiteratureとしては、最初はコンテンツベースと協調フィルタリングから始まり、（グラフベースドな推薦, Matrix Factorization, Factorization Machinesなどが間にあって）、その後MLP, RNN, CNN, AutoEncoderなどの様々なDeep Neural Network（DNN）を活用した手法や、BERT4RecなどのProbabilistic Language Models（PLM）を用いた手法にシフトしていき、現在LLM-basedなRecSysの時代に到達した、との流れである。

LLM-basedな手法では、pretrainingの段階からEncoder-basedなモデルの場合はMLM、Decoder-basedな手法ではNext Token Predictionによってデータセットで事前学習する方法もあれば、フルパラメータチューニングやPEFT（LoRAなど）によるSFTによるアプローチもあるようである。

推薦タスクは、推薦するアイテムIDを生成するようなタスクの場合は、異なるアイテムID空間に基づくデータセットの間では転移ができないので、SFTをしないとなかなかうまくいかないと気がしている。また、その場合はアイテムIDの推薦以外のタスクも同時に実施したい場合は、事前学習済みのパラメータが固定されるPEFT手法の方が安全策になるかなぁ、という気がしている（破壊的忘却が怖いので）。特はたとえば、アイテムIDを生成するだけでなく、その推薦理由を生成できるのはとても良いことだなあと感じる（良い時代、感）。

また、PromptingによるRecSysの流れも図解されているが、In-Context Learningのほかに、Prompt Tuning（softとhardの両方）、Instruction Tuningも同じ図に含まれている。個人的にはPrompt TuningはPEFTの一種であり、Instruction TuningはSFTの一種なので、一つ上の図に含意される話なのでは?という気がするが、論文中ではどのような立て付けで記述されているのだろうか。
どちらかというと、Promptingの話であれば、zero-few-many shotや、各種CoTの話を含めるのが自然な気がするのだが。

下図はPromptingによる手法を表にまとめたもの。Finetuningベースの手法が別表にまとめられていたが、研究の数としてはこちらの方が多そうに見える。が、性能的にはどの程度が達成されるのだろうか。直感的には、アイテムを推薦するようなタスクでは、Promptingでは性能が出にくいような印象がある。なぜなら、事前学習済みのLLMはアイテムIDのトークン列とアイテムの特徴に関する知識がないので。これをFinetuningしないのであればICLで賄うことになると思うのだが、果たしてどこまでできるだろうか…。興味がある。

（図は論文より引用）

#Pocket #ConversationalRecommenderSystems Issue Date: 2024-08-07 Leveraging Large Language Models in Conversational Recommender Systems, Luke Friedman+, N_A, arXiv'23 GPT Summary- LLMsを使用した大規模な会話型推薦システム（CRS）の構築に関する論文の要約です。LLMsを活用したユーザーの好み理解、柔軟なダイアログ管理、説明可能な推薦の新しい実装を提案し、LLMsによって駆動される統合アーキテクチャの一部として説明します。また、LLMが解釈可能な自然言語のユーザープロファイルを利用してセッションレベルのコンテキストを調整する方法についても説明します。さらに、LLMベースのユーザーシミュレータを構築して合成会話を生成する技術を提案し、LaMDAをベースにしたYouTubeビデオの大規模CRSであるRecLLMを紹介します。 #Pocket Issue Date: 2023-11-10 LightLM: A Lightweight Deep and Narrow Language Model for Generative Recommendation, Kai Mei+, N_A, arXiv'23 GPT Summary- この論文では、軽量なTransformerベースの言語モデルであるLightLMを提案し、生成型レコメンデーションタスクに特化したモデルを開発しています。LightLMは、モデルの容量を抑えつつも、レコメンデーションの精度と効率を向上させることに成功しています。また、ユーザーとアイテムのIDインデックス化方法として、Spectral Collaborative Indexing（SCI）とGraph Collaborative Indexing（GCI）を提案しています。さらに、アイテム生成時のhallucinationの問題に対処するために、制約付き生成プロセスを導入しています。実験結果は、LightLMが競合ベースラインを上回ることを示しています。 Comment

Generative Recommendationはあまり終えていないのだが、既存のGenerative Recommendationのモデルをより軽量にし、性能を向上させ、存在しないアイテムを生成するのを防止するような手法を提案しました、という話っぽい。

Bayesian Personalized Ranking [Paper Note] BPR: Bayesian Personalized Ranking from Implicit Feedback, Steffen Rendle+, UAI'09, 2009.06 ベースドなMatrix Factorizationよりは高い性能が出てるっぽい。

#Pocket Issue Date: 2023-08-02 LLM-Rec: Personalized Recommendation via Prompting Large Language Models, Hanjia Lyu+, N_A, arXiv'23 GPT Summary- LLMsを用いたパーソナライズされたコンテンツ推薦のためのプロンプティング戦略を調査し、LLM-Recというアプローチを提案した。実験の結果、プロンプティング戦略によって生成されたLLMによる拡張入力テキストと元のコンテンツの説明を組み合わせることで、推薦の性能が向上することが示された。これは、多様なプロンプトと入力拡張技術がパーソナライズされたコンテンツ推薦の能力を向上させる上で重要であることを示している。 Comment

LLMのpromptingの方法を変更しcontent descriptionだけでなく、様々なコンテキストの追加（e.g. このdescriptionを推薦するならどういう人におすすめ？、アイテム間の共通項を見つける）、内容の拡張等を行いコンテントを拡張して活用するという話っぽい。WIP

#Zero/Few/ManyShotPrompting #InstructionTuning Issue Date: 2023-11-12 Recommendation as Language Processing （RLP）: A Unified Pretrain, Personalized Prompt & Predict Paradigm （P5）, Shijie Geng+, N_A, RecSys'22 GPT Summary- 我々は「Pretrain, Personalized Prompt, and Predict Paradigm」（P5）と呼ばれる柔軟で統一されたテキストからテキストへのパラダイムを提案します。P5は、共有フレームワーク内でさまざまな推薦タスクを統一し、個別化と推薦のための深い意味を捉えることができます。P5は、異なるタスクを学習するための同じ言語モデリング目標を持つ事前学習を行います。P5は、浅いモデルから深いモデルへと進化し、広範な微調整の必要性を減らすことができます。P5の効果を実証するために、いくつかの推薦ベンチマークで実験を行いました。 Comment

# 概要

T5 のように、様々な推薦タスクを、「Prompt + Prediction」のpipelineとして定義して解けるようにした研究。

P5ではencoder-decoder frameworkを採用しており、encoder側ではbidirectionalなモデルでpromptのrepresentationを生成し、auto-regressiveな言語モデルで生成を行う。

推薦で利用したいデータセットから、input-target pairsを生成し上記アーキテクチャに対して事前学習することで、推薦を実現できる。

RatingPredictionでは、MatrixFactorizationに勝てていない（が、Rating Predictionについては魔法の壁問題などもあると思うのでなんともいえない。）

Sequential RecommendationではBERT4Recとかにも勝てている模様。

# Prompt例

- Rating Predictionの例

- Sequential Recommendationの例

- Explanationを生成する例

- Zero-shotの例（Cold-Start）

#Article #CTRPrediction Issue Date: 2025-08-27 Self-Monitoring Large Language Models for Click-Through Rate Prediction, Zhou+, ACM Transactions on Information Systems, 2025.08 Comment

元ポスト:

Loading…

#Article #Video #SemanticID Issue Date: 2025-07-17 LLM Recommendation Systems: AI Engineer World's Fair 2025, AI Engineer, 2025.07 Comment

元ポスト:

Loading…

セマンティックIDの実用例

#Article #Blog Issue Date: 2025-04-28 Improving Recommendation Systems & Search in the Age of LLMs, eugeneyan, 2025.04 #Article #Survey #NLP #Blog Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #Pocket #Blog Issue Date: 2024-12-03 Augmenting Recommendation Systems With LLMs, Dave AI, 2024.08 #Article #NeuralNetwork #CIKM #SequentialRecommendation Issue Date: 2021-05-25 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, Sun+, CIKM2019 Comment

BERT4Recのモデル構造。next item predictionしたいsessionの末尾に [mask] をconcatし、[MASK]部分のアイテムを予測する構造っぽい？

オリジナルはtensorflow実装

pytorchの実装はこちら： https://github.com/jaywonchung/BERT4Rec-VAE-Pytorch/tree/master/models

CollaborativeFiltering (31)

#Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Reasoning
Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 GPT Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment

元ポスト:

Loading…

Reasoning LLMをRecSysに応用する初めての研究（らしいことがRelated Workに書かれている）

#Analysis #Library #Evaluation #RecSys
Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#GraphBased #Pocket
Issue Date: 2023-04-26 Graph Collaborative Signals Denoising and Augmentation for Recommendation, Ziwei Fan+, N_A, SIGIR'23 GPT Summary- グラフ協調フィルタリング（GCF）は、推薦システムで人気のある技術ですが、相互作用が豊富なユーザーやアイテムにはノイズがあり、相互作用が不十分なユーザーやアイテムには不十分です。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を無視しているため、有益な隣接ノードの範囲が制限される可能性があります。本研究では、ユーザー-ユーザーおよびアイテム-アイテムの相関を組み込んだ新しいグラフの隣接行列と、適切に設計されたユーザー-アイテムの相互作用行列を提案します。実験では、改善された隣接ノードと低密度を持つ強化されたユーザー-アイテムの相互作用行列が、グラフベースの推薦において重要な利点をもたらすことを示しています。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を含めることで、相互作用が豊富なユーザーや不十分なユーザーに対する推薦が改善されることも示しています。 Comment

グラフ協調フィルタリングを改善

グラフ協調フィルタリング

（下記ツイッターより引用）

user-item間の関係だけでなく、user-user間とitem-item間の情報を組み込むことで精度向上を達成した論文とのこと。

Loading…

#NeuralNetwork #Pocket #Evaluation #RecSys Issue Date: 2025-04-15 [Paper Note] Revisiting the Performance of iALS on Item Recommendation Benchmarks, Steffen Rendle+, RecSys'22 GPT Summary- iALSを再検討し、調整を行うことで、レコメンダーシステムにおいて競争力を持つことを示す。特に、4つのベンチマークで他の手法を上回る結果を得て、iALSのスケーラビリティと高品質な予測が再評価されることを期待。 #NeuralNetwork #EfficiencyImprovement #Pocket #EducationalDataMining #KnowledgeTracing #Contents-based #NAACL Issue Date: 2022-08-01 GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering, Yoonseok Yang+, NAACL'22 GPT Summary- コンテンツベースの協調フィルタリング（CCF）において、PLMを用いたエンドツーエンドのトレーニングはリソースを消費するため、GRAM（勾配蓄積手法）を提案。Single-step GRAMはアイテムエンコーディングの勾配を集約し、Multi-step GRAMは勾配更新の遅延を増加させてメモリを削減。これにより、Knowledge TracingとNews Recommendationのタスクでトレーニング効率を最大146倍改善。 Comment

RiiiDがNAACL'22に論文通してた

#NeuralNetwork #Pocket #MatrixFactorization #RecSys #read-later #Selected Papers/Blogs #Reproducibility Issue Date: 2025-05-16 [Paper Note] Neural Collaborative Filtering vs. Matrix Factorization Revisited, Steffen Rendle+, RecSys'20 GPT Summary- 埋め込みベースのモデルにおける協調フィルタリングの研究では、MLPを用いた学習された類似度が提案されているが、適切なハイパーパラメータ選択によりシンプルなドット積が優れた性能を示すことが確認された。MLPは理論的には任意の関数を近似可能だが、実用的にはドット積の方が効率的でコストも低いため、MLPは慎重に使用すべきであり、ドット積がデフォルトの選択肢として推奨される。 #NeuralNetwork #Pocket #Evaluation #RecSys #Selected Papers/Blogs Issue Date: 2022-04-11 [Paper Note] Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches, Maurizio Ferrari Dacrema+, RecSys'19, 2019.07 GPT Summary- 深層学習技術はレコメンダーシステムの研究で広く用いられているが、再現性やベースライン選択に問題がある。18のトップnレコメンデーションアルゴリズムを分析した結果、再現できたのは7つのみで、6つは単純なヒューリスティック手法に劣っていた。残りの1つはベースラインを上回ったが、非ニューラル手法には及ばなかった。本研究は機械学習の実践における問題を指摘し、改善を呼びかけている。 Comment

RecSys'19のベストペーパー

日本語解説： https://qiita.com/smochi/items/98dbd9429c15898c5dc7

重要研究

#NeuralNetwork #Pocket #Contents-based #NewsRecommendation #WWW #KeyPoint Notes Issue Date: 2021-06-01 [Paper Note] DKN: Deep Knowledge-Aware Network for News Recommendation, Hongwei Wang+, arXiv'18, 2018.01 GPT Summary- オンラインニュース推薦システムの課題を解決するために、知識グラフを活用した深層知識認識ネットワーク（DKN）を提案。DKNは、ニュースの意味と知識を融合する多チャネルの知識認識畳み込みニューラルネットワーク（KCNN）を用い、ユーザーの履歴を動的に集約する注意モジュールを搭載。実験により、DKNが最先端の推薦モデルを大幅に上回る性能を示し、知識の有効性も確認。 Comment

# Overview

Contents-basedな手法でCTRを予測しNews推薦。newsのタイトルに含まれるentityをknowledge graphと紐づけて、情報をよりリッチにして活用する。

CNNでword-embeddingのみならず、entity embedding, contextual entity embedding（entityと関連するentity）をエンコードし、knowledge-awareなnewsのrepresentationを取得し予測する。

※ contextual entityは、entityのknowledge graph上でのneighborhoodに存在するentityのこと（neighborhoodの情報を活用することでdistinguishableでよりリッチな情報を活用できる）

CNNのinputを\[\[word_ embedding\], \[entity embedding\], \[contextual entity embedding\]\](画像のRGB)のように、multi-channelで構成し3次元のフィルタでconvolutionすることで、word, entity, contextual entityを表現する空間は別に保ちながら（同じ空間で表現するのは適切ではない）、wordとentityのalignmentがとれた状態でのrepresentationを獲得する。

# Experiments

BingNewsのサーバログデータを利用して評価。

データは (timestamp, userid, news url, news title, click count (0=no click, 1=click))のレコードによって構成されている。

2016年11月16日〜2017年6月11日の間のデータからランダムサンプリングしtrainingデータセットとした。

また、2017年6月12日〜2017年8月11日までのデータをtestデータセットとした。

word/entity embeddingの次元は100, フィルタのサイズは1,2,3,4とした。loss functionはlog lossを利用し、Adamで学習した。

DeepFM超えを達成。

entity embedding, contextual entity embeddingをablationすると、AUCは2ポイントほど現象するが、それでもDeepFMよりは高い性能を示している。

また、attentionを抜くとAUCは1ポイントほど減少する。

1ユーザのtraining/testセットのサンプル

Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015
によって経験的にRNN, Recursive Neural Network等と比較して、sentenceのrepresentationを獲得する際にCNNが優れていることが示されているため、CNNでrepresentationを獲得することにした模様（footprint 7より）

Factorization Machinesベースドな手法（LibFM, DeepFM）を利用する際は、TF-IDF featureと、averaged entity embeddingによって構成し、それをuser newsとcandidate news同士でconcatしてFeatureとして入力した模様

content情報を一切利用せず、ユーザのimplicit feedbackデータ（news click）のみを利用するDMF（Deep Matrix Factorization）の性能がかなり悪いのもおもしろい。やはりuser-item-implicit feedbackデータのみだけでなく、コンテンツの情報を利用した方が強い。

（おそらく）著者によるtensor-flowでの実装: https://github.com/hwwang55/DKN

日本語解説

https://qiita.com/agatan/items/24c6d8e00f2fc861bb04

#NeuralNetwork #FactorizationMachines #CTRPrediction #WWW Issue Date: 2020-08-29 Field Weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, Pan+, WWW'18 Comment

CTR予測でbest-performingなモデルと言われているField Aware Factorization Machines(FFM)では、パラメータ数がフィールド数×特徴数のorderになってしまうため非常に多くなってしまうが、これをよりメモリを効果的に利用できる手法を提案。FFMとは性能がcomparableであるが、パラメータ数をFFMの4%に抑えることができた。

#NeuralNetwork #NaturalLanguageGeneration #NLP #ReviewGeneration #IJCNLP Issue Date: 2019-02-01 [Paper Note] Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17 Comment

Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。

#NeuralNetwork #Pocket #MatrixFactorization #WWW #Selected Papers/Blogs Issue Date: 2018-02-16 [Paper Note] Neural Collaborative Filtering, Xiangnan He+, arXiv'17 GPT Summary- 深層ニューラルネットワークを用いたレコメンダーシステムの研究が少ない中、本研究では協調フィルタリングの問題に取り組むため、NCF（Neural network-based Collaborative Filtering）フレームワークを提案。内積をニューラルアーキテクチャに置き換え、ユーザーとアイテムの相互作用を多層パーセプトロンでモデル化。実験により、提案手法が最先端技術に対して顕著な改善を示し、深層ニューラルネットワークの層を深くすることでレコメンデーション性能が向上することが確認された。 Comment

#NeuralNetwork #WSDM #Selected Papers/Blogs Issue Date: 2018-01-02 [Paper Note] Collaborative Denoising Auto-Encoders for Top-N Recommender Systems, Wu+, WSDM'16 Comment

#NeuralNetwork #Pocket #MatrixFactorization #SIGKDD #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, arXiv'14 GPT Summary- 協調フィルタリング（CF）はレコメンダーシステムで広く用いられるが、評価がまばらな場合に性能が低下する。これに対処するため、補助情報を活用する協調トピック回帰（CTR）が提案されているが、補助情報がまばらな場合には効果が薄い。そこで、本研究では協調深層学習（CDL）という階層ベイズモデルを提案し、コンテンツ情報の深い表現学習とCFを共同で行う。実験により、CDLが最先端技術を大幅に上回る性能を示すことが確認された。 Comment

解説ブログ： http://d.hatena.ne.jp/repose/20150531/1433004688

Issue Date: 2021-10-29 A Comparative Study of Collaborative Filtering Algorithms, Lee+, arXiv'12 Comment

様々あるCFアルゴリズムをどのように選択すべきか、# of users, # of items, rating matrix densityの観点から分析した研究。

1. 特にcomputationに関する制約がない場合は・・・、NMFはsparseなデータセットに対して最も良い性能を発揮する。BPMFはdenseなデータセットに対して最も良い性能を発揮する。そして、regularized SVD, PMFはこれ以外の状況で最も良い性能を示す（PMFはユーザ数が少ない場合によく機能する一方で、Regularized SVDはアイテム数が小さい場合に良く機能する。）。

2. もしtime constraintが5分の場合、Regularized SVD, NLPMF, NPCA, Rankbased CFは検討できない。この場合、NMFがスパースデータに対して最も良い性能を発揮し、BPMFがdenseで大規模なデータ、それ以外ではPMFが最も良い性能を示す。

3. もしtime constraintが1分の場合、PMFとBPMFは2に加えてさらに除外される。多くの場合Slope-oneが最も良い性能を示すが、データがsparseな場合はNMF。

4. リアルタイムな計算が必要な場合、user averageがbest

#Tools #MatrixFactorization Issue Date: 2018-01-11 [Paper Note] SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR'12 Comment

tool: http://apex.sjtu.edu.cn/projects/33

Ratingの情報だけでなく、Auxiliaryな情報も使ってMatrix Factorizationができるツールを作成した。

これにより、Rating Matrixの情報だけでなく、自身で設計したfeatureをMFに組み込んでモデルを作ることができる。

#FactorizationMachines Issue Date: 2018-01-02 [Paper Note] Factorization Machines with libFM, Steffen Rendle, TIST'12 Comment

Factorization Machinesの著者実装。

FMやるならまずはこれ。

#MatrixFactorization #SIGKDD #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 Comment

CFとContents-basedな手法が双方向にinterationするような手法

解説ブログ： http://d.hatena.ne.jp/repose/20150531/1433004688

#MachineLearning #FactorizationMachines #ICDM #Selected Papers/Blogs Issue Date: 2018-12-22 [Paper Note] Factorization Machines, Steffen Rendle, ICDM'10 Comment

解説ブログ： http://echizen-tm.hatenablog.com/entry/2016/09/11/024828

DeepFMに関する動向： https://data.gunosy.io/entry/deep-factorization-machines-2018

上記解説ブログの概要が非常に完結でわかりやすい

#PersonalizedDocumentSummarization #DocumentSummarization #GraphBased #Personalization #PACLIC #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Collaborative Summarization: When Collaborative Filtering Meets Document Summarization, Qu+, PACLIC'09, 2009.12 Comment

Collaborative Filteringと要約を組み合わせる手法を提案した最初の論文と思われる。

ソーシャルブックマークのデータから作成される、ユーザ・アイテム・タグのTripartite Graphと、ドキュメントのsentenceで構築されるGraphをのノード間にedgeを張り、co-rankingする手法を提案している。

評価
100個のEnglish wikipedia記事をDLし、文書要約のセットとした。
その上で、5000件のwikipedia記事に対する1084ユーザのタギングデータをdelicious.comから収集し、合計で8396の異なりタグを得た。
10人のdeliciousのアクティブユーザの協力を得て、100記事に対するtop5のsentenceを抽出してもらった。ROUGE1で評価。

#Survey #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている

#ItemBased #WWW #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Item-based collaborative filtering recommendation algorithms, Sarwar+（with Konstan）, WWW'01 Comment

アイテムベースな協調フィルタリングを提案した論文（GroupLens）

#Article #Library #FactorizationMachines #Repository Issue Date: 2021-07-03 pytorch-fm, 2020 Comment

#Article #Pocket #FactorizationMachines Issue Date: 2021-07-02 Deep Learning Recommendation Model for Personalization and Recommendation Systems, Naumov+, Facebook, arXiv‘19 GPT Summary- 深層学習に基づく推薦モデル（DLRM）を開発し、PyTorchとCaffe2で実装。埋め込みテーブルのモデル並列性を活用し、メモリ制約を軽減しつつ計算をスケールアウト。DLRMの性能を既存モデルと比較し、Big Basin AIプラットフォームでの有用性を示す。 Comment

実装: https://github.com/facebookresearch/dlrm

Parallelism以後のセクションはあとで読む

#Article #NeuralNetwork #Pocket #FactorizationMachines #CTRPrediction #IJCAI Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 Comment

実装: https://github.com/rixwew/pytorch-fm

#Article #NeuralNetwork #Pocket #FactorizationMachines #CTRPrediction #SIGKDD Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 DeepFMの発展版

#Article #Tutorial #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

#Article #AdaptiveLearning Issue Date: 2018-12-22 [Paper Note] Simulated Analysis of MAUT Collaborative Filtering for Learning Object Recommendation, Manouselis+, Social Information Retrieval for Technology-Enhanced Learning & Exchange, 2007 Comment

#Article #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008 Comment

日本語での解説: https://cympfh.cc/paper/WRMF

Implicit Implicit でのAlternating Least Square (ALS)という手法が、この手法の実装に該当する。

#Article #Library #FactorizationMachines Issue Date: 2018-01-01 fastFM Comment

実装されているアルゴリズム：Factorization Machines

実装：python

使用方法：pythonライブラリとして利用

※ Factorization Machinesに特化したpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Tools #Library #FactorizationMachines Issue Date: 2018-01-01 LibRec Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Novelty #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Discovery-oriented Collaborative Filtering for Improving User Satisfaction, Hijikata+, IUI’09 Comment

重要論文

CTRPrediction (16)

#NLP #UserModeling #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #WWW
Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

#NeuralNetwork #ContrastiveLearning
Issue Date: 2024-11-19 Collaborative Contrastive Network for Click-Through Rate Prediction, Chen Gao+, arXiv'24 GPT Summary- EコマースプラットフォームにおけるCTR予測の課題を解決するために、「コラボレーティブコントラストネットワーク（CCN）」を提案。CCNは、ユーザーの興味と不興を示すアイテムクラスターを特定し、トリガーアイテムへの依存を減少させる。オンラインA/Bテストにより、タオバオでCTRを12.3%、注文量を12.7%向上させる成果を達成。 Comment

参考: [Mini-appの定義生成結果（Hallucinationに注意）]( https://www.perplexity.ai/search/what-is-the-definition-of-the-sW4uZPZIQe6Iq53HbwuG7Q)

論文中の図解: Mini-appにトリガーとなるアイテムを提示するTrigger-Induced-Recommendation（TIR）

## 概要

図3に示されているような Collaborative Contrastive Network (CCN)を提案しており、このネットワークは、Collaborative Constrastive Learningに基づいて学習される。

### Collaborative Constrasitve Learning

図2がCollaborative Constrastive Learningの気持ちを表しており、図2のようなクリックスルーログが与えられたとする。

推薦リストを上から見ていき、いま着目しているアイテムをtarget_itemとすると、target_itemがクリックされている場合、同じcontext（i.e., ユーザにページ内で提示されたアイテム群）のクリックされているアイテムと距離が近くなり、逆にクリックされていないアイテム群とは距離が遠いとみなせる。逆にtarget_itemがクリックされていない場合、同様にクリックされていないアイテムとは距離が近く、クリックされているアイテムとは距離が遠いとみなせる。このように考えると、ある推薦リストが与えられた時に、あるtarget_itemに着目すると、contrastive learningのためのpositive example/negative exampleを生成できる。このようなco-click/co-non-clickの関係から、アイテム同士の距離を学習し、ユーザのinterest/disinterestを学習する。

### Collaborative Contrastive Network

Collaborative ModuleとCTR Moduleに分かれている。

- Collaborative Moduleには、context itemsと、target itemをinputとし両者の関係性をエンコードする

- このとき、トリガーアイテムのembeddingとアダマール積をとることで、トリガーアイテムの情報も考慮させる

- CTR Moduleは、context itemsとtarget itemの関係性をエンコードしたembedding、target_item, trigger_itemのembedding, user profileのembedding, userのlong-termとshort-termの行動のembeddingをconcatしたベクトルをinputとして受け取り、そらからtarget_itemのCTRを予測する。

- Loss Functionは、binary cross entropyと、Collaborative Contrastive Lossをλで重みづけして足し合わせたものであり、Collaborative Contrastive Loss L_CMCは、上述の気持ちを反映するloss（i.e., target_itemとcontext_itemco-click/co-non-clickに基づいて、アイテム間の距離を最小/最大化するようなloss）となっている

## 実験結果

### offline evaluation

Table 1に示したTaobaoで収集した非常に大規模なproprietary datasetでCTRを予測したところ、AUCはベースラインと比較して高くなった。ここで、TANはCCNのBackboneモデルで、Contrastive Learningを実施していないモデルである。CTR予測においてAUCが高くなるというのはすなわち、クリックされたアイテムi/クリックされなかったアイテムjの2つをとってきたときに、両者のCTR予測結果が CTR_i > CTR_j になる割合が高くなった（i.e. クリックされているアイテムの方が高いCTR予測結果となっている）ということを意味する。

### online A/B Testing

A/Bテストまで実施しており、実際に提案手法を組み込んだ結果、高いCTRを獲得しているだけでなく、CVRも向上している。すごい。

Contrastive Learningを実施しないTANと、CCNを比較してもCCNの方が高いCTR, CVRを獲得している。Contrastive Learning有能。

#NeuralNetwork #Pocket
Issue Date: 2024-11-19 Deep Intention-Aware Network for Click-Through Rate Prediction, Yaxian Xia+, arXiv'22 GPT Summary- Eコマースプラットフォームにおけるトリガー誘発推薦（TIRA）に対し、従来のCTR予測モデルは不適切である。顧客のエントリー意図を抽出し、トリガーの影響を評価するために、深層意図認識ネットワーク（DIAN）を提案。DIANは、ユーザーの意図を推定し、トリガー依存と非依存の推薦結果を動的にバランスさせる。実験により、DIANはタオバオのミニアプリでCTRを4.74%向上させることが示された。 Comment

Collaborative Contrastive Network for Click-Through Rate Prediction, Chen Gao+, arXiv'24 の実験で利用されているベースライン

#NeuralNetwork #Pocket Issue Date: 2024-11-19 Deep Interest Highlight Network for Click-Through Rate Prediction in Trigger-Induced Recommendation, Qijie Shen+, WWW'22 GPT Summary- トリガー誘発推薦（TIR）を提案し、ユーザーの瞬時の興味を引き出す新しい推薦手法を紹介。従来のモデルがTIRシナリオで効果的でない問題を解決するため、Deep Interest Highlight Network（DIHN）を開発。DIHNは、ユーザー意図ネットワーク（UIN）、融合埋め込みモジュール（FEM）、ハイブリッド興味抽出モジュール（HIEM）の3つのコンポーネントから成り、実際のeコマースプラットフォームでの評価で優れた性能を示した。 Comment

Collaborative Contrastive Network for Click-Through Rate Prediction, Chen Gao+, arXiv'24 の実験で利用されているベースライン

#NeuralNetwork #Embeddings #Pocket #RepresentationLearning #SIGKDD #numeric #KeyPoint Notes Issue Date: 2025-04-22 [Paper Note] An Embedding Learning Framework for Numerical Features in CTR Prediction, Huifeng Guo+, KDD'21 GPT Summary- CTR予測のための新しい埋め込み学習フレームワーク「AutoDis」を提案。数値特徴の埋め込みを強化し、高いモデル容量とエンドツーエンドのトレーニングを実現。メタ埋め込み、自動離散化、集約の3つのコアコンポーネントを用いて、数値特徴の相関を捉え、独自の埋め込みを学習。実験により、CTRとeCPMでそれぞれ2.1%および2.7%の改善を達成。コードは公開されている。 Comment

従来はdiscretizeをするか、mlpなどでembeddingを作成するだけだった数値のinputをうまく埋め込みに変換する手法を提案し性能改善

数値情報を別の空間に写像し自動的なdiscretizationを実施する機構と、各数値情報のフィールドごとのglobalな情報を保持するmeta-embeddingをtrainable parameterとして学習し、両者を交互作用（aggregation; max-poolingとか）することで数値embeddingを取得する。

https://github.com/user-attachments/assets/1f626dd5-2452-4b50-a14c-6c24fa022435" />

https://github.com/user-attachments/assets/12fd6476-241a-4d13-975d-f6c1c762c497" />

#NeuralNetwork #CVRPrediction #SIGKDD Issue Date: 2021-06-01 Conversion Prediction Using Multi-task Conditional Attention Networks to Support the Creation of Effective Ad Creatives, Kitada+, KDD'19 Comment

# Overview

広告のCVR予測をCTR予測とのmulti-task learningとして定式化。

構築した予測モデルのattention distributionを解析することで、high-qualityなクリエイティブの作成を支援する。

genderやgenre等の情報でattentionのweightを変化させるconditional attentionが特徴的。

→ これによりgender, genreごとのCVRしやすい広告の特徴の違いが可視化される

loss functionは、MSEにλを導入しclickのlossを制御している（CVRに最適化したいため）。ただ、実験ではλ=1で実験している。

outputはRegressionでCVR, CTRの値そのものを予測している（log lossを使う一般的なCTR Prediction等とは少し条件が違う; 多分予測そのものより、予測モデルを通じて得られるCVRが高いcreativeの分析が主目的なため）。

# Experiments

データとして、2017年8月〜2018年8月の間にGunosy Adsでdeliverされた14,000種類のad creativeを利用。

clickとconversionのfrequency（clickはlong-tailだが、conversionはほとんど0か1のように見える）

5-fold crossvalidationを、fold内でcampaignが重複しないようにad creativeに対して行い、conversion数の予測を行なった。

評価を行う際はNDCGを用い、top-1%のconversion数を持つcreativeにフォーカスし評価した。

MSEで評価した場合、multi-task learning, conditional attentionを利用することでMSEが改善している。多くのcreativeのconversionは0なので、conversion数が>0のものに着目して評価しても性能が改善していることがわかる。

NDCGを利用した評価でも同様な傾向

conditional attentionのheatmap

genderごとにdistributionの違いがあって非常におもしろい

#NeuralNetwork #CollaborativeFiltering #FactorizationMachines #WWW Issue Date: 2020-08-29 Field Weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, Pan+, WWW'18 Comment

#NeuralNetwork #Pocket #SequentialRecommendation #SIGKDD Issue Date: 2025-04-25 E-commerce in Your Inbox: Product Recommendations at Scale, Mihajlo Grbovic+, KDD'15 GPT Summary- メールの領収書から得た購入履歴を活用し、Yahoo Mailユーザーにパーソナライズされた商品広告を配信するシステムを提案。新しい神経言語ベースのアルゴリズムを用いて、2900万人以上のユーザーのデータでオフラインテストを実施した結果、クリック率が9%向上し、コンバージョン率も改善。システムは2014年のホリデーシーズンに本稼働を開始。 Comment

Yahoo mailにおける商品推薦の研究

Yahoo mailのレシート情報から、商品購入に関する情報とtimestampを抽出し、時系列データを形成。評価時はTimestampで1ヶ月分のデータをheldoutし評価している。Sequential Recommendationの一種とみなせるが、評価データをユーザ単位でなくtimestampで区切っている点でよりrealisticな評価をしている。

Issue Date: 2021-10-29 Simple and scalable response prediction for display advertising, Chapelle+, Criteo, Transactions on Intelligent Systems and Technology, CHAPELLE+, TIST'14 Comment

日本語解説： https://ameblo.jp/cyberanalyst/entry-11784152713.html

CTR予測の概要や、広告主・事業者にとってCTR予測ができることでどのようなメリットがあるかなどがまとまっている。

論文の手法自体は、logistic regressionが利用されている。

#Article #LanguageModel Issue Date: 2025-08-27 Self-Monitoring Large Language Models for Click-Through Rate Prediction, Zhou+, ACM Transactions on Information Systems, 2025.08 Comment

元ポスト:

Loading…

#Article #NeuralNetwork #NewsRecommendation #MLOps #Evaluation #Blog #A/B Testing Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

#Article #Survey Issue Date: 2021-10-29 2010年代前半のAIの巨人達のCTR Prediction研究 #Article #Tutorial #Blog Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Comment

#Article #Dataset Issue Date: 2021-06-01 Criteo Dataset, Display Advertising Challenge, Kaggle, 2014 Comment

基本的には click/non-click のラベルと、そのclick時の付帯情報によって構成されている模様

#Article #NeuralNetwork #CollaborativeFiltering #Pocket #FactorizationMachines #IJCAI Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 Comment

実装: https://github.com/rixwew/pytorch-fm

#Article #NeuralNetwork #CollaborativeFiltering #Pocket #FactorizationMachines #SIGKDD Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 DeepFMの発展版

Tutorial (15)

#LanguageModel #GenerativeAI #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

#Infrastructure #python #Slide
Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment

・ママ向けのQ&AサービスにおけるレコメンドとMLパイプラインについて紹介

◆レコメンドエンジンの変遷

　・Tensorflowで実装したMFから始まり、その後トピックを絞り込んだ上で推薦するためにLDAを活用したレコメンド、最終的にSoftmax Recommendationを開発

　　* Softmax Recommendation: https://developers.google.com/machine-learning/recommendation/dnn/softmax

　　* ユーザプロファイル（e.g. 行動ベクトル, ユーザの属性情報）等を入力とし、hidden layerをかませて最終的にアイテム次元数分のスコアベクトルを得る手法

　　* 行動ベクトル=ユーザが過去にクリックしたQ&Aだが、質問ベクトルを得るために内容テキストは利用せず行動ログ+word2vecで学習

　　* 類似質問検索による定性評価の結果良い結果、関連質問を抽出できるベクトルとなっていることを確認

　→ レコメンド手法の変遷につれ、ベンチマークを上回るようになっていった

◆MLパイプラインについて

　・AWS Step FunctionsとAmazon Sagemakerを利用

　・AWS Step Functions

　　* AWS上の様々なサービスをワークフローとして定義できる（json形式でワークフローを記述）

　・Amazon Sagemaker

　　* 機械学習向けのIDE

　　* notebook上でのデータ分析・モデル学習、実験管理や学習済みモデルのデプロイが可能

　　* Sagemaker Processingを用いることで、実行したい処理やインスタンスタイプを指定することで、notebookとは別の実行環境（コンテナ）で任意のpythonスクリプトを実行可

　　

　・ワークフローの定義=AWS Stepfunctions, スクリプト実行のリソース=Sagemaker Processingとして利用

MLパイプラインについては下記資料により詳しい情報が書かれている

https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou

#Explanation #Slide #SIGKDD
Issue Date: 2019-08-19 Explainable AI in Industry, KDD'19

#NeuralNetwork #InformationRetrieval #Slide #SIGKDD Issue Date: 2018-02-16 Deep Learning for Personalized Search and Recommender Systems, KDD'17 #InteractiveRecommenderSystems #Slide #RecSys #interactive Issue Date: 2017-12-28 [Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09 Issue Date: 2018-01-01 [Paper Note] 推薦システムにおけるインタラクション研究へのいざない, 土方, ヒューマンインタフェース学会誌'13 #ContextAware #AAAI Issue Date: 2018-12-22 Context Aware Recommender Systems, Adomavicius+, AAAI'11 Comment

AdomaviciusらによるContext Aware Recsysチュートリアル

#Article #Blog Issue Date: 2024-04-26 推薦・機械学習勉強会, Wantedly Comment

WantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。

#Article #Embeddings #EfficiencyImprovement #Library Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Comment

dynamic embeddingを使った推薦システムの構築方法の解説

#Article Issue Date: 2022-12-19 推薦システムにおいて線形モデルがまだまだ有用な話 #Article #CTRPrediction #Blog Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Comment

#Article #Pocket Issue Date: 2021-07-02 Continuously Improving Recommender Systems for Competitive Advantage Using NVIDIA Merlin and MLOps, Nvidia, 2021.01 Comment

Recommender System運用のためのアーキテクチャに関する情報

#Article #Tools #Dataset #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

#Article #CollaborativeFiltering #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

#Article #Explanation #Selected Papers/Blogs Issue Date: 2019-01-23 Designing and Evaluating Explanations for Recommender Systems, Tintarev+, Recommender Systems Handbook, 2011 Comment

D論： http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf

Library (13)

#Analysis #CollaborativeFiltering #Evaluation #RecSys
Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#Tools #CIKM
Issue Date: 2022-03-29 RecBole: Towards a Unified, Comprehensive and Efficient Framework for Recommendation Algorithms, Zhao+, CIKM'21 GPT Summary- RecBoleは、推薦アルゴリズムのオープンソース実装を標準化するための統一的で効率的なライブラリであり、73のモデルを28のベンチマークデータセット上で実装。PyTorchに基づき、一般的なデータ構造や評価プロトコル、自動パラメータ調整機能を提供し、推薦システムの実装と評価を促進する。プロジェクトはhttps://recbole.io/で公開。 Comment

参考リンク:
- https://www.google.co.jp/amp/s/techblog.zozo.com/entry/deep-learning-recommendation-improvement%3famp=1
- https://techlife.cookpad.com/entry/2021/11/04/090000
- https://qiita.com/fufufukakaka/items/77878c1e23338345d4fa

#Article #Survey #Repository
Issue Date: 2024-08-07 list of recommender systems Comment

推薦システムに関するSaaS, OpenSource, Datasetなどがまとめられているリポジトリ

#Article #Repository Issue Date: 2024-01-15 Recommenders Comment

古典的な手法から、Deepな手法まで非常に幅広く網羅された推薦アルゴリズムのフレームワーク。元々Microsoft配下だった模様。

現在もメンテナンスが続いており、良さそう

#Article #Tutorial #Embeddings #EfficiencyImprovement Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Comment

dynamic embeddingを使った推薦システムの構築方法の解説

#Article #CollaborativeFiltering #FactorizationMachines #Repository Issue Date: 2021-07-03 pytorch-fm, 2020 Comment

#Article #Selected Papers/Blogs Issue Date: 2019-09-11 Implicit Comment

Implicitデータに対するCollaborative Filtering手法がまとまっているライブラリ

Bayesian Personalized Ranking, Logistic Matrix Factorizationなどが実装。

Implicitの使い方はこの記事がわかりやすい：

https://towardsdatascience.com/building-a-collaborative-filtering-recommender-system-with-clickstream-data-dffc86c8c65

ALSの元論文の日本語解説

https://cympfh.cc/paper/WRMF

#Article Issue Date: 2018-01-01 mrec Comment

実装：python

※ Mendeleyによるpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Tools Issue Date: 2018-01-01 LensKit Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Tools Issue Date: 2018-01-01 MyMediaLite Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #CollaborativeFiltering #FactorizationMachines Issue Date: 2018-01-01 fastFM Comment

実装されているアルゴリズム：Factorization Machines

実装：python

使用方法：pythonライブラリとして利用

※ Factorization Machinesに特化したpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Tools #CollaborativeFiltering #FactorizationMachines Issue Date: 2018-01-01 LibRec Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article Issue Date: 2018-01-01 Surprise, Nicolas Hug Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

MatrixFactorization (11)

#NeuralNetwork #CollaborativeFiltering #Pocket #RecSys #read-later #Selected Papers/Blogs #Reproducibility
Issue Date: 2025-05-16 [Paper Note] Neural Collaborative Filtering vs. Matrix Factorization Revisited, Steffen Rendle+, RecSys'20 GPT Summary- 埋め込みベースのモデルにおける協調フィルタリングの研究では、MLPを用いた学習された類似度が提案されているが、適切なハイパーパラメータ選択によりシンプルなドット積が優れた性能を示すことが確認された。MLPは理論的には任意の関数を近似可能だが、実用的にはドット積の方が効率的でコストも低いため、MLPは慎重に使用すべきであり、ドット積がデフォルトの選択肢として推奨される。 #NeuralNetwork #CollaborativeFiltering #Pocket #WWW #Selected Papers/Blogs
Issue Date: 2018-02-16 [Paper Note] Neural Collaborative Filtering, Xiangnan He+, arXiv'17 GPT Summary- 深層ニューラルネットワークを用いたレコメンダーシステムの研究が少ない中、本研究では協調フィルタリングの問題に取り組むため、NCF（Neural network-based Collaborative Filtering）フレームワークを提案。内積をニューラルアーキテクチャに置き換え、ユーザーとアイテムの相互作用を多層パーセプトロンでモデル化。実験により、提案手法が最先端技術に対して顕著な改善を示し、深層ニューラルネットワークの層を深くすることでレコメンデーション性能が向上することが確認された。 Comment

#NeuralNetwork #CollaborativeFiltering #Pocket #SIGKDD #Selected Papers/Blogs
Issue Date: 2018-01-11 [Paper Note] Collaborative Deep Learning for Recommender Systems, Hao Wang+, arXiv'14 GPT Summary- 協調フィルタリング（CF）はレコメンダーシステムで広く用いられるが、評価がまばらな場合に性能が低下する。これに対処するため、補助情報を活用する協調トピック回帰（CTR）が提案されているが、補助情報がまばらな場合には効果が薄い。そこで、本研究では協調深層学習（CDL）という階層ベイズモデルを提案し、コンテンツ情報の深い表現学習とCFを共同で行う。実験により、CDLが最先端技術を大幅に上回る性能を示すことが確認された。 Comment

解説ブログ： http://d.hatena.ne.jp/repose/20150531/1433004688

#NeuralNetwork #NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Deep content-based music recommendation, Oord+, NIPS'13 Comment

#Tools #CollaborativeFiltering Issue Date: 2018-01-11 [Paper Note] SVDFeature: a toolkit for feature-based collaborative filtering, Chen+, JMLR'12 Comment

tool: http://apex.sjtu.edu.cn/projects/33

#Multi #WSDM #ColdStart #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Multi-relational matrix factorization using bayesian personalized ranking for social network data, Krohn-Grimberghe+, WSDM'12, 2012.02 Comment

multi-relationalな場合でも適用できるmatrix factorizationを提案。特にcold start problemにフォーカス。social networkのデータなどに適用できる。

#CollaborativeFiltering #SIGKDD #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative topic modeling for recommending scientific articles, Wang+, KDD'11 Comment

CFとContents-basedな手法が双方向にinterationするような手法

解説ブログ： http://d.hatena.ne.jp/repose/20150531/1433004688

#NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Probabilistic Matrix Factorization, Salakhutdinov+, NIPS'08 Comment

Matrix Factorizationを確率モデルとして表した論文。

解説： http://yamaguchiyuto.hatenablog.com/entry/2017/07/13/080000

#SIGKDD Issue Date: 2018-01-11 [Paper Note] Relational learning via collective matrix factorization, Singh+, KDD'08 Comment

従来のMatrix Factorization（MF）では、pair-wiseなrelation（たとえば映画とユーザと、映画に対するユーザのrating）からRating Matrixを生成し、その行列を分解していたが、multipleなrelation（たとえば、user-movie ratingの5-scale Matrixとmovie - genreの binary Matrixなど）を扱うことができなかったので、それを可能にした話。

これができると、たとえばユーザの映画に対するratingを予測する際に、あるユーザが特定のジャンルの映画に対して高いratingを付けるような情報も考慮して予測ができたりする。

#Survey #CollaborativeFiltering #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている

#Article #CollaborativeFiltering #Selected Papers/Blogs Issue Date: 2018-01-11 [Paper Note] Collaborative filtering for implicit feedback datasets, Hu+, International Conference on Data Mining, 2008 Comment

日本語での解説: https://cympfh.cc/paper/WRMF

Implicit Implicit でのAlternating Least Square (ALS)という手法が、この手法の実装に該当する。

SequentialRecommendation (10)

#Embeddings #InformationRetrieval #Pocket #LanguageModel #Generalization
Issue Date: 2025-07-08 [Paper Note] Do We Really Need Specialization? Evaluating Generalist Text Embeddings for Zero-Shot Recommendation and Search, Matteo Attimonelli+, arXiv'25 GPT Summary- 事前学習済み言語モデル（GTEs）は、逐次推薦や製品検索においてファインチューニングなしで優れたゼロショット性能を発揮し、従来のモデルを上回ることを示す。GTEsは埋め込み空間に特徴を均等に分配することで表現力を高め、埋め込み次元の圧縮がノイズを減少させ、専門モデルの性能向上に寄与する。再現性のためにリポジトリを提供。 Comment

元ポスト:

Loading…

#ListWise #Pocket #Alignment #Transformer
Issue Date: 2025-07-04 [Paper Note] Listwise Preference Alignment Optimization for Tail Item Recommendation, Zihao Li+, arXiv'25 GPT Summary- LPO4Recは、テールアイテム推薦におけるPreference alignmentの課題を解決するために提案された手法で、Bradley-Terryモデルをペアワイズからリストワイズ比較に拡張し、効率的なトレーニングを実現。明示的な報酬モデリングなしで、テールアイテムを優先する負のサンプリング戦略を導入し、パフォーマンスを最大50%向上させ、GPUメモリ使用量を17.9%削減。実験結果は3つの公開データセットで示されている。 Comment

元ポスト:

Loading…

tail itemに強い手法らしい。LLMを用いたGenerative Recommendationではなく、1 BlockのTransformerにlistwiseなpreferenceを反映したlossを適用したものっぽい。

一貫して性能は高そうに見えるが、再現性はどうだろうか。

pointwise, pairwise, listwiseの基礎はこちらを参照:
- ランキング学習ことはじめ, DSIRNLP#1, 2011

#Survey #InformationRetrieval #Pocket #LanguageModel
Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。

#Survey #Pocket #SessionBased Issue Date: 2019-08-02 [Paper Note] A Survey on Session-based Recommender Systems, Shoujin Wang+, arXiv'19 GPT Summary- レコメンダーシステム（RS）の中で、セッションベースのレコメンダーシステム（SBRS）が短期的なユーザーの好みを捉え、より正確な推奨を提供する新たなパラダイムとして注目されている。しかし、SBRSに関する統一された問題定義や特性の詳細な説明は不足している。本研究では、SBRSのエンティティや行動、特性を探求し、一般的な問題定義やデータ特性、課題を要約し、代表的な研究を分類する方法を提案する。また、SBRS分野における新たな研究機会についても議論する。 #Pocket #Transformer #ICDM #Selected Papers/Blogs Issue Date: 2025-07-04 [Paper Note] Self-Attentive Sequential Recommendation, Wang-Cheng Kang+, ICDM'18 GPT Summary- 自己注意に基づく逐次モデル（SASRec）を提案し、マルコフ連鎖と再帰型ニューラルネットワークの利点を統合。SASRecは、少数のアクションから次のアイテムを予測し、スパースおよび密なデータセットで最先端のモデルを上回る性能を示す。モデルの効率性と注意重みの視覚化により、データセットの密度に応じた適応的な処理が可能であることが確認された。 #NeuralNetwork #Pocket #CTRPrediction #SIGKDD Issue Date: 2025-04-25 E-commerce in Your Inbox: Product Recommendations at Scale, Mihajlo Grbovic+, KDD'15 GPT Summary- メールの領収書から得た購入履歴を活用し、Yahoo Mailユーザーにパーソナライズされた商品広告を配信するシステムを提案。新しい神経言語ベースのアルゴリズムを用いて、2900万人以上のユーザーのデータでオフラインテストを実施した結果、クリック率が9%向上し、コンバージョン率も改善。システムは2014年のホリデーシーズンに本稼働を開始。 Comment

#Pocket #SessionBased #ICLR #Selected Papers/Blogs Issue Date: 2019-08-02 [Paper Note] Session-based Recommendations with Recurrent Neural Networks, Balázs Hidasi+, arXiv'15 GPT Summary- RNNを用いたセッションベースのレコメンダーシステムを提案。短いユーザーヒストリーに基づく推薦の精度向上を目指し、セッション全体をモデル化。ランキング損失関数などの修正を加え、実用性を考慮。実験結果は従来のアプローチに対して顕著な改善を示す。 Comment

RNNを利用したsequential recommendation (session-based recommendation)の先駆け的論文。

日本語解説: https://qiita.com/tatamiya/items/46e278a808a51893deac

#Article #NeuralNetwork #LanguageModel #CIKM Issue Date: 2021-05-25 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer, Sun+, CIKM2019 Comment

BERT4Recのモデル構造。next item predictionしたいsessionの末尾に [mask] をconcatし、[MASK]部分のアイテムを予測する構造っぽい？

オリジナルはtensorflow実装

pytorchの実装はこちら： https://github.com/jaywonchung/BERT4Rec-VAE-Pytorch/tree/master/models

#Article #Survey Issue Date: 2020-11-13 Sequence-Aware Recommender Systems, ACM Computing Surveys, Vol. 1, No. 1, Article 1, 2018 Comment

#Article #Embeddings #Pocket #SessionBased Issue Date: 2020-08-29 Airbnbの機械学習導入から学ぶ, Jun Ernesto Okumura, 2020

FactorizationMachines (9)

#NeuralNetwork #CollaborativeFiltering #CTRPrediction #WWW
Issue Date: 2020-08-29 Field Weighted Factorization Machines for Click-Through Rate Prediction in Display Advertising, Pan+, WWW'18 Comment

#CollaborativeFiltering
Issue Date: 2018-01-02 [Paper Note] Factorization Machines with libFM, Steffen Rendle, TIST'12 Comment

Factorization Machinesの著者実装。

FMやるならまずはこれ。

#MachineLearning #CollaborativeFiltering #ICDM #Selected Papers/Blogs
Issue Date: 2018-12-22 [Paper Note] Factorization Machines, Steffen Rendle, ICDM'10 Comment

解説ブログ： http://echizen-tm.hatenablog.com/entry/2016/09/11/024828

DeepFMに関する動向： https://data.gunosy.io/entry/deep-factorization-machines-2018

上記解説ブログの概要が非常に完結でわかりやすい

#Article #CollaborativeFiltering #Library #Repository Issue Date: 2021-07-03 pytorch-fm, 2020 Comment

#Article #CollaborativeFiltering #Pocket Issue Date: 2021-07-02 Deep Learning Recommendation Model for Personalization and Recommendation Systems, Naumov+, Facebook, arXiv‘19 GPT Summary- 深層学習に基づく推薦モデル（DLRM）を開発し、PyTorchとCaffe2で実装。埋め込みテーブルのモデル並列性を活用し、メモリ制約を軽減しつつ計算をスケールアウト。DLRMの性能を既存モデルと比較し、Big Basin AIプラットフォームでの有用性を示す。 Comment

実装: https://github.com/facebookresearch/dlrm

Parallelism以後のセクションはあとで読む

#Article #NeuralNetwork #CollaborativeFiltering #Pocket #CTRPrediction #IJCAI Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 Comment

実装: https://github.com/rixwew/pytorch-fm

#Article #NeuralNetwork #CollaborativeFiltering #Pocket #CTRPrediction #SIGKDD Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment

DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 DeepFMの発展版

#Article #CollaborativeFiltering #Library Issue Date: 2018-01-01 fastFM Comment

実装されているアルゴリズム：Factorization Machines

実装：python

使用方法：pythonライブラリとして利用

※ Factorization Machinesに特化したpythonライブラリ

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Tools #CollaborativeFiltering #Library Issue Date: 2018-01-01 LibRec Comment

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

Dataset (7)

#Pocket #LanguageModel #SessionBased #Personalization #Evaluation
Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。 #Article #NLP #NaturalLanguageUnderstanding
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions GPT Summary- データセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。 #Article #NLP
Issue Date: 2023-05-06 SNAP: Web data: Amazon reviews

#Article #CTRPrediction Issue Date: 2021-06-01 Criteo Dataset, Display Advertising Challenge, Kaggle, 2014 Comment

基本的には click/non-click のラベルと、そのclick時の付帯情報によって構成されている模様

#Article #Tutorial #Tools #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

#Article #Blog Issue Date: 2020-08-29 Open Bandit Dataset, ZOZO RESEARCH, 2020 Comment

Open Bandit pipelineも参照
資料: https://speakerdeck.com/usaito/off-policy-evaluationfalseji-chu-toopen-bandit-dataset-and-pipelinefalseshao-jie

#Article #Selected Papers/Blogs Issue Date: 2019-04-12 Recommender System Datasets, Julian McAuley Comment

Evaluation (7)

#Pocket #LanguageModel #Prompting #RecSys #Reproducibility #KeyPoint Notes
Issue Date: 2025-07-21 [Paper Note] Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation, Genki Kusano+, RecSys'25 GPT Summary- LLMを用いた単一ユーザー設定の推薦タスクにおいて、プロンプトエンジニアリングが重要であることを示す。23種類のプロンプトタイプを比較した結果、コスト効率の良いLLMでは指示の言い換え、背景知識の考慮、推論プロセスの明確化が効果的であり、高性能なLLMではシンプルなプロンプトが優れることが分かった。精度とコストのバランスに基づくプロンプトとLLMの選択に関する提案を行う。 Comment

元ポスト:

Loading…

RecSysにおける網羅的なpromptingの実験。非常に興味深い

#Analysis #CollaborativeFiltering #Library #RecSys
Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#Pocket #Dataset #LanguageModel #SessionBased #Personalization
Issue Date: 2024-12-31 Preference Discerning with LLM-Enhanced Generative Retrieval, Fabian Paischer+, arXiv'24 GPT Summary- 逐次推薦システムのパーソナライズを向上させるために、「好みの識別」という新しいパラダイムを提案。大規模言語モデルを用いてユーザーの好みを生成し、包括的な評価ベンチマークを導入。新手法Menderは、既存手法を改善し、最先端の性能を達成。Menderは未観察の人間の好みにも効果的に対応し、よりパーソナライズされた推薦を実現する。コードとベンチマークはオープンソース化予定。

#NeuralNetwork #CollaborativeFiltering #Pocket #RecSys Issue Date: 2025-04-15 [Paper Note] Revisiting the Performance of iALS on Item Recommendation Benchmarks, Steffen Rendle+, RecSys'22 GPT Summary- iALSを再検討し、調整を行うことで、レコメンダーシステムにおいて競争力を持つことを示す。特に、4つのベンチマークで他の手法を上回る結果を得て、iALSのスケーラビリティと高品質な予測が再評価されることを期待。 #RecSys #Reproducibility Issue Date: 2022-04-05 [Paper Note] Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison, Sun+, RecSys'20 Comment

日本語解説： https://qiita.com/smochi/items/c4cecc48e4aba0071ead

#NeuralNetwork #CollaborativeFiltering #Pocket #RecSys #Selected Papers/Blogs Issue Date: 2022-04-11 [Paper Note] Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches, Maurizio Ferrari Dacrema+, RecSys'19, 2019.07 GPT Summary- 深層学習技術はレコメンダーシステムの研究で広く用いられているが、再現性やベースライン選択に問題がある。18のトップnレコメンデーションアルゴリズムを分析した結果、再現できたのは7つのみで、6つは単純なヒューリスティック手法に劣っていた。残りの1つはベースラインを上回ったが、非ニューラル手法には及ばなかった。本研究は機械学習の実践における問題を指摘し、改善を呼びかけている。 Comment

RecSys'19のベストペーパー

日本語解説： https://qiita.com/smochi/items/98dbd9429c15898c5dc7

重要研究

#Article #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Blog #A/B Testing Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

ReviewGeneration (6)

#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #WWW
Issue Date: 2019-08-17 [Paper Note] Review Response Generation in E-Commerce Platforms with External Product Information, Zhao+, WWW'19 #NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #ACL #Workshop
Issue Date: 2019-08-17 [Paper Note] Automatic Generation of Personalized Comment Based on User Profile, Wenhuan Zeng+, ACL'19 SRW GPT Summary- ソーシャルメディアの多様なコメント生成の難しさを考慮し、ユーザープロフィールに基づくパーソナライズされたコメント生成タスク（AGPC）を提案。パーソナライズドコメント生成ネットワーク（PCGN）を用いて、ユーザーの特徴をモデル化し、外部ユーザー表現を考慮することで自然なコメントを生成。実験結果は、モデルの効果を示す。 #NeuralNetwork #NaturalLanguageGeneration #NLP #WWW
Issue Date: 2019-05-31 [Paper Note] Multimodal Review Generation for Recommender Systems, Truong+, WWW'19 Comment

#NeuralNetwork #NaturalLanguageGeneration #Pocket #NLP #RecSys Issue Date: 2019-08-17 [Paper Note] Improving Explainable Recommendations with Synthetic Reviews, Sixun Ouyang+, RecSys'18 GPT Summary- レコメンダーシステムにおいて、解釈可能な説明を提供することは信頼性向上に重要である。本研究では、ユーザーのレビューを基にした生成モデルを用いて、個別化された推薦説明を作成するフレームワークを提案。Amazonの書籍レビューデータセットを用いて、生成されたレビューが人間のレビューよりも優れた推薦性能を示すことを実証した。これは機械生成による自然言語説明の初の試みである。 #NeuralNetwork #Pocket #NLP #SIGIR Issue Date: 2019-04-12 [Paper Note] Neural Rating Regression with Abstractive Tips Generation for Recommendation, Piji Li+, arXiv'17 GPT Summary- Eコマースサイトの新しい「Tips」機能を活用し、ユーザーの経験や感情を表現する短いテキストを生成する深層学習フレームワーク「NRT」を提案。NRTは、ユーザーとアイテムの潜在表現を基に、正確な評価予測と高品質な抽象的ヒントの生成を実現。実験により、NRTは既存手法に対して顕著な改善を示し、ユーザーの体験や感情を効果的に反映することが確認された。 Comment

#NeuralNetwork #NaturalLanguageGeneration #CollaborativeFiltering #NLP #IJCNLP Issue Date: 2019-02-01 [Paper Note] Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17 Comment

Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。

NaturalLanguageGeneration (5)

#NeuralNetwork #Pocket #NLP #ReviewGeneration #WWW
Issue Date: 2019-08-17 [Paper Note] Review Response Generation in E-Commerce Platforms with External Product Information, Zhao+, WWW'19 #NeuralNetwork #Pocket #NLP #ReviewGeneration #ACL #Workshop
Issue Date: 2019-08-17 [Paper Note] Automatic Generation of Personalized Comment Based on User Profile, Wenhuan Zeng+, ACL'19 SRW GPT Summary- ソーシャルメディアの多様なコメント生成の難しさを考慮し、ユーザープロフィールに基づくパーソナライズされたコメント生成タスク（AGPC）を提案。パーソナライズドコメント生成ネットワーク（PCGN）を用いて、ユーザーの特徴をモデル化し、外部ユーザー表現を考慮することで自然なコメントを生成。実験結果は、モデルの効果を示す。 #NeuralNetwork #NLP #ReviewGeneration #WWW
Issue Date: 2019-05-31 [Paper Note] Multimodal Review Generation for Recommender Systems, Truong+, WWW'19 Comment

#NeuralNetwork #Pocket #NLP #ReviewGeneration #RecSys Issue Date: 2019-08-17 [Paper Note] Improving Explainable Recommendations with Synthetic Reviews, Sixun Ouyang+, RecSys'18 GPT Summary- レコメンダーシステムにおいて、解釈可能な説明を提供することは信頼性向上に重要である。本研究では、ユーザーのレビューを基にした生成モデルを用いて、個別化された推薦説明を作成するフレームワークを提案。Amazonの書籍レビューデータセットを用いて、生成されたレビューが人間のレビューよりも優れた推薦性能を示すことを実証した。これは機械生成による自然言語説明の初の試みである。 #NeuralNetwork #CollaborativeFiltering #NLP #ReviewGeneration #IJCNLP Issue Date: 2019-02-01 [Paper Note] Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP'17 Comment

Recommendタスクにおいては、Bayesian Personalized Ranking, Generalized Matrix Factorizationをoutperform。

RepresentationLearning (4)

#Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #InstructionTuning #ContrastiveLearning #ICLR #Generalization #Decoder
Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#Embeddings #EfficiencyImprovement #InformationRetrieval #Pocket
Issue Date: 2025-06-25 [Paper Note] NEAR$^2$: A Nested Embedding Approach to Efficient Product Retrieval and Ranking, Shenbin Qian+, arXiv'25 GPT Summary- Eコマース情報検索システムは、ユーザーの意図を正確に理解しつつ、大規模な商品カタログを効率的に処理することが難しい。本論文では、NEAR$^2$というネストされた埋め込みアプローチを提案し、推論時の埋め込みサイズを最大12倍効率化し、トレーニングコストを増やさずにトランスフォーマーモデルの精度を向上させる。さまざまなIR課題に対して異なる損失関数を用いて検証した結果、既存モデルよりも小さな埋め込み次元での性能向上を達成した。 Comment

元ポスト:

Loading…

#NeuralNetwork #Embeddings #Pocket #CTRPrediction #SIGKDD #numeric #KeyPoint Notes
Issue Date: 2025-04-22 [Paper Note] An Embedding Learning Framework for Numerical Features in CTR Prediction, Huifeng Guo+, KDD'21 GPT Summary- CTR予測のための新しい埋め込み学習フレームワーク「AutoDis」を提案。数値特徴の埋め込みを強化し、高いモデル容量とエンドツーエンドのトレーニングを実現。メタ埋め込み、自動離散化、集約の3つのコアコンポーネントを用いて、数値特徴の相関を捉え、独自の埋め込みを学習。実験により、CTRとeCPMでそれぞれ2.1%および2.7%の改善を達成。コードは公開されている。 Comment

#NeuralNetwork #General #Embeddings #MachineLearning #AAAI #Selected Papers/Blogs Issue Date: 2017-12-28 [Paper Note] StarSpace: Embed All The Things, Wu+, AAAI'18 Comment

解説：

https://www.slideshare.net/akihikowatanabe3110/starspace-embed-all-the-things

ContrastiveLearning (4)

#Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #RepresentationLearning #InstructionTuning #ICLR #Generalization #Decoder
Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#NeuralNetwork #CTRPrediction
Issue Date: 2024-11-19 Collaborative Contrastive Network for Click-Through Rate Prediction, Chen Gao+, arXiv'24 GPT Summary- EコマースプラットフォームにおけるCTR予測の課題を解決するために、「コラボレーティブコントラストネットワーク（CCN）」を提案。CCNは、ユーザーの興味と不興を示すアイテムクラスターを特定し、トリガーアイテムへの依存を減少させる。オンラインA/Bテストにより、タオバオでCTRを12.3%、注文量を12.7%向上させる成果を達成。 Comment

#NLP #Contents-based #Transformer #pretrained-LM
Issue Date: 2023-07-18 UniTRec: A Unified Text-to-Text Transformer and Joint Contrastive Learning Framework for Text-based Recommendation, ACL'23 GPT Summary- 本研究では、事前学習済み言語モデル（PLM）を使用して、テキストベースの推薦の性能を向上させるための新しいフレームワークであるUniTRecを提案します。UniTRecは、ユーザーの履歴の文脈をより良くモデル化するために統一されたローカル-グローバルアテンションTransformerエンコーダを使用し、候補のテキストアイテムの言語の複雑さを推定するためにTransformerデコーダを活用します。幅広い評価により、UniTRecがテキストベースの推薦タスクで最先端のパフォーマンスを発揮することが示されました。

#Article #Tutorial #CollaborativeFiltering #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

MLOps (4)

#Article #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #Blog #A/B Testing #TwoTowerModel
Issue Date: 2025-06-29 日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05 Comment

#Article #NeuralNetwork #CTRPrediction #NewsRecommendation #Evaluation #Blog #A/B Testing
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

#Article
Issue Date: 2023-12-19 モバオクでのリアルタイムレコメンドシステムの紹介 Comment

リアルタイム推薦によって、バッチで日毎の更新だった場合と比べ、入札率、クリック率、回遊率が大きく改善したのは面白い。

#Article Issue Date: 2023-09-05 Lessons Learnt From Consolidating ML Models in a Large Scale Recommendation System Comment

PersonalizedDocumentSummarization (3)

#NLP #Snippets #Explanation #PersonalizedGeneration #Personalization #WI
Issue Date: 2025-11-27 [Paper Note] Generating Personalized Snippets for Web Page Recommender Systems, Akihiko+, WI-IAT'14 GPT Summary- ウェブページ推薦システムのために、ユーザーの興味を反映したパーソナライズされたスニペットを生成する新手法を提案。推薦理由を活用し、最大カバレッジ要約モデルを用いてスニペットを作成。実験結果では、提案手法が従来のパーソナライズされた要約モデルよりも効果的であることが示された。 Comment

ジャーナル（日本語）: https://www.jstage.jst.go.jp/article/tjsai/31/5/31_C-G41/_article/-char/en

#DocumentSummarization #CollaborativeFiltering #GraphBased #Personalization #PACLIC #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] Collaborative Summarization: When Collaborative Filtering Meets Document Summarization, Qu+, PACLIC'09, 2009.12 Comment

#Article #DocumentSummarization #Personalization #Selected Papers/Blogs #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] User-model based personalized summarization, Diaz+, Information Processing and Management 2007.11 Comment

PDSの先駆けとなった重要論文。必ずreferすべき。

NewsRecommendation (3)

#NeuralNetwork #CollaborativeFiltering #Pocket #Contents-based #WWW #KeyPoint Notes
Issue Date: 2021-06-01 [Paper Note] DKN: Deep Knowledge-Aware Network for News Recommendation, Hongwei Wang+, arXiv'18, 2018.01 GPT Summary- オンラインニュース推薦システムの課題を解決するために、知識グラフを活用した深層知識認識ネットワーク（DKN）を提案。DKNは、ニュースの意味と知識を融合する多チャネルの知識認識畳み込みニューラルネットワーク（KCNN）を用い、ユーザーの履歴を動的に集約する注意モジュールを搭載。実験により、DKNが最先端の推薦モデルを大幅に上回る性能を示し、知識の有効性も確認。 Comment

（おそらく）著者によるtensor-flowでの実装: https://github.com/hwwang55/DKN

日本語解説

https://qiita.com/agatan/items/24c6d8e00f2fc861bb04

#Article #NeuralNetwork #CTRPrediction #MLOps #Evaluation #Blog #A/B Testing
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

#Article #Document #Personalization #SIGIR #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] SCENE: A Scalable Two-Stage Personalized News Recommendation System, Li et al., SIGIR’11 Comment

GenerativeAI (3)

#Tutorial #LanguageModel #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

#Survey #Pocket
Issue Date: 2024-04-02 A Review of Modern Recommender Systems Using Generative Models （Gen-RecSys）, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル（Gen-RecSys）を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル（LLM）を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。 #Article #Survey
Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment

Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ

PersonalizedGeneration (3)

#Personalization
Issue Date: 2024-09-14 Leveraging User-Generated Reviews for Recommender Systems with Dynamic Headers, Shanu Vashishtha+, N_A, PAIS'24 GPT Summary- Eコマースプラットフォームの推薦カルーセルのヘッダー生成をカスタマイズする新手法「Dynamic Text Snippets（DTS）」を提案。ユーザーのレビューから特定の属性を抽出し、グラフニューラルネットワークを用いて複数のヘッダーテキストを生成。これにより、コンテキストに配慮した推薦システムの可能性を示す。 Comment

e-commerceでDynamicにitemsetに対するスニペット（見出し）を生成する研究。Attributeに基づいてスニペットを生成する。

斜め読みだが、Anchor ItemがGivenであり、kNNされたアイテム集合から抽出されたに基づいて生成するので、Anchor Itemをユーザが与えるのであれば一時的個人化によるpersonalizationとみなせる。Anchor Itemをユーザの履歴からシステムが複数件選び集約して推薦するみたいなパラダイムになれば、永続的個人化とも言えそう。が、後者の場合共通のAttributeが見出せるか不明。

#Pocket #NLP #Personalization
Issue Date: 2023-08-11 Personalized Chit-Chat Generation for Recommendation Using External Chat Corpora, Chen+, KDD'22 GPT Summary- チットチャットは、ユーザーとの対話において効果的であることが示されています。この研究では、ニュース推薦のための個人化されたチットチャットを生成する方法を提案しています。既存の方法とは異なり、外部のチャットコーパスのみを使用してユーザーの関心を推定し、個人化されたチットチャットを生成します。幅広い実験により、提案手法の効果が示されています。 #PersonalizedDocumentSummarization #NLP #Snippets #Explanation #Personalization #WI
Issue Date: 2025-11-27 [Paper Note] Generating Personalized Snippets for Web Page Recommender Systems, Akihiko+, WI-IAT'14 GPT Summary- ウェブページ推薦システムのために、ユーザーの興味を反映したパーソナライズされたスニペットを生成する新手法を提案。推薦理由を活用し、最大カバレッジ要約モデルを用いてスニペットを作成。実験結果では、提案手法が従来のパーソナライズされた要約モデルよりも効果的であることが示された。 Comment

ジャーナル（日本語）: https://www.jstage.jst.go.jp/article/tjsai/31/5/31_C-G41/_article/-char/en

InstructionTuning (3)

#Embeddings #InformationRetrieval #Pocket #NLP #LanguageModel #RepresentationLearning #ContrastiveLearning #ICLR #Generalization #Decoder
Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#LanguageModel #KnowledgeGraph #Annotation
Issue Date: 2024-10-08 COSMO: A large-scale e-commerce common sense knowledge generation and serving system at Amazon , Yu+, SIGMOD_PODS '24 GPT Summary- COSMOは、eコマースプラットフォーム向けにユーザー中心の常識知識をマイニングするためのスケーラブルな知識グラフシステムです。大規模言語モデルから抽出した高品質な知識を用い、指示チューニングによってファインチューニングされたCOSMO-LMは、Amazonの主要カテゴリにわたって数百万の知識を生成します。実験により、COSMOが検索ナビゲーションなどで顕著な改善を達成することが示され、常識知識の活用の可能性が強調されています。 Comment

search navigationに導入しA/Bテストした結果、0.7%のproduct sales向上効果。

#LanguageModel #Zero/Few/ManyShotPrompting
Issue Date: 2023-11-12 Recommendation as Language Processing （RLP）: A Unified Pretrain, Personalized Prompt & Predict Paradigm （P5）, Shijie Geng+, N_A, RecSys'22 GPT Summary- 我々は「Pretrain, Personalized Prompt, and Predict Paradigm」（P5）と呼ばれる柔軟で統一されたテキストからテキストへのパラダイムを提案します。P5は、共有フレームワーク内でさまざまな推薦タスクを統一し、個別化と推薦のための深い意味を捉えることができます。P5は、異なるタスクを学習するための同じ言語モデリング目標を持つ事前学習を行います。P5は、浅いモデルから深いモデルへと進化し、広範な微調整の必要性を減らすことができます。P5の効果を実証するために、いくつかの推薦ベンチマークで実験を行いました。 Comment

RAG(RetrievalAugmentedGeneration) (3)

#Embeddings #InformationRetrieval #Pocket #NLP #MultiModal
Issue Date: 2025-10-07 [Paper Note] Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video, Mengyao Xu+, arXiv'25, 2025.10 GPT Summary- 「Omni-Embed-Nemotron」は、複雑な情報ニーズに応えるための統一的なマルチモーダル検索埋め込みモデルです。従来のテキストベースのリトリーバーが視覚的に豊かなコンテンツに対応できない中、ColPaliの研究を基に、テキスト、画像、音声、動画を統合した検索を実現します。このモデルは、クロスモーダルおよびジョイントモーダル検索を可能にし、そのアーキテクチャと評価結果を通じて、検索の効果を実証しています。 Comment

元ポスト:

Loading…

#CollaborativeFiltering #Pocket #NLP #LanguageModel #Reasoning
Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25 GPT Summary- RALLRec+は、LLMsを用いてレコメンダーシステムのretrievalとgenerationを強化する手法。retrieval段階では、アイテム説明を生成し、テキスト信号と協調信号を結合。生成段階では、推論LLMsを評価し、知識注入プロンプティングで汎用LLMsと統合。実験により、提案手法の有効性が確認された。 Comment

元ポスト:

Loading…

Reasoning LLMをRecSysに応用する初めての研究（らしいことがRelated Workに書かれている）

#NLP #UserModeling #LanguageModel #CTRPrediction #LongSequence #WWW
Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

DocumentSummarization (2)

#PersonalizedDocumentSummarization #CollaborativeFiltering #GraphBased #Personalization #PACLIC #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] Collaborative Summarization: When Collaborative Filtering Meets Document Summarization, Qu+, PACLIC'09, 2009.12 Comment

#Article #PersonalizedDocumentSummarization #Personalization #Selected Papers/Blogs #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] User-model based personalized summarization, Diaz+, Information Processing and Management 2007.11 Comment

PDSの先駆けとなった重要論文。必ずreferすべき。

Analysis (2)

#CollaborativeFiltering #Library #Evaluation #RecSys
Issue Date: 2025-04-10 [Paper Note] Revisiting BPR: A Replicability Study of a Common Recommender System Baseline, Aleksandr Milogradskii+, RecSys'24 GPT Summary- BPRは協調フィルタリングのベンチマークだが、実装の微妙な点が見落とされ、他手法に劣るとされている。本研究ではBPRの特徴と実装の不一致を分析し、最大50%の性能低下を示す。適切なハイパーパラメータ調整により、BPRはトップn推薦タスクで最先端手法に近い性能を達成し、Million Song DatasetではMult-VAEを10%上回る結果を示した。 Comment

BPR、実装によってまるで性能が違う…

実装の違い

#Others
Issue Date: 2018-01-01 [Paper Note] Usage patterns of collaborative tagging systems, Golder+, Journal of Information Science'06 Comment

Social Tagging Systemの仕組みや使われ方について言及する際にreferすると良いかも。

A/B Testing (2)

#Article #NeuralNetwork #Embeddings #EfficiencyImprovement #AWS #MLOps #Blog #TwoTowerModel
Issue Date: 2025-06-29 日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05 Comment

#Article #NeuralNetwork #CTRPrediction #NewsRecommendation #MLOps #Evaluation #Blog
Issue Date: 2024-08-31 NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 Comment

あと、定性評価は重要

FoundationModel (2)

#Embeddings #Pocket #LanguageModel #read-later
Issue Date: 2025-08-26 [Paper Note] Large Foundation Model for Ads Recommendation, Shangyu Zhang+, arXiv'25 GPT Summary- LFM4Adsは、オンライン広告のための全表現マルチ粒度転送フレームワークで、ユーザー表現（UR）、アイテム表現（IR）、ユーザー-アイテム交差表現（CR）を包括的に転送。最適な抽出層を特定し、マルチ粒度メカニズムを導入することで転送可能性を強化。テンセントの広告プラットフォームで成功裏に展開され、2.45%のGMV向上を達成。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Personalization
Issue Date: 2025-01-29 360Brew: A Decoder-only Foundation Model for Personalized Ranking and Recommendation, Hamed Firooz+, arXiv'25 GPT Summary- ランキングおよび推薦システムの課題に対処するため、テキストインターフェースを持つ大規模基盤モデルを活用した研究を紹介。150Bパラメータのデコーダー専用モデル360Brew V1.0は、LinkedInのデータを用いて30以上の予測タスクを解決し、従来の専用モデルと同等以上のパフォーマンスを達成。特徴エンジニアリングの複雑さを軽減し、複数のタスクを単一モデルで管理可能にする利点を示す。 Comment

元ポスト:

Loading…

InteractiveRecommenderSystems (1)

#Tutorial #Slide #RecSys #interactive
Issue Date: 2017-12-28 [Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09

RelevanceJudgment (1)

#Article #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] Relevance Judgment in epistemic and hedonic information searches, Yunjie Xu, Journal of the American Society for Information Science and Technology, 2007.01 Comment

CVRPrediction (1)

#NeuralNetwork #CTRPrediction #SIGKDD
Issue Date: 2021-06-01 Conversion Prediction Using Multi-task Conditional Attention Networks to Support the Creation of Effective Ad Creatives, Kitada+, KDD'19 Comment

KnowledgeTracing (1)

#NeuralNetwork #EfficiencyImprovement #CollaborativeFiltering #Pocket #EducationalDataMining #Contents-based #NAACL
Issue Date: 2022-08-01 GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering, Yoonseok Yang+, NAACL'22 GPT Summary- コンテンツベースの協調フィルタリング（CCF）において、PLMを用いたエンドツーエンドのトレーニングはリソースを消費するため、GRAM（勾配蓄積手法）を提案。Single-step GRAMはアイテムエンコーディングの勾配を集約し、Multi-step GRAMは勾配更新の遅延を増加させてメモリを削減。これにより、Knowledge TracingとNews Recommendationのタスクでトレーニング効率を最大146倍改善。 Comment

RiiiDがNAACL'22に論文通してた

NaturalLanguageUnderstanding (1)

#Article #NLP #Dataset
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions GPT Summary- データセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。

GenerativeRecommendation (1)

#Survey
Issue Date: 2024-08-06 Large Language Models for Generative Recommendation: A Survey and Visionary Discussions, Lei Li+, N_A, LREC-COLING'24 GPT Summary- LLMを使用した生成的な推薦に焦点を当て、従来の複数段階の推薦プロセスを1つの段階に簡素化する方法を調査。具体的には、生成的推薦の定義、RSの進化、LLMベースの生成的推薦の実装方法について検討。この調査は、LLMベースの生成的推薦に関する進捗状況と将来の方向について提供できる文脈とガイダンスを提供することを目指している。 Comment

ConversationalRecommenderSystems (1)

#Pocket #LanguageModel
Issue Date: 2024-08-07 Leveraging Large Language Models in Conversational Recommender Systems, Luke Friedman+, N_A, arXiv'23 GPT Summary- LLMsを使用した大規模な会話型推薦システム（CRS）の構築に関する論文の要約です。LLMsを活用したユーザーの好み理解、柔軟なダイアログ管理、説明可能な推薦の新しい実装を提案し、LLMsによって駆動される統合アーキテクチャの一部として説明します。また、LLMが解釈可能な自然言語のユーザープロファイルを利用してセッションレベルのコンテキストを調整する方法についても説明します。さらに、LLMベースのユーザーシミュレータを構築して合成会話を生成する技術を提案し、LaMDAをベースにしたYouTubeビデオの大規模CRSであるRecLLMを紹介します。

Annotation (1)

#LanguageModel #KnowledgeGraph #InstructionTuning
Issue Date: 2024-10-08 COSMO: A large-scale e-commerce common sense knowledge generation and serving system at Amazon , Yu+, SIGMOD_PODS '24 GPT Summary- COSMOは、eコマースプラットフォーム向けにユーザー中心の常識知識をマイニングするためのスケーラブルな知識グラフシステムです。大規模言語モデルから抽出した高品質な知識を用い、指示チューニングによってファインチューニングされたCOSMO-LMは、Amazonの主要カテゴリにわたって数百万の知識を生成します。実験により、COSMOが検索ナビゲーションなどで顕著な改善を達成することが示され、常識知識の活用の可能性が強調されています。 Comment

search navigationに導入しA/Bテストした結果、0.7%のproduct sales向上効果。

Supervised-FineTuning (SFT) (1)

#LanguageModel #Contents-based #PEFT(Adaptor/LoRA) #Zero/FewShotLearning #RecSys #KeyPoint Notes
Issue Date: 2025-03-30 [Paper Note] TALLRec: An Effective and Efficient Tuning Framework to Align Large Language Model with Recommendation, Keqin Bao+, RecSys'23 GPT Summary- 大規模言語モデル（LLMs）を推薦システムに活用するため、推薦データで調整するフレームワークTALLRecを提案。限られたデータセットでもLLMsの推薦能力を向上させ、効率的に実行可能。ファインチューニングされたLLMはクロスドメイン一般化を示す。 Comment

AWS (1)

#Article #NeuralNetwork #Embeddings #EfficiencyImprovement #MLOps #Blog #A/B Testing #TwoTowerModel
Issue Date: 2025-06-29 日経電子版のアプリトップ「おすすめ」をTwo Towerモデルでリプレースしました, NIKKEI, 2025.05 Comment

Alignment (1)

#ListWise #Pocket #Transformer #SequentialRecommendation
Issue Date: 2025-07-04 [Paper Note] Listwise Preference Alignment Optimization for Tail Item Recommendation, Zihao Li+, arXiv'25 GPT Summary- LPO4Recは、テールアイテム推薦におけるPreference alignmentの課題を解決するために提案された手法で、Bradley-Terryモデルをペアワイズからリストワイズ比較に拡張し、効率的なトレーニングを実現。明示的な報酬モデリングなしで、テールアイテムを優先する負のサンプリング戦略を導入し、パフォーマンスを最大50%向上させ、GPUメモリ使用量を17.9%削減。実験結果は3つの公開データセットで示されている。 Comment

元ポスト:

Loading…

tail itemに強い手法らしい。LLMを用いたGenerative Recommendationではなく、1 BlockのTransformerにlistwiseなpreferenceを反映したlossを適用したものっぽい。

一貫して性能は高そうに見えるが、再現性はどうだろうか。

pointwise, pairwise, listwiseの基礎はこちらを参照:
- ランキング学習ことはじめ, DSIRNLP#1, 2011

Others (46)

#Pocket #SIGKDD
Issue Date: 2025-09-20 [Paper Note] Taming Recommendation Bias with Causal Intervention on Evolving Personal Popularity, Shiyin Tan+, KDD'25 GPT Summary- CausalEPPという新手法を提案し、ユーザーの進化する個人的な人気を考慮して推薦バイアスを抑制。進化する個人的人気を定量化し、因果グラフを用いて人気バイアスを軽減。実証研究で推薦精度が向上し、ベースライン手法を上回ることを示した。 #Pocket #VariationalAutoEncoder #SemanticID
Issue Date: 2025-07-28 [Paper Note] Semantic IDs for Music Recommendation, M. Jeffrey Mei+, arXiv'25 GPT Summary- コンテンツ情報を活用した共有埋め込みを用いることで、次アイテム推薦のレコメンダーシステムのモデルサイズを削減し、精度と多様性を向上させることを示す。音楽ストリーミングサービスでのオンラインA/Bテストを通じて、その効果を実証。 Comment

元ポスト:

Loading…

- [Paper Note] Self-Attentive Sequential Recommendation, Wang-Cheng Kang+, ICDM'18
- [Paper Note] Recommender Systems with Generative Retrieval, Shashank Rajput+, NeurIPS'23

上記2つのハイブリッド

#Pocket #UAI #read-later #ColdStart
Issue Date: 2025-05-16 Cold-start Recommendation by Personalized Embedding Region Elicitation, Hieu Trung Nguyen+, UAI'24 GPT Summary- レコメンダーシステムのコールドスタート問題に対処するため、2段階のパーソナライズされた引き出しスキームを提案。最初に人気アイテムの評価を求め、その後、順次適応的にアイテム評価を行う。ユーザーの埋め込み値を領域推定として表現し、評価情報の価値を定量化。提案手法は既存の方法と比較して有効性を示す。 Comment

OpenReview: https://openreview.net/forum?id=ciOkU5YpvU

#InformationRetrieval #Pocket #MultiModal Issue Date: 2024-11-08 MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs, Sheng-Chieh Lin+, arXiv'24 GPT Summary- 本論文では、マルチモーダル大規模言語モデル（MLLM）を用いた「ユニバーサルマルチモーダル検索」の技術を提案し、複数のモダリティと検索タスクに対応する能力を示します。10のデータセットと16の検索タスクでの実験により、MLLMリトリーバーはテキストと画像のクエリを理解できるが、モダリティバイアスによりクロスモーダル検索では劣ることが判明。これを解決するために、モダリティ認識ハードネガティブマイニングを提案し、継続的なファインチューニングでテキスト検索能力を向上させました。結果として、MM-EmbedモデルはM-BEIRベンチマークで最先端の性能を達成し、NV-Embed-v1を上回りました。また、ゼロショットリランキングを通じて、複雑なクエリに対するマルチモーダル検索の改善が可能であることを示しました。これらの成果は、今後のユニバーサルマルチモーダル検索の発展に寄与するものです。 Comment

#Pocket #Transformer #TransferLearning Issue Date: 2024-09-25 beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys'24 GPT Summary- レコメンダーシステムにおいて、コールドスタートやゼロショットシナリオでの予測改善のために、インタラクションデータを活用した文のトランスフォーマーモデル「beeFormer」を提案。beeFormerは、意味的類似性の予測において従来の手法を上回り、異なるドメインのデータセット間で知識を転送可能であることを示した。これにより、ドメインに依存しないテキスト表現のマイニングが可能になる。 Comment

NLPでは言語という共通の体系があるから事前学習とかが成立するけど、RecSysのようなユーザとシステムのinteraction dataを用いたシステムでは（大抵の場合はデータセットごとにユニークなユーザIDとアイテムIDのログでデータが構成されるので）なかなかそういうことは難しいよね、と思っていた。が、もしRecSysのタスク設定で、データセット間の転移学習を実現できるのだとしたらどのように実現してきるのだろうか?興味深い。後で読む。

#EfficiencyImprovement #Pocket Issue Date: 2024-09-25 Enhancing Performance and Scalability of Large-Scale Recommendation Systems with Jagged Flash Attention, Rengan Xu+, N_A, arXiv'24 GPT Summary- ハードウェアアクセラレーターの統合により、推薦システムの能力が向上する一方で、GPU計算コストが課題となっている。本研究では、カテゴリ特徴の長さによるGPU利用の複雑さに対処するため、「Jagged Feature Interaction Kernels」を提案し、動的サイズのテンソルを効率的に扱う手法を開発。さらに、JaggedテンソルをFlash Attentionと統合し、最大9倍のスピードアップと22倍のメモリ削減を実現。実際のモデルでは、10%のQPS改善と18%のメモリ節約を確認し、複雑な推薦システムのスケーリングを可能にした。 #Pocket #Transformer #VariationalAutoEncoder #NeurIPS #read-later #Selected Papers/Blogs #ColdStart #Encoder-Decoder #SemanticID Issue Date: 2025-07-28 [Paper Note] Recommender Systems with Generative Retrieval, Shashank Rajput+, NeurIPS'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを用いて次のアイテムを予測するTransformerベースのモデルを訓練。これにより、従来のレコメンダーシステムを大幅に上回る性能を達成し、過去の対話履歴がないアイテムに対しても改善された検索性能を示す。 Comment

openreview: https://openreview.net/forum?id=BJ0fQUU32w

Semantic IDを提案した研究

#Pocket #Transformer Issue Date: 2023-11-13 Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems, Huan Gui+, N_A, arXiv'23 GPT Summary- 特徴の相互作用を学ぶために、Transformerベースのアーキテクチャを提案する。ウェブスケールのレコメンダーシステムにおいて、特徴の相互作用を手動で作成することは困難であるため、自動的に捉える必要がある。しかし、現在のTransformerアーキテクチャは異種の特徴の相互作用を捉えることができず、サービングレイテンシも高い。そこで、異種の自己注意層を提案し、\textsc{Hiformer}というモデルを紹介する。\textsc{Hiformer}は特徴の相互作用の異種性を考慮し、低ランク近似とモデルの剪定により高速な推論を実現する。オフライン実験結果では、\textsc{Hiformer}モデルの効果と効率が示されており、Google Playの実世界の大規模なアプリランキングモデルにも展開され、主要なエンゲージメントメトリックスを改善した。 Comment

推薦システムは、Factorization Machinesあたりから大抵の場合特徴量間の交互作用を頑張って捉えることで精度向上を目指す、という話をしてきている気がするが、これはTransformerを使って交互作用捉えられるようなモデルを考えました、という研究のようである。

self attention部分に工夫がなされており（提案手法は右端）、task tokenとそれぞれのfeatureをconcatしてQKVを求めることで、明示的に交互作用が生まれるような構造にしている。

Online A/Bテストでも評価しており、HiformerによってSoTAな交互作用モデル（DCN）よりも高いユーザエンゲージメントを実現することが示されている。

Issue Date: 2023-07-18 User Simulator Assisted Open-ended Conversational Recommendation System, NLP4ConvAI'23 #Explanation #Personalization #review Issue Date: 2023-07-18 Explainable Recommendation with Personalized Review Retrieval and Aspect Learning, ACL'23 GPT Summary- 説明可能な推薦において、テキスト生成の精度向上とユーザーの好みの捉え方の改善を目指し、ERRAモデルを提案。ERRAは追加情報の検索とアスペクト学習を組み合わせることで、より正確で情報量の多い説明を生成することができる。さらに、ユーザーの関心の高いアスペクトを選択することで、関連性の高い詳細なユーザー表現をモデル化し、説明をより説得力のあるものにする。実験結果は、ERRAモデルが最先端のベースラインを上回ることを示している。 #NLP #Conversation Issue Date: 2023-07-15 TREA: Tree-Structure Reasoning Schema for Conversational Recommendation, ACL'23 GPT Summary- 会話型の推薦システム（CRS）では、外部知識を活用して対話の文脈を理解し、関連するアイテムを推薦することが求められている。しかし、現在の推論モデルは複雑な関係を完全に把握できないため、新しいツリー構造の推論スキーマであるTREAを提案する。TREAは多階層のツリーを使用して因果関係を明確にし、過去の対話を活用してより合理的な応答を生成する。幅広い実験により、TREAの有効性が示された。 #Pocket #read-later #Reproducibility Issue Date: 2025-05-16 A Troubling Analysis of Reproducibility and Progress in Recommender Systems Research, Maurizio Ferrari Dacrema+, TOIS'21 GPT Summary- パーソナライズされたランキングアイテムリスト生成のアルゴリズム設計はレコメンダーシステムの重要なテーマであり、深層学習技術が主流となっている。しかし、比較ベースラインの選択や最適化に問題があり、実際の進展を理解するために協調フィルタリングに基づくニューラルアプローチの再現を試みた結果、12の手法中11が単純な手法に劣ることが判明。計算的に複雑なニューラル手法は既存の技術を一貫して上回らず、研究実践の問題が分野の停滞を招いている。 #RecSys #read-later #Reproducibility Issue Date: 2025-05-14 [Paper Note] Are We Evaluating Rigorously? Benchmarking Recommendation for Reproducible Evaluation and Fair Comparison, Zun+, RecSys'20 Comment

日本語解説: https://qiita.com/smochi/items/c4cecc48e4aba0071ead

#Pocket #read-later #Reproducibility Issue Date: 2025-05-14 On the Difficulty of Evaluating Baselines: A Study on Recommender Systems, Steffen Rendle+, arXiv'19 GPT Summary- レコメンダーシステムの研究において、数値評価とベースラインの比較が重要であることを示す。Movielens 10Mベンチマークのベースライン結果が最適でないことを実証し、適切な行列因子分解の設定により改善できることを示した。また、Netflix Prizeにおける手法の結果を振り返り、経験的な発見は標準化されたベンチマークに基づかない限り疑わしいことを指摘した。 #NeuralNetwork #Pocket #Attention #SIGKDD Issue Date: 2025-07-17 [Paper Note] Deep Interest Network for Click-Through Rate Prediction, Guorui Zhou+, KDD'18 GPT Summary- クリック率予測において、固定長の表現ベクトルがユーザーの多様な興味を捉えるのを妨げる問題に対処するため、ローカルアクティベーションユニットを用いた「Deep Interest Network（DIN）」を提案。DINは広告に応じてユーザーの興味を適応的に学習し、表現力を向上させる。実験により、提案手法は最先端の手法を上回る性能を示し、Alibabaの広告システムに成功裏に展開されている。 Comment

ユーザの過去のアイテムとのインタラクションを、候補アイテムによって条件づけた上でattentionによって重みづけをすることでcontext vectorを作成し活用する。これにより候補アイテムごとにユーザの過去のアイテムとのインタラクションのうち、どれを重視するかを動的に変化させることができるようにした研究。最終的にユーザプロファイルをベースにしたEmbeddingとコンテキスト（セッションの情報など）の情報をベースにしたEmbeddingと、上述したcontext vectorをconcatし、linearな変換を噛ませてスコアを出力する。学習はクリックスルーログ等のインタラクションデータに対してNLL lossを適用する。通称DIN。

#Calibration Issue Date: 2024-09-20 Calibrated Recommendation, Herald Steck, Netflix, RecSys'18 GPT Summary- ユーザーの過去の視聴履歴に基づき、推薦映画リストがその興味に応じた割合で構成されることをキャリブレーションと呼ぶ。キャリブレーションは、ユーザーの多様な興味を反映するために重要であり、従来のレコメンダーシステムは主な興味に偏りがちであることが示されている。本研究では、キャリブレーションの度合いを定量化するメトリクスと、出力を後処理する再ランキングアルゴリズムを提案する。 #NeuralNetwork #GraphBased #Pocket #GraphConvolutionalNetwork #SIGKDD Issue Date: 2019-05-31 [Paper Note] Graph Convolutional Neural Networks for Web-Scale Recommender Systems, Rex Ying+, KDD'18 GPT Summary- Pinterestで開発した大規模な深層レコメンデーションエンジンPinSageは、効率的なランダムウォークとグラフ畳み込みを組み合わせて、数十億のアイテムとユーザーを持つウェブスケールのタスクに対応。新しいトレーニング戦略とMapReduceモデル推論アルゴリズムを用いて、75億の例をトレーニングし、高品質なレコメンデーションを生成。これは深層グラフ埋め込みの最大の応用であり、次世代のウェブスケールレコメンダーシステムの発展に寄与する。 #Pocket #NLP #EMNLP Issue Date: 2018-01-01 [Paper Note] MoodSwipe: A Soft Keyboard that Suggests Messages Based on User-Specified Emotions, Huang+, EMNLP'17 #Pocket Issue Date: 2023-05-06 Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering, Ruining He+, N_A, arXiv'16 GPT Summary- ファッションなどの特定のドメインにおいて、製品の視覚的な外観と時間の経過に伴う進化を同時にモデル化することが重要であり、そのような好みをモデル化することは非常に困難である。本論文では、One-Class Collaborative Filtering設定のための新しいモデルを構築し、過去のフィードバックに基づいてユーザーのファッションに関する個人的なランキング関数を推定することを目的としている。実験的に、Amazon.comからの2つの大規模な実世界データセットで我々の手法を評価し、最先端の個人化ランキング尺度を上回ることを示し、また、データセットの11年間にわたる高レベルのファッショントレンドを可視化するために使用した。 Comment

SNAP: Web data: Amazon reviews を構築した研究と同様の著者の研究

SNAP: Web data: Amazon reviews を利用した場合はこの研究は Image-based Recommendations on Styles and Substitutes, Julian McAuley+, N/A, arXiv'15 をreferする必要がある

#NeuralNetwork #Pocket #RecSys #Selected Papers/Blogs Issue Date: 2018-12-27 [Paper Note] Deep Neural Networks for YouTube Recommendations, Covington+, RecSys'16 #Citations #LearningToRank #ACL Issue Date: 2018-01-01 [Paper Note] News Citation Recommendation with Implicit and Explicit Semantics, Peng+, ACL'16 Comment

target text中に記述されているイベントや意見に対して、それらをサポートするような他のニュース記事を推薦する研究。

たとえば、target text中に「北朝鮮が先日ミサイルの発射に失敗したが...」、といった記述があったときに、このイベントについて報道しているニュース記事を推薦するといったことを、target text中の様々なcontextに対して行う。

このようなシステムの利用により、target textの著者の執筆支援（自身の主張をサポートするためのreferenceの自動獲得）や、target textの読者の読解支援（text中の記述について詳細な情報を知りたい場合に、検索の手間が省ける）などの利点があると主張。

タスクとしては、target text中のあるcontextと、推薦の候補となるニュース記事の集合が与えられたときに、ニュース記事をre-rankingするタスク。

提案手法はシンプルで、contextとニュース記事間で、様々な指標を用いてsimilarityを測り、それらをlearning-to-rankで学習した重みで組み合わせてre-rankingを行うだけ。 similarityを測る際は、表記揺れや曖昧性の問題に対処するためにEmbeddingを用いる手法と、groundingされたentityの情報を用いる手法を提案。

Bing news中のAnchor textと、hyperlink先のニュース記事の対から、contextと正解ニュース記事の対を取得し、30000件規模の実験データを作成し、評価。その結果、baselineよりも提案手法の性能が高いことを示した。

#Pocket Issue Date: 2023-05-06 Image-based Recommendations on Styles and Substitutes, Julian McAuley+, N_A, arXiv'15 GPT Summary- 本研究では、人間の感覚に基づいた物体間の関係性をモデル化することを目的として、大規模なデータセットを用いたスケーラブルな方法を提案している。関連する画像のグラフ上で定義されたネットワーク推論問題として捉え、服やアクセサリーの組み合わせを推奨することができるシステムを開発し、その他のアプリケーションにも適用可能であることを示している。 Comment

SNAP: Web data: Amazon reviews を構築した論文

#NeuralNetwork #InformationRetrieval #Contents-based #CIKM Issue Date: 2021-06-01 Learning Deep Structured Semantic Models for Web Search using Clickthrough Data, Huang+, CIKM'13 Comment

日本語解説: https://shunk031.me/paper-survey/summary/others/Learning-Deep-Structured-Semantic-Models-for-Web-Search-using-Clickthrough-Data

#Comments #WWW Issue Date: 2018-01-15 [Paper Note] Care to Comment? Recommendations for Commenting on News Stories, Shmueli+, WWW'12 Comment

過去のユーザのコメントに対するratingに基づいて、ユーザが（コメントを通じて）議論に参加したいようなNews Storyを推薦する研究。

#Comments #EMNLP Issue Date: 2018-01-01 [Paper Note] Personalized Recommendation of User Comments via Factor Models, Agarwal+, EMNLP'11 Comment

Personalizedなコメント推薦モデルを提案。rater-authorの関係、rater-commentの関係をlatent vectorを用いて表現し、これらとバイアス項の線形結合によりraterのあるコメントに対するratingを予測する。

パラメータを学習する際は、EMでモデルをfittingする。

バイアスとして、rater bias, comment popularity bias, author reputation biasを用いている。

rater-commentに関連するバイアスやlatent vectorは、コメントのbag-of-wordsからregressionした値を平均として持つガウス分布から生成される。

Yahoo Newsのコメントで実験。ROC曲線のAUCとPrecsionで評価。

user-user, user-commentを単体で用いたモデルよりも両者を組み合わせた場合が最も性能が良かった。

かなり綺麗に結果が出ている。

#LearningToRank #ImplicitFeedback #Pocket #UAI #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] BPR: Bayesian Personalized Ranking from Implicit Feedback, Steffen Rendle+, UAI'09, 2009.06 GPT Summary- アイテム推薦において、暗黙的フィードバックを用いた個別のランキング予測のために、BPR-Optという新しい最適化基準を提案。ブートストラップサンプリングを用いた確率的勾配降下法に基づく学習アルゴリズムを提供し、行列因子分解とk近傍法に適用。実験結果は、提案手法が従来の技術を上回ることを示し、モデル最適化の重要性を強調。 Comment

参考: https://techblog.zozo.com/entry/2016/07/01/134825

pytorchでのBPR実装: https://github.com/guoyang9/BPR-pytorch

#Novelty #WI #Workshop #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Improving Recommendation Novelty Based on Topic Taxonomy, Weng et al., WI-IAT Workshops'07, 2007.11 Comment

・評価をしていない

・通常のItem-based collaborative filteringの結果に加えて，taxonomyのassociation rule mining (あるtaxonomy t1に興味がある人が，t2にも興味がある確率を獲得する)を行い，このassociation rule miningの結果をCFと組み合わせて，noveltyのある推薦をしようという話（従来のHybrid Recommender Systemsでは，contents-basedの手法を使うときはitem content similarityを使うことが多い．まあこれはよくあるcontents-basedなアプローチだろう）．

・documentの中のどの部分がnovelなのかとかを同定しているわけではない．taxonomyの観点からnovelだということ．

#GraphBased Issue Date: 2018-01-01 [Paper Note] Folkrank: A ranking algorithm for folksonomies, Hotho+, FGIR'06 Comment

- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel+, JMLR'20

のOpenReviewで言及されているコールドスタートに関する研究

#Article #Embeddings #InformationRetrieval #NLP #Blog #OpenWeight #Reranking Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment

HF: https://huggingface.co/zeroentropy/zerank-2

SoTA reranker

関連:
- zerank-1, zeroentropy, 2025.07

#Article #InformationRetrieval #OpenWeight #Encoder #Reranking Issue Date: 2025-10-23 zerank-1, zeroentropy, 2025.07 Comment

SoTAなcross-encoderに基づくreranker。おそらく英語にのみ対応。

zerank-1はcc-by-nc-4.0, smallはApache2.0ライセンス

#Article #Slide #TwoTowerModel Issue Date: 2025-07-17 DMMにおけるレコメンドの紹介‗20250716_traP×DMM, 合同会社DMM.com, 2025.07 Comment

Two Towerモデル + LightGBMによるリランキング

#Article #Blog #Slide Issue Date: 2025-07-15 推薦システムにおけるPost Processの取り組み, Wantedly, 2025.07 Comment

元ポスト:

Loading…

スライド資料:

Loading…

#Article #Blog Issue Date: 2024-12-20 Netflixの推薦＆検索システム最前線 - QCon San Francisco 2024現地レポート, UZABASE, 2024.12 Comment

まあしかし、すごい目新しい情報があったかと言われると基本的な内容に留まっているのでそうでもないという感想ではある。

#Article #Slide Issue Date: 2024-09-15 クリックを最大化しない推薦システム, Ryoma Sato, 2024.01 Comment

おもしろそうなので後で読む

#Article #Pocket #Blog Issue Date: 2024-08-27 10Xの推薦を作るチームとML platform, 2024.08 Comment

初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。

定性評価が重要という話は、NewsPicksに推薦システムを本番投入する上で一番優先すべきだったこと, 2024.08 でも言及されている

#Article Issue Date: 2023-07-01 MetaのRecommender System概要, 2023.6 #Article #Pocket Issue Date: 2023-04-28 E-Commerce product recommendation agents: use, characteristics, and impact Comment

超重要論文

#Article #ContextAware Issue Date: 2018-12-22 [Paper Note] Some Challenges for Context-aware Recommender Systems,” Yujie+, Proc. Fifth Int’l Conf. Computer Science and Education （ICCSE）, pp. 362-365, 2010 #Article #Classic #ContextAware #Selected Papers/Blogs Issue Date: 2018-12-22 Context-Aware Recommender Systems, Adomavicius+, Recommender Systems Handbook, 2011 Comment

Context-aware Recsysのパイオニア的研究

#Article #Tools Issue Date: 2018-01-01 GraphChi Comment

実装されているアルゴリズム：Matrix Factorization, RBM, CliMFなど

実装：

使用方法：CLI

※ graphlabの中の人による実装

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Tools Issue Date: 2018-01-01 GraphLab Comment

現在はTuri.comになっており、商用になっている？

参考：

http://www.kamishima.net/archive/recsysdoc.pdf

https://takuti.me/note/recommender-libraries/

#Article #Novelty #RecSys #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] “I like to explore sometimes”: Adapting to Dynamic User Novelty Preferences, Kapoor et al. （with Konstan）, RecSys’15 Comment

#Article #Document #One-Line Notes Issue Date: 2017-12-28 [Paper Note] A semantic-expansion approach to personalized knowledge recommendation, Liang, Yang, Chen and Ku, Decision Support Systems, 2008.06 Comment

#Article #Document #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Combination of Web page recommender systems, Goksedef, Gunduz-oguducu, Elsevier, 2010.04 Comment

#Article #NeuralNetwork #Document #DataFiltering #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Neural Networks for Web Content Filtering, Lee, Fui and Fong, IEEE Intelligent Systems, 2002.09 Comment

Survey (195)

#InformationRetrieval #Pocket #NLP #LanguageModel #MultiModal #RAG(RetrievalAugmentedGeneration) #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#Pocket #LanguageModel #Robotics #WorldModels #EmbodiedAI
Issue Date: 2025-09-25 [Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#ComputerVision #Pocket #3D (Scene) #WorldModels #4D (Video)
Issue Date: 2025-09-11 [Paper Note] 3D and 4D World Modeling: A Survey, Lingdong Kong+, arXiv'25 GPT Summary- 本調査は、3Dおよび4Dの世界モデリングと生成に特化した初の包括的レビューを提供し、正確な定義と構造化された分類法を導入。動画ベース、占有ベース、LiDARベースのアプローチを網羅し、特化したデータセットと評価指標を要約。実用的な応用や未解決の課題を議論し、今後の研究方向を示すことで、この分野の進展の基盤を提供する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #ReinforcementLearning #Reasoning Issue Date: 2025-09-11 [Paper Note] A Survey of Reinforcement Learning for Large Reasoning Models, Kaiyan Zhang+, arXiv'25 GPT Summary- 本論文では、LLMにおける推論のための強化学習（RL）の進展を調査し、特に数学やコーディングなどの複雑な論理タスクにおける成功を強調しています。RLはLLMを学習推論モデル（LRM）に変換する基盤的な方法論として浮上しており、スケーリングには計算リソースやアルゴリズム設計などの課題があります。DeepSeek-R1以降の研究を検討し、LLMおよびLRMにおけるRLの適用に関する未来の機会と方向性を特定することを目指しています。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #AIAgents Issue Date: 2025-09-03 [Paper Note] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey, Guibin Zhang+, arXiv'25 GPT Summary- エージェント的強化学習（Agentic RL）は、従来の強化学習から大規模言語モデル（LLM）への適用におけるパラダイムシフトを示し、LLMを自律的な意思決定エージェントとして再構築します。本調査では、LLM-RLの単一ステップのマルコフ決定過程（MDP）とエージェント的RLの部分観測マルコフ決定過程（POMDP）を対比し、計画や推論などのエージェント能力を中心に二重分類法を提案します。強化学習は、静的なヒューリスティックから適応的なエージェント行動への変換に重要な役割を果たすと主張し、500以上の研究を統合してこの分野の機会と課題を明らかにします。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Safety #EMNLP Issue Date: 2025-09-03 [Paper Note] Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety, Seongmin Lee+, EMNLP'25 GPT Summary- LLMの安全性を理解し軽減するための解釈技術の重要性を探求し、安全性向上に寄与する手法を統一的なフレームワークで整理。約70件の研究を分類し、未解決の課題と今後の方向性を示す。研究者や実務者にとって、より安全で解釈可能なLLMの進展を促進する調査。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #DiffusionModel #Verification Issue Date: 2025-08-16 [Paper Note] A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models, Lingzhe Zhang+, arXiv'25 GPT Summary- 並列テキスト生成は、LLMの生成速度を向上させるための技術であり、自己回帰生成のボトルネックを打破することを目指している。本研究では、並列テキスト生成手法をARベースと非ARベースに分類し、それぞれの技術を評価。速度、品質、効率のトレードオフを考察し、今後の研究の方向性を示す。関連論文を集めたGitHubリポジトリも作成。 Comment

Taxonomyと手法一覧。Draft and Verifyingは個人的に非常に興味がある。

#Pocket #NLP #LanguageModel #Hallucination Issue Date: 2025-08-08 [Paper Note] A comprehensive taxonomy of hallucinations in Large Language Models, Manuel Cossio, arXiv'25 GPT Summary- LLMのハルシネーションに関する包括的な分類法を提供し、その本質的な避けられなさを提唱。内因的および外因的な要因、事実誤認や不整合などの具体的な現れを分析。根本的な原因や認知的要因を検討し、評価基準や軽減戦略を概説。今後は、信頼性のある展開のために検出と監視に焦点を当てる必要があることを強調。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Attention Issue Date: 2025-07-31 [Paper Note] Efficient Attention Mechanisms for Large Language Models: A Survey, Yutao Sun+, arXiv'25 GPT Summary- Transformerアーキテクチャの自己注意の複雑さが長文コンテキストモデリングの障害となっている。これに対処するため、線形注意手法とスパース注意技術が導入され、計算効率を向上させつつコンテキストのカバレッジを保持する。本研究は、これらの進展を体系的にまとめ、効率的な注意を大規模言語モデルに組み込む方法を分析し、理論と実践を統合したスケーラブルなモデル設計の基礎を提供することを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #SelfCorrection #SelfImprovement Issue Date: 2025-07-30 [Paper Note] A Survey of Self-Evolving Agents: On Path to Artificial Super Intelligence, Huan-ang Gao+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は静的であり、動的な環境に適応できないため、自己進化するエージェントの必要性が高まっている。本調査は、自己進化するエージェントに関する初の包括的レビューを提供し、進化の基礎的な次元を整理。エージェントの進化的メカニズムや適応手法を分類し、評価指標や応用分野を分析。最終的には、エージェントが自律的に進化し、人間レベルの知能を超える人工超知能（ASI）の実現を目指す。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #Dataset #LanguageModel #RepresentationLearning #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#NLP #LanguageModel #AIAgents #ContextEngineering Issue Date: 2025-07-19 [Paper Note] A Survey of Context Engineering for Large Language Models, Lingrui Mei+, arXiv'25 GPT Summary- 本調査では、LLMsの性能を向上させる「コンテキストエンジニアリング」を提案し、その要素と実装方法を体系的に分類。コンテキストの取得、生成、処理、管理を検討し、洗練されたシステム実装を探る。1300以上の研究を分析し、モデルの能力の非対称性を明らかにし、複雑な文脈理解と長文出力生成のギャップに対処する重要性を強調。研究者とエンジニアのための統一フレームワークを提供。 Comment

もうContext Engineeringという切り口の体系化されたSurveyが出てきた。早すぎ。

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #LatentReasoning Issue Date: 2025-07-10 [Paper Note] A Survey on Latent Reasoning, Rui-Jie Zhu+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、明示的な思考の連鎖（CoT）によって優れた推論能力を示すが、自然言語推論への依存が表現力を制限する。潜在的推論はこの問題を解決し、トークンレベルの監視を排除する。研究は、ニューラルネットワーク層の役割や多様な潜在的推論手法を探求し、無限深度の潜在的推論を可能にする高度なパラダイムについて議論する。これにより、潜在的推論の概念を明確にし、今後の研究方向を示す。関連情報はGitHubリポジトリで提供されている。 Comment

元ポスト:

Loading…

Latent Reasoningというテクニカルタームが出てきた

#Pocket #NLP #LanguageModel #ScientificDiscovery Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 GPT Summary- AIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Chain-of-Thought #COLING Issue Date: 2025-05-29 Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs, Yu Xia+, COLING'25 GPT Summary- Chain-of-Thought（CoT）を基にしたChain-of-X（CoX）手法の調査を行い、LLMsの課題に対処するための多様なアプローチを分類。ノードの分類とアプリケーションタスクに基づく分析を通じて、既存の手法の意義と今後の可能性を議論。研究者にとって有用なリソースを提供することを目指す。 #Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #InstructionTuning #PPO (ProximalPolicyOptimization) #Reasoning #LongSequence #RewardHacking #GRPO #Contamination-free #VerifiableRewards #CurriculumLearning Issue Date: 2025-05-06 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv'25 GPT Summary- 最近の推論言語モデル（RLM）の進展を受けて、DeepSeek-R1が注目を集めているが、その実装詳細は完全にはオープンソース化されていない。これにより、多くの再現研究が行われ、DeepSeek-R1のパフォーマンスを再現しようとする試みが続いている。特に、監視付きファインチューニング（SFT）と強化学習（RLVR）の戦略が探求され、貴重な洞察が得られている。本報告では、再現研究の概要を提供し、データ構築やトレーニング手順の詳細を紹介し、今後の研究の促進を目指す。また、RLMを強化するための追加技術や開発上の課題についても考察する。 Comment

元ポスト:

Loading…

サーベイのtakeawayが箇条書きされている。

#InformationRetrieval #Pocket #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #NLP #LanguageModel #Test-Time Scaling Issue Date: 2025-04-02 What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models, Qiyuan Zhang+, arXiv'25 GPT Summary- テスト時スケーリング（TTS）が大規模言語モデル（LLMs）の問題解決能力を向上させることが示されているが、体系的な理解が不足している。これを解決するために、TTS研究の4つのコア次元に基づく統一的なフレームワークを提案し、手法や応用シナリオのレビューを行う。TTSの発展の軌跡を抽出し、実践的なガイドラインを提供するとともに、未解決の課題や将来の方向性についての洞察を示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-03-23 Thinking Machines: A Survey of LLM based Reasoning Strategies, Dibyanayan Bandyopadhyay+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は優れた言語能力を持つが、推論能力との間にギャップがある。推論はAIの信頼性を高め、医療や法律などの分野での適用に不可欠である。最近の強力な推論モデルの登場により、LLMsにおける推論の研究が重要視されている。本論文では、既存の推論技術の概要と比較を行い、推論を備えた言語モデルの体系的な調査と現在の課題を提示する。 Comment

元ポスト:

Loading…

RL, Test Time Compute, Self-trainingの3種類にカテゴライズされている。また、各カテゴリごとにより細分化されたツリーが論文中にある。

#EfficiencyImprovement #Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-03-22 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models, Yang Sui+, arXiv'25 GPT Summary- 本論文では、LLMsにおける効率的な推論の進展を体系的に調査し、以下の主要な方向に分類します：(1) モデルベースの効率的推論、(2) 推論出力ベースの効率的推論、(3) 入力プロンプトベースの効率的推論。特に、冗長な出力による計算オーバーヘッドを軽減する方法を探求し、小規模言語モデルの推論能力や評価方法についても議論します。 Comment

元ポスト:

Loading…

各カテゴリにおけるliteratureも見やすくまとめられている。必要に応じて参照したい。

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-15 A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は自然言語処理に革命をもたらしたが、専門的な文脈での制約が明らかである。これに対処するため、高度なポストトレーニング言語モデル（PoLMs）が必要であり、本論文ではその包括的な調査を行う。ファインチューニング、アライメント、推論、効率、統合と適応の5つのコアパラダイムにわたる進化を追跡し、PoLMがバイアス軽減や推論能力向上に寄与する方法を示す。研究はPoLMの進化に関する初の調査であり、将来の研究のための枠組みを提供し、LLMの精度と倫理的堅牢性を向上させることを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-04 LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）のポストトレーニング手法に焦点を当て、知識の洗練や推論の改善、事実の正確性向上を目指す。ファインチューニングや強化学習などの戦略がLLMsのパフォーマンスを最適化し、実世界のタスクへの適応性を向上させる。主要な課題として壊滅的な忘却や報酬ハッキングを分析し、今後の研究方向性を示す公開リポジトリも提供。 Comment

非常にわかりやすい。

元ポスト:

Loading…

#Multi #RecommenderSystems #NeuralNetwork #Pocket #MultitaskLearning #MultiModal Issue Date: 2025-03-03 Joint Modeling in Recommendations: A Survey, Xiangyu Zhao+, arXiv'25 GPT Summary- デジタル環境におけるDeep Recommender Systems（DRS）は、ユーザーの好みに基づくコンテンツ推薦に重要だが、従来の手法は単一のタスクやデータに依存し、複雑な好みを反映できない。これを克服するために、共同モデリングアプローチが必要であり、推薦の精度とカスタマイズを向上させる。本論文では、共同モデリングをマルチタスク、マルチシナリオ、マルチモーダル、マルチビヘイビアの4次元で定義し、最新の進展と研究の方向性を探る。最後に、将来の研究の道筋を示し、結論を述べる。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning Issue Date: 2025-02-26 From System 1 to System 2: A Survey of Reasoning Large Language Models, Zhong-Zhi Li+, arXiv'25 GPT Summary- 人間レベルの知能を達成するためには、迅速なシステム1から意図的なシステム2への推論の洗練が必要。基盤となる大規模言語モデル（LLMs）は迅速な意思決定に優れるが、複雑な推論には深さが欠ける。最近の推論LLMはシステム2の意図的な推論を模倣し、人間のような認知能力を示している。本調査では、LLMの進展とシステム2技術の初期開発を概観し、推論LLMの構築方法や特徴、進化を分析。推論ベンチマークの概要を提供し、代表的な推論LLMのパフォーマンスを比較。最後に、推論LLMの進展に向けた方向性を探り、最新の開発を追跡するためのGitHubリポジトリを維持することを目指す。 Comment

元ポスト:

Loading…

#RecommenderSystems #Pocket #LanguageModel #Contents-based Issue Date: 2025-01-06 Cold-Start Recommendation towards the Era of Large Language Models （LLMs）: A Comprehensive Survey and Roadmap, Weizhi Zhang+, arXiv'25 GPT Summary- コールドスタート問題はレコメンダーシステムの重要な課題であり、新しいユーザーやアイテムのモデル化に焦点を当てている。大規模言語モデル（LLMs）の成功により、CSRに新たな可能性が生まれているが、包括的なレビューが不足している。本論文では、CSRのロードマップや関連文献をレビューし、LLMsが情報を活用する方法を探求することで、研究と産業界に新たな洞察を提供することを目指す。関連リソースはコミュニティのために収集・更新されている。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #DiffusionModel #TMLR #VideoGeneration/Understandings #4D (Video) Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。 #Pocket #NLP #KnowledgeEditing #read-later Issue Date: 2025-09-24 [Paper Note] Knowledge Editing for Large Language Models: A Survey, Song Wang+, ACM Computing Surveys'24, 2023.10 GPT Summary- 大規模言語モデル（LLMs）の計算コストの問題を解決するため、知識ベースのモデル編集（KME）が注目されている。KMEは、特定の知識をLLMsに組み込む際に他の知識に悪影響を与えないように修正する手法である。本調査では、KMEの戦略や技術の分類、既存の方法の分析、指標やデータセットについて包括的に概説し、KMEの実用性と今後の研究方向を提案する。 #NLP #LanguageModel #Hallucination #MultiModal Issue Date: 2025-09-24 A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models, Sahoo+, EMNLP'24 Findings GPT Summary- 基盤モデル（FMs）の多様なドメインにおける進展は顕著だが、特に高リスクなアプリケーションでは幻覚的な出力が問題となる。本調査論文は、テキスト、画像、動画、音声におけるFMsの幻覚の問題を特定し、軽減策の最近の進展をまとめる。幻覚の定義、分類、検出戦略を含むフレームワークを提供し、今後の研究と開発の基盤を築くことを目指す。 Comment

#Pocket #NLP #LanguageModel #memory Issue Date: 2025-08-11 [Paper Note] A Survey on the Memory Mechanism of Large Language Model based Agents, Zeyu Zhang+, arXiv'24 GPT Summary- LLMベースのエージェントのメモリメカニズムに関する包括的な調査を提案。メモリの重要性を論じ、過去の研究を体系的にレビューし、エージェントアプリケーションでの役割を紹介。既存研究の限界を分析し、将来の研究方向性を示す。リポジトリも作成。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Prompting #VisionLanguageModel Issue Date: 2025-08-07 [Paper Note] Visual Prompting in Multimodal Large Language Models: A Survey, Junda Wu+, arXiv'24 GPT Summary- 本論文は、マルチモーダル大規模言語モデル（MLLMs）における視覚的プロンプト手法の包括的な調査を行い、視覚的プロンプトの生成や構成的推論、プロンプト学習に焦点を当てています。既存の視覚プロンプトを分類し、自動プロンプト注釈の生成手法を議論。視覚エンコーダとバックボーンLLMの整合性を向上させる手法や、モデル訓練と文脈内学習による視覚的プロンプトの理解向上についても述べています。最後に、MLLMsにおける視覚的プロンプト手法の未来に関するビジョンを提示します。 #ComputerVision #Controllable #Pocket #NLP #DiffusionModel #TextToImageGeneration Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。 #Pocket #NLP #LanguageModel #Alignment #TMLR Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment

OpenReview: https://openreview.net/forum?id=oVTkOs8Pka

#Pocket #NLP #LanguageModel #Distillation Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）における知識蒸留（KD）の重要性を調査し、小型モデルへの知識伝達やモデル圧縮、自己改善の役割を強調。KDメカニズムや認知能力の向上、データ拡張（DA）との相互作用を検討し、DAがLLM性能を向上させる方法を示す。研究者や実務者に向けたガイドを提供し、LLMのKDの倫理的適用を推奨。関連情報はGithubで入手可能。 #Pocket #ACL Issue Date: 2025-01-06 Automated Justification Production for Claim Veracity in Fact Checking: A Survey on Architectures and Approaches, Islam Eldifrawi+, arXiv'24 GPT Summary- 自動事実確認（AFC）は、主張の正確性を検証する重要なプロセスであり、特にオンラインコンテンツの増加に伴い真実と誤情報を見分ける役割を果たします。本論文では、最近の手法を調査し、包括的な分類法を提案するとともに、手法の比較分析や説明可能性向上のための今後の方向性について議論します。 #Pocket #NLP #LanguageModel #Reasoning #Mathematics Issue Date: 2025-01-03 A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges, Yibo Yan+, arXiv'24 GPT Summary- 数学的推論は多くの分野で重要であり、AGIの進展に伴い、LLMsを数学的推論タスクに統合することが求められている。本調査は、2021年以降の200以上の研究をレビューし、マルチモーダル設定におけるMath-LLMsの進展を分析。分野をベンチマーク、方法論、課題に分類し、マルチモーダル数学的推論のパイプラインやLLMsの役割を探る。さらに、AGI実現の障害となる5つの課題を特定し、今後の研究方向性を示す。 #Pocket #NLP #LanguageModel #SyntheticData Issue Date: 2025-01-02 Generative AI for Synthetic Data Generation: Methods, Challenges and the Future, Xu Guo+, arXiv'24 GPT Summary- 限られたデータのシナリオでLLMsを用いて合成データを生成する研究が増加しており、これは生成的AIの進展を示す。LLMsは実世界のデータと同等の性能を持ち、リソースが限られた課題に対する解決策となる。本論文では、タスク特化型のトレーニングデータ生成のための技術、評価方法、実用的応用、現在の制限、将来の研究の方向性について議論する。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #SyntheticData Issue Date: 2025-01-02 On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey, Lin Long+, arXiv'24 GPT Summary- 深層学習におけるデータの量と質の問題に対し、LLMsが合成データ生成を通じて解決策を提供。しかし、現状の研究は統一されたフレームワークを欠き、表面的なものが多い。本論文では合成データ生成のワークフローを整理し、研究のギャップを明らかにし、今後の展望を示す。学術界と産業界のより体系的な探求を促進することを目指す。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LanguageModel Issue Date: 2024-12-31 A Survey on LLM Inference-Time Self-Improvement, Xiangjue Dong+, arXiv'24 GPT Summary- LLM推論における自己改善技術を三つの視点から検討。独立した自己改善はデコーディングやサンプリングに焦点、文脈に応じた自己改善は追加データを活用、モデル支援の自己改善はモデル間の協力を通じて行う。関連研究のレビューと課題、今後の研究への洞察を提供。 #InformationRetrieval #Pocket #LanguageModel Issue Date: 2024-12-30 From Matching to Generation: A Survey on Generative Information Retrieval, Xiaoxi Li+, arXiv'24 GPT Summary- 情報検索（IR）システムは、検索エンジンや質問応答などで重要な役割を果たしている。従来のIR手法は類似性マッチングに基づいていたが、事前学習された言語モデルの進展により生成情報検索（GenIR）が注目されている。GenIRは生成文書検索（GR）と信頼性のある応答生成に分かれ、GRは生成モデルを用いて文書を直接生成し、応答生成はユーザーの要求に柔軟に応える。本論文はGenIRの最新研究をレビューし、モデルのトレーニングや応答生成の進展、評価や課題についても考察する。これにより、GenIR分野の研究者に有益な参考資料を提供し、さらなる発展を促すことを目指す。 #Pocket #NLP #LanguageModel #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #NLP #LanguageModel #LLM-as-a-Judge Issue Date: 2024-11-27 From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, Dawei Li+, arXiv'24 GPT Summary- LLMを用いた判断と評価の新たなパラダイム「LLM-as-a-judge」に関する包括的な調査を行い、定義や分類法を提示。評価のためのベンチマークをまとめ、主要な課題と今後の研究方向を示す。関連リソースも提供。 Comment

LLM-as-a-Judgeに関するサーベイ

- Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N/A, arXiv'24

も参照のこと

#Pocket #NLP #LanguageModel #MultiLingual Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv'24 GPT Summary- 本論文は、多言語大規模言語モデル（MLLMs）の最新研究を調査し、アーキテクチャや事前学習の目的、多言語能力の要素を論じる。データの質と多様性が性能向上に重要であることを強調し、MLLMの評価方法やクロスリンガル知識、安全性、解釈可能性について詳細な分類法を提示。さらに、MLLMの実世界での応用を多様な分野でレビューし、課題と機会を強調する。関連論文は指定のリンクで公開されている。 Comment

#EfficiencyImprovement #NLP #LanguageModel #Transformer #Attention Issue Date: 2024-11-17 Understanding LLMs: A Comprehensive Overview from Training to Inference, Yiheng Liu+, arXiv'24 GPT Summary- ChatGPTの普及に伴い、LLMsのコスト効率の良いトレーニングとデプロイメントへの関心が高まっている。本論文では、LLMsのトレーニング技術と推論デプロイメント技術の進化をレビューし、データ前処理やモデル圧縮などのさまざまな側面を議論する。また、LLMsの利用方法と将来の発展についての洞察も提供する。 Comment

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-7vGwDK_AQX.HDO7j9H8iNA)

#Pocket #NLP #LanguageModel #AIAgents Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv'24 GPT Summary- (M)LLMを活用したGUIエージェントの研究を統合し、データセット、フレームワーク、アプリケーションの革新を強調。重要なコンポーネントをまとめた統一フレームワークを提案し、商業アプリケーションを探求。課題を特定し、今後の研究方向を示唆。 Comment

Referenceやページ数はサーベイにしては少なめに見える。

#Pocket #LanguageModel #Personalization Issue Date: 2024-11-10 Personalization of Large Language Models: A Survey, Zhehao Zhang+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）のパーソナライズに関する研究のギャップを埋めるため、パーソナライズされたLLMsの分類法を提案。パーソナライズの概念を統合し、新たな側面や要件を定義。粒度、技術、データセット、評価方法に基づく体系的な分類を行い、文献を統一。未解決の課題を強調し、研究者と実務者への明確なガイドを提供することを目指す。 #NLP #LanguageModel #SmallModel Issue Date: 2024-11-07 A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, Fali Wang+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）は多様なタスクで能力を示すが、パラメータサイズや計算要求から制限を受け、プライバシーやリアルタイムアプリケーションに課題がある。これに対し、小型言語モデル（SLM）は低遅延、コスト効率、簡単なカスタマイズが可能で、特に専門的なドメインにおいて有用である。SLMの需要が高まる中、定義や応用に関する包括的な調査が不足しているため、SLMを専門的なタスクに適したモデルとして定義し、強化するためのフレームワークを提案する。 Comment

#NLP #LanguageModel #Evaluation #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#Pocket #NLP #LanguageModel #SelfCorrection Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL'24 GPT Summary- 自己修正はLLMsの応答を改善する手法であり、フィードバック源の利用が提案されているが、誤り修正のタイミングについては合意が得られていない。本研究では、自己修正に必要な条件を議論し、従来の研究の問題点を指摘。新たに分類した研究課題に基づき、自己修正が成功した例がないこと、信頼できる外部フィードバックが重要であること、大規模なファインチューニングが効果的であることを示した。 Comment

LLMのself-correctionに関するサーベイ

#EfficiencyImprovement #Pocket #NLP #LanguageModel Issue Date: 2024-09-10 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models, Sean Welleck+, N_A, arXiv'24 GPT Summary- 推論時の計算リソース拡大の利点に焦点を当て、トークンレベル生成、メタ生成、効率的生成の3つのアプローチを統一的に探求。トークンレベル生成はデコーディングアルゴリズムを用い、メタ生成はドメイン知識や外部情報を活用し、効率的生成はコスト削減と速度向上を目指す。従来の自然言語処理、現代のLLMs、機械学習の視点を統合した調査。 Comment

元ツイート:

Loading…

CMUのチームによるinference timeの高速化に関するサーベイ

#Pocket #NLP #LanguageModel #Alignment Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv'24 GPT Summary- 人間の好み学習に基づくLLMsの進展をレビューし、好みフィードバックのソースや形式、モデリング技術、評価方法を整理。データソースに基づくフィードバックの分類や、異なるモデルの利点・欠点を比較し、LLMsの人間の意図との整合性に関する展望を議論。 #NLP #LanguageModel #SelfCorrection Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL'24 GPT Summary- 大規模言語モデル（LLMs）の性能は高いが、幻覚や不誠実な推論などの問題が存在する。自己修正が有望な解決策であり、自動フィードバックを活用することで人間の介入を最小限に抑えた実用的なLLMソリューションが可能になる。本論文では、トレーニング、生成、事後修正の各段階における技術を分析し、主要な応用と今後の課題について議論する。 Comment

#NLP #LanguageModel #Prompting Issue Date: 2024-09-02 The Prompt Report: A Systematic Survey of Prompting Techniques, Sander Schulhoff+, N_A, arXiv'24 GPT Summary- 生成的人工知能（GenAI）システムのプロンプトに関する構造的理解を確立するため、プロンプト技術の分類法を提案し、33の語彙用語と58のテキスト専用プロンプト技術を提示。さらに、自然言語プレフィックスプロンプトに関する文献のメタ分析を実施。 Comment

Promptingに関するサーベイ

初期の手法からかなり網羅的に記述されているように見える。

#NaturalLanguageGeneration #Controllable #NLP Issue Date: 2024-08-25 Controllable Text Generation for Large Language Models: A Survey, Xun Liang+, N_A, arXiv'24 GPT Summary- LLMsの制御可能なテキスト生成（CTG）技術に関する最新の進展を体系的にレビューし、その中核的な概念の包括的な定義を提供し、制御条件とテキスト品質の要件を明確にする。CTGタスクをコンテンツ制御と属性制御の2つの主要なタイプに分類し、モデルの再学習、ファインチューニング、強化学習、プロンプトエンジニアリング、潜在空間の操作、デコーディング時の介入など、主要な手法について議論する。さらに、CTGの評価方法を検討し、領域全体での応用をまとめ、現在の研究における主要な課題に取り組む。また、将来の研究で実世界の応用に重点を置くなど、いくつかの提案も行う。 Comment

Surveyの内容

#RecommenderSystems #GenerativeRecommendation Issue Date: 2024-08-06 Large Language Models for Generative Recommendation: A Survey and Visionary Discussions, Lei Li+, N_A, LREC-COLING'24 GPT Summary- LLMを使用した生成的な推薦に焦点を当て、従来の複数段階の推薦プロセスを1つの段階に簡素化する方法を調査。具体的には、生成的推薦の定義、RSの進化、LLMベースの生成的推薦の実装方法について検討。この調査は、LLMベースの生成的推薦に関する進捗状況と将来の方向について提供できる文脈とガイダンスを提供することを目指している。 Comment

#Pocket #NLP #LanguageModel #Prompting Issue Date: 2024-07-30 A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, Pranab Sahoo+, N_A, arXiv'24 GPT Summary- プロンプトエンジニアリングは、LLMsやVLMsの能力を拡張するための重要な技術であり、モデルのパラメータを変更せずにタスク固有の指示であるプロンプトを活用してモデルの効果を向上させる。本研究は、プロンプトエンジニアリングの最近の進展について構造化された概要を提供し、各手法の強みと制限について掘り下げることで、この分野をよりよく理解し、将来の研究を促進することを目的としている。 Comment

#Pocket #SpokenLanguageProcessing #Evaluation #FoundationModel #Speech Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

#Pocket #NLP #LanguageModel Issue Date: 2024-04-14 Knowledge Conflicts for LLMs: A Survey, Rongwu Xu+, N_A, arXiv'24 GPT Summary- LLMsにおける知識の衝突に焦点を当て、文脈とパラメトリック知識の組み合わせによる複雑な課題を分析。文脈-メモリ、文脈間、メモリ内の衝突の3つのカテゴリーを探求し、実世界のアプリケーションにおける信頼性とパフォーマンスへの影響を検討。解決策を提案し、LLMsの堅牢性向上を目指す。 #RecommenderSystems #Pocket #GenerativeAI Issue Date: 2024-04-02 A Review of Modern Recommender Systems Using Generative Models （Gen-RecSys）, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル（Gen-RecSys）を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル（LLM）を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。 #Pocket #NLP #LanguageModel #Annotation Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv'24 GPT Summary- GPT-4などの大規模言語モデル（LLMs）を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 Comment

Data AnnotationにLLMを活用する場合のサーベイ

#NLP #LanguageModel #DataToTextGeneration #TabularData Issue Date: 2024-03-05 Large Language Models（LLMs） on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv'24 GPT Summary- 最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 Comment

Tabular DataにおけるLLM関連のタスクや技術等のサーベイ

#Pocket #LanguageModel #MultiModal #ACL Issue Date: 2024-01-25 MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N_A, ACL'24 Findings GPT Summary- MM-LLMsは、コスト効果の高いトレーニング戦略を用いて拡張され、多様なMMタスクに対応する能力を持つことが示されている。本論文では、MM-LLMsのアーキテクチャ、トレーニング手法、ベンチマークのパフォーマンスなどについて調査し、その進歩に貢献することを目指している。 Comment

以下、論文を斜め読みしながら、ChatGPTを通じて疑問点を解消しつつ理解した内容なので、理解が不十分な点が含まれている可能性があるので注意。

まあざっくり言うと、マルチモーダルを理解できるLLMを作りたかったら、様々なモダリティをエンコーディングして得られる表現と、既存のLLMが内部的に処理可能な表現を対応づける Input Projectorという名の関数を学習すればいいだけだよ（モダリティのエンコーダ、LLMは事前学習されたものをそのままfreezeして使えば良い）。

マルチモーダルを生成できるLLMを作りたかったら、LLMがテキストを生成するだけでなく、様々なモダリティに対応する表現も追加で出力するようにして、その出力を各モダリティを生成できるモデルに入力できるように変換するOutput Projectortという名の関数を学習しようね、ということだと思われる。

# 概要

https://github.com/user-attachments/assets/c12f621b-95e6-4bff-827b-c4c5cf43b532" >

## ポイント

- Modality Encoder, LLM Backbone、およびModality Generatorは一般的にはパラメータをfreezeする

- optimizationの対象は「Input/Output Projector」

## Modality Encoder

様々なモダリティI_Xを、特徴量F_Xに変換する。これはまあ、色々なモデルがある。

https://github.com/user-attachments/assets/578c3bbc-0183-4d62-bf98-ee1b1bc1109c" >

## Input Projector

モダリティI_Xとそれに対応するテキストtのデータ {I_X, t}が与えられたとき、テキストtを埋め込み表現に変換んした結果得られる特徴量がF_Tである。Input Projectorは、F_XをLLMのinputとして利用する際に最適な特徴量P_Xに変換するθX_Tを学習することである。これは、LLM(P_X, F_T)によってテキストtがどれだけ生成できたか、を表現する損失関数を最小化することによって学習される。

https://github.com/user-attachments/assets/a80f5453-b50f-48d5-8114-5f9f81544793" >

## LLM Backbone

LLMによってテキスト列tと、各モダリティに対応した表現であるS_Xを生成する。outputからt, S_Xをどのように区別するかはモデルの構造などにもよるが、たとえば異なるヘッドを用意して、t, S_Xを区別するといったことは可能であろうと思われる。

https://github.com/user-attachments/assets/0be4e1c7-f92b-4259-a536-8ea135c1bcba" >

## Output Projector

S_XをModality Generatorが解釈可能な特徴量H_Xに変換する関数のことである。これは学習しなければならない。

H_XとModality Generatorのtextual encoderにtを入力した際に得られる表現τX(t)が近くなるようにOutput Projector θ_T_Xを学習する。これによって、S_XとModality Generatorがalignするようにする。

https://github.com/user-attachments/assets/faa87be0-e738-4dc1-8e52-0787d6b973e8" >

## Modality Generator

各ModalityをH_Xから生成できるように下記のような損失学習する。要は、生成されたモダリティデータ（または表現）が実際のデータにどれだけ近いか、を表しているらしい。具体的には、サンプリングによって得られたノイズと、モデルが推定したノイズの値がどれだけ近いかを測る、みたいなことをしているらしい。

https://github.com/user-attachments/assets/a18cfe29-27bf-42bf-8481-7e0afd838918" >

Multi Modalを理解するモデルだけであれば、Input Projectorの損失のみが学習され、生成までするのであれば、Input/Output Projector, Modality Generatorそれぞれに示した損失関数を通じてパラメータが学習される。あと、P_XやらS_Xはいわゆるsoft-promptingみたいなものであると考えられる。

#Pocket #NLP #LanguageModel #Hallucination Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv'24 GPT Summary- 要約：本論文では、大規模言語モデル（LLMs）における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。 #NaturalLanguageGeneration #Pocket #NLP #Evaluation #LLM-as-a-Judge Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#NeuralNetwork #GraphBased #NLP Issue Date: 2023-04-25 Graph Neural Networks for Text Classification: A Survey, Wang+, Artificial Intelligence Review'24 GPT Summary- テキスト分類におけるグラフニューラルネットワークの手法を2023年まで調査し、コーパスおよび文書レベルのグラフ構築や学習プロセスを詳述。課題や今後の方向性、データセットや評価指標についても考察し、異なる技術の比較を行い評価指標の利点と欠点を特定。 #MachineLearning #Pocket #Dataset #Distillation Issue Date: 2025-03-25 Dataset Distillation: A Comprehensive Review, Ruonan Yu+, arXiv'23 GPT Summary- データセット蒸留（DD）は、深層学習における膨大なデータのストレージやプライバシーの問題を軽減する手法であり、合成サンプルを含む小さなデータセットを生成することで、元のデータセットと同等の性能を持つモデルをトレーニング可能にする。本論文では、DDの進展と応用をレビューし、全体的なアルゴリズムフレームワークを提案、既存手法の分類と理論的相互関係を議論し、DDの課題と今後の研究方向を展望する。 Comment

訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。

#Pocket #NLP #Dataset #Distillation Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv'23 GPT Summary- 深層学習の普及に伴い、大規模データセットの訓練が高コストで持続可能性に課題をもたらしている。データ蒸留アプローチは、元のデータセットの効果的な代替品を提供し、モデル訓練や推論に役立つ。本研究では、データ蒸留のフレームワークを提示し、既存のアプローチを分類。画像やグラフ、レコメンダーシステムなどの異なるデータモダリティにおける課題と今後の研究方向性を示す。 #Pocket #NLP #LanguageModel #Chain-of-Thought #ACL Issue Date: 2025-01-06 Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future, Zheng Chu+, arXiv'23 GPT Summary- 推論はAIにおいて重要な認知プロセスであり、チェーン・オブ・ソートがLLMの推論能力を向上させることが注目されている。本論文では関連研究を体系的に調査し、手法を分類して新たな視点を提供。課題や今後の方向性についても議論し、初心者向けの導入を目指す。リソースは公開されている。 #RecommenderSystems #InformationRetrieval #Pocket #LanguageModel #SequentialRecommendation Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。 #Transformer #LongSequence Issue Date: 2023-11-27 Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey, Yunpeng Huang+, N_A, arXiv'23 GPT Summary- 本論文では、Transformerベースの大規模言語モデル（LLMs）の長い文脈の能力を最適化するための包括的な調査を提案しています。現行のLLMsの制約や問題点を明確化し、アーキテクチャのアップグレードや評価の必要性について説明しています。さらに、最適化ツールキットや将来の研究の可能性についても議論しています。関連文献はhttps://github.com/Strivin0311/long-llms-learningでリアルタイムに更新されています。 Comment

TransformerをLongContextに対応させる技術のサーベイ。
（画像は元ツイートより）
元ツイート:

Loading…

#Pocket #NLP #LanguageModel #Hallucination Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv'23 GPT Summary- LLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 Comment

Hallucinationを現象ごとに分類したSurveyとして A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N/A, arXiv'23 もある

Surveyの内容。必要に応じて参照すべし。

#NLP #LanguageModel #Factuality Issue Date: 2023-10-13 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity, Cunxiang Wang+, N_A, arXiv'23 GPT Summary- この研究では、大規模言語モデル（LLMs）の事実性の問題に取り組んでいます。LLMsの出力の信頼性と正確性は重要であり、事実に矛盾した情報を生成することがあるため、その問題を解決する方法を探求しています。具体的には、LLMsの事実的なエラーの影響や原因を分析し、事実性を評価する手法や改善策を提案しています。また、スタンドアロンのLLMsと外部データを利用する検索拡張型LLMsに焦点を当て、それぞれの課題と改善策について詳しく説明しています。この研究は、LLMsの事実的な信頼性を向上させるためのガイドとなることを目指しています。 Comment

#Pocket #LanguageModel #Alignment Issue Date: 2023-10-09 Large Language Model Alignment: A Survey, Tianhao Shen+, N_A, arXiv'23 GPT Summary- 近年、大規模言語モデル（LLMs）の進歩が注目されていますが、その潜在能力と同時に懸念もあります。本研究では、LLMsのアライメントに関する既存の研究と新たな提案を包括的に探求し、モデルの解釈可能性や敵対的攻撃への脆弱性などの問題も議論します。さらに、LLMsのアライメントを評価するためのベンチマークと評価手法を提案し、将来の研究の方向性を考察します。この調査は、研究者とAIアライメント研究コミュニティとの連携を促進することを目指しています。 Comment

LLMのalignmentに関するサーベイ。

#Pocket #NLP #LanguageModel #Hallucination Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv'23 GPT Summary- 本研究では、大規模ファウンデーションモデル（LFMs）におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 Comment

Hallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。

#Pocket #LanguageModel #InstructionTuning Issue Date: 2023-09-05 Instruction Tuning for Large Language Models: A Survey, Shengyu Zhang+, N_A, arXiv'23 GPT Summary- この論文では、instruction tuning（IT）という技術について調査しています。ITは、大規模言語モデル（LLMs）をさらにトレーニングするための方法であり、ユーザーの指示に従うことを目的としています。本研究では、ITの方法論やデータセットの構築、トレーニング方法などについて調査し、指示の生成やデータセットのサイズなどがITの結果に与える影響を分析します。また、ITの潜在的な問題や批判、現在の不足点についても指摘し、今後の研究の方向性を提案します。 Comment

主要なモデルやデータセットの作り方など幅広くまとまっている

#Pocket #NLP #LanguageModel #AIAgents Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv'23 GPT Summary- 自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル（LLMs）を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment

良いサーベイ

#LanguageModel #ReinforcementLearning Issue Date: 2023-08-08 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback, Stephen Casper+, N_A, arXiv'23 GPT Summary- 人間のフィードバックからの強化学習（RLHF）は、AIシステムを人間の目標に合わせてトレーニングするための技術であり、最先端の大規模言語モデル（LLMs）を微調整するために使用されている。しかし、RLHFの欠点を体系化するための公開された研究は少ない。本論文では、RLHFのオープンな問題と制約を調査し、実践における理解、改善、補完技術を概説し、RLHFシステムの社会的な監視を向上させるための監査と開示の基準を提案する。この研究は、RLHFの制約を強調し、安全なAIシステムの開発に多面的なアプローチの重要性を強調している。 #LanguageModel #Alignment Issue Date: 2023-08-08 Aligning Large Language Models with Human: A Survey, Yufei Wang+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、自然言語処理のタスクにおいて重要な役割を果たしていますが、その性能には制約があります。この調査では、LLMsの性能を向上させるためのアラインメント技術について包括的な概要を提供します。具体的には、データ収集方法、トレーニング手法、モデル評価方法について説明します。さらに、将来の研究の方向性についてもまとめられています。この調査は、LLMsの性能向上に関心のある人々にとって貴重な情報源となるでしょう。 Comment

LLMのAlignment手法に関するSurvey

#ComputerVision #FoundationModel Issue Date: 2023-08-08 Foundational Models Defining a New Era in Vision: A Survey and Outlook, Muhammad Awais+, N_A, arXiv'23 GPT Summary- 本研究では、視覚システムの基礎モデルについて包括的なレビューを提供します。これには、異なるモダリティを組み合わせるためのアーキテクチャ設計やトレーニング目標、トレーニングデータセットなどが含まれます。また、基礎モデルの評価や課題、最近の発展についても議論します。詳細なリストは、\url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}で入手できます。 Comment

CVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている

#Tutorial #NLP #LanguageModel Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

#NLP #NumericReasoning Issue Date: 2023-07-18 A Survey of Deep Learning for Mathematical Reasoning, ACL'23 GPT Summary- 数学的な推論とディープラーニングの関係についての調査論文をレビューし、数学的な推論におけるディープラーニングの進歩と将来の研究方向について議論しています。数学的な推論は機械学習と自然言語処理の分野で重要であり、ディープラーニングモデルのテストベッドとして機能しています。また、大規模なニューラル言語モデルの進歩により、数学的な推論に対するディープラーニングの利用が可能になりました。既存のベンチマークと方法を評価し、将来の研究方向についても議論しています。 #NLP #LanguageModel #Prompting #Reasoning Issue Date: 2023-07-18 Reasoning with Language Model Prompting: A Survey, ACL'23 GPT Summary- 本論文では、推論に関する最新の研究について包括的な調査を行い、初心者を支援するためのリソースを提供します。また、推論能力の要因や将来の研究方向についても議論します。リソースは定期的に更新されています。 #DocumentSummarization #NLP #Abstractive #Conversation Issue Date: 2023-07-15 [TACL] Abstractive Meeting Summarization: A Survey, TACL'23 GPT Summary- 会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。 #LanguageModel #Prompting Issue Date: 2023-07-11 A Survey of Large Language Models, Wayne Xin Zhao+, N_A, arXiv'23 GPT Summary- 言語モデリングの進化により、大規模言語モデル（LLM）が注目されている。LLMは、事前学習、適応調整、利用、容量評価の4つの側面に焦点を当てて研究されており、AIアルゴリズムの開発と使用方法に革新をもたらす可能性がある。本調査では、LLMの最近の進展と将来の方向性についてレビューし、残された課題についても議論する。 Comment

現状で最も詳細なLLMのサーベイ
600個のリファレンス、LLMのコレクション、promptingのtips、githubリポジトリなどがまとめられている

#Transformer Issue Date: 2023-07-03 A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks, Saidul Islam+, N_A, arXiv'23 GPT Summary- Transformerモデルは、セルフアテンションメカニズムを使用して文脈関係を理解するためのディープニューラルネットワークであり、長い依存関係を処理することができます。このモデルは、自然言語処理だけでなく、他のさまざまなドメインでも注目されています。しかし、さまざまなドメインでのTransformerの応用に関する包括的な調査はまだ不足しています。そこで、私たちは提案されたTransformerモデルの包括的な調査を行い、その応用ドメインと影響を分析しました。私たちの目的は、研究者に対してTransformerの可能性を明らかにし、この技術の理解を広めることです。 Comment

Transformerに関する最新サーベイ論文。Transformerが利用されているアプリケーションと、モデルのリストが列挙されている。

#Pocket #Education #ChatGPT Issue Date: 2023-05-04 A Review of ChatGPT Applications in Education, Marketing, Software Engineering, and Healthcare: Benefits, Drawbacks, and Research Directions, Mohammad Fraiwan+, N_A, arXiv'23 GPT Summary- - ChatGPTは、深層学習アルゴリズムを使用して人間らしい応答を生成する人工知能言語モデルである。- 最新のChatGPTバージョンが導入され、他の言語モデルも登場している。- これらのモデルは、教育、ソフトウェアエンジニアリング、医療、マーケティングなどの分野で応用可能性がある。- 本論文では、これらのモデルの可能な応用、制限、欠点、および研究方向について議論する。 #NeuralNetwork #EfficiencyImprovement #NLP #TACL Issue Date: 2023-04-25 Efficient Methods for Natural Language Processing: A Survey, Treviso+, TACL'23 GPT Summary- NLPのパフォーマンス向上にはスケールの拡大が重要だが、リソース消費も増加する。限られたリソースで効率的にNLPを実施する方法を統合し、指針を提供。効率的な手法の開発に向けた研究方向を示唆。 Comment

パラメータ数でゴリ押すような方法ではなく、"Efficient"に行うための手法をまとめている

#NLP #EACL Issue Date: 2022-10-31 MTEB: Massive Text Embedding Benchmark, Muennighoff+, EACL'23 GPT Summary- テキスト埋め込みの評価は通常小規模なデータセットに限られ、他のタスクへの適用可能性が不明である。これを解決するために、58のデータセットと112の言語をカバーするMassive Text Embedding Benchmark（MTEB）を導入し、33のモデルをベンチマークした。結果、特定の手法が全タスクで優位に立つことはなく、普遍的なテキスト埋め込み手法には至っていないことが示された。MTEBはオープンソースで公開されている。 #Pocket #AdaptiveLearning #EducationalDataMining #KnowledgeTracing Issue Date: 2022-08-02 Knowledge Tracing: A Survey, ABDELRAHMAN+, Australian National University, ACM Computing Surveys'23 GPT Summary- 人間の教育における知識移転の重要性を背景に、オンライン教育における知識追跡（KT）の必要性が高まっている。本論文では、KTに関する包括的なレビューを行い、初期の手法から最新の深層学習技術までを網羅し、モデルの理論やデータセットの特性を強調する。また、関連手法のモデリングの違いを明確にし、KT文献の研究ギャップや今後の方向性についても議論する。 #NeuralNetwork #MachineLearning #Pocket Issue Date: 2021-06-19 Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better, Menghani, ACM Computing Surveys'23 GPT Summary- ディープラーニングの進展に伴い、モデルのパラメータ数やリソース要求が増加しているため、効率性が重要になっている。本研究では、モデル効率性の5つのコア領域を調査し、実務者向けに最適化ガイドとコードを提供する。これにより、効率的なディープラーニングの全体像を示し、読者に改善の手助けとさらなる研究のアイデアを提供することを目指す。 Comment

学習効率化、高速化などのテクニックがまとまっているらしい

#MachineLearning Issue Date: 2023-08-24 Interpretable Machine Learning: Fundamental Principles and 10 Grand Challenges, Cynthia Rudin+, N_A, arXiv'21 GPT Summary- 本研究では、解釈可能な機械学習（ML）の基本原則とその重要性について説明し、解釈可能なMLの10の技術的な課題を特定します。これには、疎な論理モデルの最適化、スコアリングシステムの最適化、一般化加法モデルへの制約の配置などが含まれます。また、ニューラルネットワークや因果推論のためのマッチング、データ可視化のための次元削減なども取り上げられます。この調査は、解釈可能なMLに興味のある統計学者やコンピュータサイエンティストにとっての出発点となるでしょう。 #NLP #Personalization Issue Date: 2023-04-26 Returning the N to NLP: Towards Contextually Personalized Classification Models, Lucie Flek, Mainz University of Applied Sciences Germany, ACL'20 Comment

NLPのけるPersonalized Classificationモデルのliteratureを振り返る論文

#NaturalLanguageGeneration #Pocket #NLP #Evaluation Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。 #RecommenderSystems #Pocket #SessionBased #SequentialRecommendation Issue Date: 2019-08-02 [Paper Note] A Survey on Session-based Recommender Systems, Shoujin Wang+, arXiv'19 GPT Summary- レコメンダーシステム（RS）の中で、セッションベースのレコメンダーシステム（SBRS）が短期的なユーザーの好みを捉え、より正確な推奨を提供する新たなパラダイムとして注目されている。しかし、SBRSに関する統一された問題定義や特性の詳細な説明は不足している。本研究では、SBRSのエンティティや行動、特性を探求し、一般的な問題定義やデータ特性、課題を要約し、代表的な研究を分類する方法を提案する。また、SBRS分野における新たな研究機会についても議論する。 #RecommenderSystems #NeuralNetwork #Pocket Issue Date: 2018-04-16 [Paper Note] Deep Learning based Recommender System: A Survey and New Perspectives, Shuai Zhang+, arXiv'17 GPT Summary- レコメンダーシステムは情報過多を克服するための効果的な手段であり、深層学習の進展によりその性能が向上している。本稿では、深層学習に基づくレコメンダーシステムの研究をレビューし、推薦モデルの分類法や最先端技術をまとめ、現在のトレンドと新たな発展について考察する。 #RecommenderSystems #Education Issue Date: 2018-03-30 [Paper Note] A SURVEY OF ARTIFICIAL INTELLIGENCE TECHNIQUES EMPLOYED FOR ADAPTIVE EDUCATIONAL SYSTEMS WITHIN E-LEARNING PLATFORMS, Almohammadi+, JAISCR'17 #NeuralNetwork #Pocket #NLP Issue Date: 2018-02-04 [Paper Note] Recent Trends in Deep Learning Based Natural Language Processing, Tom Young+, arXiv'17 GPT Summary- 深層学習手法の進化をレビューし、NLPタスクにおける重要なモデルと手法を要約・比較。NLPにおける深層学習の過去、現在、未来についての理解を深める。 #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] A survey of transfer learning for collaborative recommendation with auxiliary data, Pan, Neurocomputing'17 #DocumentSummarization #NLP Issue Date: 2017-12-31 [Paper Note] Recent Advances in Document Summarization, Yao+, Knowledge and Information Systems'17, 2017.11 #NaturalLanguageGeneration #Pocket #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。 #NaturalLanguageGeneration #Pocket #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#RecommenderSystems #Pocket #Education #TechnologyEnhancedLearning Issue Date: 2018-03-30 [Paper Note] A Survey on Artificial Intelligence and Data Mining for MOOCs, Simon Fauvel+, arXiv'16 GPT Summary- MOOCsは人気を集めており、AIとデータマイニングがその発展に寄与している。データを活用することで、MOOCの理解を深め、学習者の体験を向上させることが可能。論文では、AIとDMの最新研究をレビューし、学生のエンゲージメントや学習成果を向上させる技術を強調。さらに、MOOCsの潜在能力を引き出すための重要な研究課題とトレンドを示す。 #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] A Survey of Collaborative Filtering-Based Recommender Systems for Mobile Internet Applications, Yang+, IEEE Access'16 #NaturalLanguageGeneration #Pocket #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#RecommenderSystems Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Model in Collaborative Filtering Algorithms: A Survey, Bokde+, Procedia Computer Science'15 #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] セレンディピティ指向情報推薦の研究動向, 奥健太, 知能と情報'13 #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] Recommender systems survey, Bobadilla+, Knowledge-Based Systems'13 #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] A literature review and classification of recommender systems research, Park+, Expert Systems with Applications'12 #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] Explaining the user experience of recommender systems, Knijnenburg+, User Modeling and User-Adapted Interaction'12 #DocumentSummarization #NLP Issue Date: 2017-12-31 [Paper Note] A Survey of Text Summarization Techniques, Nenkova+, Springer'12, 2012.01 #RecommenderSystems #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Collaborative Filtering Recommender Systems, Ekstrand+ （with Joseph A. Konstan）, Foundations and TrendsR in Human–Computer Interaction'11 #Education Issue Date: 2018-03-31 [Paper Note] Adaptive Educational HypermediaSystems in Technology Enhanced Learning: A Literature Review, Mulwa+, SIGITE'10 Comment

よさげ

#RecommenderSystems #Selected Papers/Blogs Issue Date: 2018-01-01 Content-based Recommender Systems: State of the Art and Trends, Lops+, Recommender Systems Handbook'10 Comment

RecSysの内容ベースフィルタリングシステムのユーザプロファイルについて知りたければこれ

#RecommenderSystems Issue Date: 2018-01-01 Content-Based Recommendation Systems, Pazzani+, The Adaptive Web'07 #RecommenderSystems #Explanation #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] A Survey of Explanations in Recommender Systems, Tintarev+, ICDEW'07 #RecommenderSystems #CollaborativeFiltering #MatrixFactorization #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている

#NaturalLanguageGeneration #NLP #DataToTextGeneration #ConceptToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#RecommenderSystems Issue Date: 2018-01-01 [Paper Note] Explanation in Recommender Systems, Mcsherry, Artificial Intelligence Review'05 #RecommenderSystems #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions, Adomavicius+, IEEE Transactions on Knowledge and Data Engineering'05 Comment

有名なやつ

#RecommenderSystems #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Evaluating Collaborative Filtering Recommener Systems, Herlocker+, TOIS'04 Comment

GroupLensのSurvey

#RecommenderSystems Issue Date: 2018-01-01 [Paper Note] Hybrid Recommender Systems: Survey and Experiments, Burke+, User Modeling and User-Adapted Interaction'02 #Article #NLP #Dataset #LanguageModel #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #MultiModal #Repository #VisionLanguageModel #SpatialUnderstanding Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

#Article #ComputerVision #Slide #read-later #ICCV Issue Date: 2025-11-01 ICCV 2025 Report, Kataoka+, LIMIT.Lab, cvpaper.challenge, Visual Geometry Group （VGG）, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #WorldModels Issue Date: 2025-11-01 Awesome World Models, Siqiao Huang, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #OCR Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

#Article #LanguageModel #GenerativeAI #Blog #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Slide #Robotics #CoRL Issue Date: 2025-10-05 CoRL2025速報, robotpaper.challenge, 2025.10 Comment

元ポスト:

Loading…

COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。

元ポスト:

Loading…

ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。

#Article #NLP #Blog #LLM-as-a-Judge #read-later Issue Date: 2025-09-04 信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09 Comment

ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

#Article #ComputerVision #NLP #LanguageModel #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #ScientificDiscovery Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

#Article #Robotics #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-08-13 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications, Kawaharazuka+, 2025.08 Comment

元ポスト:

Loading…

#Article #Video #CVPR Issue Date: 2025-07-28 【学会聴講報告】CVPR2025からみるVision最先端トレンド, Yuki Ono （Sony Corporation）, 2025.07 Comment

関連:
- CVPR 2025 速報, Kataoka+, 2025.06

元ポスト:

Loading…

#Article #NLP #LanguageModel #ReinforcementLearning #Blog Issue Date: 2025-07-27 9 new policy optimization techniques, Kseniase, 2025.07 Comment

元ポスト:

Loading…

#Article #ComputerVision #Slide #CVPR Issue Date: 2025-06-26 CVPR 2025 速報, Kataoka+, 2025.06 Comment

元ポスト:

Loading…

すごいまとめだ…

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #Embeddings #Pocket #NLP #LanguageModel #Blog #PositionalEncoding Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment

元ポスト: https://huggingface.co/posts/Kseniase/498106595218801

RoPEについてサーベイが必要になったら見る

#Article #Attention #Blog Issue Date: 2025-03-18 15 types of attention mechanisms, Kseniase, 2025.03 Comment

Luongらのアテンションやsoft, globalアテンションなど、古くからあるattentionも含まれている。

#Article #ComputerVision #NLP #LanguageModel #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

#Article #NLP #LanguageModel #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #NLP #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #LanguageModel #Repository #SelfCorrection Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Comment

self-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。

元ポスト:

Loading…

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article #RecommenderSystems #Library #Repository Issue Date: 2024-08-07 list of recommender systems Comment

推薦システムに関するSaaS, OpenSource, Datasetなどがまとめられているリポジトリ

#Article #Tools #NLP #LanguageModel Issue Date: 2024-03-22 Awesome LM with Tools Comment

Toolを利用するLMに関するNeubig氏のグループによるSurvey。

#Article #Tutorial #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #NLP #LanguageModel #Blog Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment

2024年3月時点で知っておくべきLLMに関するスレッド

#Article #NaturalLanguageGeneration #NLP #Dataset #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #NLP #LanguageModel Issue Date: 2023-08-27 Anti-hype LLM Reading list Comment

LLMのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist

#Article Issue Date: 2023-08-12 人工知能研究の新潮流2 -基盤モデル・生成AIのインパクト- Comment

280ページにものぼる現在のトレンドをまとめた日本語資料

#Article #ComputerVision #NLP #LanguageModel #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

#Article #ContextWindow Issue Date: 2023-07-01 Extending Context is Hard…but not Impossible Comment

Open source LLMのcontext lengthをどのように大きくするかに関する議論

#Article #NLP #LanguageModel Issue Date: 2023-05-12 open LLM Leaderboard #Article #RecommenderSystems #GenerativeAI Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment

Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ

#Article #NLP #LanguageModel Issue Date: 2023-05-04 LLM ecosystem graphs Comment

様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページ

Percy Liangのグループが運用してるっぽい？

#Article #RecommenderSystems #InformationRetrieval #Personalization Issue Date: 2023-04-28 Measuring the impact of online personalisation: Past, present and future Comment

#Article #NLP #LanguageModel Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment

参考になる

現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそう

LLM Worksheet：

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0

#Article #Tutorial #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

Transformersの様々な分野での亜種をまとめた論文

まあでもTransformerとcomparableなら、Transformer一強では無くなったよね

#Article #RecommenderSystems #SequentialRecommendation Issue Date: 2020-11-13 Sequence-Aware Recommender Systems, ACM Computing Surveys, Vol. 1, No. 1, Article 1, 2018 Comment

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

#Article #Tutorial #Dataset Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

#Article #AdaptiveLearning #EducationalDataMining #LearningAnalytics #Selected Papers/Blogs Issue Date: 2018-12-22 Educational Data Mining and Learning Analytics, Baker+, 2014 Comment

Ryan BakerらによるEDM Survey

#Article #RecommenderSystems #AdaptiveLearning Issue Date: 2018-12-22 Recommender Systems for Technology Enhanced Learning: Research Trends and Applications, Manouselis+, 2014 Comment

最近のトレンドやアプリケーションを知りたい場合はこちら

#Article #RecommenderSystems #AdaptiveLearning Issue Date: 2018-12-22 Panorama of recommender systems to support learning, Drachsler+, 2015 Comment

教育分野に対するRecsysのSurvey

（以下は管理人が当時作成したスライドでのメモのスクショ）

完全に途中で力尽きている感

LanguageModel (89)

#InformationRetrieval #Pocket #NLP #MultiModal #RAG(RetrievalAugmentedGeneration) #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#Pocket #Robotics #WorldModels #EmbodiedAI
Issue Date: 2025-09-25 [Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #NLP #ReinforcementLearning #Reasoning
Issue Date: 2025-09-11 [Paper Note] A Survey of Reinforcement Learning for Large Reasoning Models, Kaiyan Zhang+, arXiv'25 GPT Summary- 本論文では、LLMにおける推論のための強化学習（RL）の進展を調査し、特に数学やコーディングなどの複雑な論理タスクにおける成功を強調しています。RLはLLMを学習推論モデル（LRM）に変換する基盤的な方法論として浮上しており、スケーリングには計算リソースやアルゴリズム設計などの課題があります。DeepSeek-R1以降の研究を検討し、LLMおよびLRMにおけるRLの適用に関する未来の機会と方向性を特定することを目指しています。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #NLP #Safety #EMNLP Issue Date: 2025-09-03 [Paper Note] Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety, Seongmin Lee+, EMNLP'25 GPT Summary- LLMの安全性を理解し軽減するための解釈技術の重要性を探求し、安全性向上に寄与する手法を統一的なフレームワークで整理。約70件の研究を分類し、未解決の課題と今後の方向性を示す。研究者や実務者にとって、より安全で解釈可能なLLMの進展を促進する調査。 Comment

元ポスト:

Loading…

#Pocket #NLP #DiffusionModel #Verification Issue Date: 2025-08-16 [Paper Note] A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models, Lingzhe Zhang+, arXiv'25 GPT Summary- 並列テキスト生成は、LLMの生成速度を向上させるための技術であり、自己回帰生成のボトルネックを打破することを目指している。本研究では、並列テキスト生成手法をARベースと非ARベースに分類し、それぞれの技術を評価。速度、品質、効率のトレードオフを考察し、今後の研究の方向性を示す。関連論文を集めたGitHubリポジトリも作成。 Comment

Taxonomyと手法一覧。Draft and Verifyingは個人的に非常に興味がある。

#Pocket #NLP #Hallucination Issue Date: 2025-08-08 [Paper Note] A comprehensive taxonomy of hallucinations in Large Language Models, Manuel Cossio, arXiv'25 GPT Summary- LLMのハルシネーションに関する包括的な分類法を提供し、その本質的な避けられなさを提唱。内因的および外因的な要因、事実誤認や不整合などの具体的な現れを分析。根本的な原因や認知的要因を検討し、評価基準や軽減戦略を概説。今後は、信頼性のある展開のために検出と監視に焦点を当てる必要があることを強調。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #Attention Issue Date: 2025-07-31 [Paper Note] Efficient Attention Mechanisms for Large Language Models: A Survey, Yutao Sun+, arXiv'25 GPT Summary- Transformerアーキテクチャの自己注意の複雑さが長文コンテキストモデリングの障害となっている。これに対処するため、線形注意手法とスパース注意技術が導入され、計算効率を向上させつつコンテキストのカバレッジを保持する。本研究は、これらの進展を体系的にまとめ、効率的な注意を大規模言語モデルに組み込む方法を分析し、理論と実践を統合したスケーラブルなモデル設計の基礎を提供することを目指す。 Comment

元ポスト:

Loading…

#Embeddings #Pocket #NLP #Dataset #RepresentationLearning #Evaluation Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

#NLP #AIAgents #ContextEngineering Issue Date: 2025-07-19 [Paper Note] A Survey of Context Engineering for Large Language Models, Lingrui Mei+, arXiv'25 GPT Summary- 本調査では、LLMsの性能を向上させる「コンテキストエンジニアリング」を提案し、その要素と実装方法を体系的に分類。コンテキストの取得、生成、処理、管理を検討し、洗練されたシステム実装を探る。1300以上の研究を分析し、モデルの能力の非対称性を明らかにし、複雑な文脈理解と長文出力生成のギャップに対処する重要性を強調。研究者とエンジニアのための統一フレームワークを提供。 Comment

もうContext Engineeringという切り口の体系化されたSurveyが出てきた。早すぎ。

元ポスト:

Loading…

#Pocket #NLP #LatentReasoning Issue Date: 2025-07-10 [Paper Note] A Survey on Latent Reasoning, Rui-Jie Zhu+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は、明示的な思考の連鎖（CoT）によって優れた推論能力を示すが、自然言語推論への依存が表現力を制限する。潜在的推論はこの問題を解決し、トークンレベルの監視を排除する。研究は、ニューラルネットワーク層の役割や多様な潜在的推論手法を探求し、無限深度の潜在的推論を可能にする高度なパラダイムについて議論する。これにより、潜在的推論の概念を明確にし、今後の研究方向を示す。関連情報はGitHubリポジトリで提供されている。 Comment

元ポスト:

Loading…

Latent Reasoningというテクニカルタームが出てきた

#Pocket #NLP #ScientificDiscovery Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 GPT Summary- AIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #Chain-of-Thought #COLING Issue Date: 2025-05-29 Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs, Yu Xia+, COLING'25 GPT Summary- Chain-of-Thought（CoT）を基にしたChain-of-X（CoX）手法の調査を行い、LLMsの課題に対処するための多様なアプローチを分類。ノードの分類とアプリケーションタスクに基づく分析を通じて、既存の手法の意義と今後の可能性を議論。研究者にとって有用なリソースを提供することを目指す。 #Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #InstructionTuning #PPO (ProximalPolicyOptimization) #Reasoning #LongSequence #RewardHacking #GRPO #Contamination-free #VerifiableRewards #CurriculumLearning Issue Date: 2025-05-06 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv'25 GPT Summary- 最近の推論言語モデル（RLM）の進展を受けて、DeepSeek-R1が注目を集めているが、その実装詳細は完全にはオープンソース化されていない。これにより、多くの再現研究が行われ、DeepSeek-R1のパフォーマンスを再現しようとする試みが続いている。特に、監視付きファインチューニング（SFT）と強化学習（RLVR）の戦略が探求され、貴重な洞察が得られている。本報告では、再現研究の概要を提供し、データ構築やトレーニング手順の詳細を紹介し、今後の研究の促進を目指す。また、RLMを強化するための追加技術や開発上の課題についても考察する。 Comment

元ポスト:

Loading…

サーベイのtakeawayが箇条書きされている。

#InformationRetrieval #Pocket #NLP #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #NLP #Test-Time Scaling Issue Date: 2025-04-02 What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models, Qiyuan Zhang+, arXiv'25 GPT Summary- テスト時スケーリング（TTS）が大規模言語モデル（LLMs）の問題解決能力を向上させることが示されているが、体系的な理解が不足している。これを解決するために、TTS研究の4つのコア次元に基づく統一的なフレームワークを提案し、手法や応用シナリオのレビューを行う。TTSの発展の軌跡を抽出し、実践的なガイドラインを提供するとともに、未解決の課題や将来の方向性についての洞察を示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #Reasoning Issue Date: 2025-03-23 Thinking Machines: A Survey of LLM based Reasoning Strategies, Dibyanayan Bandyopadhyay+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は優れた言語能力を持つが、推論能力との間にギャップがある。推論はAIの信頼性を高め、医療や法律などの分野での適用に不可欠である。最近の強力な推論モデルの登場により、LLMsにおける推論の研究が重要視されている。本論文では、既存の推論技術の概要と比較を行い、推論を備えた言語モデルの体系的な調査と現在の課題を提示する。 Comment

元ポスト:

Loading…

RL, Test Time Compute, Self-trainingの3種類にカテゴライズされている。また、各カテゴリごとにより細分化されたツリーが論文中にある。

#EfficiencyImprovement #Pocket #NLP #Reasoning Issue Date: 2025-03-22 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models, Yang Sui+, arXiv'25 GPT Summary- 本論文では、LLMsにおける効率的な推論の進展を体系的に調査し、以下の主要な方向に分類します：(1) モデルベースの効率的推論、(2) 推論出力ベースの効率的推論、(3) 入力プロンプトベースの効率的推論。特に、冗長な出力による計算オーバーヘッドを軽減する方法を探求し、小規模言語モデルの推論能力や評価方法についても議論します。 Comment

元ポスト:

Loading…

各カテゴリにおけるliteratureも見やすくまとめられている。必要に応じて参照したい。

#Pocket #NLP #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-15 A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は自然言語処理に革命をもたらしたが、専門的な文脈での制約が明らかである。これに対処するため、高度なポストトレーニング言語モデル（PoLMs）が必要であり、本論文ではその包括的な調査を行う。ファインチューニング、アライメント、推論、効率、統合と適応の5つのコアパラダイムにわたる進化を追跡し、PoLMがバイアス軽減や推論能力向上に寄与する方法を示す。研究はPoLMの進化に関する初の調査であり、将来の研究のための枠組みを提供し、LLMの精度と倫理的堅牢性を向上させることを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #Reasoning Issue Date: 2025-03-04 LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）のポストトレーニング手法に焦点を当て、知識の洗練や推論の改善、事実の正確性向上を目指す。ファインチューニングや強化学習などの戦略がLLMsのパフォーマンスを最適化し、実世界のタスクへの適応性を向上させる。主要な課題として壊滅的な忘却や報酬ハッキングを分析し、今後の研究方向性を示す公開リポジトリも提供。 Comment

非常にわかりやすい。

元ポスト:

Loading…

#Pocket #NLP #Reasoning Issue Date: 2025-02-26 From System 1 to System 2: A Survey of Reasoning Large Language Models, Zhong-Zhi Li+, arXiv'25 GPT Summary- 人間レベルの知能を達成するためには、迅速なシステム1から意図的なシステム2への推論の洗練が必要。基盤となる大規模言語モデル（LLMs）は迅速な意思決定に優れるが、複雑な推論には深さが欠ける。最近の推論LLMはシステム2の意図的な推論を模倣し、人間のような認知能力を示している。本調査では、LLMの進展とシステム2技術の初期開発を概観し、推論LLMの構築方法や特徴、進化を分析。推論ベンチマークの概要を提供し、代表的な推論LLMのパフォーマンスを比較。最後に、推論LLMの進展に向けた方向性を探り、最新の開発を追跡するためのGitHubリポジトリを維持することを目指す。 Comment

元ポスト:

Loading…

#RecommenderSystems #Pocket #Contents-based Issue Date: 2025-01-06 Cold-Start Recommendation towards the Era of Large Language Models （LLMs）: A Comprehensive Survey and Roadmap, Weizhi Zhang+, arXiv'25 GPT Summary- コールドスタート問題はレコメンダーシステムの重要な課題であり、新しいユーザーやアイテムのモデル化に焦点を当てている。大規模言語モデル（LLMs）の成功により、CSRに新たな可能性が生まれているが、包括的なレビューが不足している。本論文では、CSRのロードマップや関連文献をレビューし、LLMsが情報を活用する方法を探求することで、研究と産業界に新たな洞察を提供することを目指す。関連リソースはコミュニティのために収集・更新されている。 Comment

元ポスト:

Loading…

#NLP #Hallucination #MultiModal Issue Date: 2025-09-24 A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models, Sahoo+, EMNLP'24 Findings GPT Summary- 基盤モデル（FMs）の多様なドメインにおける進展は顕著だが、特に高リスクなアプリケーションでは幻覚的な出力が問題となる。本調査論文は、テキスト、画像、動画、音声におけるFMsの幻覚の問題を特定し、軽減策の最近の進展をまとめる。幻覚の定義、分類、検出戦略を含むフレームワークを提供し、今後の研究と開発の基盤を築くことを目指す。 Comment

#Pocket #NLP #memory Issue Date: 2025-08-11 [Paper Note] A Survey on the Memory Mechanism of Large Language Model based Agents, Zeyu Zhang+, arXiv'24 GPT Summary- LLMベースのエージェントのメモリメカニズムに関する包括的な調査を提案。メモリの重要性を論じ、過去の研究を体系的にレビューし、エージェントアプリケーションでの役割を紹介。既存研究の限界を分析し、将来の研究方向性を示す。リポジトリも作成。 Comment

元ポスト:

Loading…

#Pocket #NLP #Alignment #TMLR Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment

OpenReview: https://openreview.net/forum?id=oVTkOs8Pka

#Pocket #NLP #Distillation Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）における知識蒸留（KD）の重要性を調査し、小型モデルへの知識伝達やモデル圧縮、自己改善の役割を強調。KDメカニズムや認知能力の向上、データ拡張（DA）との相互作用を検討し、DAがLLM性能を向上させる方法を示す。研究者や実務者に向けたガイドを提供し、LLMのKDの倫理的適用を推奨。関連情報はGithubで入手可能。 #Pocket #NLP #Reasoning #Mathematics Issue Date: 2025-01-03 A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges, Yibo Yan+, arXiv'24 GPT Summary- 数学的推論は多くの分野で重要であり、AGIの進展に伴い、LLMsを数学的推論タスクに統合することが求められている。本調査は、2021年以降の200以上の研究をレビューし、マルチモーダル設定におけるMath-LLMsの進展を分析。分野をベンチマーク、方法論、課題に分類し、マルチモーダル数学的推論のパイプラインやLLMsの役割を探る。さらに、AGI実現の障害となる5つの課題を特定し、今後の研究方向性を示す。 #Pocket #NLP #SyntheticData Issue Date: 2025-01-02 Generative AI for Synthetic Data Generation: Methods, Challenges and the Future, Xu Guo+, arXiv'24 GPT Summary- 限られたデータのシナリオでLLMsを用いて合成データを生成する研究が増加しており、これは生成的AIの進展を示す。LLMsは実世界のデータと同等の性能を持ち、リソースが限られた課題に対する解決策となる。本論文では、タスク特化型のトレーニングデータ生成のための技術、評価方法、実用的応用、現在の制限、将来の研究の方向性について議論する。 Comment

元ポスト:

Loading…

#Pocket #NLP #SyntheticData Issue Date: 2025-01-02 On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey, Lin Long+, arXiv'24 GPT Summary- 深層学習におけるデータの量と質の問題に対し、LLMsが合成データ生成を通じて解決策を提供。しかし、現状の研究は統一されたフレームワークを欠き、表面的なものが多い。本論文では合成データ生成のワークフローを整理し、研究のギャップを明らかにし、今後の展望を示す。学術界と産業界のより体系的な探求を促進することを目指す。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP Issue Date: 2024-12-31 A Survey on LLM Inference-Time Self-Improvement, Xiangjue Dong+, arXiv'24 GPT Summary- LLM推論における自己改善技術を三つの視点から検討。独立した自己改善はデコーディングやサンプリングに焦点、文脈に応じた自己改善は追加データを活用、モデル支援の自己改善はモデル間の協力を通じて行う。関連研究のレビューと課題、今後の研究への洞察を提供。 #InformationRetrieval #Pocket Issue Date: 2024-12-30 From Matching to Generation: A Survey on Generative Information Retrieval, Xiaoxi Li+, arXiv'24 GPT Summary- 情報検索（IR）システムは、検索エンジンや質問応答などで重要な役割を果たしている。従来のIR手法は類似性マッチングに基づいていたが、事前学習された言語モデルの進展により生成情報検索（GenIR）が注目されている。GenIRは生成文書検索（GR）と信頼性のある応答生成に分かれ、GRは生成モデルを用いて文書を直接生成し、応答生成はユーザーの要求に柔軟に応える。本論文はGenIRの最新研究をレビューし、モデルのトレーニングや応答生成の進展、評価や課題についても考察する。これにより、GenIR分野の研究者に有益な参考資料を提供し、さらなる発展を促すことを目指す。 #Pocket #NLP #Evaluation #LLM-as-a-Judge Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #NLP #LLM-as-a-Judge Issue Date: 2024-11-27 From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, Dawei Li+, arXiv'24 GPT Summary- LLMを用いた判断と評価の新たなパラダイム「LLM-as-a-judge」に関する包括的な調査を行い、定義や分類法を提示。評価のためのベンチマークをまとめ、主要な課題と今後の研究方向を示す。関連リソースも提供。 Comment

LLM-as-a-Judgeに関するサーベイ

- Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N/A, arXiv'24

も参照のこと

#Pocket #NLP #MultiLingual Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv'24 GPT Summary- 本論文は、多言語大規模言語モデル（MLLMs）の最新研究を調査し、アーキテクチャや事前学習の目的、多言語能力の要素を論じる。データの質と多様性が性能向上に重要であることを強調し、MLLMの評価方法やクロスリンガル知識、安全性、解釈可能性について詳細な分類法を提示。さらに、MLLMの実世界での応用を多様な分野でレビューし、課題と機会を強調する。関連論文は指定のリンクで公開されている。 Comment

#EfficiencyImprovement #NLP #Transformer #Attention Issue Date: 2024-11-17 Understanding LLMs: A Comprehensive Overview from Training to Inference, Yiheng Liu+, arXiv'24 GPT Summary- ChatGPTの普及に伴い、LLMsのコスト効率の良いトレーニングとデプロイメントへの関心が高まっている。本論文では、LLMsのトレーニング技術と推論デプロイメント技術の進化をレビューし、データ前処理やモデル圧縮などのさまざまな側面を議論する。また、LLMsの利用方法と将来の発展についての洞察も提供する。 Comment

[Perplexity（参考;Hallucinationに注意）]( https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-7vGwDK_AQX.HDO7j9H8iNA)

#Pocket #NLP #AIAgents Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv'24 GPT Summary- (M)LLMを活用したGUIエージェントの研究を統合し、データセット、フレームワーク、アプリケーションの革新を強調。重要なコンポーネントをまとめた統一フレームワークを提案し、商業アプリケーションを探求。課題を特定し、今後の研究方向を示唆。 Comment

Referenceやページ数はサーベイにしては少なめに見える。

#Pocket #Personalization Issue Date: 2024-11-10 Personalization of Large Language Models: A Survey, Zhehao Zhang+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）のパーソナライズに関する研究のギャップを埋めるため、パーソナライズされたLLMsの分類法を提案。パーソナライズの概念を統合し、新たな側面や要件を定義。粒度、技術、データセット、評価方法に基づく体系的な分類を行い、文献を統一。未解決の課題を強調し、研究者と実務者への明確なガイドを提供することを目指す。 #NLP #SmallModel Issue Date: 2024-11-07 A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, Fali Wang+, arXiv'24 GPT Summary- 大規模言語モデル（LLM）は多様なタスクで能力を示すが、パラメータサイズや計算要求から制限を受け、プライバシーやリアルタイムアプリケーションに課題がある。これに対し、小型言語モデル（SLM）は低遅延、コスト効率、簡単なカスタマイズが可能で、特に専門的なドメインにおいて有用である。SLMの需要が高まる中、定義や応用に関する包括的な調査が不足しているため、SLMを専門的なタスクに適したモデルとして定義し、強化するためのフレームワークを提案する。 Comment

#NLP #Evaluation #Reasoning Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv'24 GPT Summary- LLMsの推論能力に関する研究をレビューし、タスク精度を超えた深い洞察を提供。モデルは表面的なパターンに依存し、洗練された推論能力が不足していることを示唆。人間との推論の違いを明確にするためのさらなる研究が必要であることを指摘。 Comment

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

#InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#Pocket #NLP #SelfCorrection Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL'24 GPT Summary- 自己修正はLLMsの応答を改善する手法であり、フィードバック源の利用が提案されているが、誤り修正のタイミングについては合意が得られていない。本研究では、自己修正に必要な条件を議論し、従来の研究の問題点を指摘。新たに分類した研究課題に基づき、自己修正が成功した例がないこと、信頼できる外部フィードバックが重要であること、大規模なファインチューニングが効果的であることを示した。 Comment

LLMのself-correctionに関するサーベイ

#EfficiencyImprovement #Pocket #NLP Issue Date: 2024-09-10 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models, Sean Welleck+, N_A, arXiv'24 GPT Summary- 推論時の計算リソース拡大の利点に焦点を当て、トークンレベル生成、メタ生成、効率的生成の3つのアプローチを統一的に探求。トークンレベル生成はデコーディングアルゴリズムを用い、メタ生成はドメイン知識や外部情報を活用し、効率的生成はコスト削減と速度向上を目指す。従来の自然言語処理、現代のLLMs、機械学習の視点を統合した調査。 Comment

元ツイート:

Loading…

CMUのチームによるinference timeの高速化に関するサーベイ

#Pocket #NLP #Alignment Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv'24 GPT Summary- 人間の好み学習に基づくLLMsの進展をレビューし、好みフィードバックのソースや形式、モデリング技術、評価方法を整理。データソースに基づくフィードバックの分類や、異なるモデルの利点・欠点を比較し、LLMsの人間の意図との整合性に関する展望を議論。 #NLP #SelfCorrection Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL'24 GPT Summary- 大規模言語モデル（LLMs）の性能は高いが、幻覚や不誠実な推論などの問題が存在する。自己修正が有望な解決策であり、自動フィードバックを活用することで人間の介入を最小限に抑えた実用的なLLMソリューションが可能になる。本論文では、トレーニング、生成、事後修正の各段階における技術を分析し、主要な応用と今後の課題について議論する。 Comment

#NLP #Prompting Issue Date: 2024-09-02 The Prompt Report: A Systematic Survey of Prompting Techniques, Sander Schulhoff+, N_A, arXiv'24 GPT Summary- 生成的人工知能（GenAI）システムのプロンプトに関する構造的理解を確立するため、プロンプト技術の分類法を提案し、33の語彙用語と58のテキスト専用プロンプト技術を提示。さらに、自然言語プレフィックスプロンプトに関する文献のメタ分析を実施。 Comment

Promptingに関するサーベイ

初期の手法からかなり網羅的に記述されているように見える。

#Pocket #NLP #Prompting Issue Date: 2024-07-30 A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, Pranab Sahoo+, N_A, arXiv'24 GPT Summary- プロンプトエンジニアリングは、LLMsやVLMsの能力を拡張するための重要な技術であり、モデルのパラメータを変更せずにタスク固有の指示であるプロンプトを活用してモデルの効果を向上させる。本研究は、プロンプトエンジニアリングの最近の進展について構造化された概要を提供し、各手法の強みと制限について掘り下げることで、この分野をよりよく理解し、将来の研究を促進することを目的としている。 Comment

#Pocket #NLP Issue Date: 2024-04-14 Knowledge Conflicts for LLMs: A Survey, Rongwu Xu+, N_A, arXiv'24 GPT Summary- LLMsにおける知識の衝突に焦点を当て、文脈とパラメトリック知識の組み合わせによる複雑な課題を分析。文脈-メモリ、文脈間、メモリ内の衝突の3つのカテゴリーを探求し、実世界のアプリケーションにおける信頼性とパフォーマンスへの影響を検討。解決策を提案し、LLMsの堅牢性向上を目指す。 #Pocket #NLP #Annotation Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv'24 GPT Summary- GPT-4などの大規模言語モデル（LLMs）を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 Comment

Data AnnotationにLLMを活用する場合のサーベイ

#NLP #DataToTextGeneration #TabularData Issue Date: 2024-03-05 Large Language Models（LLMs） on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv'24 GPT Summary- 最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 Comment

Tabular DataにおけるLLM関連のタスクや技術等のサーベイ

#Pocket #MultiModal #ACL Issue Date: 2024-01-25 MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N_A, ACL'24 Findings GPT Summary- MM-LLMsは、コスト効果の高いトレーニング戦略を用いて拡張され、多様なMMタスクに対応する能力を持つことが示されている。本論文では、MM-LLMsのアーキテクチャ、トレーニング手法、ベンチマークのパフォーマンスなどについて調査し、その進歩に貢献することを目指している。 Comment

#Pocket #NLP #Hallucination Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv'24 GPT Summary- 要約：本論文では、大規模言語モデル（LLMs）における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。 #Pocket #NLP #Chain-of-Thought #ACL Issue Date: 2025-01-06 Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future, Zheng Chu+, arXiv'23 GPT Summary- 推論はAIにおいて重要な認知プロセスであり、チェーン・オブ・ソートがLLMの推論能力を向上させることが注目されている。本論文では関連研究を体系的に調査し、手法を分類して新たな視点を提供。課題や今後の方向性についても議論し、初心者向けの導入を目指す。リソースは公開されている。 #RecommenderSystems #InformationRetrieval #Pocket #SequentialRecommendation Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。 #Pocket #NLP #Hallucination Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv'23 GPT Summary- LLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 Comment

Hallucinationを現象ごとに分類したSurveyとして A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N/A, arXiv'23 もある

Surveyの内容。必要に応じて参照すべし。

#NLP #Factuality Issue Date: 2023-10-13 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity, Cunxiang Wang+, N_A, arXiv'23 GPT Summary- この研究では、大規模言語モデル（LLMs）の事実性の問題に取り組んでいます。LLMsの出力の信頼性と正確性は重要であり、事実に矛盾した情報を生成することがあるため、その問題を解決する方法を探求しています。具体的には、LLMsの事実的なエラーの影響や原因を分析し、事実性を評価する手法や改善策を提案しています。また、スタンドアロンのLLMsと外部データを利用する検索拡張型LLMsに焦点を当て、それぞれの課題と改善策について詳しく説明しています。この研究は、LLMsの事実的な信頼性を向上させるためのガイドとなることを目指しています。 Comment

#Pocket #Alignment Issue Date: 2023-10-09 Large Language Model Alignment: A Survey, Tianhao Shen+, N_A, arXiv'23 GPT Summary- 近年、大規模言語モデル（LLMs）の進歩が注目されていますが、その潜在能力と同時に懸念もあります。本研究では、LLMsのアライメントに関する既存の研究と新たな提案を包括的に探求し、モデルの解釈可能性や敵対的攻撃への脆弱性などの問題も議論します。さらに、LLMsのアライメントを評価するためのベンチマークと評価手法を提案し、将来の研究の方向性を考察します。この調査は、研究者とAIアライメント研究コミュニティとの連携を促進することを目指しています。 Comment

LLMのalignmentに関するサーベイ。

#Pocket #NLP #Hallucination Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv'23 GPT Summary- 本研究では、大規模ファウンデーションモデル（LFMs）におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 Comment

Hallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。

#Pocket #InstructionTuning Issue Date: 2023-09-05 Instruction Tuning for Large Language Models: A Survey, Shengyu Zhang+, N_A, arXiv'23 GPT Summary- この論文では、instruction tuning（IT）という技術について調査しています。ITは、大規模言語モデル（LLMs）をさらにトレーニングするための方法であり、ユーザーの指示に従うことを目的としています。本研究では、ITの方法論やデータセットの構築、トレーニング方法などについて調査し、指示の生成やデータセットのサイズなどがITの結果に与える影響を分析します。また、ITの潜在的な問題や批判、現在の不足点についても指摘し、今後の研究の方向性を提案します。 Comment

主要なモデルやデータセットの作り方など幅広くまとまっている

#Pocket #NLP #AIAgents Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv'23 GPT Summary- 自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル（LLMs）を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment

良いサーベイ

#ReinforcementLearning Issue Date: 2023-08-08 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback, Stephen Casper+, N_A, arXiv'23 GPT Summary- 人間のフィードバックからの強化学習（RLHF）は、AIシステムを人間の目標に合わせてトレーニングするための技術であり、最先端の大規模言語モデル（LLMs）を微調整するために使用されている。しかし、RLHFの欠点を体系化するための公開された研究は少ない。本論文では、RLHFのオープンな問題と制約を調査し、実践における理解、改善、補完技術を概説し、RLHFシステムの社会的な監視を向上させるための監査と開示の基準を提案する。この研究は、RLHFの制約を強調し、安全なAIシステムの開発に多面的なアプローチの重要性を強調している。 #Alignment Issue Date: 2023-08-08 Aligning Large Language Models with Human: A Survey, Yufei Wang+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、自然言語処理のタスクにおいて重要な役割を果たしていますが、その性能には制約があります。この調査では、LLMsの性能を向上させるためのアラインメント技術について包括的な概要を提供します。具体的には、データ収集方法、トレーニング手法、モデル評価方法について説明します。さらに、将来の研究の方向性についてもまとめられています。この調査は、LLMsの性能向上に関心のある人々にとって貴重な情報源となるでしょう。 Comment

LLMのAlignment手法に関するSurvey

#Tutorial #NLP Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

#NLP #Prompting #Reasoning Issue Date: 2023-07-18 Reasoning with Language Model Prompting: A Survey, ACL'23 GPT Summary- 本論文では、推論に関する最新の研究について包括的な調査を行い、初心者を支援するためのリソースを提供します。また、推論能力の要因や将来の研究方向についても議論します。リソースは定期的に更新されています。 #Prompting Issue Date: 2023-07-11 A Survey of Large Language Models, Wayne Xin Zhao+, N_A, arXiv'23 GPT Summary- 言語モデリングの進化により、大規模言語モデル（LLM）が注目されている。LLMは、事前学習、適応調整、利用、容量評価の4つの側面に焦点を当てて研究されており、AIアルゴリズムの開発と使用方法に革新をもたらす可能性がある。本調査では、LLMの最近の進展と将来の方向性についてレビューし、残された課題についても議論する。 Comment

現状で最も詳細なLLMのサーベイ
600個のリファレンス、LLMのコレクション、promptingのtips、githubリポジトリなどがまとめられている

#Article #NLP #Dataset #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #GenerativeAI #Blog #read-later Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Blog #Reasoning #COLM Issue Date: 2025-09-15 Large reasoning models research at COLM 2025 - State of research in scaling reasoning, the current paradigm for improving LLMs, PRAKASH KAGITHA, 2025.09 Comment

COLM'25における30個程度のReasoningに関わる論文をカバーしたブログらしい。

元ポスト:

Loading…

ここの論文のサマリのまとめといった感じなので、indexとして利用すると良さそう。

#Article #ComputerVision #NLP #OpenWeight #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-09-02 August 2025 - China Open Source Highlights, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #ScientificDiscovery Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #ReinforcementLearning #Blog Issue Date: 2025-07-27 9 new policy optimization techniques, Kseniase, 2025.07 Comment

元ポスト:

Loading…

#Article #ComputerVision Issue Date: 2025-04-11 Large Vision Language Model （LVLM）に関する最新知見まとめ（Part 1）, Daiki Shiono, 2024.11 #Article #RecommenderSystems #NLP #Blog Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment

元ポスト: https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACoAACzQvjwB2FeLVE3yukDiUYtr5J4k-6nlNG4

#Article #Embeddings #Pocket #NLP #Blog #PositionalEncoding Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment

元ポスト: https://huggingface.co/posts/Kseniase/498106595218801

RoPEについてサーベイが必要になったら見る

#Article #ComputerVision #NLP #OpenWeight #ProprietaryLLM Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment

#Article #NLP #Evaluation #Blog #LLM-as-a-Judge Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #NLP #Dataset #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NLP #Repository #SelfCorrection Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Comment

self-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。

元ポスト:

Loading…

#Article #ComputerVision #Pocket #NLP #Slide Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #NLP #Blog #OpenWeight #OpenSource Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 Comment

ローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。

#Article #Tools #NLP Issue Date: 2024-03-22 Awesome LM with Tools Comment

Toolを利用するLMに関するNeubig氏のグループによるSurvey。

#Article #Tutorial #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #NLP #Blog Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment

2024年3月時点で知っておくべきLLMに関するスレッド

#Article #Tutorial #InformationRetrieval #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #ComputerVision #NaturalLanguageGeneration #NLP #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

#Article #NLP Issue Date: 2023-08-27 Anti-hype LLM Reading list Comment

LLMのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist

#Article #ComputerVision #NLP #MultiModal #SpeechProcessing Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

#Article #NLP Issue Date: 2023-05-12 open LLM Leaderboard #Article #NLP Issue Date: 2023-05-04 LLM ecosystem graphs Comment

様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページ

Percy Liangのグループが運用してるっぽい？

#Article #NLP Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment

参考になる

現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそう

LLM Worksheet：

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0

#Article #NeuralNetwork #NLP #Slide #Selected Papers/Blogs Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment

ELMo, GPT, BERT, GPT-2, XLNet, RoBERTa, DistilBERT, ALBERT, T5あたりは良く見るような感

NaturalLanguageGeneration (9)

#Controllable #NLP
Issue Date: 2024-08-25 Controllable Text Generation for Large Language Models: A Survey, Xun Liang+, N_A, arXiv'24 GPT Summary- LLMsの制御可能なテキスト生成（CTG）技術に関する最新の進展を体系的にレビューし、その中核的な概念の包括的な定義を提供し、制御条件とテキスト品質の要件を明確にする。CTGタスクをコンテンツ制御と属性制御の2つの主要なタイプに分類し、モデルの再学習、ファインチューニング、強化学習、プロンプトエンジニアリング、潜在空間の操作、デコーディング時の介入など、主要な手法について議論する。さらに、CTGの評価方法を検討し、領域全体での応用をまとめ、現在の研究における主要な課題に取り組む。また、将来の研究で実世界の応用に重点を置くなど、いくつかの提案も行う。 Comment

Surveyの内容

#Pocket #NLP #Evaluation #LLM-as-a-Judge
Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#Pocket #NLP #Evaluation
Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv'20 GPT Summary- 本論文では、自然言語生成（NLG）システムの評価方法を人間中心、自動評価、機械学習に基づく評価の3カテゴリに分類し、それぞれの進展と課題を議論。特に新しいNLGタスクやニューラルNLGモデルの評価に焦点を当て、自動テキスト要約と長文生成の例を示し、今後の研究方向性を提案します。

#Pocket #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。 #Pocket #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#Pocket #NLP #DataToTextGeneration #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#NLP #DataToTextGeneration #ConceptToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#Article #NLP #Dataset #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

#Article #ComputerVision #NLP #LanguageModel #ImageCaptioning #DiffusionModel Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

Evaluation (9)

元ポスト:

Loading…

元ポスト:

Loading…

おもしろそう

pj page: https://awesome-llm-as-a-judge.github.io

論文紹介（sei_shinagawa）: https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

重要

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

#Article #NLP #Dataset #LanguageModel #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

Dataset (8)

元ポスト:

Loading…

訓練データセット中の知識を蒸留し、オリジナルデータよりも少量のデータで同等の学習効果を得るDataset Distillationに関するSurvey。

#Article #NLP #LanguageModel #AIAgents Issue Date: 2025-11-19 LLM Datasets, mlabonne, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 Comment

#Article #NaturalLanguageGeneration #NLP #DataToTextGeneration #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

DataToTextGeneration (6)

#NLP #LanguageModel #TabularData
Issue Date: 2024-03-05 Large Language Models（LLMs） on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv'24 GPT Summary- 最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 Comment

Tabular DataにおけるLLM関連のタスクや技術等のサーベイ

#NaturalLanguageGeneration #Pocket #NLP #ConceptToTextGeneration
Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。 #NaturalLanguageGeneration #Pocket #NLP #ConceptToTextGeneration
Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#NaturalLanguageGeneration #Pocket #NLP #ConceptToTextGeneration Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#NaturalLanguageGeneration #NLP #ConceptToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

#Article #NaturalLanguageGeneration #NLP #Dataset #Blog Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, Akihiko Watanabe, 2022 Comment

Tutorial (5)

#NLP #LanguageModel
Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog
Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #InformationRetrieval #LanguageModel #Blog
Issue Date: 2024-02-22 awesome-generative-information-retrieval

#Article #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

#Article #Dataset Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

LLM-as-a-Judge (5)

#Pocket #NLP #LanguageModel #Evaluation
Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24 GPT Summary- LLMを評価者として利用する「LLM-as-a-Judge」の信頼性向上に関する調査。信頼性を確保するための戦略や評価方法論を提案し、新しいベンチマークを用いてサポート。実用的な応用や将来の方向性についても議論し、研究者や実務者の参考資料となることを目指す。 Comment

pj page: https://awesome-llm-as-a-judge.github.io

#Pocket #NLP #LanguageModel
Issue Date: 2024-11-27 From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, Dawei Li+, arXiv'24 GPT Summary- LLMを用いた判断と評価の新たなパラダイム「LLM-as-a-judge」に関する包括的な調査を行い、定義や分類法を提示。評価のためのベンチマークをまとめ、主要な課題と今後の研究方向を示す。関連リソースも提供。 Comment

LLM-as-a-Judgeに関するサーベイ

- Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N/A, arXiv'24

も参照のこと

#NaturalLanguageGeneration #Pocket #NLP #Evaluation
Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv'24 GPT Summary- 本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment

重要

#Article #NLP #Blog #read-later Issue Date: 2025-09-04 信頼できるLLM-as-a-Judgeの構築に向けた研究動向, tsurubee, 2025.09 Comment

ブログ中で解説されているサーベイ論文は下記:
- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

#Article #NLP #LanguageModel #Evaluation #Blog Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment

- A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv'24

を読んだ結果を日本語でまとめてくださっている。

ConceptToTextGeneration (4)

#NaturalLanguageGeneration #Pocket #NLP #DataToTextGeneration
Issue Date: 2017-12-31 [Paper Note] Neural Text Generation: A Practical Guide, Ziang Xie, arXiv'17, 2017.11 GPT Summary- 深層学習手法はテキスト生成タスクで成功を収めているが、デコーダーが望ましくない出力を生成する問題がある。本論文は、テキスト生成モデルの不具合を解決するための実践的なガイドを提供し、実世界のアプリケーションの実現を目指す。 #NaturalLanguageGeneration #Pocket #NLP #DataToTextGeneration
Issue Date: 2017-12-31 [Paper Note] Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Albert Gatt+, arXiv'17, 2017.03 GPT Summary- 本論文は、非言語的入力からテキストや音声を生成する自然言語生成（NLG）の最新技術動向を調査し、(a) NLGのコアタスクに関する研究の統合とアーキテクチャの提示、(b) NLGと他のAI分野との相乗効果による新しい研究トピックの強調、(c) NLG評価の課題と他の自然言語処理分野との関連を明らかにすることを目的としている。 Comment

割と新し目のNLGのSurvey

#NaturalLanguageGeneration #Pocket #NLP #DataToTextGeneration
Issue Date: 2017-12-31 [Paper Note] Content Selection in Data-to-Text Systems: A Survey, arXiv'16, Gkatzia, 2016.10 Comment

Gkatzia氏の"content selection"に関するSurvey

#NaturalLanguageGeneration #NLP #DataToTextGeneration #Selected Papers/Blogs Issue Date: 2017-12-31 [Paper Note] An Architecture for Data to Text Systems, Ehud Reiter, ENLG'07 Comment

NLG分野で有名なReiterらのSurvey。
NLGシステムのアーキテクチャなどが、体系的に説明されている。

DocumentSummarization (4)

#NLP #Abstractive #Conversation
Issue Date: 2023-07-15 [TACL] Abstractive Meeting Summarization: A Survey, TACL'23 GPT Summary- 会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。 #NLP
Issue Date: 2017-12-31 [Paper Note] Recent Advances in Document Summarization, Yao+, Knowledge and Information Systems'17, 2017.11 #NLP
Issue Date: 2017-12-31 [Paper Note] A Survey of Text Summarization Techniques, Nenkova+, Springer'12, 2012.01

#Article #NLP Issue Date: 2017-12-31 A survey on Automatic Text Summarization, Das+, 2007.11

GenerativeAI (4)

#RecommenderSystems #Pocket
Issue Date: 2024-04-02 A Review of Modern Recommender Systems Using Generative Models （Gen-RecSys）, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル（Gen-RecSys）を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル（LLM）を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。 #Article #LanguageModel #Blog #read-later
Issue Date: 2025-10-11 STATE OF AI REPORT 2025, Nathan Benaich, 2025.10 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #Blog
Issue Date: 2024-10-01 生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて-, 株式会社日本総合研究所先端技術ラボ, 2024.09 Comment

#Article #RecommenderSystems Issue Date: 2023-05-10 awesome-generative-information-retrieval Comment

Generativeなモデルを利用したDocument RetrievalやRecSys等についてまとまっているリポジトリ

Alignment (4)

#Pocket #NLP #LanguageModel #TMLR
Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR'24 GPT Summary- 本研究では、LLMsの整合性と安全性に関する18の基盤的課題を特定し、科学的理解、開発・展開方法、社会技術的課題の3つのカテゴリに整理。これに基づき、200以上の具体的な研究質問を提起。 Comment

OpenReview: https://openreview.net/forum?id=oVTkOs8Pka

#Pocket #NLP #LanguageModel
Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv'24 GPT Summary- 人間の好み学習に基づくLLMsの進展をレビューし、好みフィードバックのソースや形式、モデリング技術、評価方法を整理。データソースに基づくフィードバックの分類や、異なるモデルの利点・欠点を比較し、LLMsの人間の意図との整合性に関する展望を議論。 #Pocket #LanguageModel
Issue Date: 2023-10-09 Large Language Model Alignment: A Survey, Tianhao Shen+, N_A, arXiv'23 GPT Summary- 近年、大規模言語モデル（LLMs）の進歩が注目されていますが、その潜在能力と同時に懸念もあります。本研究では、LLMsのアライメントに関する既存の研究と新たな提案を包括的に探求し、モデルの解釈可能性や敵対的攻撃への脆弱性などの問題も議論します。さらに、LLMsのアライメントを評価するためのベンチマークと評価手法を提案し、将来の研究の方向性を考察します。この調査は、研究者とAIアライメント研究コミュニティとの連携を促進することを目指しています。 Comment

LLMのalignmentに関するサーベイ。

#LanguageModel Issue Date: 2023-08-08 Aligning Large Language Models with Human: A Survey, Yufei Wang+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、自然言語処理のタスクにおいて重要な役割を果たしていますが、その性能には制約があります。この調査では、LLMsの性能を向上させるためのアラインメント技術について包括的な概要を提供します。具体的には、データ収集方法、トレーニング手法、モデル評価方法について説明します。さらに、将来の研究の方向性についてもまとめられています。この調査は、LLMsの性能向上に関心のある人々にとって貴重な情報源となるでしょう。 Comment

LLMのAlignment手法に関するSurvey

RAG(RetrievalAugmentedGeneration) (4)

#InformationRetrieval #Pocket #NLP #LanguageModel #MultiModal #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#InformationRetrieval #Pocket #NLP #LanguageModel #Evaluation
Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#InformationRetrieval #NLP #LanguageModel
Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#Article #Tutorial #InformationRetrieval #NLP #LanguageModel #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

SequentialRecommendation (3)

#RecommenderSystems #InformationRetrieval #Pocket #LanguageModel
Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。 #RecommenderSystems #Pocket #SessionBased
Issue Date: 2019-08-02 [Paper Note] A Survey on Session-based Recommender Systems, Shoujin Wang+, arXiv'19 GPT Summary- レコメンダーシステム（RS）の中で、セッションベースのレコメンダーシステム（SBRS）が短期的なユーザーの好みを捉え、より正確な推奨を提供する新たなパラダイムとして注目されている。しかし、SBRSに関する統一された問題定義や特性の詳細な説明は不足している。本研究では、SBRSのエンティティや行動、特性を探求し、一般的な問題定義やデータ特性、課題を要約し、代表的な研究を分類する方法を提案する。また、SBRS分野における新たな研究機会についても議論する。 #Article #RecommenderSystems
Issue Date: 2020-11-13 Sequence-Aware Recommender Systems, ACM Computing Surveys, Vol. 1, No. 1, Article 1, 2018 Comment

Supervised-FineTuning (SFT) (3)

#Pocket #LanguageModel #ReinforcementLearning #Chain-of-Thought #InstructionTuning #PPO (ProximalPolicyOptimization) #Reasoning #LongSequence #RewardHacking #GRPO #Contamination-free #VerifiableRewards #CurriculumLearning
Issue Date: 2025-05-06 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv'25 GPT Summary- 最近の推論言語モデル（RLM）の進展を受けて、DeepSeek-R1が注目を集めているが、その実装詳細は完全にはオープンソース化されていない。これにより、多くの再現研究が行われ、DeepSeek-R1のパフォーマンスを再現しようとする試みが続いている。特に、監視付きファインチューニング（SFT）と強化学習（RLVR）の戦略が探求され、貴重な洞察が得られている。本報告では、再現研究の概要を提供し、データ構築やトレーニング手順の詳細を紹介し、今後の研究の促進を目指す。また、RLMを強化するための追加技術や開発上の課題についても考察する。 Comment

元ポスト:

Loading…

サーベイのtakeawayが箇条書きされている。

#Pocket #NLP #LanguageModel #Reasoning
Issue Date: 2025-03-15 A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）は自然言語処理に革命をもたらしたが、専門的な文脈での制約が明らかである。これに対処するため、高度なポストトレーニング言語モデル（PoLMs）が必要であり、本論文ではその包括的な調査を行う。ファインチューニング、アライメント、推論、効率、統合と適応の5つのコアパラダイムにわたる進化を追跡し、PoLMがバイアス軽減や推論能力向上に寄与する方法を示す。研究はPoLMの進化に関する初の調査であり、将来の研究のための枠組みを提供し、LLMの精度と倫理的堅牢性を向上させることを目指す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Reasoning
Issue Date: 2025-03-04 LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv'25 GPT Summary- 大規模言語モデル（LLMs）のポストトレーニング手法に焦点を当て、知識の洗練や推論の改善、事実の正確性向上を目指す。ファインチューニングや強化学習などの戦略がLLMsのパフォーマンスを最適化し、実世界のタスクへの適応性を向上させる。主要な課題として壊滅的な忘却や報酬ハッキングを分析し、今後の研究方向性を示す公開リポジトリも提供。 Comment

非常にわかりやすい。

元ポスト:

Loading…

KnowledgeTracing (2)

#Pocket #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-08-02 Knowledge Tracing: A Survey, ABDELRAHMAN+, Australian National University, ACM Computing Surveys'23 GPT Summary- 人間の教育における知識移転の重要性を背景に、オンライン教育における知識追跡（KT）の必要性が高まっている。本論文では、KTに関する包括的なレビューを行い、初期の手法から最新の深層学習技術までを網羅し、モデルの理論やデータセットの特性を強調する。また、関連手法のモデリングの違いを明確にし、KT文献の研究ギャップや今後の方向性についても議論する。 #Article #Dataset #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

FoundationModel (2)

#Pocket #SpokenLanguageProcessing #Evaluation #Speech
Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

#ComputerVision
Issue Date: 2023-08-08 Foundational Models Defining a New Era in Vision: A Survey and Outlook, Muhammad Awais+, N_A, arXiv'23 GPT Summary- 本研究では、視覚システムの基礎モデルについて包括的なレビューを提供します。これには、異なるモダリティを組み合わせるためのアーキテクチャ設計やトレーニング目標、トレーニングデータセットなどが含まれます。また、基礎モデルの評価や課題、最近の発展についても議論します。詳細なリストは、\url{https://github.com/awaisrauf/Awesome-CV-Foundational-Models}で入手できます。 Comment

CVにおけるfoundation modelのsurvey。残されたチャレンジと研究の方向性が議論されている

InstructionTuning (2)

#Pocket #LanguageModel #Supervised-FineTuning (SFT) #ReinforcementLearning #Chain-of-Thought #PPO (ProximalPolicyOptimization) #Reasoning #LongSequence #RewardHacking #GRPO #Contamination-free #VerifiableRewards #CurriculumLearning
Issue Date: 2025-05-06 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models, Chong Zhang+, arXiv'25 GPT Summary- 最近の推論言語モデル（RLM）の進展を受けて、DeepSeek-R1が注目を集めているが、その実装詳細は完全にはオープンソース化されていない。これにより、多くの再現研究が行われ、DeepSeek-R1のパフォーマンスを再現しようとする試みが続いている。特に、監視付きファインチューニング（SFT）と強化学習（RLVR）の戦略が探求され、貴重な洞察が得られている。本報告では、再現研究の概要を提供し、データ構築やトレーニング手順の詳細を紹介し、今後の研究の促進を目指す。また、RLMを強化するための追加技術や開発上の課題についても考察する。 Comment

元ポスト:

Loading…

サーベイのtakeawayが箇条書きされている。

#Pocket #LanguageModel
Issue Date: 2023-09-05 Instruction Tuning for Large Language Models: A Survey, Shengyu Zhang+, N_A, arXiv'23 GPT Summary- この論文では、instruction tuning（IT）という技術について調査しています。ITは、大規模言語モデル（LLMs）をさらにトレーニングするための方法であり、ユーザーの指示に従うことを目的としています。本研究では、ITの方法論やデータセットの構築、トレーニング方法などについて調査し、指示の生成やデータセットのサイズなどがITの結果に与える影響を分析します。また、ITの潜在的な問題や批判、現在の不足点についても指摘し、今後の研究の方向性を提案します。 Comment

主要なモデルやデータセットの作り方など幅広くまとまっている

ScientificDiscovery (2)

#Pocket #NLP #LanguageModel
Issue Date: 2025-07-04 [Paper Note] AI4Research: A Survey of Artificial Intelligence for Scientific Research, Qiguang Chen+, arXiv'25 GPT Summary- AIの進展に伴い、AI4Researchに関する包括的な調査が不足しているため、理解と発展が妨げられている。本研究では、AI4Researchの5つの主流タスクを系統的に分類し、研究のギャップや将来の方向性を特定し、関連する応用やリソースをまとめる。これにより、研究コミュニティが迅速にリソースにアクセスでき、革新的なブレークスルーを促進することを目指す。 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents
Issue Date: 2025-09-01 The Hitchhiker's Guide to Autonomous Research: A Survey of Scientific Agents, Wang+, TechRxiv, 2025.08 Comment

元ポスト:

Loading…

TimeSeriesDataProcessing (1)

#Article #NeuralNetwork
Issue Date: 2017-12-31 [Paper Note] Artificial neural networks in business: Two decades of research, Tkac+, Applied Soft Computing 2016.01 Comment

CollaborativeFiltering (1)

#RecommenderSystems #MatrixFactorization #Selected Papers/Blogs
Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている

MatrixFactorization (1)

#RecommenderSystems #CollaborativeFiltering #Selected Papers/Blogs
Issue Date: 2018-01-01 [Paper Note] Matrix Factorization Techniques for Recommender Systems, Koren+, Computer'07 Comment

Matrix Factorizationについてよくまとまっている

SentimentAnalysis (1)

#Article #NLP #OpinionMining
Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008

OpinionMining (1)

#Article #SentimentAnalysis #NLP
Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008

StudentPerformancePrediction (1)

#Article #Dataset #EducationalDataMining #LearningAnalytics #KnowledgeTracing
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

CTRPrediction (1)

#Article #RecommenderSystems
Issue Date: 2021-10-29 2010年代前半のAIの巨人達のCTR Prediction研究

ChatGPT (1)

#Pocket #Education
Issue Date: 2023-05-04 A Review of ChatGPT Applications in Education, Marketing, Software Engineering, and Healthcare: Benefits, Drawbacks, and Research Directions, Mohammad Fraiwan+, N_A, arXiv'23 GPT Summary- - ChatGPTは、深層学習アルゴリズムを使用して人間らしい応答を生成する人工知能言語モデルである。- 最新のChatGPTバージョンが導入され、他の言語モデルも登場している。- これらのモデルは、教育、ソフトウェアエンジニアリング、医療、マーケティングなどの分野で応用可能性がある。- 本論文では、これらのモデルの可能な応用、制限、欠点、および研究方向について議論する。

NumericReasoning (1)

#NLP
Issue Date: 2023-07-18 A Survey of Deep Learning for Mathematical Reasoning, ACL'23 GPT Summary- 数学的な推論とディープラーニングの関係についての調査論文をレビューし、数学的な推論におけるディープラーニングの進歩と将来の研究方向について議論しています。数学的な推論は機械学習と自然言語処理の分野で重要であり、ディープラーニングモデルのテストベッドとして機能しています。また、大規模なニューラル言語モデルの進歩により、数学的な推論に対するディープラーニングの利用が可能になりました。既存のベンチマークと方法を評価し、将来の研究方向についても議論しています。

ImageCaptioning (1)

#Article #ComputerVision #NaturalLanguageGeneration #NLP #LanguageModel #DiffusionModel
Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Comment

これはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。

Annotation (1)

#Pocket #NLP #LanguageModel
Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv'24 GPT Summary- GPT-4などの大規模言語モデル（LLMs）を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 Comment

Data AnnotationにLLMを活用する場合のサーベイ

GenerativeRecommendation (1)

#RecommenderSystems
Issue Date: 2024-08-06 Large Language Models for Generative Recommendation: A Survey and Visionary Discussions, Lei Li+, N_A, LREC-COLING'24 GPT Summary- LLMを使用した生成的な推薦に焦点を当て、従来の複数段階の推薦プロセスを1つの段階に簡素化する方法を調査。具体的には、生成的推薦の定義、RSの進化、LLMベースの生成的推薦の実装方法について検討。この調査は、LLMベースの生成的推薦に関する進捗状況と将来の方向について提供できる文脈とガイダンスを提供することを目指している。 Comment

Library (1)

#Article #RecommenderSystems #Repository
Issue Date: 2024-08-07 list of recommender systems Comment

推薦システムに関するSaaS, OpenSource, Datasetなどがまとめられているリポジトリ

RepresentationLearning (1)

#Embeddings #Pocket #NLP #Dataset #LanguageModel #Evaluation
Issue Date: 2025-07-29 [Paper Note] On The Role of Pretrained Language Models in General-Purpose Text Embeddings: A Survey, Meishan Zhang+, arXiv'25 GPT Summary- 本調査では、事前学習済み言語モデル（PLMs）を活用した一般目的のテキスト埋め込み（GPTE）の発展を概観し、PLMsの役割に焦点を当てる。基本的なアーキテクチャや埋め込み抽出、表現力向上、トレーニング戦略について説明し、PLMsによる多言語サポートやマルチモーダル統合などの高度な役割も考察する。さらに、将来の研究方向性として、ランキング統合やバイアス軽減などの改善目標を超えた課題を強調する。 Comment

元ポスト:

Loading…

TextToImageGeneration (1)

#ComputerVision #Controllable #Pocket #NLP #DiffusionModel
Issue Date: 2025-08-07 [Paper Note] Controllable Generation with Text-to-Image Diffusion Models: A Survey, Pu Cao+, arXiv'24 GPT Summary- 拡散モデルはテキスト誘導生成において大きな進展を遂げたが、テキストのみでは多様な要求に応えられない。本調査では、T2I拡散モデルの制御可能な生成に関する文献をレビューし、理論的基盤と実践的進展をカバー。デノイジング拡散確率モデルの基本を紹介し、制御メカニズムを分析。生成条件の異なるカテゴリに整理した文献リストを提供。

VideoGeneration/Understandings (1)

#ComputerVision #Pocket #DiffusionModel #TMLR #4D (Video)
Issue Date: 2025-10-17 [Paper Note] Video Diffusion Models: A Survey, Andrew Melnik+, TMLR'24, 2024.05 GPT Summary- 拡散生成モデルは高品質な動画コンテンツの生成において重要な技術であり、本調査はそのアーキテクチャや時間的ダイナミクスのモデリングを包括的にまとめている。テキストから動画への生成の進展や、モデルの分類法、評価指標についても議論し、現在の課題や将来の方向性を考察している。研究者や実務者にとって有益なリソースを提供することを目指している。

OCR (1)

#Article #ComputerVision #NLP
Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…

SpatialUnderstanding (1)

#Article #ComputerVision #NLP #MultiModal #Repository #VisionLanguageModel
Issue Date: 2025-11-18 Awesome Spatial Intelligence in VLMs, mll-lab-nu, 2025.11 Comment

元ポスト:

Loading…

VLM, マルチモーダルなLLMにおけるSpatial Intelligenceに関する論文リスト

Tutorial (166)

#Pocket #NLP #LanguageModel #AIAgents #ContextEngineering
Issue Date: 2025-11-05 [Paper Note] Context Engineering 2.0: The Context of Context Engineering, Qishuo Hua+, arXiv'25, 2025.10 GPT Summary- 本論文では、カール・マルクスの「人間の本質は社会関係の総体である」という考えを基に、機械と人間の相互作用における文脈の重要性を探求します。特に「コンテキストエンジニアリング」という概念を導入し、その歴史的背景や設計考慮事項を体系的に定義します。これにより、AIシステムにおけるコンテキストエンジニアリングの基盤を提供し、将来の可能性を示唆します。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #DiffusionModel
Issue Date: 2025-10-29 [Paper Note] The Principles of Diffusion Models, Chieh-Hsin Lai+, arXiv'25, 2025.10 GPT Summary- このモノグラフでは、拡散モデルの核心原則とその多様な定式化の起源を探ります。拡散モデリングは、データをノイズに腐敗させる前方プロセスから始まり、逆プロセスを学習してノイズをデータに戻すことを目的としています。三つの視点（変分的、スコアベース、フローベース）を通じて、ノイズ除去やデータ生成の方法を説明し、共通の基盤として時間依存の速度場を提案します。さらに、制御可能な生成や効率的な数値ソルバーについても議論し、深層学習の知識を持つ読者に拡散モデルの理解を提供します。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #SoftwareEngineering
Issue Date: 2025-10-26 [Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

#Analysis #NLP #LanguageModel #Slide #Selected Papers/Blogs #reading Issue Date: 2025-10-07 言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #NLP #LanguageModel #PostTraining Issue Date: 2025-10-17 [Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #ReinforcementLearning Issue Date: 2024-12-10 Reinforcement Learning: An Overview, Kevin Murphy, arXiv'24 GPT Summary- この原稿は、深層強化学習と逐次的意思決定に関する最新の全体像を提供し、価値ベースのRL、ポリシー勾配法、モデルベース手法、RLとLLMsの統合について簡潔に議論しています。 Comment

あのMurphy本で有名なMurphy氏の強化学習の教科書…だと…

#ComputerVision #Pocket #DiffusionModel Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv'24 GPT Summary- 生成ツールの成長により、テキストから画像や動画を生成する新しいアプリケーションが可能に。拡散モデルの原理がこれらの生成ツールの基盤であり、従来のアプローチの欠点を克服。チュートリアルでは、拡散モデルの基本的なアイデアを学部生や大学院生向けに解説。 Comment

いつか読まなければならない

#RecommenderSystems #LanguageModel #GenerativeAI #DiffusionModel Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

#Pocket #LanguageModel Issue Date: 2023-04-27 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Yang+, Amazon, TKDD'24 GPT Summary- 本記事は、自然言語処理（NLP）タスクにおける大規模言語モデル（LLMs）の実践的なガイドを提供し、モデルやデータ、タスクに関する洞察を示します。LLMsの概要、データの影響、知識集約型タスクや生成タスクにおける使用ケースと非使用ケースを詳述し、実用的な応用と限界を探ります。また、虚偽のバイアスや展開時の考慮事項についても言及し、研究者や実務者に役立つベストプラクティスを提供します。関連リソースは定期的に更新され、オンラインでアクセス可能です。 Comment

LLMに関するチュートリアル

encoder-onlyとまとめられているものの中には、デコーダーがあるものがあり（autoregressive decoderではない）、
encoder-decoderは正しい意味としてはencoder with autoregressive decoderであり、
decoder-onlyは正しい意味としてはautoregressive encoder-decoder
とのこと。

Loading…

#Pocket #NLP #LanguageModel #Chain-of-Thought Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought（CoT）推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 Comment

CoTに関するチュートリアル論文

#Survey #NLP #LanguageModel Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

#RecommenderSystems #Infrastructure #python #Slide Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment

MLパイプラインについては下記資料により詳しい情報が書かれている

https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou

#DocumentSummarization #NLP #Dataset #TACL Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

#RecommenderSystems #Explanation #Slide #SIGKDD Issue Date: 2019-08-19 Explainable AI in Industry, KDD'19 #NeuralNetwork #GraphBased #Pocket Issue Date: 2019-05-31 [Paper Note] Representation Learning on Graphs: Methods and Applications, William L. Hamilton+, arXiv'17 GPT Summary- グラフ上の機械学習は多様な応用があり、主な課題はグラフ構造の表現方法を見つけることです。従来はユーザー定義のヒューリスティックに依存していましたが、最近では深層学習や非線形次元削減を用いた自動学習アプローチが増加しています。本稿では、行列分解、ランダムウォーク、グラフニューラルネットワークに基づく表現学習の進展をレビューし、ノードとグラフの埋め込み方法を統一的なフレームワークで説明し、応用と今後の研究方向を示します。 #RecommenderSystems #NeuralNetwork #InformationRetrieval #Slide #SIGKDD Issue Date: 2018-02-16 Deep Learning for Personalized Search and Recommender Systems, KDD'17 #NeuralNetwork #Slide #NeurIPS Issue Date: 2018-02-06 Deep Learning: Practice and Trends, NIPS'17 Comment

基礎から最新まで幅広いトピックがまとまったtutorial

#MachineLearning #Pocket #MultitaskLearning Issue Date: 2018-02-05 [Paper Note] An Overview of Multi-Task Learning in Deep Neural Networks, Sebastian Ruder, arXiv'17 GPT Summary- マルチタスク学習（MTL）の深層ニューラルネットワークにおける概要を提供し、一般的な手法や文献を紹介。MTLの機能を明らかにし、補助タスク選択のガイドラインを示すことで、実務者のMTL適用を支援することを目指す。 #NeuralNetwork #MachineTranslation #NLP Issue Date: 2018-01-15 ゼロから始めるニューラルネットワーク機械翻訳, 中澤敏明, NLP'17 Comment

中澤さんによるNMTチュートリアル。

#NeuralNetwork #ComputerVision #Pocket #GenerativeAdversarialNetwork Issue Date: 2017-12-28 [Paper Note] Generative Adversarial Networks: An Overview, Antonia Creswell+, IEEE-SPM'17, 2017.10 GPT Summary- GANは、注釈なしのデータで深い表現を学習する手法で、競争プロセスを通じて逆伝播信号を導出します。画像合成やスタイル転送など多様な応用が可能です。本レビューは、信号処理コミュニティ向けにGANの概要を提供し、トレーニング方法や残された課題についても言及します。 #NeuralNetwork #MachineLearning #Pocket #NLP #Optimizer Issue Date: 2025-08-02 [Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 GPT Summary- 勾配降下法の最適化アルゴリズムの挙動を理解し、活用するための直感を提供することを目的とした記事。さまざまなバリエーションや課題を要約し、一般的な最適化アルゴリズム、並列・分散設定のアーキテクチャ、追加戦略をレビュー。 Comment

元ポスト:

Loading…

勉強用にメモ

#NeuralNetwork #MachineLearning #Slide #ICML Issue Date: 2018-02-22 Tutorial: Deep Reinforcement Learning, David Silver, ICML'16 #NeuralNetwork #GenerativeAdversarialNetwork #NeurIPS Issue Date: 2018-02-06 Generative Adversarial Networks （GANS）, NIPS'16 Comment

Goodfellow氏によるGANチュートリアル

#MachineLearning #Pocket Issue Date: 2018-02-05 [Paper Note] An overview of gradient descent optimization algorithms, Sebastian Ruder, arXiv'16 GPT Summary- 勾配降下最適化アルゴリズムの理解を深めるため、さまざまなバリエーションや課題を要約し、一般的なアルゴリズムを紹介。並列・分散設定のアーキテクチャや最適化戦略も検討。 #NeuralNetwork #SentimentAnalysis #NLP #Slide #EMNLP Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16 #InformationRetrieval #LearningToRank #Online/Interactive #SIGIR Issue Date: 2018-01-01 [Paper Note] Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16 #InformationRetrieval #LearningToRank #Slide Issue Date: 2018-01-01 Machine Learning for Information Retrieval, Hofmann, ESSIR'15 #RecommenderSystems #InteractiveRecommenderSystems #Slide #RecSys #interactive Issue Date: 2017-12-28 [Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09 #RecommenderSystems Issue Date: 2018-01-01 [Paper Note] 推薦システムにおけるインタラクション研究へのいざない, 土方, ヒューマンインタフェース学会誌'13 #RecommenderSystems #ContextAware #AAAI Issue Date: 2018-12-22 Context Aware Recommender Systems, Adomavicius+, AAAI'11 Comment

AdomaviciusらによるContext Aware Recsysチュートリアル

#InformationRetrieval #OnlineEvaluation #Slide #SIGIR Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial #Article #ComputerVision #NLP #Blog #ScientificDiscovery #Japanese #Robotics Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #NLP #LanguageModel #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #NLP #LanguageModel #ReinforcementLearning #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 [IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11 Comment

元ポスト:

Loading…

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

元ポスト:

Loading…

元ポスト:

Loading…

#Article #AIAgents #Slide #Test-Time Scaling #One-Line Notes Issue Date: 2025-11-01 戦えるAIエージェントの作り方, Takuya Akiba, SakanaAI, 2025.10 Comment

元ポスト:

Loading…

SakanaAIの研究を中心に、特に推論時スケーリング（test time scaling)の話が紹介されている。

#Article #Pretraining #NLP #LanguageModel #Slide #Japanese Issue Date: 2025-11-01 LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#Article #NLP #Transformer #Blog #One-Line Notes Issue Date: 2025-10-30 Everything About Transformers, Krupa Dave, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #ICCV Issue Date: 2025-10-29 From Egocentric Perception to Embodied Intelligence: Building the World in First Person, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #ICCV Issue Date: 2025-10-29 Multimodal Reasoning for Human-Centric Generative Models, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #ComputerVision #MultiModal #ICCV Issue Date: 2025-10-29 Native Multimodal Models: Architecture, Post-Training, and Evaluation, Ziwei Liu, 2025.10 Comment

元ポスト:

Loading…

#Article #AIAgents #Blog Issue Date: 2025-10-27 LangGraph と NeMo Agent Toolkit ではじめる ReAct エージェント, Masaomi Tokunaga+, 2025.10 Comment

元ポスト:

Loading…

ReAct:
- REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR'23

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #ContextEngineering #One-Line Notes Issue Date: 2025-10-18 Context Engineering in Manus, Lance's Blog, 2025.10 Comment

元ポスト:

Loading…

- Reduce
- Offload
- Isolate

図解つきで各コンセプトについて非常に詳細に記述されている。最後のConclusionを見ればコンパクトに概要をつかめる。

#Article #NLP #LanguageModel #Robotics #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Video #memory Issue Date: 2025-10-13 Building Brain-Like Memory for AI | LLM Agent Memory Systems, Adam Lucek, 2025.01 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #read-later Issue Date: 2025-10-11 A History of Large Language Models, Gregory Gundersen, 2025.10 Comment

元ポスト:

Loading…

#Article #ChatGPT #Blog Issue Date: 2025-10-08 OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #AIAgents #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 PFN LLMセミナー, PFN, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #ReinforcementLearning #One-Line Notes #ReplayBuffer Issue Date: 2025-10-04 Replay BufferがPolicy Gradientで使えない理由, piqcy, 2019.03 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #LanguageModel #Reasoning #One-Line Notes Issue Date: 2025-09-29 Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#Article #MachineLearning #read-later #FlowMatching Issue Date: 2025-09-15 Flow Matching in 5 Minutes, wh., 2025.07 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#Article Issue Date: 2025-09-08 All of Statistics - A Concise Course in Statistical Inference, Larry Wasserman, Springer Science & Business Media, 2013 Comment

元ポスト:

Loading…

とても良い統計学の教科書らしい。勉強したい

元ポスト:

Loading…

LLM入門にとても良さそう

元ポスト:

Loading…

著者ポスト:

Loading…

#Article #AIAgents #Blog Issue Date: 2025-08-25 Best Practices for Building Agentic AI Systems: What Actually Works in Production, Shayan Taslim, 2025.08 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#Article #NLP #LanguageModel #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

すごいメモだ…勉強になります

MCPの勉強に良いかもしれないのでメモ

#Article #read-later #NormalizingFlow Issue Date: 2025-07-09 Normalizing Flow入門第1回変分推論, Tatsuya Yatagawa, 2021.01 Comment

この辺のポストも合わせて理解したい:

Loading…

元ポスト:

Loading…

学習/評価スクリプトなどがリリース:

Loading…

#Article #Pretraining #NLP #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #ReinforcementLearning #Blog #Off-Policy #On-Policy Issue Date: 2025-06-19 Q-learning is not yet scalable, Seohong Park, UC Berkeley, 2025.06 Comment

元ポスト:

Loading…

元ポスト:

Loading…

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #ComputerVision #NLP #LanguageModel #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

#Article #Slide #ACL Issue Date: 2025-05-11 ACL 2024 参加報告, 張+, 株式会社サイバーエージェント AI Lab, 2024.08 Comment

#Article #Blog Issue Date: 2025-04-18 研究者向けの技術研修資料を公開します, CyberAgent, 2025.04 Comment

気になる

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #NLP #LanguageModel #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 Comment

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

Google Cloudで生成AI（Gemini+Vertex AI）を動かすためのサンプルコード集

元ポスト:

Loading…

#Article Issue Date: 2024-11-27 エンジニア研修まとめ, gcchaan, 2024.11 Comment

様々な企業のエンジニアの新卒研修の資料などがまとまっている。学術機関の講義なども含まれている。現在も更新されている模様。
量がすごい。

- Prompt-Engineering-Guide, DAIR.AI も参照のこと

神講義

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #LanguageModel #Slide Issue Date: 2024-09-01 大規模言語モデル（LLM）の技術と最新動向, Ikuya Yamada, 2024.06 Comment

#Article #NLP #LanguageModel #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

#Article #Pretraining #NLP #LanguageModel #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 Comment

LLMの事前学習における知見がまとまっている記事とのこと

WantedlyさんのRecSys勉強会の資料がまとまったリポジトリ。継続的に更新されており、最近この辺のトピックは追いきれていないので非常に有用。

#Article #NLP #LanguageModel #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

RAGに関する研究が直近のものまでよくまとめられている

LLMをoptimizeする実用的なチュートリアル

こちらも有用なので参照のこと

【GPU inference】

https://huggingface.co/docs/transformers/main/perf_infer_gpu_one

#Article #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-11-22 Deconstructing RAG Comment

RAGにおける様々な戦略がまとまっている（リンク付き

#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #NLP #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #NLP #LanguageModel Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 Comment

#Article #NLP #LanguageModel Issue Date: 2023-10-10 Large Language Model （in 2023）, OpenAI Comment

LLMの研究開発動向を俯瞰するのに有用らしい

#Article #LanguageModel Issue Date: 2023-09-29 GGML_GGUF_GPTQの違い Comment

量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ

GPTQについて論文をざっくり読んでメモった GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23

#Article #NLP #LanguageModel Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

#Article #NLP #LanguageModel #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Comment

experimentalな手法でprompt engineeringする際のoverview

#Article #MachineLearning #Self-SupervisedLearning Issue Date: 2023-04-26 A Cookbook of Self-Supervised Learning, 2023 Comment

MetaによるSelf Supervised Learningの教科書

#Article #RecommenderSystems #Embeddings #EfficiencyImprovement #Library Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Comment

dynamic embeddingを使った推薦システムの構築方法の解説

#Article #Survey #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

#Article #NeuralNetwork #MachineLearning Issue Date: 2023-01-21 tuning_playbook, Google Research Comment

Googleが公開したDeep Learningモデル学習のノウハウ。必読

日本語訳
https://github.com/Valkyrja3607/tuning_playbook_ja

たった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事

better_model = BetterTransformer.transform(model)

#Article #NeuralNetwork #ComputerVision Issue Date: 2022-10-27 CNN vs. ViT, 牛久先生 Comment

#Article #Blog #Coding Issue Date: 2021-11-25 Pythonのオブジェクト指向プログラミングを完全理解, kaitolucifer （Kaito）, 2021 Comment

オブジェクト指向の歴史的背景から、SOLID、GRASP等が詳細に解説されている。辞書的に参照するのが良いかも。

#Article #Blog #Coding Issue Date: 2021-11-25 イラストで理解するSOLID原則, baby-degu, 2021 Comment

オブジェクト指向におけるSOLID原則をイラストで解説した記事。直感的で分かりやすい。

よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ、の図

#Article #MachineLearning #Pocket Issue Date: 2021-10-16 実臨床・Webサービス領域での機械学習研究開発の標準化 Comment

Recommender System運用のためのアーキテクチャに関する情報

#Article #Tools #Library Issue Date: 2021-06-29 optuna_tips #Article #BeamSearch #Blog Issue Date: 2021-06-24 beam search解説 _ コード付き, jonki, 2020.05 Comment

#Article #Tools #NLP #Library #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

pytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。

#Article #Tools #Library #python Issue Date: 2021-06-05 pytorch tips Comment

【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】

https://trap.jp/post/1122/

- scatter_add, einsum, Bilinear あたりが説明されている

【NLLossの細かい挙動】

https://tatsukawa.hatenablog.com/entry/2020/04/06/054700

【PyTorchで絶対nanを出したいマン】

https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12

PyTorchでnanが出てしまう原因とその対策が色々書いてある

【pipで様々なCuda versionのpytorchをinstallする方法】

https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1

#Article Issue Date: 2021-06-03 ResNetからSkip Connectionを取り除く研究についてのサーベイ, 徳永拓之, LeapMind株式会社 Comment

#Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #Blog #ImageClassification Issue Date: 2021-05-24 EfficientNet解説, omiita （オミータ）, 2019 Comment

#Article #NLP #Dataset #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #RecommenderSystems #Tools #Dataset #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

#Article #RecommenderSystems #CollaborativeFiltering #ContrastiveLearning #Blog Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

#Article #MachineLearning #Slide #kNN Issue Date: 2020-07-30 近似最近傍探索の最前線, Yusuke Matsui, 2019 Comment

k-NNベースドなRecommender Systemを構築したけど、Inferenceに時間がかかって、先方のレスポンスタイムの要求が満たせない...というときに役に立ちそう。

yahooのNGTといった実装も転がっている（Apache-2.0 License）：

https://techblog.yahoo.co.jp/data_solution/ngtpython/

ScaNNという手法もあるらしい（SoTA）
https://ai-scholar.tech/articles/vector-search/scann

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

#Article #NLP #Slide Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #Survey #Dataset Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

D論： http://navatintarev.com/papers/Nava%20Tintarev_PhD_Thesis_(2010).pdf

#Article #NeuralNetwork #Tools #NLP Issue Date: 2018-11-16 AllenNLP （Official Tutorials） Comment

https://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8

LSTMの基礎から、実装する上でのTipsがまとまっている。

zero padding, dropoutのかけかた、normalizationの手法など。

#Article #MachineLearning #Slide #CurriculumLearning Issue Date: 2018-02-12 Curriculum Learning（関東CV勉強会）, Yoshitaka Ushiku, 2015.05 Comment

牛久先生によるCurriculum Learningチュートリアル

#Article #MachineTranslation #NLP #Alignment #Slide Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

LanguageModel (58)

#Pocket #NLP #AIAgents #ContextEngineering
Issue Date: 2025-11-05 [Paper Note] Context Engineering 2.0: The Context of Context Engineering, Qishuo Hua+, arXiv'25, 2025.10 GPT Summary- 本論文では、カール・マルクスの「人間の本質は社会関係の総体である」という考えを基に、機械と人間の相互作用における文脈の重要性を探求します。特に「コンテキストエンジニアリング」という概念を導入し、その歴史的背景や設計考慮事項を体系的に定義します。これにより、AIシステムにおけるコンテキストエンジニアリングの基盤を提供し、将来の可能性を示唆します。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #SoftwareEngineering
Issue Date: 2025-10-26 [Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

#Analysis #NLP #Slide #Selected Papers/Blogs #reading
Issue Date: 2025-10-07 言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…

#MachineLearning #Pocket #NLP #PostTraining Issue Date: 2025-10-17 [Paper Note] The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities, Venkatesh Balavadhani Parthasarathy+, arXiv'24, 2024.08 GPT Summary- 本報告書では、大規模言語モデル（LLMs）のファインチューニングに関する理論と実践を統合的に検討し、歴史的な進化やファインチューニング手法の比較を行っています。7段階の構造化されたパイプラインを紹介し、不均衡データセットの管理やパラメータ効率の良い手法（LoRA、Half Fine-Tuning）に重点を置いています。また、PPOやDPOなどの新しいアプローチや、検証フレームワーク、デプロイ後のモニタリングについても議論し、マルチモーダルLLMsやプライバシー、説明責任に関する課題にも触れています。研究者や実務者に実用的な洞察を提供する内容です。 Comment

元ポスト:

Loading…

#RecommenderSystems #GenerativeAI #DiffusionModel Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

#Pocket Issue Date: 2023-04-27 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Yang+, Amazon, TKDD'24 GPT Summary- 本記事は、自然言語処理（NLP）タスクにおける大規模言語モデル（LLMs）の実践的なガイドを提供し、モデルやデータ、タスクに関する洞察を示します。LLMsの概要、データの影響、知識集約型タスクや生成タスクにおける使用ケースと非使用ケースを詳述し、実用的な応用と限界を探ります。また、虚偽のバイアスや展開時の考慮事項についても言及し、研究者や実務者に役立つベストプラクティスを提供します。関連リソースは定期的に更新され、オンラインでアクセス可能です。 Comment

LLMに関するチュートリアル

Loading…

#Pocket #NLP #Chain-of-Thought Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv'23 GPT Summary- 大規模言語モデル（LLMs）は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought（CoT）推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 Comment

CoTに関するチュートリアル論文

#Survey #NLP Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv'23 GPT Summary- 本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 Comment

#Article #NLP #LLMServing #Slide #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #NLP #ReinforcementLearning #Slide #Selected Papers/Blogs Issue Date: 2025-11-15 [IBIS 2025] 深層基盤モデルのための強化学習驚きから理論にもとづく納得へ, Akifumi Wachi, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #Blog #One-Line Notes #SparseAutoEncoder Issue Date: 2025-11-06 Mapping LLMs with Sparse Autoencoders, Hussein+, 2025.11 Comment

SparseAutoEncoderを用いた機械学習モデルの特徴の可視化方法に関するチュートリアル

#Article #NLP #Evaluation #Slide #One-Line Notes Issue Date: 2025-11-02 進化する大規模言語モデル評価: Swallowプロジェクトにおける実践と知見, Naoaki Okazaki, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Slide #Japanese Issue Date: 2025-11-01 LLM-jp-3 and beyond: Training Large Language Models, Yusuke Oda, NII LLMC, 2025.10 Comment

元ポスト:

Loading…

#Article #Pretraining #NLP #Dataset #Infrastructure #PostTraining #Selected Papers/Blogs Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Robotics #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Blog #read-later Issue Date: 2025-10-11 A History of Large Language Models, Gregory Gundersen, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #LLMServing #Japanese #PostTraining Issue Date: 2025-10-05 PFN LLMセミナー, PFN, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #SoftwareEngineering #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #Reasoning #One-Line Notes Issue Date: 2025-09-29 Build A Reasoning Model （From Scratch）, Sebastian Raschka, 2025.05 Comment

元ポスト:

Loading…

#Article #NLP #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #ContextEngineering Issue Date: 2025-09-11 Context Engineering - Short-Term Memory Management with Sessions from OpenAI Agents SDK, OpenAI, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP Issue Date: 2025-08-29 つくって納得、つかって実感！大規模言語モデルことはじめ, Recruit, 2025.08 Comment

元ポスト:

Loading…

LLM入門にとても良さそう

#Article #NLP #ReinforcementLearning #Slide #PostTraining #read-later #RLVR Issue Date: 2025-08-26 The Bitter Lesson for RL: Verification as the key to Reasoning LLMs, Rishabh Agarwal, 2025.06 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Article #SyntheticData #Slide #ACL #Selected Papers/Blogs Issue Date: 2025-08-06 Synthetic Data in the Era of LLMs, Tutorial at ACL 2025 Comment

元ポスト:

Loading…

#Article #NLP #LLMServing #SoftwareEngineering #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #Metrics #NLP #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

#Article #Coding #SoftwareEngineering #MCP Issue Date: 2025-07-14 advanced-mcp-features, epicweb-dev, 2025.06 Comment

MCPの勉強に良いかもしれないのでメモ

#Article #NLP #Reasoning #LongSequence #SmallModel #MultiLingual #OpenWeight #OpenSource #Selected Papers/Blogs Issue Date: 2025-07-09 SmolLM3: smol, multilingual, long-context reasoner, HuggingFace, 2025.07 Comment

元ポスト:

Loading…

学習/評価スクリプトなどがリリース:

Loading…

#Article #Pretraining #NLP #Dataset #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #Pretraining #MachineLearning #NLP #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel) #Scaling Laws #PostTraining Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #DiffusionModel #Slide Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment

元ポスト:

Loading…

Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 でLiteratureをざっくり把握してからこちらを読むのが良さそう。

#Article #ComputerVision #NLP #DiffusionModel #Slide Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment

元ポスト:

Loading…

#Article #NLP #Blog #Reasoning #Test-Time Scaling Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #NLP #Attention #Blog Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 Comment

- GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N/A, arXiv'23

MQA, GQAの概要については上記参照のこと。

#Article #NLP #Alignment #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Pretraining #Pocket #NLP #Supervised-FineTuning (SFT) #Video Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article #EfficiencyImprovement #Pocket Issue Date: 2024-09-25 LLMの効率化・高速化を支えるアルゴリズム, Tatsuya Urabe, 2024.09 #Article #ComputerVision #MachineLearning #NLP #Repository Issue Date: 2024-09-07 ml-engineering Comment

LLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ

#Article #Slide Issue Date: 2024-09-01 大規模言語モデル（LLM）の技術と最新動向, Ikuya Yamada, 2024.06 Comment

#Article #NLP #OpenWeight #Slide Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 Comment

LLMの事前・事後学習あたりは独自ノウハウが多すぎてもはや追従困難

#Article #Pretraining #NLP #Blog Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 Comment

LLMの事前学習における知見がまとまっている記事とのこと

#Article #NLP Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #NLP #GenerativeAI #Repository #OpenSource Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

#Article #NLP Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Survey #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Survey #InformationRetrieval #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #EfficiencyImprovement #NLP Issue Date: 2023-12-15 optimize-llm, HuggingFace Comment

LLMをoptimizeする実用的なチュートリアル

こちらも有用なので参照のこと

【GPU inference】

https://huggingface.co/docs/transformers/main/perf_infer_gpu_one

#Article #NLP #Supervised-FineTuning (SFT) #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #Dataset #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #InformationRetrieval #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #NLP #Alignment #GenerativeAI #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #NLP Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 Comment

#Article #NLP Issue Date: 2023-10-10 Large Language Model （in 2023）, OpenAI Comment

LLMの研究開発動向を俯瞰するのに有用らしい

#Article Issue Date: 2023-09-29 GGML_GGUF_GPTQの違い Comment

量子化に関する技術であるGGML, GGUF, GPTQに関する詳細なまとめ

GPTQについて論文をざっくり読んでメモった GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N/A, ICLR'23

#Article #NLP Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment

#Article #NLP #Supervised-FineTuning (SFT) Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

#Article #NLP #Prompting #Blog Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Comment

experimentalな手法でprompt engineeringする際のoverview

#Article #NLP #Slide Issue Date: 2020-01-13 BERT入門, Ken'ichi Matsui, 2020 Comment

自然言語処理の王様「BERT」の論文を徹底解説

https://qiita.com/omiita/items/72998858efc19a368e50

Dataset (8)

#DocumentSummarization #NLP #TACL
Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

元ポスト:

Loading…

#Article #Blog
Issue Date: 2025-09-07 オープンデータセットのライセンスガイド, サナミ, 2024.12

#Article #Pretraining #NLP #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #LanguageModel #Evaluation Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #NLP #Evaluation #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

#Article #RecommenderSystems #Tools #Slide Issue Date: 2020-08-29 Off Policy Evaluation の基礎とOpen Bandit Dataset & Pipelineの紹介, Yuta Saito, 2020 Comment

#Article #Survey Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

Library (7)

#Article #RecommenderSystems #Embeddings #EfficiencyImprovement
Issue Date: 2023-04-25 Training a recommendation model with dynamic embeddings Comment

dynamic embeddingを使った推薦システムの構築方法の解説

#Article #NeuralNetwork #Transformer
Issue Date: 2022-12-01 BetterTransformer, Out of the Box Performance for Hugging Face Transformers Comment

たった1ライン追加するだけで、Transformerのinferenceが最大で4.5倍高速化されるBetterTransformerの解説記事

better_model = BetterTransformer.transform(model)

#Article #Tools
Issue Date: 2022-08-03 pandas tips Comment

#Article #Tools Issue Date: 2021-06-29 optuna_tips #Article #Tools #NLP #python #Slide Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment

各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用

#Article #NeuralNetwork #Tools #python Issue Date: 2021-06-06 TRTorch Comment

pytorchの推論を高速化できるライブラリ。6倍ほど早くなった模様。TorchScriptを介して変換するので、PythonだけでなくC++でも動作できるらしい。

#Article #Tools #python Issue Date: 2021-06-05 pytorch tips Comment

【PyTorchでたまに使うけどググって情報探すのに時間かかるやつ】

https://trap.jp/post/1122/

- scatter_add, einsum, Bilinear あたりが説明されている

【NLLossの細かい挙動】

https://tatsukawa.hatenablog.com/entry/2020/04/06/054700

【PyTorchで絶対nanを出したいマン】

https://qiita.com/syoamakase/items/40a716f93dc8afa8fd12

PyTorchでnanが出てしまう原因とその対策が色々書いてある

【pipで様々なCuda versionのpytorchをinstallする方法】

https://stackoverflow.com/questions/65980206/cuda-10-2-not-recognised-on-pip-installed-pytorch-1-7-1

Survey (5)

#Article #InformationRetrieval #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog
Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #InformationRetrieval #LanguageModel #Blog
Issue Date: 2024-02-22 awesome-generative-information-retrieval

#Article #Transformer Issue Date: 2023-02-14 30分で完全理解するTransformerの世界 Comment

非常に詳細で実質日本語のサーベイ論文のようなもの

#Article #Dataset Issue Date: 2019-02-12 NLP-Progress Comment

NLPの様々なタスクのデータセット, およびSOTA(2018年時点)がまとめられている。

Supervised-FineTuning (SFT) (5)

#Article #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining
Issue Date: 2025-09-22 LoRAの進化：基礎から最新のLoRA-Proまで , 松尾研究所テックブログ, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Alignment #Chain-of-Thought #Reasoning #Mathematics #PostTraining
Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #Pretraining #Pocket #NLP #LanguageModel #Video
Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Comment

スタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。

#Article #NLP #LanguageModel #Blog #PEFT(Adaptor/LoRA) #PostTraining Issue Date: 2023-11-20 Practical Tips for Finetuning LLMs Using LoRA （Low-Rank Adaptation）, SEBASTIAN RASCHKA, PHD, 2023.11 #Article #NLP #LanguageModel Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment

参考: https://www.anyscale.com/blog/fine-tuning-is-for-form-not-facts?ref=blog.langchain.dev

Loading…

RAG(RetrievalAugmentedGeneration) (5)

#Article #InformationRetrieval #NLP #Repository
Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #InformationRetrieval #NLP
Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #Survey #InformationRetrieval #NLP #LanguageModel #Blog
Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Blog Issue Date: 2023-11-22 Deconstructing RAG Comment

RAGにおける様々な戦略がまとまっている（リンク付き

#Article #InformationRetrieval #NLP #LanguageModel Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

Evaluation (4)

元ポスト:

Loading…

#Article #Pretraining #NLP #Dataset #LanguageModel #Blog #OpenWeight #Japanese #PostTraining
Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment

#Article #Dataset #LanguageModel
Issue Date: 2023-11-16 JGLUEの構築そして日本語LLM評価のこれから, 2023 Comment

#Article #NLP #Dataset #Blog Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment

各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる

GenerativeAI (4)

#RecommenderSystems #LanguageModel #DiffusionModel
Issue Date: 2024-09-24 Recommendation with Generative Models, Yashar Deldjoo+, N_A, arXiv'24 GPT Summary- 生成モデルは新しいデータを生成するAIモデルであり、GANやVAE、トランスフォーマーに基づくアーキテクチャが注目されている。特にレコメンダーシステムにおいては、Gen-RecSysが推薦の精度と多様性を向上させ、パーソナライズされたユーザー体験を提供する。本書では、深層生成モデルをID駆動モデル、LLM、マルチモーダルモデルの3つに分類し、それぞれの技術的進展を紹介。生成モデルの影響やリスクについても考察し、評価フレームワークの重要性を強調する。 Comment

生成モデルやGenerativeAIによるRecSysの教科書

#Article #Repository
Issue Date: 2024-12-12 GoogleCloudPlatform_generative-ai, Google, 2024.12 Comment

Google Cloudで生成AI（Gemini+Vertex AI）を動かすためのサンプルコード集

元ポスト:

Loading…

#Article #NLP #LanguageModel #Repository #OpenSource
Issue Date: 2024-04-14 Open Source Cookbook Comment

改めて見たら数がかなり増えていた

#Article #NLP #LanguageModel #Alignment #Hallucination #Blog Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

Alignment (3)

#Article #NLP #LanguageModel #Supervised-FineTuning (SFT) #Chain-of-Thought #Reasoning #Mathematics #PostTraining
Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment

#Article #NLP #LanguageModel #GenerativeAI #Hallucination #Blog
Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Comment

#Article #MachineTranslation #NLP #Slide
Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

MachineTranslation (2)

#NeuralNetwork #NLP
Issue Date: 2018-01-15 ゼロから始めるニューラルネットワーク機械翻訳, 中澤敏明, NLP'17 Comment

中澤さんによるNMTチュートリアル。

#Article #NLP #Alignment #Slide
Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig, 2014.03 Comment

Neubigさんによる単語アライメントチュートリアル

InteractiveRecommenderSystems (1)

#RecommenderSystems #Slide #RecSys #interactive
Issue Date: 2017-12-28 [Paper Note] Interactive Recommender Systems, Netflix, RecSys'15, 2015.09

OnlineEvaluation (1)

#InformationRetrieval #Slide #SIGIR
Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial

SentimentAnalysis (1)

#NeuralNetwork #NLP #Slide #EMNLP
Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP'16

CollaborativeFiltering (1)

#Article #RecommenderSystems #ContrastiveLearning #Blog
Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

ContrastiveLearning (1)

#Article #RecommenderSystems #CollaborativeFiltering #Blog
Issue Date: 2020-07-30 Collaborative Metric Learningまとめ, guglilac, 2020 Comment

userのembeddingに対し、このuserと共起した(購入やクリックされた)itemを近くに、共起していないitemを遠くに埋め込むような学習方法

StudentPerformancePrediction (1)

#Article #Pocket #EducationalDataMining #LearningAnalytics #KnowledgeTracing
Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

KnowledgeTracing (1)

#Article #Pocket #EducationalDataMining #LearningAnalytics #StudentPerformancePrediction
Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

DocumentSummarization (1)

#NLP #Dataset #TACL
Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL'21, NLPコロキウム Comment

出典元（リアルタイムに聴講）: 第13回 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, NLPコロキウム
https://youtu.be/3PIJotX6i_w?si=hX5pXwNL-ovkGSF5

CTRPrediction (1)

#Article #RecommenderSystems #Blog
Issue Date: 2021-10-29 バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ, ysekky, 2014 Comment

LLM-as-a-Judge (1)

#Article #RewardModel
Issue Date: 2025-07-17 [Personal Note] LLM-as-a-judge _ Reward Model

Metrics (1)

#Article #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #SoftwareEngineering #Selected Papers/Blogs #Parallelism #Inference #Batch
Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

Analysis (1)

#NLP #LanguageModel #Slide #Selected Papers/Blogs #reading
Issue Date: 2025-10-07 言語モデルの内部機序：解析と解釈, HEINZERLING+, NLP'25, 2025.03 Comment

元ポスト:

Loading…

ChatGPT (1)

#Article #Blog
Issue Date: 2025-10-08 OpenAI DevDay 2025 発表まとめ, ぬこぬこ, 2025.10 Comment

元ポスト:

Loading…

Mapping (1)

#Article #ComputerVision #Slide #ObjectLocalization #Geometric
Issue Date: 2025-11-04 Do we still need geometry for Visual Localization and Mapping?, Paul-Edouard Sarlin, 50th Pattern Recognition and Computer Vision Colloquium - CVUT, 2025.10 Comment

元ポスト:

Loading…

ScientificDiscovery (1)

#Article #ComputerVision #NLP #Blog #Japanese #Robotics
Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

InformationRetrieval (110)

LanguageModel (40)

#Survey #Pocket #NLP #MultiModal #RAG(RetrievalAugmentedGeneration) #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#Pocket #NLP #RAG(RetrievalAugmentedGeneration) #Fidelity
Issue Date: 2025-10-10 [Paper Note] Improving Context Fidelity via Native Retrieval-Augmented Reasoning, Suyuchen Wang+, arXiv'25, 2025.09 GPT Summary- CAREという新しいフレームワークを提案し、LLMsが自らの検索能力を用いて文脈における証拠を統合することで、一貫性のある回答を生成。限られたラベル付きデータで検索精度と回答生成性能を向上させ、実験により従来手法を大幅に上回ることを示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#RecommenderSystems #Embeddings #Pocket Issue Date: 2025-09-17 [Paper Note] Conan-Embedding-v2: Training an LLM from Scratch for Text Embeddings, Shiyu Li+, arXiv'25 GPT Summary- 新しい1.4BパラメータのLLM「Conan-embedding-v2」をゼロからトレーニングし、テキスト埋め込み器としてファインチューニングする手法を提案。ニュースデータと多言語ペアを追加してデータギャップを埋め、クロスリンガルリトリーバルデータセットを導入。ソフトマスキングメカニズムを用いてトークンレベルと文レベルの損失を統合し、動的ハードネガティブマイニング手法を採用。これにより、MTEBおよびChinese MTEBでSOTA性能を達成。 Comment

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #RAG(RetrievalAugmentedGeneration) #GRPO Issue Date: 2025-09-14 [Paper Note] EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes, Yuqin Dai+, arXiv'25 GPT Summary- EviNote-RAGは、オープンドメインのQAにおける「取得-ノート-回答」パイプラインを導入した新しいエージェント型RAGフレームワークです。これにより、取得された情報から有用な内容を抽出し、不確実性を強調するSupportive-Evidence Notes（SENs）を生成します。Evidence Quality Reward（EQR）を用いて推論の信頼性を高め、ノイズの影響を軽減します。実験結果では、EviNote-RAGが精度や安定性において強力なベースラインを上回り、特にHotpotQAやBamboogle、2Wikiで顕著なF1スコアの向上を達成しました。 Comment

元ポスト:

Loading…

#RecommenderSystems #Pocket #SmallModel #Reranking Issue Date: 2025-09-03 [Paper Note] ProRank: Prompt Warmup via Reinforcement Learning for Small Language Models Reranking, Xianming Li+, arXiv'25 GPT Summary- 再ランキングにおいて、SLMを用いた新しい二段階トレーニングアプローチProRankを提案。まず、強化学習を用いてSLMがタスクプロンプトを理解し、粗い関連スコアを生成。次に、ファインチューニングを行い再ランキングの質を向上。実験結果では、ProRankが先進的な再ランキングモデルを上回り、特にProRank-0.5Bモデルが32B LLMを超える性能を示した。 Comment

元ポスト:

Loading…

#RecommenderSystems #Embeddings #Pocket #NLP #RepresentationLearning #InstructionTuning #ContrastiveLearning #ICLR #Generalization #Decoder Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#ComputerVision #Embeddings #Pocket #NLP #MultiModal #RAG(RetrievalAugmentedGeneration) #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#RecommenderSystems #Embeddings #Pocket #SequentialRecommendation #Generalization Issue Date: 2025-07-08 [Paper Note] Do We Really Need Specialization? Evaluating Generalist Text Embeddings for Zero-Shot Recommendation and Search, Matteo Attimonelli+, arXiv'25 GPT Summary- 事前学習済み言語モデル（GTEs）は、逐次推薦や製品検索においてファインチューニングなしで優れたゼロショット性能を発揮し、従来のモデルを上回ることを示す。GTEsは埋め込み空間に特徴を均等に分配することで表現力を高め、埋め込み次元の圧縮がノイズを減少させ、専門モデルの性能向上に寄与する。再現性のためにリポジトリを提供。 Comment

元ポスト:

Loading…

#Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-06-17 [Paper Note] RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning, Yu Wang+, arXiv'25 GPT Summary- RAG+は、Retrieval-Augmented Generationの拡張で、知識の適用を意識した推論を組み込む。二重コーパスを用いて、関連情報を取得し、目標指向の推論に適用する。実験結果は、RAG+が標準的なRAGを3-5%、複雑なシナリオでは最大7.5%上回ることを示し、知識統合の新たなフレームワークを提供する。 Comment

元ポスト:

Loading…

知識だけでなく知識の使い方も蓄積し、利用時に検索された知識と紐づいた使い方を活用することでRAGの推論能力を向上させる。

#Pocket #NLP #Search #Dataset Issue Date: 2025-06-08 [Paper Note] Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv'25 GPT Summary- 検索強化型LLMsに関する「Search Arena」という大規模な人間の好みデータセットを紹介。24,000以上のマルチターンユーザーインタラクションを含み、ユーザーの好みが引用数や引用元に影響されることを明らかにした。特に、コミュニティ主導の情報源が好まれる傾向があり、静的な情報源は必ずしも信頼されない。検索強化型LLMsの性能を評価した結果、非検索設定でのパフォーマンス向上が確認されたが、検索設定ではパラメトリック知識に依存すると品質が低下することが分かった。このデータセットはオープンソースとして提供されている。 Comment

元ポスト:

Loading…

#Survey #Pocket #NLP #Evaluation #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #NLP #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-02-12 DeepRAG: Thinking to Retrieval Step by Step for Large Language Models, Xinyan Guan+, arXiv'25 GPT Summary- DeepRAGフレームワークを提案し、検索強化推論をマルコフ決定過程としてモデル化。クエリを反復的に分解し、外部知識の取得とパラメトリック推論の依存を動的に判断。実験により、検索効率と回答の正確性を21.99%向上させることを実証。 Comment

#Survey #Pocket Issue Date: 2024-12-30 From Matching to Generation: A Survey on Generative Information Retrieval, Xiaoxi Li+, arXiv'24 GPT Summary- 情報検索（IR）システムは、検索エンジンや質問応答などで重要な役割を果たしている。従来のIR手法は類似性マッチングに基づいていたが、事前学習された言語モデルの進展により生成情報検索（GenIR）が注目されている。GenIRは生成文書検索（GR）と信頼性のある応答生成に分かれ、GRは生成モデルを用いて文書を直接生成し、応答生成はユーザーの要求に柔軟に応える。本論文はGenIRの最新研究をレビューし、モデルのトレーニングや応答生成の進展、評価や課題についても考察する。これにより、GenIR分野の研究者に有益な参考資料を提供し、さらなる発展を促すことを目指す。 #Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-30 RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation, Xiaoxi Li+, arXiv'24 GPT Summary- RetroLLMは、リトリーバルと生成を統合したフレームワークで、LLMsがコーパスから直接証拠を生成することを可能にします。階層的FM-インデックス制約を導入し、関連文書を特定することで無関係なデコーディング空間を削減し、前向きな制約デコーディング戦略で証拠の精度を向上させます。広範な実験により、ドメイン内外のタスクで優れた性能を示しました。 Comment

元ポスト:

Loading…

従来のRAGとの違いと、提案手法の概要

#ComputerVision #NLP #Dataset #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Multi #Pocket #NLP #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-10 Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models, Tian Yu+, arXiv'24 GPT Summary- Auto-RAGは、LLMの意思決定能力を活用した自律的な反復検索モデルで、リトリーバーとのマルチターン対話を通じて知識を取得します。推論に基づく意思決定を自律的に合成し、6つのベンチマークで優れた性能を示し、反復回数を質問の難易度に応じて調整可能です。また、プロセスを自然言語で表現し、解釈可能性とユーザー体験を向上させます。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=jkVQ31GeIA

#Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-01 Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models, Fei Wang+, arXiv'24 GPT Summary- Astute RAGは、外部知識の不完全な取得による問題を解決する新しいアプローチで、LLMsの内部知識と外部知識を適応的に統合し、情報の信頼性に基づいて回答を決定します。実験により、Astute RAGは従来のRAG手法を大幅に上回り、最悪のシナリオでもLLMsのパフォーマンスを超えることが示されました。 #Analysis #Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv'24 GPT Summary- 大規模言語モデルを用いた情報検索強化生成は、文脈内の文書の順序に影響を受けやすい。研究では、質問の確率がモデルのパフォーマンスに与える影響を分析し、正確性との相関関係を明らかにした。質問の確率を指標として、プロンプトの選択と構築に関する2つの方法を提案し、その効果を実証。確率に基づく手法は効率的で、少ないモデルのパスで応答を生成できるため、プロンプト最適化の新たな方向性を示す。 Comment

参考: [RAGのハルシネーションを尤度で防ぐ, sasakuna, 2024.11.19]( https://zenn.dev/knowledgesense/articles/7c47e1796e96c0)

#Pocket #RelevanceJudgment #Evaluation Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル（LLM）を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment

元ポスト:

Loading…

UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。

#Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv'24 GPT Summary- リトリーバル拡張システムにおいて、LLMのファインチューニングを必要とせず、埋め込みの類似性とLLMの能力を組み合わせたスケーラブルなランキングフレームワークを提案。ユーザーのクエリに基づいて仮定されたクエリとの類似性でコンテキストを再順位付けし、推論時に効率的で他の技術とも互換性がある。実験により、提案手法がランキング性能を向上させることを示した。 Comment

#Survey #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#Evaluation Issue Date: 2024-09-24 Report on the 1st Workshop on Large Language Model for Evaluation in Information Retrieval （LLM4Eval 2024） at SIGIR 2024, Hossein A. Rahmani+, N_A, arXiv'24 GPT Summary- LLM4Eval 2024ワークショップがSIGIR 2024で開催され、情報検索における評価のための大規模言語モデルに関する研究者が集まりました。新規性を重視し、受理論文のパネルディスカッションやポスターセッションを通じて多面的な議論が行われました。 Comment

LLMを用いたIRシステムの評価方法に関するワークショップのレポート。レポート中にAccepted Paperがリストアップされている。

#Pocket #RelevanceJudgment Issue Date: 2024-09-24 Don't Use LLMs to Make Relevance Judgments, Ian Soboroff, N_A, arXiv'24 GPT Summary- TRECスタイルの関連性判断は高コストで複雑であり、通常は訓練を受けた契約者チームが必要です。最近の大規模言語モデルの登場により、情報検索研究者はこれらのモデルの利用可能性を考え始めました。ACM SIGIR 2024カンファレンスでの「LLM4Eval」ワークショップでは、TRECの深層学習トラックの判断を再現するデータチャレンジが行われました。本論文はその基調講演をまとめたもので、TRECスタイルの評価においてLLMを使用しないことを提言しています。 Comment

興味深い！！後で読む！

#Pocket #NLP #Supervised-FineTuning (SFT) #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv'24 GPT Summary- 大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning（RAFT）を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 Comment

Question, instruction, coxtext, cot style answerの4つを用いてSFTをする模様
画像は下記ツイートより引用

Loading…

#Pocket #NLP #Prompting #Reasoning Issue Date: 2024-04-07 RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N_A, arXiv'24 GPT Summary- LLMsは推論タスクで優れた性能を発揮しているが、論理エラーが起こりやすい。RankPromptという新しいプロンプティング方法を導入し、LLMsが自己ランク付けを行い推論パフォーマンスを向上させる。実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させ、AlpacaEvalデータセットで人間の判断と74%の一致率を示すことが示された。RankPromptは言語モデルから高品質なフィードバックを引き出す効果的な方法であることが示された。 Comment

#LearningToRank #PairWise #NLP #Prompting #NAACL Issue Date: 2023-07-11 Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting, Zhen Qin+, N_A, NAACL'24 GPT Summary- LLMsを使用してドキュメントをランキングする際に、Pairwise Ranking Prompting（PRP）という新しい技術を提案する。PRPは、LLMsへの負荷を軽減し、最先端のランキングパフォーマンスを達成することができる。具体的には、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、商用のGPT-4に基づく従来の手法を上回る結果を示した。さらに、PRPのバリアントを提案し、効率を改善することができることを示した。PRPは生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることも示された。 Comment

open source LLMにおいてスタンダードなランキングタスクのベンチマークでSoTAを達成できるようなprompting技術を提案

#RecommenderSystems #Survey #Pocket #SequentialRecommendation Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。 #Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-12-01 Improving the Domain Adaptation of Retrieval Augmented Generation （RAG） Models for Open Domain Question Answering, Siriwardhana+, TACL'23, 2023.01 GPT Summary- RAG-end2endは、ODQAにおけるドメイン適応のためにRAGのリトリーバーとジェネレーターを共同訓練する新しいアプローチを提案。外部知識ベースを更新し、補助的な訓練信号を導入することで、ドメイン特化型知識を強化。COVID-19、ニュース、会話のデータセットで評価し、元のRAGモデルよりも性能が向上。研究はオープンソースとして公開。 #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #ACL Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, ACL'23 GPT Summary- 本研究では、ゼロショット密な検索システムの構築において、仮想文書埋め込み（HyDE）を提案。クエリに基づき、指示に従う言語モデルが仮想文書を生成し、教師なしで学習されたエンコーダがこれを埋め込みベクトルに変換。実際のコーパスに基づく類似文書を取得することで、誤った詳細をフィルタリング。実験結果では、HyDEが最先端の密な検索器Contrieverを上回り、様々なタスクと言語で強力なパフォーマンスを示した。 #NLP #KnowledgeGraph #Factuality #NaturalLanguageUnderstanding Issue Date: 2023-07-14 Direct Fact Retrieval from Knowledge Graphs without Entity Linking, ACL'23 GPT Summary- 従来の知識取得メカニズムの制限を克服するために、我々はシンプルな知識取得フレームワークであるDiFaRを提案する。このフレームワークは、入力テキストに基づいて直接KGから事実を取得するものであり、言語モデルとリランカーを使用して事実のランクを改善する。DiFaRは複数の事実取得タスクでベースラインよりも優れた性能を示した。 #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ContextEngineering Issue Date: 2023-12-01 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis+, N_A, NeurIPS'20 GPT Summary- 大規模な事前学習言語モデルを使用した検索強化生成（RAG）の微調整手法を提案しました。RAGモデルは、パラメトリックメモリと非パラメトリックメモリを組み合わせた言語生成モデルであり、幅広い知識集約的な自然言語処理タスクで最先端の性能を発揮しました。特に、QAタスクでは他のモデルを上回り、言語生成タスクでは具体的で多様な言語を生成することができました。 Comment

RAGを提案した研究

Retrieverとして利用されているDense Passage Retrieval (DPR)はこちら:
- [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04

#Article #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #Pocket #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #Tutorial #Survey #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Tutorial #Survey #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Comment

めちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。

#Article #NLP #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment

実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用

#Article #Tutorial #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #Tools #NLP #Library #AIAgents Issue Date: 2023-04-21 LangChain Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da

RAG(RetrievalAugmentedGeneration) (39)

#Survey #Pocket #NLP #LanguageModel #MultiModal #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#Pocket #NLP #LanguageModel #Fidelity
Issue Date: 2025-10-10 [Paper Note] Improving Context Fidelity via Native Retrieval-Augmented Reasoning, Suyuchen Wang+, arXiv'25, 2025.09 GPT Summary- CAREという新しいフレームワークを提案し、LLMsが自らの検索能力を用いて文脈における証拠を統合することで、一貫性のある回答を生成。限られたラベル付きデータで検索精度と回答生成性能を向上させ、実験により従来手法を大幅に上回ることを示した。 Comment

元ポスト:

Loading…

#RecommenderSystems #Embeddings #Pocket #NLP #MultiModal
Issue Date: 2025-10-07 [Paper Note] Omni-Embed-Nemotron: A Unified Multimodal Retrieval Model for Text, Image, Audio, and Video, Mengyao Xu+, arXiv'25, 2025.10 GPT Summary- 「Omni-Embed-Nemotron」は、複雑な情報ニーズに応えるための統一的なマルチモーダル検索埋め込みモデルです。従来のテキストベースのリトリーバーが視覚的に豊かなコンテンツに対応できない中、ColPaliの研究を基に、テキスト、画像、音声、動画を統合した検索を実現します。このモデルは、クロスモーダルおよびジョイントモーダル検索を可能にし、そのアーキテクチャと評価結果を通じて、検索の効果を実証しています。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #Evaluation #Factuality #Reasoning #NAACL Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #Pocket #NLP #Dataset #LanguageModel #Evaluation Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Pocket #NLP #LanguageModel #ReinforcementLearning #GRPO Issue Date: 2025-09-14 [Paper Note] EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes, Yuqin Dai+, arXiv'25 GPT Summary- EviNote-RAGは、オープンドメインのQAにおける「取得-ノート-回答」パイプラインを導入した新しいエージェント型RAGフレームワークです。これにより、取得された情報から有用な内容を抽出し、不確実性を強調するSupportive-Evidence Notes（SENs）を生成します。Evidence Quality Reward（EQR）を用いて推論の信頼性を高め、ノイズの影響を軽減します。実験結果では、EviNote-RAGが精度や安定性において強力なベースラインを上回り、特にHotpotQAやBamboogle、2Wikiで顕著なF1スコアの向上を達成しました。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #ContextWindow #read-later Issue Date: 2025-09-10 [Paper Note] Efficient Context Selection for Long-Context QA: No Tuning, No Iteration, Just Adaptive-$k$, Chihiro Taguchi+, arXiv'25 GPT Summary- Adaptive-$k$ retrievalを提案し、クエリと候補パッセージの類似度に基づいて適応的にパッセージ数を選択。これにより、固定サイズのベースラインと同等以上の性能を発揮し、トークン使用量を最大10倍削減しつつ70%の関連パッセージを取得。LCLMsと埋め込みモデルで精度向上を実現し、動的なコンテキストサイズ調整が効率的なQAに寄与することを示す。 Comment

元ポスト:

Loading…

実務上コストを抑えられるのは非常に嬉しい。あとで読む。

#ComputerVision #Embeddings #Pocket #NLP #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #VisionLanguageModel Issue Date: 2025-07-09 [Paper Note] VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents, Rui Meng+, arXiv'25 GPT Summary- VLM2Vec-V2という統一フレームワークを提案し、テキスト、画像、動画、視覚文書を含む多様な視覚形式の埋め込みを学習。新たにMMEB-V2ベンチマークを導入し、動画検索や視覚文書検索など5つのタスクを追加。広範な実験により、VLM2Vec-V2は新タスクで強力なパフォーマンスを示し、従来の画像ベンチマークでも改善を達成。研究はマルチモーダル埋め込みモデルの一般化可能性に関する洞察を提供し、スケーラブルな表現学習の基盤を築く。 Comment

元ポスト:

Loading…

Video Classification, Visual Document Retrievalなどのモダリティも含まれている。

#Pocket #NLP #LanguageModel Issue Date: 2025-06-17 [Paper Note] RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning, Yu Wang+, arXiv'25 GPT Summary- RAG+は、Retrieval-Augmented Generationの拡張で、知識の適用を意識した推論を組み込む。二重コーパスを用いて、関連情報を取得し、目標指向の推論に適用する。実験結果は、RAG+が標準的なRAGを3-5%、複雑なシナリオでは最大7.5%上回ることを示し、知識統合の新たなフレームワークを提供する。 Comment

元ポスト:

Loading…

知識だけでなく知識の使い方も蓄積し、利用時に検索された知識と紐づいた使い方を活用することでRAGの推論能力を向上させる。

#Survey #Pocket #NLP #LanguageModel #Evaluation Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #NLP #Evaluation Issue Date: 2025-03-25 ExpertGenQA: Open-ended QA generation in Specialized Domains, Haz Sameen Shahgir+, arXiv'25 GPT Summary- ExpertGenQAは、少数ショット学習とトピック・スタイル分類を組み合わせたQAペア生成プロトコルで、米国連邦鉄道局の文書を用いて94.4%のトピックカバレッジを維持しつつ、ベースラインの2倍の効率を達成。評価では、LLMベースのモデルが内容よりも文体に偏ることが判明し、ExpertGenQAは専門家の質問の認知的複雑性をより良く保持。生成したクエリは、リトリーバルモデルの精度を13.02%向上させ、技術分野での有効性を示した。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2025-02-12 DeepRAG: Thinking to Retrieval Step by Step for Large Language Models, Xinyan Guan+, arXiv'25 GPT Summary- DeepRAGフレームワークを提案し、検索強化推論をマルコフ決定過程としてモデル化。クエリを反復的に分解し、外部知識の取得とパラメトリック推論の依存を動的に判断。実験により、検索効率と回答の正確性を21.99%向上させることを実証。 Comment

#NLP #Dataset #AIAgents #Evaluation #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#Pocket #NLP #LanguageModel Issue Date: 2024-12-30 RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation, Xiaoxi Li+, arXiv'24 GPT Summary- RetroLLMは、リトリーバルと生成を統合したフレームワークで、LLMsがコーパスから直接証拠を生成することを可能にします。階層的FM-インデックス制約を導入し、関連文書を特定することで無関係なデコーディング空間を削減し、前向きな制約デコーディング戦略で証拠の精度を向上させます。広範な実験により、ドメイン内外のタスクで優れた性能を示しました。 Comment

元ポスト:

Loading…

従来のRAGとの違いと、提案手法の概要

#ComputerVision #NLP #Dataset #LanguageModel #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Multi #Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-12-10 Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models, Tian Yu+, arXiv'24 GPT Summary- Auto-RAGは、LLMの意思決定能力を活用した自律的な反復検索モデルで、リトリーバーとのマルチターン対話を通じて知識を取得します。推論に基づく意思決定を自律的に合成し、6つのベンチマークで優れた性能を示し、反復回数を質問の難易度に応じて調整可能です。また、プロセスを自然言語で表現し、解釈可能性とユーザー体験を向上させます。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=jkVQ31GeIA

#Pocket #NLP #LanguageModel Issue Date: 2024-12-01 Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models, Fei Wang+, arXiv'24 GPT Summary- Astute RAGは、外部知識の不完全な取得による問題を解決する新しいアプローチで、LLMsの内部知識と外部知識を適応的に統合し、情報の信頼性に基づいて回答を決定します。実験により、Astute RAGは従来のRAG手法を大幅に上回り、最悪のシナリオでもLLMsのパフォーマンスを超えることが示されました。 #Analysis #Pocket #NLP #LanguageModel Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv'24 GPT Summary- 大規模言語モデルを用いた情報検索強化生成は、文脈内の文書の順序に影響を受けやすい。研究では、質問の確率がモデルのパフォーマンスに与える影響を分析し、正確性との相関関係を明らかにした。質問の確率を指標として、プロンプトの選択と構築に関する2つの方法を提案し、その効果を実証。確率に基づく手法は効率的で、少ないモデルのパスで応答を生成できるため、プロンプト最適化の新たな方向性を示す。 Comment

参考: [RAGのハルシネーションを尤度で防ぐ, sasakuna, 2024.11.19]( https://zenn.dev/knowledgesense/articles/7c47e1796e96c0)

#Pocket #NLP #LanguageModel Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv'24 GPT Summary- リトリーバル拡張システムにおいて、LLMのファインチューニングを必要とせず、埋め込みの類似性とLLMの能力を組み合わせたスケーラブルなランキングフレームワークを提案。ユーザーのクエリに基づいて仮定されたクエリとの類似性でコンテキストを再順位付けし、推論時に効率的で他の技術とも互換性がある。実験により、提案手法がランキング性能を向上させることを示した。 Comment

#NLP #Attack Issue Date: 2024-11-07 Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors, Yuefeng Peng+, arXiv'24 GPT Summary- RAGシステムの知識データベースに対するデータ抽出攻撃を調査し、ファインチューニングによって攻撃成功率を低下させることができると示す。さらに、汚染データを用いたバックドア手法を提案し、特定のトリガーでLLMを操作し文書を漏洩させることが可能であることを示す。3%の汚染データで高い成功率を達成し、RAGシステムのプライバシーリスクを強調。 Comment

prompt injectionにつかわれたpromptはこちら。

#Survey #NLP #LanguageModel Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#Pocket #NLP #Chain-of-Thought Issue Date: 2024-04-14 RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, N_A, arXiv'24 GPT Summary- 大規模言語モデルの推論および生成能力を向上させ、幻覚を軽減する方法として、情報検索を利用して思考の連鎖を修正する「retrieval-augmented thoughts（RAT）」が提案された。この方法は、ゼロショットのCoTが生成された後、取得した情報を使用して各思考ステップを修正する。GPT-3.5、GPT-4、およびCodeLLaMA-7bにRATを適用することで、コード生成、数学的推論、創造的な執筆、具体的なタスク計画などのタスクでパフォーマンスが大幅に向上した。デモページはhttps://craftjarvis.github.io/RATで利用可能。 Comment

コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した、みたいな話があるのかが気になる。

#Pocket #NLP #LanguageModel #Supervised-FineTuning (SFT) Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv'24 GPT Summary- 大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning（RAFT）を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 Comment

Question, instruction, coxtext, cot style answerの4つを用いてSFTをする模様
画像は下記ツイートより引用

Loading…

#Pocket #NLP #LanguageModel Issue Date: 2024-12-01 Improving the Domain Adaptation of Retrieval Augmented Generation （RAG） Models for Open Domain Question Answering, Siriwardhana+, TACL'23, 2023.01 GPT Summary- RAG-end2endは、ODQAにおけるドメイン適応のためにRAGのリトリーバーとジェネレーターを共同訓練する新しいアプローチを提案。外部知識ベースを更新し、補助的な訓練信号を導入することで、ドメイン特化型知識を強化。COVID-19、ニュース、会話のデータセットで評価し、元のRAGモデルよりも性能が向上。研究はオープンソースとして公開。 #Pocket #NLP #LanguageModel #ACL Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, ACL'23 GPT Summary- 本研究では、ゼロショット密な検索システムの構築において、仮想文書埋め込み（HyDE）を提案。クエリに基づき、指示に従う言語モデルが仮想文書を生成し、教師なしで学習されたエンコーダがこれを埋め込みベクトルに変換。実際のコーパスに基づく類似文書を取得することで、誤った詳細をフィルタリング。実験結果では、HyDEが最先端の密な検索器Contrieverを上回り、様々なタスクと言語で強力なパフォーマンスを示した。 #Pocket #NLP #LanguageModel #NeurIPS #Selected Papers/Blogs #Encoder-Decoder #ContextEngineering Issue Date: 2023-12-01 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis+, N_A, NeurIPS'20 GPT Summary- 大規模な事前学習言語モデルを使用した検索強化生成（RAG）の微調整手法を提案しました。RAGモデルは、パラメトリックメモリと非パラメトリックメモリを組み合わせた言語生成モデルであり、幅広い知識集約的な自然言語処理タスクで最先端の性能を発揮しました。特に、QAタスクでは他のモデルを上回り、言語生成タスクでは具体的で多様な言語を生成することができました。 Comment

RAGを提案した研究

Retrieverとして利用されているDense Passage Retrieval (DPR)はこちら:
- [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04

#Article #DocumentSummarization #NLP #AIAgents #Pruning #Blog #SoftwareEngineering #ContextEngineering Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #Tutorial #NLP #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #Pocket #Blog Issue Date: 2024-12-01 BM42: New Baseline for Hybrid Search, Qdrant, 2024.07 #Article #Tutorial #NLP Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #Pocket #NLP #LanguageModel #Blog Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #Embeddings #NLP #Blog Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Comment

#Article #Pocket #NLP #LanguageModel #Blog Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #Tutorial #Survey #NLP #LanguageModel #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #NLP #LanguageModel Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Comment

めちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。

#Article #NLP #Blog Issue Date: 2023-12-21 Structured Hierarchical Retrieval, llama-index Comment

元ツイート:

Loading…

#Article #Blog Issue Date: 2023-12-21 Build a search engine, not a vector DB #Article #NLP #LanguageModel #Blog Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment

実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用

#Article #Tutorial #NLP #LanguageModel Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

Survey (14)

#Pocket #NLP #LanguageModel #MultiModal #RAG(RetrievalAugmentedGeneration) #VisionLanguageModel #Encoder #One-Line Notes
Issue Date: 2025-10-20 [Paper Note] Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding, Sensen Gao+, arXiv'25, 2025.10 GPT Summary- 文書理解は多様なアプリケーションにおいて重要であり、現在のアプローチには制限がある。特に、OCRベースのパイプラインは構造的詳細を失い、マルチモーダルLLMsはコンテキストモデリングに苦労している。リトリーバル強化生成（RAG）は外部データを活用するが、文書のマルチモーダル性にはマルチモーダルRAGが必要である。本論文では、文書理解のためのマルチモーダルRAGに関する体系的な調査を行い、分類法や進展をレビューし、主要なデータセットや課題をまとめ、文書AIの今後の進展に向けたロードマップを提供する。 Comment

元ポスト:

Loading…

multimodal RAGに関するSurvey

#Pocket #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #LanguageModel
Issue Date: 2024-12-30 From Matching to Generation: A Survey on Generative Information Retrieval, Xiaoxi Li+, arXiv'24 GPT Summary- 情報検索（IR）システムは、検索エンジンや質問応答などで重要な役割を果たしている。従来のIR手法は類似性マッチングに基づいていたが、事前学習された言語モデルの進展により生成情報検索（GenIR）が注目されている。GenIRは生成文書検索（GR）と信頼性のある応答生成に分かれ、GRは生成モデルを用いて文書を直接生成し、応答生成はユーザーの要求に柔軟に応える。本論文はGenIRの最新研究をレビューし、モデルのトレーニングや応答生成の進展、評価や課題についても考察する。これにより、GenIR分野の研究者に有益な参考資料を提供し、さらなる発展を促すことを目指す。

#NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）は外部データを活用することで実世界のタスクを遂行する能力を示すが、データ強化型LLMsの効果的な展開には多くの課題がある。これには、関連データの取得やユーザーの意図の解釈、複雑なタスクに対する推論能力の活用が含まれる。本研究では、RAGタスクを四つのクエリレベルに分類し、関連データセットや課題、技術を要約する。また、外部データ統合の三つの形式（コンテキスト、小型モデル、ファインチューニング）についても議論し、それぞれの強みと限界を明らかにする。これにより、データ要件とLLMアプリケーション構築のボトルネックを理解し、体系的な開発のためのガイドを提供することを目指す。 Comment

RAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey

#RecommenderSystems #Pocket #LanguageModel #SequentialRecommendation Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。 #Article #Tutorial #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Tutorial #LanguageModel #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #RecommenderSystems #Personalization Issue Date: 2023-04-28 Measuring the impact of online personalisation: Past, present and future Comment

#Article #Personalization Issue Date: 2023-04-28 User Profiles for Personalized Information Access, Gauch+, The adaptive Web: methods and strategies of Web personalization, 2007 Comment

#Article #RelevanceFeedback #ImplicitFeedback Issue Date: 2018-01-01 [Paper Note] Evaluating implicit measures to improve web search, Fox+, ACM Transactions on Imformation Systems, 2005 #Article #RelevanceFeedback #ExplicitFeedback Issue Date: 2018-01-01 [Paper Note] A survey on the use of relevance feedback for information access systems., Ruthven+, The Knowledge Engineering Review, 2003 #Article #LearningToRank #Online/Interactive Issue Date: 2018-01-01 Fast and Reliable Online Learning to Rank for Information Retrieeval, Katja Hofmann, Doctoral Thesis, 2013 #Article #LearningToRank Issue Date: 2018-01-01 [Paper Note] Learning to Rank for Information Retriefval, Liu+, 2009 #Article #Personalization #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Personalised Information retrieval: survey and classification, Rami+, User Modeling and User-Adapted Interaction, 2012.05 Comment

（以下は管理人が当時作成したスライドでのメモのスクショ）

完全に途中で力尽きている感

Tutorial (12)

#RecommenderSystems #NeuralNetwork #Slide #SIGKDD
Issue Date: 2018-02-16 Deep Learning for Personalized Search and Recommender Systems, KDD'17 #LearningToRank #Online/Interactive #SIGIR
Issue Date: 2018-01-01 [Paper Note] Online Learning to Rank for Information Retrieval, Grotov+, SIGIR'16 #LearningToRank #Slide
Issue Date: 2018-01-01 Machine Learning for Information Retrieval, Hofmann, ESSIR'15

#OnlineEvaluation #Slide #SIGIR Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial #Article #NLP #RAG(RetrievalAugmentedGeneration) #Repository Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment

元ポスト:

Loading…

RAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常に良さそう

#Article #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #Survey #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #Blog Issue Date: 2024-03-05 RAG-Research-Insights Comment

RAGに関する研究が直近のものまでよくまとめられている

#Article #Survey #LanguageModel #Blog Issue Date: 2024-02-22 awesome-generative-information-retrieval #Article #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment

#Article #LearningToRank Issue Date: 2018-01-01 From RankNet to LambdaRank to LambdaMART: An Overview, Burges, Microsoft Research Technical Report, 2010 #Article #LearningToRank #Slide Issue Date: 2018-01-01 Confidence Weightedでランク学習を実装してみた, 徳永拓之, 第4回自然言語処理勉強会@東京 #Article #LearningToRank #Slide Issue Date: 2018-01-01 ランキング学習ことはじめ, DSIRNLP#1, 2011

Evaluation (8)

#Pocket #NLP #Dataset #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL
Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #Pocket #NLP #Dataset #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Survey #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv'25 GPT Summary- RAGシステムの評価手法を63件の論文を基にレビューし、データセット、リトリーバー、インデクシング、生成コンポーネントの4領域に焦点を当てる。自動評価アプローチの実現可能性を観察し、LLMを活用した評価データセットの生成を提案。企業向けに実装と評価の指針を提供するための実践的研究の必要性を強調し、評価手法の進展と信頼性向上に寄与する。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #NLP #RAG(RetrievalAugmentedGeneration) Issue Date: 2025-03-25 ExpertGenQA: Open-ended QA generation in Specialized Domains, Haz Sameen Shahgir+, arXiv'25 GPT Summary- ExpertGenQAは、少数ショット学習とトピック・スタイル分類を組み合わせたQAペア生成プロトコルで、米国連邦鉄道局の文書を用いて94.4%のトピックカバレッジを維持しつつ、ベースラインの2倍の効率を達成。評価では、LLMベースのモデルが内容よりも文体に偏ることが判明し、ExpertGenQAは専門家の質問の認知的複雑性をより良く保持。生成したクエリは、リトリーバルモデルの精度を13.02%向上させ、技術分野での有効性を示した。 Comment

元ポスト:

Loading…

#NLP #Dataset #AIAgents #RAG(RetrievalAugmentedGeneration) #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#Pocket #RelevanceJudgment #LanguageModel Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル（LLM）を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment

元ポスト:

Loading…

UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。

#LanguageModel Issue Date: 2024-09-24 Report on the 1st Workshop on Large Language Model for Evaluation in Information Retrieval （LLM4Eval 2024） at SIGIR 2024, Hossein A. Rahmani+, N_A, arXiv'24 GPT Summary- LLM4Eval 2024ワークショップがSIGIR 2024で開催され、情報検索における評価のための大規模言語モデルに関する研究者が集まりました。新規性を重視し、受理論文のパネルディスカッションやポスターセッションを通じて多面的な議論が行われました。 Comment

LLMを用いたIRシステムの評価方法に関するワークショップのレポート。レポート中にAccepted Paperがリストアップされている。

#Pocket #NLP #Search #Dataset #ACL Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, ACL'23 GPT Summary- QUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。

Dataset (7)

#Pocket #NLP #Evaluation #Factuality #RAG(RetrievalAugmentedGeneration) #Reasoning #NAACL
Issue Date: 2025-09-18 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, NAACL'25 GPT Summary- 大規模言語モデル（LLMs）の性能向上を活かし、情報検索強化生成（RAG）機能を向上させるための評価データセットFRAMESを提案。FRAMESは、事実に基づいた応答、検索能力、推論を評価するための統一されたフレームワークを提供し、複数の情報源を統合するマルチホップ質問で構成。最先端のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に寄与することを目指す。 #Pocket #NLP #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-09-18 [Paper Note] WebWalker: Benchmarking LLMs in Web Traversal, Jialong Wu+, arXiv'25 GPT Summary- WebWalkerQAを導入し、LLMがウェブのサブページから高品質なデータを抽出する能力を評価。探査-批評のパラダイムを用いたマルチエージェントフレームワークWebWalkerを提案し、実験によりRAGの効果を実証。 Comment

web pageのコンテンツを辿らないと回答できないQAで構成されたベンチマーク

#Pocket #NLP #Search #LanguageModel
Issue Date: 2025-06-08 [Paper Note] Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv'25 GPT Summary- 検索強化型LLMsに関する「Search Arena」という大規模な人間の好みデータセットを紹介。24,000以上のマルチターンユーザーインタラクションを含み、ユーザーの好みが引用数や引用元に影響されることを明らかにした。特に、コミュニティ主導の情報源が好まれる傾向があり、静的な情報源は必ずしも信頼されない。検索強化型LLMsの性能を評価した結果、非検索設定でのパフォーマンス向上が確認されたが、検索設定ではパラメトリック知識に依存すると品質が低下することが分かった。このデータセットはオープンソースとして提供されている。 Comment

元ポスト:

Loading…

#NLP #AIAgents #Evaluation #RAG(RetrievalAugmentedGeneration) #NAACL Issue Date: 2024-10-20 [Paper Note] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, NAACL'25 GPT Summary- LLMsを用いた情報検索強化生成（RAG）システムの性能評価のために、FRAMESという新しい評価データセットを提案。これは、事実に基づく応答、検索能力、推論を統一的に評価するもので、複数の情報源を統合するマルチホップ質問を含む。最新のLLMでも0.40の精度に留まる中、提案するマルチステップ検索パイプラインにより精度が0.66に向上し、RAGシステムの開発に貢献することを目指す。 Comment

RAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク
元ポスト:

Loading…

#ComputerVision #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #MultiLingual #COLING #VisionLanguageModel Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv'24 GPT Summary- 視覚言語モデル（VLM）を評価するための新しいベンチマークVLR-Benchを提案。これは5つの入力パッセージを用いて、特定のクエリに対する有用な情報の判断能力をテストする。32,000の自動生成された指示からなるデータセットVLR-IFを構築し、VLMのRAG能力を強化。Llama3ベースのモデルで性能を検証し、両データセットはオンラインで公開。 Comment

Multilingual VLMを用いたRAGのベンチマークデータセット

#Pocket #MultiModal Issue Date: 2023-12-01 UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N_A, arXiv'23 GPT Summary- 従来の情報検索モデルは一様な形式を前提としているため、異なる情報検索の要求に対応できない。そこで、UniIRという統一された指示に基づくマルチモーダルリトリーバーを提案する。UniIRは異なるリトリーバルタスクを処理できるように設計され、10のマルチモーダルIRデータセットでトレーニングされる。実験結果はUniIRの汎化能力を示し、M-BEIRというマルチモーダルリトリーバルベンチマークも構築された。 Comment

後で読む（画像は元ツイートより

元ツイート:

Loading…

#Pocket #NLP #Search #Evaluation #ACL Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, ACL'23 GPT Summary- QUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。

RelevanceJudgment (5)

#Pocket #LanguageModel #Evaluation
Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv'24 GPT Summary- 本研究では、TREC 2024 RAG Trackにおける大規模言語モデル（LLM）を用いた関連性評価の結果を報告。UMBRELAツールを活用した自動生成評価と従来の手動評価の相関を分析し、77の実行セットにおいて高い相関を示した。LLMの支援は手動評価との相関を高めず、人間評価者の方が厳格であることが示唆された。この研究は、TRECスタイルの評価におけるLLMの使用を検証し、今後の研究の基盤を提供する。 Comment

元ポスト:

Loading…

UMBRELAでRelevance Scoreを生成する際に利用されたプロンプト。

#Pocket #LanguageModel
Issue Date: 2024-09-24 Don't Use LLMs to Make Relevance Judgments, Ian Soboroff, N_A, arXiv'24 GPT Summary- TRECスタイルの関連性判断は高コストで複雑であり、通常は訓練を受けた契約者チームが必要です。最近の大規模言語モデルの登場により、情報検索研究者はこれらのモデルの利用可能性を考え始めました。ACM SIGIR 2024カンファレンスでの「LLM4Eval」ワークショップでは、TRECの深層学習トラックの判断を再現するデータチャレンジが行われました。本論文はその基調講演をまとめたもので、TRECスタイルの評価においてLLMを使用しないことを提言しています。 Comment

興味深い！！後で読む！

#Article #DocumentSummarization #NLP #Snippets #QueryBiased #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003.09 Comment

#Article #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Relevance judgment: What do information users consider beyond topicality? Xu Chen, Journal of the American Society for Information Science and Technology, 2006.05 Comment

・relevanceとsignificantに関連するcriteriaは，topicalityとnovelty

・reliabilityおよびunderstandabilityはsmaller degreeでsignificant, scopeはsignificantでない

#Article #One-Line Notes Issue Date: 2017-12-28 [Paper Note] A cognitive model of document use during a research project, Wang and Soergel, Journal of the American Society for Information Science, 1998.02 Comment

topicality, orientation, quality, novelty（の順番で）がrelevantなdocumentを選択したときのcriteriaとして採用されていたことを報告

DocumentSummarization (4)

#Multi #PersonalizedDocumentSummarization #NLP #QueryBiased #Personalization #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] Personalized Multi-document Summarization in Information Retrieval, Yang+, Machine Learning and Cybernetics'08, 2008.07 Comment

#NLP #Search #SIGIR #Selected Papers/Blogs
Issue Date: 2018-01-17 [Paper Note] The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR'98 Comment

#Article #NLP #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #NLP #RelevanceJudgment #Snippets #QueryBiased #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003.09 Comment

Library (4)

#Article #Embeddings #Search #Repository
Issue Date: 2023-04-27 Awesome Vector Search Engine Comment

ベクトルの類似度を測るサービスやライブラリ等がまとまったリポジトリ

#Article
Issue Date: 2023-04-26 Contrirver #Article #Tools #NLP #AIAgents
Issue Date: 2023-04-22 Llamaindex Comment

- LlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた

- https://dev.classmethod.jp/articles/llama-index-insert-index/

#Article #Tools #NLP #LanguageModel #AIAgents Issue Date: 2023-04-21 LangChain Comment

- LangChain の Googleカスタム検索連携を試す

- https://note.com/npaka/n/nd9a4a26a8932

- LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents

- https://zenn.dev/kun432/scraps/8216511783e3da

Analysis (3)

#Embeddings #Pocket #Search
Issue Date: 2025-09-01 [Paper Note] On the Theoretical Limitations of Embedding-Based Retrieval, Orion Weller+, arXiv'25 GPT Summary- ベクトル埋め込みは検索タスクにおいて重要な役割を果たしているが、シンプルなクエリでも理論的限界に直面する可能性があることを示す。特に、埋め込みの次元が文書のトップ-kサブセットの数を制限し、k=2でもこの制限が成り立つことを実証。新たに作成したデータセット「LIMIT」では、最先端モデルでさえ失敗することが観察され、既存の埋め込みモデルの限界を明らかにし、今後の研究の必要性を提唱している。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv'24 GPT Summary- 大規模言語モデルを用いた情報検索強化生成は、文脈内の文書の順序に影響を受けやすい。研究では、質問の確率がモデルのパフォーマンスに与える影響を分析し、正確性との相関関係を明らかにした。質問の確率を指標として、プロンプトの選択と構築に関する2つの方法を提案し、その効果を実証。確率に基づく手法は効率的で、少ないモデルのパスで応答を生成できるため、プロンプト最適化の新たな方向性を示す。 Comment

参考: [RAGのハルシネーションを尤度で防ぐ, sasakuna, 2024.11.19]( https://zenn.dev/knowledgesense/articles/7c47e1796e96c0)

#Comments #WWW
Issue Date: 2018-01-15 [Paper Note] Leave a Reply: An Analysis of Weblog Comments, Mishne+, WWW'06 Comment

従来のWeblog研究では、コメントの情報が無視されていたが、コメントも重要な情報を含んでいると考えられる。

この研究では、以下のことが言及されている。

* （収集したデータの）ブログにコメントが付与されている割合やコメントの長さ、ポストに対するコメントの平均などの統計量

* ブログ検索におけるコメント活用の有効性（一部のクエリでRecallの向上に寄与、Precisionは変化なし）。記事単体を用いるのとは異なる観点からのランキングが作れる。

* コメント数とPV数、incoming link数の関係性など

* コメント数とランキングの関係性など

* コメントにおける議論の同定など

相当流し読みなので、読み違えているところや、重要な箇所の読み落とし等あるかもしれない。

Supervised-FineTuning (SFT) (3)

#Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-02-12 DeepRAG: Thinking to Retrieval Step by Step for Large Language Models, Xinyan Guan+, arXiv'25 GPT Summary- DeepRAGフレームワークを提案し、検索強化推論をマルコフ決定過程としてモデル化。クエリを反復的に分解し、外部知識の取得とパラメトリック推論の依存を動的に判断。実験により、検索効率と回答の正確性を21.99%向上させることを実証。 Comment

#Multi #Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-10 Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models, Tian Yu+, arXiv'24 GPT Summary- Auto-RAGは、LLMの意思決定能力を活用した自律的な反復検索モデルで、リトリーバーとのマルチターン対話を通じて知識を取得します。推論に基づく意思決定を自律的に合成し、6つのベンチマークで優れた性能を示し、反復回数を質問の難易度に応じて調整可能です。また、プロセスを自然言語で表現し、解釈可能性とユーザー体験を向上させます。 Comment

元ポスト:

Loading…

OpenReview: https://openreview.net/forum?id=jkVQ31GeIA

#Pocket #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv'24 GPT Summary- 大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning（RAFT）を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 Comment

Question, instruction, coxtext, cot style answerの4つを用いてSFTをする模様
画像は下記ツイートより引用

Loading…

WebSearch (2)

#NeuralNetwork #Search #MultitaskLearning #QueryClassification #NAACL
Issue Date: 2018-02-05 [Paper Note] Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval, Liu+, NAACL-HLT'15 Comment

クエリ分類と検索をNeural Netを用いてmulti-task learningする研究

分類(multi-class classification)とランキング(pairwise learning-to-rank)という異なる操作が必要なタスクを、multi task learningの枠組みで組み合わせた（初めての？）研究。

この研究では分類タスクとしてクエリ分類、ランキングタスクとしてWeb Searchを扱っている。

モデルの全体像は下図の通り。

shared layersの部分で、クエリとドキュメントを一度共通の空間に落とし、そのrepresentationを用いて、l3においてtask-specificな空間に写像し各タスクを解いている。

分類タスクを解く際には、outputはsigmoidを用いる（すなわち、output layerのユニット数はラベル数分存在する）。

Web Searchを解く際には、クエリとドキュメントをそれぞれtask specificな空間に別々に写像し、それらのcosine similarityをとった結果にsoftmaxをかけることで、ドキュメントのrelevance scoreを計算している。

学習時のアルゴリズムは上の通り。各タスクをランダムにpickし、各タスクの目的関数が最適化されるように思いをSGDで更新する、といったことを繰り返す。

なお、alternativeとして、下図のようなネットワーク構造を考えることができるが（クエリのrepresentationのみがシェアされている）、このモデルの場合はweb searchがあまりうまくいかなかった模様。

理由としては、unbalancedなupdates（クエリパラメータのupdateがdocumentよりも多くアップデートされること）が原因ではないかと言及しており、multi-task modelにおいては、パラメータをどれだけシェアするかはネットワークをデザインする上で重要な選択であると述べている。

評価で用いるデータの統計量は下記の通り。

1年分の検索ログから抽出。クエリ分類（各クラスごとにbinary）、および文書のrelevance score（5-scale）は人手で付与されている。

クエリ分類はROC曲線のAUCを用い、Web SearchではNDCG (Normalized Discounted Cumulative Gain) を用いた。

multi task learningをした場合に、性能が向上している。

また、ネットワークが学習したsemantic representationとSVMを用いて、domain adaptationの実験（各クエリ分類のタスクは独立しているので、一つのクエリ分類のデータを選択しsemantic representationをtrainし、学習したrepresentationを別のクエリ分類タスクに適用する）も行なっており、訓練事例数が少ない場合に有効に働くことを確認（Letter3gramとWord3gramはnot trained/adapted）。

また、SemanticRepresentationへ写像する行列W1のパラメータの初期化の仕方と、サンプル数の変化による性能の違いについても実験。DNN1はW1をランダムに初期化、DNN2は別タスク（別のクエリ分類タスク）で学習したW1でfixする手法。

訓練事例が数百万程度ある場合は、DNN1がもっとも性能がよく、数千の訓練事例数の場合はsemantic representationを用いたSVMがもっともよく、midium-rangeの訓練事例数の場合はDNN2がもっとも性能がよかったため、データのサイズに応じて手法を使い分けると良い。

データセットにおいて、クエリの長さや文書の長さが記述されていないのがきになる。

#Article #CollaborativeFiltering #RelevanceFeedback #Search #Personalization
Issue Date: 2023-04-28 Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 Comment

SequentialRecommendation (2)

#RecommenderSystems #Embeddings #Pocket #LanguageModel #Generalization
Issue Date: 2025-07-08 [Paper Note] Do We Really Need Specialization? Evaluating Generalist Text Embeddings for Zero-Shot Recommendation and Search, Matteo Attimonelli+, arXiv'25 GPT Summary- 事前学習済み言語モデル（GTEs）は、逐次推薦や製品検索においてファインチューニングなしで優れたゼロショット性能を発揮し、従来のモデルを上回ることを示す。GTEsは埋め込み空間に特徴を均等に分配することで表現力を高め、埋め込み次元の圧縮がノイズを減少させ、専門モデルの性能向上に寄与する。再現性のためにリポジトリを提供。 Comment

元ポスト:

Loading…

#RecommenderSystems #Survey #Pocket #LanguageModel
Issue Date: 2024-12-30 Recommender Systems with Generative Retrieval, Shashank Rajput+, arXiv'23 GPT Summary- 新しい生成的検索アプローチを提案し、アイテムのセマンティックIDを自己回帰的にデコード。Transformerベースのモデルが次のアイテムのセマンティックIDを予測し、レコメンデーションタスクにおいて初のセマンティックIDベースの生成モデルとなる。提案手法は最先端モデルを大幅に上回り、過去の対話履歴がないアイテムに対する検索性能も向上。

RepresentationLearning (2)

#RecommenderSystems #Embeddings #Pocket #NLP #LanguageModel #InstructionTuning #ContrastiveLearning #ICLR #Generalization #Decoder
Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#RecommenderSystems #Embeddings #EfficiencyImprovement #Pocket
Issue Date: 2025-06-25 [Paper Note] NEAR$^2$: A Nested Embedding Approach to Efficient Product Retrieval and Ranking, Shenbin Qian+, arXiv'25 GPT Summary- Eコマース情報検索システムは、ユーザーの意図を正確に理解しつつ、大規模な商品カタログを効率的に処理することが難しい。本論文では、NEAR$^2$というネストされた埋め込みアプローチを提案し、推論時の埋め込みサイズを最大12倍効率化し、トレーニングコストを増やさずにトランスフォーマーモデルの精度を向上させる。さまざまなIR課題に対して異なる損失関数を用いて検証した結果、既存モデルよりも小さな埋め込み次元での性能向上を達成した。 Comment

元ポスト:

Loading…

ContrastiveLearning (2)

#RecommenderSystems #Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #InstructionTuning #ICLR #Generalization #Decoder
Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

#Embeddings #Pocket #NLP #QuestionAnswering #EMNLP #Selected Papers/Blogs #Encoder #KeyPoint Notes
Issue Date: 2025-09-28 [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04 GPT Summary- 密な表現を用いたパッセージ検索の実装を示し、デュアルエンコーダーフレームワークで学習。評価の結果、Lucene-BM25を上回り、検索精度で9%-19%の改善を達成。新たな最先端のQA成果を確立。 Comment

PersonalizedDocumentSummarization (1)

#Multi #DocumentSummarization #NLP #QueryBiased #Personalization #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] Personalized Multi-document Summarization in Information Retrieval, Yang+, Machine Learning and Cybernetics'08, 2008.07 Comment

OnlineEvaluation (1)

#Tutorial #Slide #SIGIR
Issue Date: 2018-01-01 Practical Online Retrieval Evaluation, SIGIR'11, Tutorial

QueryClassification (1)

#NeuralNetwork #Search #MultitaskLearning #WebSearch #NAACL
Issue Date: 2018-02-05 [Paper Note] Representation Learning Using Multi-Task Deep Neural Networks for Semantic Classification and Information Retrieval, Liu+, NAACL-HLT'15 Comment

クエリ分類と検索をNeural Netを用いてmulti-task learningする研究

データセットにおいて、クエリの長さや文書の長さが記述されていないのがきになる。

CollaborativeFiltering (1)

#Article #RelevanceFeedback #Search #WebSearch #Personalization
Issue Date: 2023-04-28 Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 Comment

NaturalLanguageUnderstanding (1)

#NLP #LanguageModel #KnowledgeGraph #Factuality
Issue Date: 2023-07-14 Direct Fact Retrieval from Knowledge Graphs without Entity Linking, ACL'23 GPT Summary- 従来の知識取得メカニズムの制限を克服するために、我々はシンプルな知識取得フレームワークであるDiFaRを提案する。このフレームワークは、入力テキストに基づいて直接KGから事実を取得するものであり、言語モデルとリランカーを使用して事実のランクを改善する。DiFaRは複数の事実取得タスクでベースラインよりも優れた性能を示した。

STS (SemanticTextualSimilarity) (1)

#Embeddings #NLP #Search #ICLR
Issue Date: 2025-01-28 SoftMatcha: A Fast and Soft Pattern Matcher for Billion-Scale Corpus Searches, Deguchi+, ICLR'25 Comment

ICLR2025にacceptされた模様
https://openreview.net/forum?id=Q6PAnqYVpo

openreview: https://openreview.net/forum?id=Q6PAnqYVpo

https://arxiv.org/abs/2503.03703

InstructionTuning (1)

#RecommenderSystems #Embeddings #Pocket #NLP #LanguageModel #RepresentationLearning #ContrastiveLearning #ICLR #Generalization #Decoder
Issue Date: 2025-07-10 [Paper Note] NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models, Chankyu Lee+, ICLR'25 GPT Summary- デコーダー専用のLLMベースの埋め込みモデルNV-Embedは、BERTやT5を上回る性能を示す。アーキテクチャ設計やトレーニング手法を工夫し、検索精度を向上させるために潜在的注意層を提案。二段階の対照的指示調整手法を導入し、検索と非検索タスクの両方で精度を向上。NV-EmbedモデルはMTEBリーダーボードで1位を獲得し、ドメイン外情報検索でも高スコアを達成。モデル圧縮技術の分析も行っている。 Comment

QuestionAnswering (1)

#Embeddings #Pocket #NLP #ContrastiveLearning #EMNLP #Selected Papers/Blogs #Encoder #KeyPoint Notes
Issue Date: 2025-09-28 [Paper Note] Dense Passage Retrieval for Open-Domain Question Answering, Vladimir Karpukhin+, EMNLP'20, 2020.04 GPT Summary- 密な表現を用いたパッセージ検索の実装を示し、デュアルエンコーダーフレームワークで学習。評価の結果、Lucene-BM25を上回り、検索精度で9%-19%の改善を達成。新たな最先端のQA成果を確立。 Comment

Pruning (1)

#Article #DocumentSummarization #NLP #AIAgents #RAG(RetrievalAugmentedGeneration) #Blog #SoftwareEngineering #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

Others (25)

#Embeddings #Pocket #Transformer #SyntheticData #Reasoning #Test-Time Scaling #COLM #read-later #Selected Papers/Blogs #Encoder
Issue Date: 2025-10-08 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25, 2025.04 GPT Summary- ReasonIR-8Bは、一般的な推論タスク向けに特別に訓練された初のリトリーバーであり、合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成。これにより、BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易である。コード、データ、モデルはオープンソース化されている。 Comment

元ポスト:

Loading…

Llama3.1-8Bをbidirectional encoderに変換してpost-trainingしている。

#ComputerVision #Embeddings #Pocket #NLP #MultiModal #SmallModel #Encoder
Issue Date: 2025-10-03 [Paper Note] ModernVBERT: Towards Smaller Visual Document Retrievers, Paul Teiletche+, arXiv'25, 2025.10 GPT Summary- マルチモーダル埋め込みモデルは文書検索において効率的な代替手段として普及しているが、再利用アプローチが検索性能のボトルネックとなることがある。本研究では、視覚文書検索モデルを改善するための原則的なレシピを確立し、注意マスキングや画像解像度などが性能に影響を与える要因であることを示した。これに基づき、250Mパラメータのコンパクトな視覚-言語エンコーダーModernVBERTを開発し、文書検索タスクで大規模モデルを上回る性能を達成した。モデルとコードは公開されている。 Comment

元ポスト:

Loading…

MIT Licence
HF: https://huggingface.co/ModernVBERT

ポイント解説:

Loading…

#Pocket
Issue Date: 2024-12-17 Semantic Retrieval at Walmart, Alessandro Magnani+, arXiv'24 GPT Summary- テールクエリに対する商品検索の重要性を踏まえ、Walmart向けに従来の逆インデックスと埋め込みベースのニューラル検索を組み合わせたハイブリッドシステムを提案。オフラインおよびオンライン評価で検索エンジンの関連性を大幅に向上させ、応答時間に影響を与えずに本番環境に展開。システム展開における学びや実用的なトリックも紹介。

#RecommenderSystems #Pocket #MultiModal Issue Date: 2024-11-08 MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs, Sheng-Chieh Lin+, arXiv'24 GPT Summary- 本論文では、マルチモーダル大規模言語モデル（MLLM）を用いた「ユニバーサルマルチモーダル検索」の技術を提案し、複数のモダリティと検索タスクに対応する能力を示します。10のデータセットと16の検索タスクでの実験により、MLLMリトリーバーはテキストと画像のクエリを理解できるが、モダリティバイアスによりクロスモーダル検索では劣ることが判明。これを解決するために、モダリティ認識ハードネガティブマイニングを提案し、継続的なファインチューニングでテキスト検索能力を向上させました。結果として、MM-EmbedモデルはM-BEIRベンチマークで最先端の性能を達成し、NV-Embed-v1を上回りました。また、ゼロショットリランキングを通じて、複雑なクエリに対するマルチモーダル検索の改善が可能であることを示しました。これらの成果は、今後のユニバーサルマルチモーダル検索の発展に寄与するものです。 Comment

#LearningToRank #Online/Interactive #Pocket Issue Date: 2018-01-01 [Paper Note] Contextual Dueling Bandits, Miroslav Dudík+, arXiv'15 GPT Summary- 相対的なペアワイズ比較を用いて文脈情報を活用した行動選択の学習問題を、デュエリングバンディットフレームワークで拡張して研究。新たに提案する「フォン・ノイマン勝者」は、他のポリシーに勝つか引き分けるランダム化ポリシーで、コンドルセ勝者の制限を克服。オンライン学習のための3つの効率的なアルゴリズムを提示し、特に低い後悔を達成するアルゴリズムはポリシー空間に対して線形の要件を持つ。その他の2つは、オラクルへのアクセスがあれば対数的な要件で済む。 #RecommenderSystems #NeuralNetwork #Contents-based #CIKM Issue Date: 2021-06-01 Learning Deep Structured Semantic Models for Web Search using Clickthrough Data, Huang+, CIKM'13 Comment

日本語解説: https://shunk031.me/paper-survey/summary/others/Learning-Deep-Structured-Semantic-Models-for-Web-Search-using-Clickthrough-Data

#LearningToRank #Online/Interactive #Interleaved #WSDM Issue Date: 2018-01-01 [Paper Note] Reusing Historical Interaction Data for Faster Online Learning to Rank for IR, Hofmann+, WSDM'13 Comment

[Paper Note] Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem, Yue+, ICML'09 DBGDを拡張した手法を提案している。

アルゴリズムが細かく書いてあるので、追っていくとDBGD等について理解が深まると思われる。

Interleavemethodについても。

#Comments Issue Date: 2018-01-15 [Paper Note] Ranking Comments on Social Web, Hsu+, CSE'09 Comment

Learning to Rankによってコメントをランキングする手法を提案。

これにより、低品質なコメントははじき、良質なコメントをすくいとることができる。

素性としては、主にユーザに基づく指標（ユーザが作成した記事の数、プロフィールが何度閲覧されたかなど）と、コメントのContentに基づく指標（コメントの長さやコメントと記事の類似度など）が用いられている。

User-basedなfeatureとcontent-basedなfeatureの両者を組み合わせた場合に最も良い性能。

個々の素性ごとにみると、User-basedなfeatureではuser comment history（コメントをしているユーザが過去にどれだけratingされているか、やcommentに対してどれだけreplyをもらっているか）、content-basedなfeatureではcomment-article（commentと本文のoverlap, commentと本文のpolarityの差）が最も性能に寄与。

#LearningToRank #Online/Interactive #ICML Issue Date: 2018-01-01 [Paper Note] Interactively Optimizing Information Retrieval Systems as a Dueling Bandits Problem, Yue+, ICML'09 Comment

online learning to rankに関する論文でよくreferされる論文

提案手法は、Dueling Bandit Gradient Descent(DBGD)と呼ばれる.

onlineでlearning to rankを行える手法で、現在の重みwとwをランダムな方向に動かした新たな重みw'を使って、予測を行い、duelを行う。

duelを行った結果、新たな重みw'の方が買ったら、重みwをその方向に学習率分更新するというシンプルな手法

duelのやり方は、詳しく書いてないからなんともよくわからなかったが、Interleavedなlist(二つのモデルのoutputを混合したリスト)などを作り、実際にユーザにリストを提示してユーザがどのアイテムをクリックしたかなどから勝敗の確率値を算出し利用する、といったやり方が、IRの分野では行われている。

onlineでユーザのフィードバックから直接モデルを学習したい場合などに用いられる。

offlineに持っているデータを使って、なんらかのmetricを計算してduelをするという使い方をしたかったのだが、その使い方はこの手法の本来の使い方ではない（単純に何らかのmetricに最適化するというのであれば目的関数が設計できるのでそっちの手法を使ったほうが良さそうだし）。

そもそもこの手法は単純にMetricとかで表現できないもの（ユーザの満足度とか）を満たすようなweightをexploration/exploitationを繰り返して見つけていこう、というような気持ちだと思われる。

#LearningToRank #PairWise #NeurIPS Issue Date: 2018-01-01 [Paper Note] Large Scale Learning to Rank, Sculley+, NIPS'09 Comment

sofia-mlの実装内容について記述されている論文

よくonline学習の文脈で触れられるが、気をつけないと罠にはまる。

というのは、sofia-ml内のMethodsによって、最適化している目的関数が異なるからだ。

実装をみると、全てのmethodsがonlineでできちゃいそうに見える（学習済みのモデルをinputして学習を再開させられるため）が、落とし穴。

まず、SGD SVM, Pegasos SVM,については、最適化している目的関数がbatchになっているため、online learningではない。

passive-aggressive perceptrionは目的関数が個別の事例に対して定式化される(要確認)のでonline learningといえる。

(ROMMAは調べないとわからん)

pairwiseのlearning to rankでは、サンプルのペアを使って学習するので、最悪の場合O(n^2)の計算量がかかってしまってめっちゃ遅いのだが、実は学習データを一部サンプリングして重みを更新するってのをたくさん繰り返すだけで、高速に学習できちゃうという話。

実際、sofia-mlを使って見たら、liblinearのranking SVM実装で40分かかった学習が数秒で終わり、なおかつ精度も良かった。

#LearningToRank #Interleaved #CIKM Issue Date: 2018-01-01 [Paper Note] How Does Clickthrough Data Reflect Retrieval Quality?, Radlijnski+, CIKM'08 #LearningToRank #Online/Interactive #WSDM Issue Date: 2018-01-01 [Paper Note] Fast Learning of Document Ranking Functions with the Committee Perceptrion, Elsas+, WSDM'08 #LearningToRank #ListWise #Pocket #ICML Issue Date: 2018-01-01 [Paper Note] Listwise Approach to Learning to Rank - Theory and Algorithm （ListMLE）, Xia+, ICML'08 #LearningToRank #ListWise #ICML #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Learning to Rank: From Pairwise Approach to Listwise Approach （ListNet）, Cao+, ICML'07 Comment

解説スライド： http://www.nactem.ac.uk/tsujii/T-FaNT2/T-FaNT.files/Slides/liu.pdf

解説ブログ： https://qiita.com/koreyou/items/a69750696fd0b9d88608

k=1の設定で計算するのが普通なようなので、普通にoutputがsoftmaxでlossがsoftmax cross-entropyなモデルとほぼ等価なのでは。

#MachineLearning #StructuredLearning #SIGIR Issue Date: 2017-12-31 [Paper Note] A support vector method for Optimizing Average Precision, Yue+, SIGIR'07 Comment

SVM-MAPの論文

構造化SVMを用いて、MAPを直接最適化する。

#LearningToRank #PairWise #ICML #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] Learning to Rank using Gradient Descent （RankNet）, Burges+, ICML'05 Comment

#Pocket #Personalization #SIGIR #One-Line Notes Issue Date: 2017-12-28 [Paper Note] Personalizing Search via Automated Analysis of Interests and Activities, Teevan+, SIGIR'05, 2005.08 Comment

・userに関するデータがrichなほうが、Personalizationは改善する。

・queries, visited web pages, emails, calendar items, stored desktop 　　　

　documents、全てのsetを用いた場合が最も良かった

（次点としてqueriesのみを用いたモデルが良かった）

#LearningToRank #PointWise #NeurIPS #Selected Papers/Blogs Issue Date: 2018-01-01 [Paper Note] PRanking with Ranking, Crammer+, NIPS'01 Comment

Point-WiseなLearning2Rankの有名手法

#Article #RecommenderSystems #Embeddings #NLP #Blog #OpenWeight #Reranking Issue Date: 2025-11-20 Introducing zerank-2: The Most Accurate Multilingual Instruction-Following Reranker, ZeroEntropy, 2025.11 Comment

HF: https://huggingface.co/zeroentropy/zerank-2

SoTA reranker

関連:
- zerank-1, zeroentropy, 2025.07

#Article #RecommenderSystems #OpenWeight #Encoder #Reranking Issue Date: 2025-10-23 zerank-1, zeroentropy, 2025.07 Comment

SoTAなcross-encoderに基づくreranker。おそらく英語にのみ対応。

zerank-1はcc-by-nc-4.0, smallはApache2.0ライセンス

#Article #Personalization Issue Date: 2023-04-28 Preface to Special Issue on User Modeling for Web Information Retrieval, Brusilovsky+, User Modeling and User-Adapted Interaction , 2004 Comment

Personalized Information Retrievalの先駆け的研究

Adaptive Web Search Based on User Profile Constructed without Any Effort from Users, Sugiyama+, NAIST, WWW’04 と同時期

#Article #Tools #LearningToRank #Online/Interactive Issue Date: 2018-01-01 Lerot: Online Learning to rank Framework #Article #LearningToRank #ListWise Issue Date: 2018-01-01 [Paper Note] A General Approximation Framework for Direct Optimization of Information Retrieval Measures （ApproxAP, ApproxNDCG）, Qin+, Information Retrieval, 2010 Comment

実装してみたが、バグありそう感・・・

https://github.com/AkihikoWatanabe/ApproxAP

#Article #MachineLearning #StructuredLearning #Tools Issue Date: 2017-12-31 SVM-MAP Comment

構造化SVMを用いて、MAPを直接最適化する手法

#Article #WWW #KeyPoint Notes Issue Date: 2017-12-28 [Paper Note] Modeling Anchor Text and Classifying Queries to Enhance Web Document Retrieval, WWW’08, [Fujii, 2008], 2008.04 Comment

SoftwareEngineering (60)

LanguageModel (38)

#Pocket #NLP #AIAgents #One-Line Notes #EvolutionaryAlgorithm
Issue Date: 2025-11-23 [Paper Note] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?, Chunqiu Steven Xia+, arXiv'25, 2025.11 GPT Summary- Live-SWE-agentは、実世界のソフトウェア問題を解決するために、ランタイム中に自律的に自己進化する初のライブソフトウェアエージェントである。最も基本的なエージェントスキャフォールドから始まり、bashツールを用いて自らの実装を進化させる。評価結果では、SWE-bench Verifiedベンチマークで75.4%の解決率を達成し、既存のオープンソースエージェントを上回る性能を示した。さらに、SWE-Bench Proベンチマークでも最良の解決率を記録した。 Comment

github: https://github.com/OpenAutoCoder/live-swe-agent

ReAct方式に追加でself-reflectionを導入することでagentのscaffolding（＝ただし、カスタムツールのみ）をbashのみが使える状態から自己進化させる枠組み。

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #Evaluation #Coding #read-later
Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #ReinforcementLearning #read-later #Selected Papers/Blogs #Off-Policy #On-Policy
Issue Date: 2025-11-20 [Paper Note] Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning, Ruoyu Qin+, arXiv'25, 2025.11 GPT Summary- 強化学習における性能ボトルネックを解消するために、新しいオンラインコンテキスト学習システム「Seer」を提案。Seerは、出力の類似性を活用し、分割ロールアウト、コンテキストに基づくスケジューリング、適応的グループ化推測デコーディングを導入。これにより、ロールアウトの待機時間を大幅に短縮し、リソース効率を向上。評価結果では、エンドツーエンドのロールアウトスループットを74%から97%向上させ、待機時間を75%から93%削減した。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #SelfImprovement #One-Line Notes Issue Date: 2025-11-15 [Paper Note] AgentEvolver: Towards Efficient Self-Evolving Agent System, Yunpeng Zhai+, arXiv'25, 2025.11 GPT Summary- AgentEvolverは、LLMsを活用した自己進化型自律エージェントシステムで、手作業のデータセット依存を減らし、探索効率とサンプル利用を向上させる3つのメカニズムを導入。初期実験では、従来のRLベースラインよりも効率的な探索と迅速な適応を実現。 Comment

元ポスト:

Loading…

#Pocket #NLP #AIAgents #read-later Issue Date: 2025-11-07 [Paper Note] The OpenHands Software Agent SDK: A Composable and Extensible Foundation for Production Agents, Xingyao Wang+, arXiv'25, 2025.11 GPT Summary- OpenHands Software Agent SDKは、ソフトウェア開発エージェントを構築するためのツールキットで、柔軟性、信頼性、安全性を兼ね備えた実装を可能にします。シンプルなインターフェースでエージェントを簡単に実装でき、カスタム機能にも対応。ローカルからリモートへの実行ポータビリティや多様なインターフェースを提供し、セキュリティ分析も統合されています。実証結果は強力なパフォーマンスを示し、エージェントの信頼性の高い展開を実現します。 Comment

元ポスト:

Loading…

blog: https://openhands.dev/blog/introducing-the-openhands-software-agent-sdk

#Pocket #NLP #UserBased #AIAgents #read-later #Selected Papers/Blogs #interactive Issue Date: 2025-11-06 [Paper Note] Training Proactive and Personalized LLM Agents, Weiwei Sun+, arXiv'25, 2025.11 GPT Summary- 効果的なAIエージェントには、生産性、積極性、パーソナライズの3つの次元を最適化する必要があると主張。LLMベースのユーザーシミュレーター「UserVille」を導入し、PPPというマルチオブジェクティブ強化学習アプローチを提案。実験では、PPPで訓練されたエージェントがGPT-5に対して平均21.6ポイントの改善を達成し、ユーザーの好みに適応しながらタスク成功を向上させる能力を示した。 Comment

AI Agentにおいてユーザとのinteractionを重視し協働することを重視するようなRLをする模様。興味深い。

元ポスト:

Loading…

#Tutorial #Pocket #NLP #AIAgents Issue Date: 2025-10-26 [Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #Evaluation #MultiModal #Reasoning #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#EfficiencyImprovement #Pretraining #Pocket #NLP #mid-training #PostTraining #Parallelism Issue Date: 2025-10-25 [Paper Note] AsyncHZP: Hierarchical ZeRO Parallelism with Asynchronous Scheduling for Scalable LLM Training, Huawei Bai+, arXiv'25, 2025.10 GPT Summary- 非同期階層ゼロ並列処理（AsyncHZP）を提案し、シンプルさとメモリ効率を保ちながら、トレーニング効率を向上。従来のZeROの通信オーバーヘッドを削減し、パラメータや勾配の再シャーディングを適応的に行う。マルチストリーム非同期スケジューリングにより通信と計算を重ね合わせ、メモリの断片化を最小限に抑える。DenseおよびMixture-of-Expertsモデルでの評価により、AsyncHZPが従来のND並列処理を上回る性能を示した。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #LLMServing #MoE(Mixture-of-Experts) Issue Date: 2025-10-16 [Paper Note] Expert-as-a-Service: Towards Efficient, Scalable, and Robust Large-scale MoE Serving, Ziming Liu+, arXiv'25, 2025.09 GPT Summary- EaaSという新しいサービングシステムを提案し、Mixture-of-Experts (MoE)モデルの効率的でスケーラブルな展開を実現。MoEモジュールを独立したステートレスサービスに分解し、リソースの細かいスケーリングとフォールトトレランスを提供。実験により、EaaSはモノリシックシステムと同等のパフォーマンスを維持しつつ、スループットの減少を2%未満に抑え、最大37.5%の計算リソースを節約することが確認された。 Comment

元ポスト:

Loading…

#Pocket #NLP #Supervised-FineTuning (SFT) #AIAgents #read-later #Selected Papers/Blogs #reading #KeyPoint Notes Issue Date: 2025-10-02 [Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25

著者ポスト:

Loading…

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

#ComputerVision #Pocket #NLP #Dataset #AIAgents #Evaluation #MultiModal #ICLR #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #NLP #Dataset #AIAgents #Evaluation #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#EfficiencyImprovement #Pocket #NLP #Dataset #AIAgents #Evaluation #Coding Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #ReinforcementLearning #AIAgents Issue Date: 2025-08-10 [Paper Note] Agent Lightning: Train ANY AI Agents with Reinforcement Learning, Xufang Luo+, arXiv'25 GPT Summary- Agent Lightningは、任意のAIエージェントのためにLLMsを用いたRLトレーニングを可能にする柔軟なフレームワークで、エージェントの実行とトレーニングを分離し、既存のエージェントとの統合を容易にします。マルコフ決定過程としてエージェントの実行を定式化し、階層的RLアルゴリズムLightningRLを提案。これにより、複雑な相互作用ロジックを扱うことが可能になります。実験では、テキストからSQLへの変換などで安定した改善が見られ、実世界でのエージェントトレーニングの可能性が示されました。 Comment

元ポスト:

Loading…

#Pocket #NLP #ReinforcementLearning #Coding #UnitTest Issue Date: 2025-06-05 [Paper Note] Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv'25 GPT Summary- CUREは、コーディングとユニットテスト生成を共進化させる強化学習フレームワークで、真のコードを監視せずにトレーニングを行う。ReasonFlux-Coderモデルは、コード生成精度を向上させ、下流タスクにも効果的に拡張可能。ユニットテスト生成では高い推論効率を達成し、強化学習のための効果的な報酬モデルとして機能する。 Comment

元ポスト:

Loading…

UnitTestの性能向上させます系の研究が増えてきている感

関連ポスト:

Loading…

#Pocket #NLP #AIAgents #read-later Issue Date: 2025-06-01 [Paper Note] Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering, Guangtao Zeng+, arXiv'25 GPT Summary- EvoScaleを提案し、進化的プロセスを用いて小型言語モデルの性能を向上させる手法を開発。選択と突然変異を通じて出力を洗練し、サンプル数を減少させる。強化学習を用いて自己進化を促進し、SWE-Bench-Verifiedで32Bモデルが100B以上のモデルと同等以上の性能を示す。コード、データ、モデルはオープンソースとして公開予定。 Comment

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #NLP #Transformer #Attention #LLMServing #Architecture #MoE(Mixture-of-Experts) Issue Date: 2025-05-20 Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv'25 GPT Summary- DeepSeek-V3は、2,048台のNVIDIA H800 GPUでトレーニングされ、ハードウェア制約に対処するための共同設計を示す。メモリ効率向上のためのマルチヘッド潜在注意や、計算と通信の最適化を図る専門家の混合アーキテクチャ、FP8混合精度トレーニングなどの革新を強調。ハードウェアのボトルネックに基づく将来の方向性について議論し、AIワークロードに応えるためのハードウェアとモデルの共同設計の重要性を示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #AIAgents #ICML Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment

#EfficiencyImprovement #Pocket #NLP #AIAgents #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2025-04-02 Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25 GPT Summary- 最近のLLMの進展により、ソフトウェア開発タスクの自動化が進んでいるが、複雑なエージェントアプローチの必要性に疑問が生じている。これに対し、Agentlessというエージェントレスアプローチを提案し、シンプルな三段階プロセスで問題を解決。SWE-bench Liteベンチマークで最高のパフォーマンスと低コストを達成。研究は自律型ソフトウェア開発におけるシンプルで解釈可能な技術の可能性を示し、今後の研究の方向性を刺激することを目指している。 Comment

日本語解説: https://note.com/ainest/n/nac1c795e3825

Agentlessと呼ばれ手法だが、preprint版にあったタイトルの接頭辞だった同呼称がproceeding版では無くなっている。

#Pocket #NLP #AIAgents #Evaluation #NeurIPS #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

#Pocket #NLP #Dataset #AIAgents #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#Article #Tutorial #NLP #LLMServing #Slide #read-later #Selected Papers/Blogs Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #AIAgents #GenerativeAI #Blog #ProprietaryLLM Issue Date: 2025-11-19 Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

#Article #Blog #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-14 LLM開発の裏で行われるデバッグ作業: PyTorch DCP, Kazuki Fujii, 2025.11 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #ProprietaryLLM Issue Date: 2025-10-30 Introducing SWE-1.5: Our Fast Agent Model, Cognition, 2025.10 Comment

元ポスト:

Loading…

windsurfから利用可能とのこと

#Article #MLOps #AIAgents #Blog Issue Date: 2025-10-13 Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフーテックブログ, 2024.12 #Article #NLP #Dataset #AIAgents #Evaluation Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #Tutorial #NLP #AIAgents #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #EfficiencyImprovement #NLP #Attention #Blog #One-Line Notes Issue Date: 2025-09-28 We reverse-engineered Flash Attention 4, Modal Blog, 2025.09 Comment

元ポスト:

Loading…

Flash Attention4は数学的なトリックよりも非同期処理の複雑なパイプライン、Blackwellに最適化、とのこと

#Article #Coding Issue Date: 2025-07-25 anycoder, akhaliq, 2025.07 Comment

こんなことができる模様。サイトのリニューアルに使ってみようかしら、、、

Loading…

#Article #Tutorial #NLP #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #Tutorial #Metrics #NLP #LLMServing #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

#Article #NLP #Evaluation #Slide #Japanese #Selected Papers/Blogs Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment

#Article #Tutorial #Coding #MCP Issue Date: 2025-07-14 advanced-mcp-features, epicweb-dev, 2025.06 Comment

MCPの勉強に良いかもしれないのでメモ

#Article #NLP #AIAgents #Blog #ContextEngineering Issue Date: 2025-07-04 Context Engineering - What it is, and techniques to consider, llamaindex, 2025.07 Comment

元ポスト:

Loading…

#Article #NLP #AIAgents #Blog #ContextEngineering Issue Date: 2025-07-04 The New Skill in AI is Not Prompting, It's Context Engineering, PHLSCHMID, 2025.06 Comment

元ポスト:

Loading…

#Article #NLP #OpenWeight Issue Date: 2025-04-02 openhands-lm-32b-v0.1, all-hands, 2025.03 Comment

Qwen Coder 2.5 Instruct 32Bに基づく最先端のSWEタスクが実行可能なモデル

Evaluation (14)

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Coding #read-later
Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #AIAgents #MultiModal #Reasoning #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science
Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #NLP #Dataset #QuestionAnswering #AIAgents #Coding
Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #AIAgents #MultiModal #ICLR #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #NLP #Dataset #LanguageModel #AIAgents #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#EfficiencyImprovement #Pocket #NLP #Dataset #LanguageModel #AIAgents #Coding Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #NLP #Dataset #AIAgents Issue Date: 2025-08-12 [Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

#EfficiencyImprovement #Pocket #NLP #Dataset #AIAgents Issue Date: 2025-07-18 [Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #NeurIPS #read-later #Selected Papers/Blogs #One-Line Notes Issue Date: 2025-11-25 [Paper Note] SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering, John Yang+, arXiv'24, 2024.05 GPT Summary- LMエージェントのパフォーマンスにおけるインターフェースデザインの影響を調査し、ソフトウェアエンジニアリングタスクを解決するためのシステム「SWE-agent」を提案。SWE-agentのカスタムインターフェースは、コード作成やリポジトリナビゲーション、プログラム実行能力を向上させ、SWE-benchとHumanEvalFixで最先端のパフォーマンスを達成。pass@1率はそれぞれ12.5%と87.7%に達し、従来の非インタラクティブなLMを大きく上回る結果を示した。 Comment

openreview: https://openreview.net/forum?id=mXpq6ut8J3&referrer=%5Bthe%20profile%20of%20Shunyu%20Yao%5D(%2Fprofile%3Fid%3D~Shunyu_Yao1)

SWE bench Verifiedで利用されているハーネスで、mini-SWE-agentと呼ばれるもの
https://github.com/SWE-agent/mini-swe-agent

#Pocket #NLP #Dataset #LanguageModel #AIAgents #ICLR #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#Article #NeuralNetwork #MachineLearning #Pocket #Dataset #Transformer #AIAgents #GPUKernel Issue Date: 2025-10-22 FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #Dataset #LanguageModel #AIAgents Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #Dataset #AIAgents #Repository #Coding #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Slide #Japanese #Selected Papers/Blogs Issue Date: 2025-07-16 論文では語られないLLM開発において重要なこと Swallow Projectを通して, Kazuki Fujii, NLPコロキウム, 2025.07 Comment

Dataset (13)

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Coding #read-later
Issue Date: 2025-11-20 [Paper Note] EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits, Wayne Chi+, arXiv'25, 2025.11 GPT Summary- EDIT-Benchは、LLMのコード編集能力を実際のユーザー指示とコードコンテキストに基づいて評価するためのベンチマークで、540の問題を含む。多様な自然言語とプログラミング言語を用いた実世界のユースケースを提供し、コンテキスト依存の問題を導入。40のLLMを評価した結果、60%以上のスコアを得たモデルは1つのみで、ユーザー指示のカテゴリやコンテキスト情報がパフォーマンスに大きく影響することが示された。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #MultiModal #Reasoning #ComputerUse #read-later #Selected Papers/Blogs #VisionLanguageModel #Science
Issue Date: 2025-10-26 [Paper Note] ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows, Qiushi Sun+, arXiv'25, 2025.05 GPT Summary- 大規模言語モデル（LLMs）を活用したScienceBoardを紹介。これは、科学的ワークフローを加速するための動的なマルチドメイン環境と、169の厳密に検証されたタスクからなるベンチマークを提供。徹底的な評価により、エージェントは複雑なワークフローでの信頼性が低く、成功率は15%にとどまることが明らかに。これにより、エージェントの限界を克服し、より効果的な設計原則を模索するための洞察が得られる。 Comment

元ポスト:

Loading…

pj gage: https://qiushisun.github.io/ScienceBoard-Home/

#Pocket #NLP #QuestionAnswering #AIAgents #Evaluation #Coding
Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

#ComputerVision #Pocket #NLP #LanguageModel #AIAgents #Evaluation #MultiModal #ICLR #VisionLanguageModel Issue Date: 2025-09-16 [Paper Note] SWE-bench Multimodal: Do AI Systems Generalize to Visual Software Domains?, John Yang+, ICLR'25 GPT Summary- 自律システムのバグ修正能力を評価するために、SWE-bench Mを提案。これは視覚要素を含むJavaScriptソフトウェアのタスクを対象とし、617のインスタンスを収集。従来のSWE-benchシステムが視覚的問題解決に苦労する中、SWE-agentは他のシステムを大きく上回り、12%のタスクを解決した。 Comment

openreview: https://openreview.net/forum?id=riTiq3i21b

pj page: https://www.swebench.com/multimodal.html

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #Coding #read-later #Contamination-free #Selected Papers/Blogs #Live Issue Date: 2025-09-06 [Paper Note] SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents, Ibragim Badertdinov+, arXiv'25 GPT Summary- LLMベースのエージェントのSWEタスクにおける課題として、高品質なトレーニングデータの不足と新鮮なインタラクティブタスクの欠如が挙げられる。これに対処するため、21,000以上のインタラクティブなPythonベースのSWEタスクを含む公的データセットSWE-rebenchを自動化されたパイプラインで構築し、エージェントの強化学習に適したベンチマークを提供。これにより、汚染のない評価が可能となり、いくつかのLLMの性能が過大評価されている可能性を示した。 Comment

pj page: https://swe-rebench.com

元ポスト:

Loading…

コンタミネーションのない最新のIssueを用いて評価した結果、Sonnet 4が最も高性能

#EfficiencyImprovement #Pocket #NLP #LanguageModel #AIAgents #Evaluation #Coding Issue Date: 2025-09-03 [Paper Note] GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents, Manish Shetty+, arXiv'25 GPT Summary- 高性能ソフトウェア開発における言語モデルの能力を評価するためのベンチマークGSOを提案。102の最適化タスクを特定する自動化パイプラインを開発し、主要なソフトウェアエンジニアリングエージェントの成功率は5%未満であることを示した。定性的分析により、低レベル言語や最適化戦略の課題が明らかになった。研究の進展のために、ベンチマークのコードとエージェントのデータを公開。 Comment

pj page: https://gso-bench.github.io

ソフトウェアの高速化に関するベンチ

元ポストに掲載されているリーダーボードはどこにあるのだろう。ざっと見た感じ見当たらない。

#Pocket #NLP #AIAgents #Evaluation Issue Date: 2025-08-12 [Paper Note] NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition, Le Deng+, arXiv'25 GPT Summary- 自然言語駆動のノーコード開発におけるLLMsの評価のために「NoCode-bench」を提案。634のタスクと114,000のコード変更から成り、ドキュメントとコード実装のペアを検証。実験結果では、最良のLLMsがタスク成功率15.79%に留まり、完全なNL駆動のノーコード開発には未だ課題があることが示された。NoCode-benchは今後の進展の基盤となる。 Comment

元ポスト:

Loading…

リーダーボード: https://nocodebench.org

#EfficiencyImprovement #Pocket #NLP #AIAgents #Evaluation Issue Date: 2025-07-18 [Paper Note] SWE-Perf: Can Language Models Optimize Code Performance on Real-World Repositories?, Xinyi He+, arXiv'25 GPT Summary- コードのパフォーマンス最適化は重要であり、LLMsのリポジトリレベルでの能力は未探求。これに対処するため、SWE-Perfという初のベンチマークを導入。140のインスタンスを用いて、LLMsと専門家の最適化パフォーマンスのギャップを評価し、研究機会を示す。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #AIAgents #ICML Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, ICML'25 GPT Summary- SWE-Gymを提案し、2,438件の実世界のPythonタスクを含む環境を構築。言語モデルに基づくSWEエージェントを訓練し、SWE-Benchで最大19%の解決率向上を達成。微調整されたエージェントは新たな最先端の性能を示し、SWE-Gymやモデル、エージェントの軌跡を公開。 Comment

#Pocket #NLP #LanguageModel #AIAgents #Evaluation #ICLR #Selected Papers/Blogs Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, ICLR'24 GPT Summary- SWE-benchは、12の人気Pythonリポジトリから得られた2,294のソフトウェアエンジニアリング問題を評価するフレームワークで、言語モデルがコードベースを編集して問題を解決する能力を測定します。評価の結果、最先端の商用モデルや微調整されたモデルSWE-Llamaも最も単純な問題しか解決できず、Claude 2はわずか1.96%の問題を解決するにとどまりました。SWE-benchは、より実用的で知的な言語モデルへの進展を示しています。 Comment

Loading…

これまでの評価結果にどの程度の影響があるかは不明。

openreview: https://openreview.net/forum?id=VTF8yNQM66

#Article #NeuralNetwork #MachineLearning #Pocket #Transformer #AIAgents #Evaluation #GPUKernel Issue Date: 2025-10-22 FlashInfer-Bench: Building the Virtuous Cycle for AI-driven LLM Systems, FlashInfer Community, 2025.10 Comment

元ポスト:

Loading…

GPUカーネルのエージェントによる自動最適化のためのベンチマークとのこと。

#Article #NLP #LanguageModel #AIAgents #Evaluation Issue Date: 2025-10-07 terminal-bench: a benchmark for ai agents in terminal environments, laude-institute, Comment

元ポスト:

Loading…

#Article #AIAgents #Evaluation #Repository #Coding #Selected Papers/Blogs Issue Date: 2025-09-04 OpenHands PR Arena, neulab, 2025.09 Comment

元ポスト:

Loading…

Tutorial (6)

#Pocket #NLP #LanguageModel #AIAgents
Issue Date: 2025-10-26 [Paper Note] Fundamentals of Building Autonomous LLM Agents, Victor de Lamo Castrillo+, arXiv'25, 2025.10 GPT Summary- 本論文では、LLMsを基にしたエージェントのアーキテクチャと実装をレビューし、複雑なタスクの自動化を目指す。主要な構成要素には、知覚システム、推論システム、記憶システム、実行システムが含まれ、これらを統合することで人間の認知プロセスを模倣する高性能なソフトウェアボットの実現を示す。 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #LLMServing #Slide #read-later #Selected Papers/Blogs
Issue Date: 2025-11-20 Distributed Inference Serving - vLLM, LMCache, NIXL and llm-d, Mikiya Michishita, 2025.06 Comment

元ポスト:

Loading…

vLLM, paged attention, prefix caching, continuous batching, 分散環境でのKV Cacheの共有, ...おおお、、読まねば

#Article #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #ContextEngineering #One-Line Notes
Issue Date: 2025-10-04 Effective context engineering for AI agents, Anthropic, 2025.09 Comment

元ポスト:

Loading…

所見:

Loading…

#Article #NLP #LanguageModel #LLMServing #read-later #Selected Papers/Blogs Issue Date: 2025-07-22 LLM Servingを支える技術, Kotoba Technologies, 2025.07 Comment

こちらも参照のこと:
- LLM推論に関する技術メモ, iwashi.co, 2025.07

#Article #Metrics #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Parallelism #Inference #Batch Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

#Article #LanguageModel #Coding #MCP Issue Date: 2025-07-14 advanced-mcp-features, epicweb-dev, 2025.06 Comment

MCPの勉強に良いかもしれないのでメモ

MLOps (3)

#Article #LanguageModel #AIAgents #Blog
Issue Date: 2025-10-13 Harnessを利用してLLMアプリケーション評価を自動化する, LINEヤフーテックブログ, 2024.12 #Article
Issue Date: 2025-10-10 Argo Workflows, Argo Project, 2017.11 #Article #python #Blog
Issue Date: 2024-08-27 AutoMLOpsを使って機械学習CI_CDパイプラインを組んでみた, 2024.08 Comment

RAG(RetrievalAugmentedGeneration) (3)

#Article #Blog
Issue Date: 2025-10-23 Production RAG: what I learned from processing 5M+ documents, Abdellatif Abdelfattah, 2025.10 Comment

元ポスト:

Loading…

関連:
- zerank-1, zeroentropy, 2025.07

#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #Pruning #Blog #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

#Article #AWS #Blog
Issue Date: 2025-07-17 Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07 Comment

元ポスト:

Loading…

Supervised-FineTuning (SFT) (2)

#Pocket #NLP #LanguageModel #AIAgents #read-later #Selected Papers/Blogs #reading #KeyPoint Notes
Issue Date: 2025-10-02 [Paper Note] Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents, Zonghan Yang+, arXiv'25, 2025.09 GPT Summary- 大規模言語モデル（LLMs）のソフトウェア工学（SWE）への応用が進んでおり、SWE-benchが重要なベンチマークとなっている。マルチターンのSWE-Agentフレームワークと単一ターンのエージェントレス手法は相互排他的ではなく、エージェントレストレーニングが効率的なSWE-Agentの適応を可能にする。本研究では、Kimi-DevというオープンソースのSWE LLMを紹介し、SWE-bench Verifiedで60.4%を達成。追加の適応により、Kimi-DevはSWE-Agentの性能を48.6%に引き上げ、移植可能なコーディングエージェントの実現を示した。 Comment

元ポスト:

Loading…

Agentlessはこちら:
- Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, FSE'25

著者ポスト:

Loading…

参考:

- OpenhandsのEvaluation Harness: https://docs.all-hands.dev/openhands/usage/developers/evaluation-harness

#Article #MachineLearning #Blog #PEFT(Adaptor/LoRA) #KeyPoint Notes
Issue Date: 2025-10-06 Anatomy of a Modern Finetuning API, Benjamin Anderson, 2025.10 Comment

GenerativeAI (2)

#Article #LanguageModel #AIAgents #Blog #ProprietaryLLM
Issue Date: 2025-11-19 Introducing Google Antigravity, a New Era in AI-Assisted Software Development, Google, 2025.11 Comment

元ポスト:

Loading…

google謹製のAI Agent FirstなIDE、らしい

#Article #NLP #AIAgents #Coding #Video #One-Line Notes
Issue Date: 2025-10-12 Shipping with Codex, OpenAI, 2025.10 Comment

元ポスト:

Loading…

OpenAI内部で92%の技術スタッフがdailyで利用している、というマーケティングメッセージが非常に強力で、説得力を持たせていると感じる。

AWS (1)

#Article #RAG(RetrievalAugmentedGeneration) #Blog
Issue Date: 2025-07-17 Amazon S3 Vectorsで激安RAGシステムを構築する, とすり, 2025.07 Comment

元ポスト:

Loading…

Metrics (1)

#Article #Tutorial #NLP #LanguageModel #LLMServing #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Parallelism #Inference #Batch
Issue Date: 2025-07-21 LLM推論に関する技術メモ, iwashi.co, 2025.07 Comment

すごいメモだ…勉強になります

QuestionAnswering (1)

#Pocket #NLP #Dataset #AIAgents #Evaluation #Coding
Issue Date: 2025-09-27 [Paper Note] SWE-QA: Can Language Models Answer Repository-level Code Questions?, Weihan Peng+, arXiv'25, 2025.09 GPT Summary- SWE-QAは、ソフトウェアリポジトリ全体を理解し推論するための新しいコード質問応答ベンチマークで、576の高品質な質問-回答ペアを含む。これは、複数のファイルをナビゲートし、ソフトウェアアーキテクチャや長距離のコード依存関係を理解する能力を評価するために設計された。LLMエージェントを用いたプロトタイプSWE-QA-Agentも開発され、実験によりLLMの可能性と今後の研究課題が示された。 Comment

元ポスト:

Loading…

コードスニペットレベルではなく、リポジトリレベルのコードベースの理解が求められるQAベントマーク

DocumentSummarization (1)

#Article #InformationRetrieval #NLP #AIAgents #Pruning #RAG(RetrievalAugmentedGeneration) #Blog #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

Pruning (1)

#Article #DocumentSummarization #InformationRetrieval #NLP #AIAgents #RAG(RetrievalAugmentedGeneration) #Blog #ContextEngineering
Issue Date: 2025-09-28 How to Fix Your Context, dbreunig.com, 2025.07 Comment

Context Poisoning, Context Distraction, Context Confusion,
Context Clashの定義とそれらの対処法について書かれている。後ほど追記する

DeepResearch (1)

#Pocket #NLP #ReinforcementLearning #AIAgents #read-later #Selected Papers/Blogs #ContextEngineering #LongHorizon
Issue Date: 2025-10-18 [Paper Note] Scaling Long-Horizon LLM Agent via Context-Folding, Weiwei Sun+, arXiv'25, 2025.10 GPT Summary- 「Context-Folding」フレームワークを提案し、LLMエージェントがサブタスクを処理しつつコンテキストを管理する方法を示す。FoldGRPOを用いた強化学習により、複雑な長期タスクで10倍小さいコンテキストを使用し、従来のモデルを上回る性能を達成。 Comment

pj page: https://context-folding.github.io

元ポスト:

Loading…

エージェント自身にcontextを管理する能力を学習させる

Others (9)

#Pocket #NLP #ReinforcementLearning #AIAgents #Coding #NeurIPS #Selected Papers/Blogs
Issue Date: 2025-11-05 [Paper Note] SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution, Yuxiang Wei+, NeurIPS'25, 2025.02 GPT Summary- SWE-RLは、強化学習を用いて大規模言語モデル（LLMs）の推論能力を向上させる新しいアプローチで、実世界のソフトウェア工学に焦点を当てています。軽量なルールベースの報酬を活用し、LLMがオープンソースソフトウェアの進化データから学習することで、開発者の推論プロセスを自律的に回復します。Llama3-SWE-RL-70Bは、実世界のGitHub問題において41.0%の解決率を達成し、中規模LLMとしては最高のパフォーマンスを示しました。また、一般化された推論スキルを持ち、複数のドメイン外タスクで改善された結果を示しています。SWE-RLは、ソフトウェア工学データに基づく強化学習の新たな可能性を開きます。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

解説:

Loading…

#Article #Blog #read-later #GPUKernel
Issue Date: 2025-11-18 ParallelKittens: Simple and Fast Multi-GPU AI Kernels, Hazy Research, 2025.11 Comment

元ポスト:

Loading…

読みたい

#Article #NLP #AIAgents #Personalization #Repository #API #memory
Issue Date: 2025-10-13 supermemory, supermemoryai, 2025.10

#Article #AIAgents #Coding #Slide #Sequrity Issue Date: 2025-07-26 運用して初めてわかったDevinのセキュリティ課題 - Devin Meetup Tokyo 2025, 株式会社メルカリHiroki Akamatsu, 2025.07 #Article #AIAgents #project_template #python #Coding Issue Date: 2025-07-26 Python Template for Claude Code （Cookiecutter）, zerebom, 2025.07 Comment

元ポスト:

Loading…

#Article #AIAgents #Coding #Slide #ContextEngineering Issue Date: 2025-07-06 Claude Code の Context Engineering, schroneko, 2025.07 #Article #NLP #AIAgents #Blog #Coding Issue Date: 2025-06-23 AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06 Comment

元ポスト:

Loading…

#Article #AIAgents #Slide Issue Date: 2025-04-26 Cursor_Devin全社導入の理想と現実, Ryoichi Saito, 2025.04 Comment

Devinの思わぬ挙動のくだりが非常に面白かった。まだまだ使いづらいところが多そうだなあ…。

#Article #Mindset #Blog Issue Date: 2025-04-01 ジュニアエンジニアからシニアエンジニアになるまでに自分がやっていたことまとめ, yasuhisa's blog, 2025.04

EducationalDataMining (56)

KnowledgeTracing (32)

#Survey #Pocket #AdaptiveLearning
Issue Date: 2022-08-02 Knowledge Tracing: A Survey, ABDELRAHMAN+, Australian National University, ACM Computing Surveys'23 GPT Summary- 人間の教育における知識移転の重要性を背景に、オンライン教育における知識追跡（KT）の必要性が高まっている。本論文では、KTに関する包括的なレビューを行い、初期の手法から最新の深層学習技術までを網羅し、モデルの理論やデータセットの特性を強調する。また、関連手法のモデリングの違いを明確にし、KT文献の研究ギャップや今後の方向性についても議論する。 #NeuralNetwork #AdaptiveLearning
Issue Date: 2022-08-26 Using Neural Network-Based Knowledge Tracing for a Learning System with Unreliable Skill Tags, Karumbaiah+, （w_ Ryan Baker）, EDM'22 Comment

超重要論文。しっかり読むべき

# 一言で言うと

KTを利用することを最初から念頭に置いていなかったシステムでは、問題に対して事後的にスキルをマッピングする作業が生じてしまい、これは非常に困難なことが多い。論文中で使用したアメリカの商用の数学のblended learningのシステムのデータでは、途中で企業が買収された経緯もあり、古いコンテンツと新しいコンテンツの間でスキルタグのマッピングの間で、矛盾や一貫性がないものができあがってしまった（複数の異なるチームがコンテンツの提供やスキルのタグ付けを行なった結果）。このような例はレアケースかもしれないが、問題とスキルタグが異なるチームによって開発されるということは珍しいことではないし、現代のオンライン学習システムの多くは、さまざまな教科書のデータを統合し、長年にわたってコンテンツ作成チームのメンバーを変更し、複数の州の基準や内部コンテンツスキーマに従ってコンテンツにタグをづけをしているので、少なからずこういった問題（i.e. 一貫性がなく、矛盾をかかえたitem-skill mapping）を抱えている。

こうした中で、NNを用いたモデルを用いることで、unreliableなKCモデルを用いるくらいならば、KCモデルを用いない方が正答率予測が高い精度で実施できることを示した。これは少なくとも、生徒の問題に対する将来のパフォーマンスを予測する問題に関して言えば、既存のアプリケーションにおいて、KCモデルを構築するステップを回避できる可能性を示唆している。

# モチベーション

Cognitive Tutorのようなシステムは、もともとKTを利用するために設計されているシステムだったが、多くのreal-worldの学習システムはアダプティブラーニングやKTを念頭に置いて作られたものではない。そういったシステムでアダプティブな機能を追加するといった事例が増えてきている。こういったシステムが、もともとKTを実施することを念頭するために作られたシステムとの違いとして、問題とスキルのマッピング方法にある。

最初から KT を使用するように設計されたシステムは、最初にどのスキルを含めるかを選択し、次にそれらのスキルに合わせたアイテムを開発する。一方、KTを使用するために改良をする場合、最初にアイテムが作成され、次にアイテムにスキルのラベルが付けられる。

既存のアイテムにスキルのラベルを付けるのは、スキルの新しいアイテムを作成するよりもはるかに困難である。多くの場合、アイテムは複数の著者によって時間をかけて開発されたものであるか、異なる教科書などの異なる元のソースからのものである。この異種のコンテンツ (場合によっては数万のアイテム) を一連のスキルにマッピングすることは、非常に困難な作業になる可能性がある。

多くの場合、アイテムは政府のカリキュラム基準の観点からタグ付けされているが、これらの基準は一般的に、KTモデルで使用されるスキルよりも非常に粗いものとなっている。

したがって、最初からKTを利用することを念頭に置かれていないシステムでKTを利用することには課題がある。

この論文では、NNベースなKTモデルが、この課題の部分的な解決策になることを示す。

このために、商用の数学のblended learningシステムでのケーススタディを実施した。

中学生が 2 年間システムを使用して収集したデータを使用して、KT モデルの性能を次の3 つのシナリオで比較し：

- 1) システムが提供する (おそらくunreliableな)スキルタグを利用した場合

- 2) 州の基準に基づくタグを利用した場合

- 3) コンテンツとスキルタグのマッピングを一切入力しない場合

DKVMNでの実験の結果、1)が最も悪い性能を示し、3)が最も良い問題の正誤予測の性能を示した。

これは、もともとKT モデルで動作するように設計されていなかった現実世界の学習システムでKCモデリングを回避する可能性を示唆している。特に、目的が将来のアイテムに対する学習者の成績を予測することだけである場合はこれに該当する。

# 実験結果

スキルの情報を用いず、ExerciseIDをそのままinputする方法が、最も高いAUCを獲得している。

# つまり

- きちんと一貫性があり矛盾のないItem-KCマッピングを用いないとモデルがきちんと学習できない

- 特に元々KTを適用することを念頭に置いていないシステムでは困難な作業となる可能性が高い

# KTの歴史

- 30年ほど研究されている（1995年のCorbett and AndersonらのBKTあたりから）

- 最初はBKTが広く採用された

- その後、最近ではlogistic regressionに基づくモデルが提案されるようになってきたが、実際のシステムで利用されることはまだ稀

- Elo や Temporal IRT などのIRTに関連するアルゴリズムも、最近文献でより広く見られるようになり、いくつかの学習システムで大規模に使用されている

- Elo およびTemporal IRT は KCモデルなしで使用できるが、通常、いくつかのスキルごとに個別の Elo モデルが利用される。

- NNベースなモデルは過去5年で活発に研究され、将来のパフォーマンスを予測する性能は飛躍的に向上した

- ただし、予測不可能な動作（reconstruction problemや習熟度のfluctuation）や、mastery learningや生徒にスキルをレポーティングするためにこのタイプのモデルを用いるという課題のために、実際のシステムで運用するよりも、論文を執筆する方が一般的になった。

- これに関するNNモデルの問題の1 つは、特定の問題の正答率を予測するが、それを人間が解釈できるスキルの習熟度にマッピングしないことにある。

#RecommenderSystems #NeuralNetwork #EfficiencyImprovement #CollaborativeFiltering #Pocket #Contents-based #NAACL
Issue Date: 2022-08-01 GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering, Yoonseok Yang+, NAACL'22 GPT Summary- コンテンツベースの協調フィルタリング（CCF）において、PLMを用いたエンドツーエンドのトレーニングはリソースを消費するため、GRAM（勾配蓄積手法）を提案。Single-step GRAMはアイテムエンコーディングの勾配を集約し、Multi-step GRAMは勾配更新の遅延を増加させてメモリを削減。これにより、Knowledge TracingとNews Recommendationのタスクでトレーニング効率を最大146倍改善。 Comment

RiiiDがNAACL'22に論文通してた

#NeuralNetwork #AdaptiveLearning #LearningAnalytics Issue Date: 2022-04-28 Empirical Evaluation of Deep Learning Models for Knowledge Tracing: Of Hyperparameters and Metrics on Performance and Replicability, Sami+, Aalto University, JEDM'22 Comment

DKTの説明が秀逸で、元論文では書かれていない分かりづらいところまできちんと説明してくれている。

（inputは(スキルタグ, 正誤)のtupleで、outputはスキルタグ次元数のベクトルyで、各次元が対応するスキルのmasteryを表しており、モデルのtrainingはnext attemptに対応するスキルのprobabilityのみをyから抽出しBinary Cross Entropyを計算する点、など）

入力や出力の仕方によって性能がどの程度変化しているかを検証しているのがおもしろい。

- Input: one-hot encoding (one hot vectorをinputする) vs. embedding layer (embeddingをinputする)

- Output: output per skill (スキルタグの次元数を持つベクトルyをoutputする) vs. skills-to-scalar output （skill summary layer + Scalar; 次のattemptに対する正答率のみをscalarでoutputする）

下図ではDKTの例が書かれているが、DKVMNやSAKTでもこれらの違いは適用可能。

output per skillで出力をすれば、Knowledge TrackingはDKTと同様どのようなモデルでも可能なのではないか。

◆Inputについて

基本的には大きな差はないが、one-hot encodingを利用した場合、DKVMN-PaperとSAKTがembeddingと比較して3.3~4.6%程度AUCが悪くなることがあった。

最高の性能を模索したい時はembedding layerを利用し、one-hot encodingはハイパーパラメータの選択をミスった場合でもロバストな結果（あまり性能が悪化しなかった）だったので、より安全な選択肢と言える。

◆Outputについて

全体として、DKT（およびDKTの亜種）については、output per skillの方が良かった。

DKVMNはこれとは逆で、skills-to-scalar outputの方が性能が良かった。

SAKTではoutput per skillの方がworst scoreがskills-to-scalar outputよりも高いため、よりrobustだと判断できる。

結論：

1. Deep Learning basedなモデルはnon-deep learning basedなモデルやシンプルなベースラインよりも一般的に予測性能が良い

2. LSTMを用いたDKT(LSTM-DKT), LSTM-DKTに次のexerciseのスキルタグ情報をconcatして予測をするDKT（LSTM-DKT-S）, DKVMNの性能がDeep Learning Basedな手法では性能が良かった。が、Deep Learningベースドなモデルの間での性能の差は僅かだった（SAKTとも比較している）。

3. one-hot encoding vs. embedding layer, output per skill vs. skills-to-scalar output については、最大で4.6%ほどAUCの変化があり（SAKTにone-hot encodingを入力した場合embeddingを利用しない場合よりも4.6%ほど性能が低下している）、パフォーマンスに大きな違いをもたらした

論文中のDKVMN, DKVMN-Paperの違いは、著者が実装を公開しているMXNetの実装だと論文（Paper）に書かれているアーキテクチャと実装が違うのでDKVMNとして記述している。DKVMN-Paperは論文通りに実装したものを指している。

この研究では、KTする際に全てのDeep Learning basedなモデル（DKT, DKVMN, SAKT）において、入力の系列をx_tを(s_t, c_t)で表現し検証している。s_tはスキルタグで、c_tは正解したか否か。

outputも output-per-skill の場合は、スキルタグ次元のベクトルとなっている。

#NeuralNetwork #Pocket Issue Date: 2022-08-31 Behavioral Testing of Deep Neural Network Knowledge Tracing Models, Kim+, Riiid, EDM'21 #NeuralNetwork #AdaptiveLearning #LearningAnalytics Issue Date: 2022-05-02 Learning Process-consistent Knowledge Tracing, Shen+, SIGKDD'21 Comment

DKTでは問題を間違えた際に、対応するconceptのproficiencyを下げてしまうけど、実際は間違えても何らかのlearning gainは得ているはずだから、おかしくね？というところに端を発した研究。

student performance predictionの性能よりも、Knowledge Tracingのクオリティーにもっと焦点を当てようよという主張をした論文。

Forgettingもモデル化しているところが特徴。

現在は引用数2だけど、この課題感は非常に重要で、重要論文だと思う。

# モチベ

下図はDKTによる習熟度の変化を表しており赤枠で囲まれている部分は、問題に不正解した際に習熟度が下がることを示している。しかし実際な問題に間違っていたとしても何らかのLearning Gainを得ているはずであり、この挙動はcognitive theoryに反している。実際に先行研究では、エラーは学習において自然な要素であり、学習者はエラーから学び、好ましいエラーによって学習を促進できることを指摘している。

これまでのknowledge tracing研究が、student performance predictionの性能ばかりにフォーカスされているのに対し、本研究では、Knowledge Tracingの解釈性とstudent performance predictionのaccuracyの両方にフォーカスしている。

# Problem Definition

本研究では、1学習の基本要素（learning cell）は exercise-answertime-correctness の3つ組によって表現され、learning cell同士は、interval timeによって隔たれていると考える。answertimeを導入することで、学習者のlearning processを表現する能力を高め、interval timeはLearning Gainを算出する際に役立てる（一般的にinterval timeが短い方がより多くのknowledgeを吸収する傾向にあるなど、interval timeはlearning gainの多様性を捉えるのに役立つ）。

つまり、学習の系列は x = {(e1, at1, a1),it1, (e2, at2, a2),it2, ...,(et, att, at ),itt } と表せる。

KTタスクは、t+1時点での生徒のknowledge stateと、生徒のパフォーマンスを予測する問題として表せる。

# モデル

学習者のLearning Processをきちんとモデル化することに念頭をおいている。具体的には、①学習者は学習を通じて常に何らかのLearning Gain（ある2点間でのパフォーマンスの差; 本研究では前回の学習と今回の学習の両方のlearning cell + interval time + 前ステップでのknowledge stateからLGを推定）を得ており、②忘却曲線にならい学習者は時間がたつと学習した内容を忘却していき（anwertimeとinterval timeが関係する）、③現在のknowledge stateから正誤予測が実施される。

モデルの全体像が下図であり、①がLearning Module, ②がForgetting Module, ③がPredicting Moduleに相当している。

## Embedding

本研究ではTime EmbeddingとLearning Embedding, Knowledge Embeddingの三種類のEmbeddingを扱う。

### Time Embedding

answer timeとinterval timeをembeddingで表現する。両者はスケールが異なるため、answer timeは秒で、interval timeは分でdiscretizeしone-hot-encodingし、Embeddingとして表現する。ここで、interval timeが1ヶ月を超えた場合は1ヶ月として表現する。

### Learning Embedding

learning cellをembeddingで表現する。exercise, answertime, correctnessそれぞれをembeddingで表現し、それらをconcatしMLPにかけることでlearning embeddingを獲得する。ここで、correctnessのembeddingは、正解の場合は全ての要素が1のベクトル, 不正解の場合は全ての要素が0のベクトルとする。

### Knowledge Embedding

学習プロセスにおけるknowledge stateの保存とアップデートを担うEmbedding。

Knowledge Embedding h は、(M x dk)次元で表され、Mはknowledge conceptの数である。すなわち、hの各行が対応するknowledge conceptのmasteryに対応している。learning interactionにおいて、それぞれのknowledge conceptに対するlearning gainや、忘却効果をknowledge embeddingを更新することによって反映させる。

また、knowledge embeddingを更新する際にはQ-matrixを利用する。Q-matrixは、exerciseとknowledge conceptの対応関係を表した行列のことである。Qjmが1の場合、exercise ej が knowledge concept km と関係していることを表し、そうでない場合は0でQ-matrixは表現される。もし値が0の場合、exercise ej のパフォーマンスは、knowledge concept km のmasteryに一切影響がないことを表している。が、人手て定義されたQ-matrixはエラーが含まれることは避けられないし、主観的なバイアスが存在するため、本研究ではこれらの影響（Q-matrix上の対応関係の見落としや欠落）を緩和するためにenhanced Q-matrix q (J x M次元）を定義する。具体的には、通常のQ-matrixで値が0となる部分を、小さな正の値γとしてセットする。

今回はこのようなシンプルなenhanced Q-matrixを利用するが、どのようなQ-matrixの定義が良いかはfuture workとする。

## Learning Module

learning gainを測るためのモジュール。2つの連続したlearning interactionのパフォーマンスの差によってgainを測定する（learning embeddingを使う）。ただこれだけではlearning gainの多様性を捉えることができないため（たとえば同じ連続したlearning embeddingを持って生徒がいたとしてもlearning gainが一緒とは限らない）、interval timeとprevious knowledge stateを活用する。

interval timeはlearning processの鍵となる要素の一つであり、これはlearning gainの差異を反映してる。一般tネキには、interval timeが短い方が生徒はより多くの知識を獲得する傾向にある。

さらに、previous knowledge stateもlearning gainに関係しており、たとえばmasteryが低い生徒は改善の可能性が非常に高い。

previous knowledge stateを利用する際は、現在のexerciseと関連するknowledge conceptにフォーカスするために、knowledge embeddingをknowledge concept vector q_etとの内積をとり、関連するknowledge conceptのknowledge stateを得る：

https://user-images.githubusercontent.com/12249301/168086129-262c1154-9d12-43fe-b5bd-cf6c84f2dffe.png" >

（q_etの詳細が書かれていないので分からないが、おそらくenhanced Q-matrixのexercise e_tに対応する行ベクトルだと思われる。e_tと関連するknowledge conceptと対応する要素が1で、その他が正の定数γのベクトル）

そしてlearning gain lg_t (dk次元ベクトル)は2つの連続したlearning embedding, と現在の問題と関連するknowledge stateとinterval time embeddingをconcatしMLPにかけることで算出する。

https://user-images.githubusercontent.com/12249301/168086638-dffd60dc-4bd6-4da2-ba4b-6749e1a9bb6b.png" >

さらに、全てのlearning gainが生徒のknowledgeの成長に寄与するとは限らないので、生徒の吸収能力を考慮するために learning gate Γ^l_t (dk次元ベクトル)を定義する（learning gainと構成要素は同じ）：

https://user-images.githubusercontent.com/12249301/168087058-bb5e6e13-aaa2-46f8-ac1f-777f5b6c57de.png" >

そして先ほど求めたlearning gateとlearning gainの内積をとり、さらにknowledge concept vector q_etとの内積をとることで、ある時刻tのexercise e_tにと関連するknowledge conceptのlearning gain ~LG_tを得る：

https://user-images.githubusercontent.com/12249301/168087419-05e777ae-d2a6-4342-9b39-8df163d97fe9.png" >

ここで、(lg_t+1)/2しているのは、tanhの値域が（-1, 1）なためであり、これにより値域を(0, 1)に補正している。従ってLG_tは常に正の値となる。これは、本研究の前提である、生徒はそれぞれのlearning interactionから知識を着実に獲得しているという前提を反映している。

## Forgetting Module

~LG_tは生徒のknowledge stateを向上させる働きをするが、反対の忘却現象は、時間が経つにつれてどれだけの知識が忘れられるかに影響します。forgetting curve theoryによると、記憶されている学習教材の量は時間経過に従い指数的に減衰していく。しかしながら、knowledge stateとinterval timeの複雑な関係性を捉えるためには、manual-designedな指数減衰関数では十分ではない。

そこで、forgetting effectをモデル化するために、forgetting gate Γ^f_tを導入する。これは、knowledge embeddingから3つの要素をMLPにかけることで失われる情報の度合いを学習するしたものであり、その3つの要素とは (1) 生徒のprevious knowledge state h_t-1, (2)生徒の現在のlearning gain LG_t, (3) interval time it_tである。

これらを用いてforgetting gate (dk次元) は以下のように計算される：

https://user-images.githubusercontent.com/12249301/168101254-29019294-56be-4b92-99b3-360554bf58fd.png" >

forgetting gateをh_t-1と積をとることで、忘却の影響を考慮することができる。そして、生徒がt番目のlearning interactionを完了した後のknowledge state h_tは次の式で更新される：

https://user-images.githubusercontent.com/12249301/168101820-90958bfc-4c4c-4a46-ab00-3efaa10aeb42.png" >

## Predicting Module

これでlearning gainとforgetting effectの両方を考慮した生徒のknowledge state h_tが算出できたので、これをe_t+1のexerciseのperformance予測に活用する。e_t+1を生徒が解く時は、対応するknowledge conceptを適用することで回答をするので、knowledge stateのうち、e_t+1と関連するknowledge state ~h_tを利用する（knowledge concept vector q_et+1との内積で求める）。式で表すと下記になる：

https://user-images.githubusercontent.com/12249301/168102734-2a53305e-ab34-4e7d-b9c6-dbcc1d8f8eb5.png" >

~h_tにexercise e_t+1のembeddingをconcatしてMLPにかけている。

# Objective Function

正則化項つきのcross-entropy log lossを利用する。

https://user-images.githubusercontent.com/12249301/168103089-0e3f4f21-8d77-4bd1-8ec5-07425cc4833b.png" >

# 実験結果

## knowledge tracingの結果

https://user-images.githubusercontent.com/12249301/168103305-2a0a100d-3122-4d9f-ac20-f5706ef44173.png" >

先述のDKTの例とは異なり、問題の回答に誤っていたとしてもproficiencyが向上するようになっている。ただ、e_7が不正解となっている際に、proficiencyが減少していることもわかる。これは、モデルがproficiencyの推定をまだしっかりできていない状態だったため、モデル側がproficiencyを補正したためだ、と論文中では述べられているが、こういった現象がどれだけ起きるのだろうか。こういう例があると、図中の赤枠はたまたま不正解の時にproficiencyが向上しただけ、というふうにも見えてしまう（逆に言うとDKTでも不正解の時にproficiencyが向上することはあるよねっていう）。

また、忘却効果により時間経過に伴い、proficiencyが減少していることもわかる。ただ、この現象もDKTの最初の例でもたとえば①の例はproficiencyが時間経過に伴い減少していっていたし、もともとDKTでもそうなってたけど？と思ってしまう。

ただ、②についてはDKTの例ではproficiencyが時間経過に伴い減少して行っていなかったため、LPKTではきちんとforgetting effectがモデリングできていそうでもある。また、図中右では、最初のinteractionと各knowledge conceptの習熟度の最大値、最後のinteraction時の習熟度がレーダーチャートとして書かれており、学習が進むにつれてどこかで習熟度は最大値となり、忘却効果によって習熟度は下がっているが、学習の最初よりは習熟度が高く弱実に学習が進んでいますよ、というのを図示している。interactionをもっと長く続けた際に（あるknowledge conceptを放置し続けた際に）、忘却効果によってどの程度習熟度がshrinkするのかが少し気になる（習熟度が大きくなった状態が時間発展しても維持されるということが、このモデルでは存在しないのでは？）。

=> Knowledge Tracingの結果については、cherry pickingされているだけであって、全体として見たらどれだけ良くなっているかが正直分からないんじゃないか、という感想。

## student performance predictoin

https://user-images.githubusercontent.com/12249301/168105090-d463cf7b-c769-4e59-b4ae-f920c5873a4f.png" >

全てのベースラインに勝っている。特に系列長の長いASSISTchallでAKTに対して大きく勝っており、系列長の長いデータに対してもrobustであることがわかる。

## Ablation Study

learning module, forgetting module, time embeddingをablationした場合に性能がどう変化するかを観察した。forgetting moduleをablationした場合に、性能が大きく低下しているので、forgetting moduleの重要性がわかる。おもしろいのは、time embeddingを除いてもあまり性能は変化していないので、実際はstudent performance predictionするだけならtime embeddingはあまり必要ないのかもしれない。が、論文中では「time embedding (answer timeとinterval time)を除外するのはlearning processを正確にモデル化する上でharmfulだ」と言及しているに留まっており、具体的にどうharmfulなのかは全くデータが提示されていない。time embeddingを除外したことでknowledge tracingの結果がどう変化するのかは気になるところではある、が、実はあまり効いていないんじゃない？という気もする。

https://user-images.githubusercontent.com/12249301/168105293-ab203fa8-a6cc-4ff7-9750-659e39add4ee.png" >

## Exercises Clustering

最後に、学習したexerciseのembeddingをt-SNEで可視化しクラスタリングしている。クラスタリングした結果、共通のknowledge conceptを持つexercise同士はある程度同じクラスタに属する例がいくつか見受けられるような結果となっている。

https://user-images.githubusercontent.com/12249301/168106245-d578baad-916e-4e78-8fb7-9bf604617f93.png" >

# 所感

answer timeとinterval timeのデータがなくても高い性能で予測ができそうなのでアリ。ただ、そういった場合にknowledge tracingの結果がどうなるかが不安要素ではある。もちろんanswer timeとinterval timeが存在するのがベストではあるが。

また、DKT+で指摘されているような、inputがreconstructionされない問題や、proficiencyが乱高下するといった現象が、このモデルにおいてどの程度起きるのかが気になる。

DKTのようなシンプルなモデルではないので、少しは解消されていたりするのだろうか。実用上あのような現象が生じるとかなり困ると思う。

KCのproficiencyの可視化方法について論文中に記述されていないが、下記リポジトリのIssue 29で質問されている。

knowledge matrix hは各KCのproficiencyに関する情報をベクトルで保持しており、ベクトルをsummationし、シグモイド関数をかけることで0.0~1.0に写像しているとのこと。

#NeuralNetwork #Pocket #AdaptiveLearning #LearningAnalytics Issue Date: 2022-04-28 BEKT: Deep Knowledge Tracing with Bidirectional Encoder Representations from Transformers, Tian+ （緒方先生）, Kyoto University, ICCE'21 Comment

KTにBERTを利用した研究

Empirical Evaluation of Deep Learning Models for Knowledge Tracing: Of Hyperparameters and Metrics on Performance and Replicability, Sami+, Aalto University, JEDM'22 などでDeepLearningBasedなモデル間であまり差がないことが示されているので、本研究が実際どれだけ強いのかは気になるところ。

#NeuralNetwork #AdaptiveLearning #LearningAnalytics #AAAI Issue Date: 2022-04-28 Do we need to go Deep? Knowledge Tracing with Big Data, Varun+, University of Maryland Baltimore County, AAAI'21 Workshop on AI Education GPT Summary- インタラクティブ教育システム（IES）を用いて学生の知識を追跡し、パフォーマンスモデルを開発する研究が進展。深層学習モデルが従来のモデルを上回るかは未検証であり、EdNetデータセットを用いてその精度を比較。結果、ロジスティック回帰モデルが深層モデルを上回ることが確認され、LIMEを用いて予測に対する特徴の影響を解釈する研究を行った。 Comment

データ量が小さいとSAKTはDKTはcomparableだが、データ量が大きくなるとSAKTがDKTを上回る。

#NeuralNetwork #AdaptiveLearning #LearningAnalytics Issue Date: 2022-04-27 A Survey of Knowledge Tracing, Liu+, IEEE Transactions on Learning Technologies, arXiv'21 Comment

古典的なBKT, PFAだけでなくDKT, DKVMN, EKT, AKTなどDeepなモデルについてもまとまっている。

#AdaptiveLearning Issue Date: 2022-08-29 Extending Deep Knowledge Tracing: Inferring Interpretable Knowledge and Predicting Post-System Performance, Richard+ （w_ Ryan Baker）, ICCE'20 Comment

# 概要

ざっくりとしか読めていないが

- DeepLearningBasedなKT手法は、latentな学習者の知識を推定しているわけではなく、「正誤」を予測しているだけであることを指摘

- → 一方BKTはきちんとlatent knowledgeがモデリングされている

- → 昔はknowledge inferenceした結果を、post-testで測定したスキルのmasteryとしっかり比較する文化があったが、近年のDeepLearningベースな研究では全く実施されていないことも指摘

- → learning systemの中でどのようなパフォーマンスが発揮されるかではなく、learning systemの外でどれだけスキルが発揮できるか、というところにBKTなどの時代は強い焦点が置かれていたのだと思われる

- DeepLearningBasedなKT手法でもknowledgeのinferenceが行える手法を提案し、BKTやPFAによるknowledge estimateよりもposttestのスコアと高い相関を示すことを実験した

- → 手法: それぞれの問題のfirst attemptに対する正誤データの「全て」をtraining dataとし、DKT, DKVMN, BKT, PFAを学習。

　-（おそらく）学習したモデルを用いてある生徒AのスキルBのknowledgeをinferenceしたい場合、生徒Aが回答したスキルBと紐づいた問題に対する平均正答率を推定した習熟度とした

　- 生徒Aはtraining dataに含まれている生徒

- すなわち、生徒Aにとって未知の問題の正答率を予測しているわけではなく、モデルがパラメータを推定するために利用した既知の問題-回答ペアデータに対して、モデルがパラメータをfittingした後にinferenceできる正答率の平均値を習熟度としている

# 結果

- 4種類のスキルに対するpost-testのスコアと相関係数をモデルごとに比較した結果、DKT, DKVMNなどは、BKTよりも高い相関を示し、PFAとはcomparableな結果となった

# 所感

- この手法のリアルタイムな運用は難しいと思った（knowledgeをinferするために毎回モデルをtrainingしなおさなければならない）

- BKTが推定するスキルのmasteryはこのcase studyだけ見ると全くあてにならない・・・

- ユーザが回答した問題と紐づいたスキルのknowledgeしか推定できないところもlimitationの一つだと思う

- この手法がtraining dataに含まれていない「未知の問題」に対する正答率予測を平均することで、knowledgeをinferenceできるという話だったのであれば、非常に興味深いと思った。

　- 実際どうなんだろうか？

#Tools #Library #AdaptiveLearning Issue Date: 2022-07-27 pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models, Bardrinath+, EDM'20 Comment

pythonによるBKTの実装。scikit-learnベースドなinterfaceを持っているので使いやすそう。

# モチベーション

BKTの研究は古くから行われており、研究コミュニティで人気が高まっているにもかかわらず、アクセス可能で使いやすいモデルの実装と、さまざまな文献で提案されている多くの変種は、理解しにくいものとなっている。そこで、モダンなpythonベースドな実装としてpyBKTを実装し、研究コミュニティがBKT研究にアクセスしやすいようにした。ライブラリのインターフェースと基礎となるデータ表現は、過去の BKTの変種を再現するのに十分な表現力があり、新しいモデルの提案を可能にする。また、既存モデルとstate-of-the-artの比較評価も容易にできるように設計されている。

# BKTとは

BKTの説明は Adapting Bayesian Knowledge Tracing to a Massive Open Online Course in edX, Pardos+, MIT, EDM'13
あたりを参照のこと。

BKTはHidden Markov Model (HMM) であり、ある時刻tにおける観測変数（問題に対する正誤）と隠れ変数（学習者のknowledge stateを表す）によって構成される。パラメータは prior（生徒が事前にスキルを知っている確率）, learn (transition probability; 生徒がスキルを学習することでスキルに習熟する確率), slip, guess (emission probability; スキルに習熟しているのに問題に正解する確率, スキルに習熟していないのに問題に正解する確率)の4種類のパラメータをEMアルゴリズムで学習する。

ここで、P(L_t)が時刻tで学習者がスキルtに習熟している確率を表す。BKTでは、P(L_t)を観測された正解/不正解のデータに基づいてP(L_t)をアップデートし、下記式で事後確率を計算する

また、時刻t+1の事前確率は下記式で計算される。

一般的なBKTモデルではforgettingは生じないようになっている。

Corbett and Andersonが提案している初期のBKTだけでなく、さまざまなBKTの変種も実装している。

# サポートしているモデル

- KT-IDEM (Item Difficulty Effect): BKTとは異なり、個々のquestionごとにguess/slipパラメータを学習するモデル KT-IDEM: Introducing Item Difficulty to the Knowledge Tracing Model, Pardos+ (w/ Neil T. Heffernan), UMAP11

- KT-PPS: 個々の生徒ごとにprior knowledgeのパラメータを持つ学習するモデル Modeling individualization in a bayesian networks implementation of knowledge tracing, Pardos+ (w/ Neil T. Heffernan), UMAP'00

- BKT+Forget: 通常のBKTでは一度masterしたスキルがunmasteredに遷移することはないが、それが生じるようなモデル。直近の試行がより重視されるようになる。 How Deep is Knowledge Tracing?, Mozer+, EDM'16

- Item Order Effect: TBD

- Item Learning Effect: TBD

#NeuralNetwork #AdaptiveLearning #LearningAnalytics #KeyPoint Notes Issue Date: 2022-04-28 When is Deep Learning the Best Approach to Knowledge Tracing?, Theophile+ （Ken Koedinger）, CMU+, JEDM'20 Comment

下記モデルの性能をAUCとRMSEの観点から9つのデータセットで比較した研究

- DLKT

- DKT

- SAKT

- FFN

- Regression Models

- IRT

- PFA

- DAS3H

- Logistinc Regression

- variation of BKT

- BKT+ (add individualization, forgetting, discovery of knowledge components)

DKT、およびLogistic Regressionが最も良い性能を示し、DKTは5種類のデータセットで、Logistic Regressionは4種類のデータセットでbestな結果を示した。

SAKTは A Self-Attentive model for Knowledge Tracing, Pandy+ (with George Carypis), EDM'19 で示されている結果とは異なり、全てのデータセットにおいてDKTの性能を下回った。

また、データセットのサイズがモデルのパフォーマンスに影響していることを示しており、

小さなデータセットの場合はLogistic Regressionのパフォーマンスがよく、

大きなデータセットの場合はDKTの性能が良かった。

（アイテムごとの学習者数の中央値、およびKCごとの学習者数の中央値が小さければ小さいほど、Logistic Regressionモデルが強く、DLKTモデルはoverfitしてしまった; たとえば、アイテムごとの学習者数の中央値が1, 4, 10とかのデータではLRが強い; アイテムごとの学習者数の中央値が仮に大きかったとしても、KCごとの学習者数の中央値が少ないデータ(200程度; Spanish)では、Logistic Regressionが強い）。

加えて、DKTはLogistic Regressionと比較して、より早くピークパフォーマンスに到達することがわかった。

ちなみに、一つのアイテムに複数のKCが紐づいている場合は、それらを組み合わせ新たなKCを作成することで、DKTとSAKTに適用したと書いてある（この辺がずっと分かりづらかった）。

データセットの統計量はこちら：

データセットごとに、連続して同じトピックの問題（i.e. 連続した問題IDの問題を順番に解いている）を解いている割合（i.e. どれだけ順番に問題を解いていっているか）を算出した結果が下図。

同じトピックの問題を連続して解いている場合（i.e. 順番に問題を解いていっている場合）に、DKTの性能が良い。

またパフォーマンスに影響を与える要因として、学習者ごとのインタラクション数が挙げられる。ほとんどのデータセットでは、power-lawに従い中央値が数百程度だが、bridge06やspanishのように、power-lawになっておらず中央値が数千といったデータが存在する。こういったデータではDKTはlong-termの情報を捉えきれず、高い性能を発揮しない。

実験に利用した実装はこちら： https://github.com/theophilee/learner-performance-prediction

ただ、実装を見るとDKTの実装はオリジナルの論文とは全く異なる工夫が加えられていそう

https://github.com/theophilee/learner-performance-prediction/blob/master/model_dkt2.py

これをDKTって言っていいの・・・？

オリジナルのDKTの実装はDKT1として実装されていそうだけど、その性能は報告されていないと思われる・・・。

DKT1の実装じゃないと、KCのマスタリーは取得できないんでは。

追記：と思ったら、DKTのAblation Studyで報告されている Input/Output をKC, Itemsで変化させた場合のAUCの性能の変化の表において、best performingだった場合のAUCスコアが9つのデータセットに対するDKTの予測性能に記載されている・・・。

じゃあDKT2はどこで使われているの・・・。

DKTは、inputとしてquestion_idを使うかKCのidを使うか選択できる。また、outputもquestion_idに対するprobabilityをoutputするか、KCに対するprobabilityをoutputするか選択できる。

これらの組み合わせによって、予測性能がどの程度変化するかを検証した結果が下記。

KCをinputし、question_idをoutputとする方法が最も性能が良かった。

明記されていないが、おそらくこの検証にはDKT1の実装を利用していると思われる。input / outputをquestionかKCかを選べるようになっていたので。

実際にIssueでも、assistments09のAUC0.75を再現したかったら、dkt1をinput/output共にKCに指定して実行しろと著者が回答している。

ちなみに論文中の9つのデータセットに対するAUCの比較では、各々のモデルはKCに対して正答率を予測しているのではなく、個々の問題単位で正答率を予測していると思われる（実装を見た感じ）。

#NeuralNetwork #Pocket #AdaptiveLearning #LearningAnalytics #SIGKDD Issue Date: 2022-04-27 Context-Aware Attentive Knowledge Tracing, Ghosh+, University of Massachusetts Amherst, KDD'20 Comment

この論文の実験ではSAKTがDKVMNやDKTに勝てていない

#NeuralNetwork #MachineLearning #AdaptiveLearning Issue Date: 2022-07-22 Deep-IRT: Make Deep Learning Based Knowledge Tracing Explainable Using Item Response Theory, Chun-Kit Yeung, EDM'19 Comment

著者による実装: https://github.com/ckyeungac/DeepIRT

#NeuralNetwork #Pocket #AdaptiveLearning #LearningAnalytics Issue Date: 2022-04-28 Knowledge Tracing with Sequential Key-Value Memory Networks, Ghodai+, Research School of Computer Science, Australian National University, SIGIR'19 #NeuralNetwork #GraphConvolutionalNetwork #Education #WI Issue Date: 2021-07-08 GRAPH-BASED KNOWLEDGE TRACING: MODELING STUDENT PROFICIENCY USING GRAPH NEURAL NETWORK, Nakagawa+, Tokyo University, WI'19 Comment

graph neural networkでKnoelwdge Tracingした論文。各conceptのproficiencyの可視化までしっかりやってそう。

#NeuralNetwork #Pocket #LearningAnalytics #StudentPerformancePrediction #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2021-05-28 [Paper Note] EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction, Qi Liu+, IEEE TKDE'19, 2019.06 GPT Summary- 学生のパフォーマンス予測のために、演習記録と教材情報を統合するEERNNフレームワークを提案。双方向LSTMを用いて演習内容をエンコードし、マルコフ特性とアテンションメカニズムを持つ2つの実装を提供。さらに、知識概念を追跡するEKTに拡張し、演習が知識習得に与える影響を定量化。実験により、予測精度と解釈可能性の向上が確認された。 Comment

モデル自体は、基本的にはattention-basedなRNNモデル。

Exercise EmbeddingはBidireictional-RNNを利用して、問題文をエンコードすることによって求める。

単にStudent Performance Predictionして終わり！ってんじゃなく、knowledge tracing的な側面をきちんと考慮している点で、この研究めっちゃ好き。

#Pocket #EDM Issue Date: 2021-07-04 Learning to Represent Student Knowledge on Programming Exercises Using Deep Learning, Wang+, Stanford University, EDM'17 Comment

DKT [Paper Note] Deep Knowledge Tracing, Piech+, NIPS'15 のPiechも共著に入っている。

プログラミングの課題を行なっている時（要複数回のソースコードサブミット）、

1. 次のexerciseが最終的に正解で終われるか否か

2. 現在のexerciseを最終的に正解で終われるか否か

を予測するタスクを実施

#NeuralNetwork #StudentPerformancePrediction #WWW Issue Date: 2021-05-28 Dynamic Key-Value Memory Networks for Knowledge Tracing, Yeung+, WWW'17 Comment

DeepなKnowledge Tracingの代表的なモデルの一つ。KT研究において、DKTと並んでbaseline等で比較されることが多い。

DKVMNと呼ばれることが多く、Knowledge Trackingができることが特徴。

モデルは下図の左側と右側に分かれる。左側はエクササイズqtに対する生徒のパフォーマンスptを求めるネットワークであり、右側はエクササイズqtに対する正誤情報rtが与えられた時に、メモリのvalueを更新するネットワークである。

メモリとは生徒のknowledge stateを保持している行列であり、keyとvalueのペアによって形成される。keyとvalueは両者共にdv次元のベクトルで表現される。keyはコンセプトを表し、valueがそれぞれのコンセプトに対する生徒のknowledge stateを表している。ここで、コンセプトとスキルタグは異なる概念であり、スキルタグを生成される元となった概念のことをコンセプトと呼んでいる。コンセプトは基本的には専門家がタグ付しない限り、観測できない変数だと思われる。すなわち、コンセプトとはsynthetic-5データでいうところのc_t（5種類のコンセプト）に該当し、個々のコンセプトによって生成された50種類のexerciseがエクササイズタグに相当する。ASSISTments15データでいうところの、100種類のスキルタグがエクササイズタグで、それぞれのスキルタグのコンセプトはデータに明示されていない。

# ptの求め方

ptを求める際には、エクササイズqt（qtのサイズはエクササイズタグ次元Q; エクササイズタグが何を指すかは分かりづらく、基本的にはスキルタグのことだが、synthetic-5のように50種類のquestion_idをそのまま利用することも可）のembedding kt（dk次元）を求め、ktをメモリのkey M^k（N x dk次元）とのmatmulをとることによって、各コンセプトとのcorrelation weight w を求める。

correlation weight wは、メモリのvalue（knowledge state）からknowledge stateのread contentベクトルrを生成する際に用いられる。read contentベクトルは、エクササイズqtに関する生徒のmastery levelのサマリとみなすことができる。

read contentベクトルrは、各キーのcorrelation weight w（scalar）とメモリのvalueベクトル（dv次元）との積をメモリサイズ（コンセプト数）Nでsummationすることによって求められる。

read contentベクトルを求めたのち、生徒のqtに対するmastery levelと取り組む問題qtの難易度を集約したサマリベクトルftをfully connected layerによって求める。求める際には、rとkt（qtのembedding）をconcatし、fully connected layerにかける。

最終的にサマリベクトルftを異なるfully connected layerにかけることによって、エクササイズqtに対するレスポンスを予測する。

# メモリの更新方法

エクササイズqtとそれに対する正誤rtが与えられたとき(qt, rt)、この情報のembedding vtを求める。求める際は、2Q x dv次元のembedding matrixをlookupする。このvtは、生徒がエクササイズに回答したことによってどれだけのknowledge growthを得たかを表している。

その後LSTMのforget gateに着想を得て、メモリのvalueをupdateする際に、最初にeraseベクトルを求めてvalueのうち忘却した情報を削除し、その後add vectorを利用してknowledge growthをvalueに反映させる。

eraseベクトルは、knowledge growth vtと（dv x dv）次元のtransformation matrix Eを利用して変換することによって求める。

そして、メモリのvalueはこのeraseベクトルを用いて次の式で更新される。基本的には求めたeraseベクトルの分だけ全てのコンセプトのvalueがshrinkするように計算されているが、各コンセプトごとにshrinkさせる度合いをcorrelation weight wによって制御することによってvalueに対して忘却の概念を取り入れている。correlation weightとeraseベクトルのelementのうち、両方とも1となるelementに対応するvalueのelementが、0にリセットされるような挙動となる。

その後、knowledge growth vt から、新たなtransformation matrix D(dv x dv)を用いて、adding vector aが計算される。

最終的に、メモリの各valueは、adding vectorに対してcorrelation weightの重み分だけ各elementの値が更新される。

このような erase-followed-by-addな構造により、生徒の忘却と学習のlearning processを再現している。

# 予測性能

DKVMNが全てのデータセットにおいて性能が良かった。が、これは後のさまざまな研究の追試によりDKTとDKVMNの性能はcomparableであることが検証されているため、あまりこの結果は信用できない。

# learning curve

DKTとDKVMNの両者についてlearning curveを描いた結果が下記。DKTはtrainingとvalidationのlossの差が非常に大きくoverfittingしていることがわかるが、DKVMNはそのような挙動はなく、overfittingしにくいことを言及している。

# Concept Discovery

Figure4がsynthetic-5に対するConcept Discovery, Figure5がASSISTments15に対するConcept Discoveryの結果。synthetic-5は5種類のコンセプトによって50種類のエクササイズが生成されているが、メモリサイズNを5にすることによって完璧な各エクササイズのクラスタリングが実施できた（驚くべきことに、N=50でも5つのクラスタにきっちり分けることができた）。ASSISTments15データについても、類似したコンセプトのスキルタグが同じクラスタに属し、近い距離にマッピングされているため、コンセプトを見つけられたと主張している。

# Knowledge State Depiction

Synthetic-5に対する、各コンセプトのmasteryを可視化した結果が下図。

ここで注意すべきは、DKVMNが可視化するのは、メモリサイズNで指定した個々のkeyに該当するコンセプトのmasteryを可視化する方法を説明している点である。個々のスキルタグ（エクササイズタグ）に対するmasteryを可視化するわけではない点に注意。個々のスキルタグに対するmasteryは、DKTと同様にptがそれに該当するものと思われる。

個々のコンセプトのmasteryを可視化する手順は下記の通り。

まず、read content vector rを求める際に、masteryを可視化したいコンセプトのCorrelation weightのみを1とし、他のコンセプトのCorrelation weightを0とすることでrを算出する。

その後、次の式によって、エクササイズの難易度情報をマスクすること（weight matrixのうち、エクササイズembeddingが乗算される部分のみ0にマスクする）によってサマリベクトルftを求め、ftからfully connected layerを通じてptを求めることで、そのptを該当するコンセプトのmastery levelとみなす。

# 所感

スキルタグの背後にある隠れたコンセプトを見つけ、その隠れたコンセプトに対する習熟度を測るという点においてはDKTよりもDKVMNの方が優れていそう。

だが、スキルタグに対する習熟度を測るという点については、DKT, DKVMNのAUCにほとんど差がないことを鑑みるにDKVMNをわざわざ使う意味がどれだけあるのかな、という気がした。

特に Empirical Evaluation of Deep Learning Models for Knowledge Tracing: Of Hyperparameters and Metrics on Performance and Replicability, Sami+, Aalto University, JEDM'22
で報告されているように、DKVMNでリアルタイムに全てのスキルタグに対する習熟度をトラッキングするためには、DKVMNのoutputをoutput-per-skillにする必要があるが、DKVMNにおいてoutput-per-skillベクトルをoutputに採用すると予測性能が低下することがわかっている。このため、わざわざスキルタグに対する習熟度を求める際にDKVMNを使う必要もないのでは、という気がしている。

そうすると、現状スキルタグに対する習熟度をいい感じに求める手法は、DKT, DKT+ or EKTということになるのだろうか・・・。

追記：DKVMNのDKTと比較して良い点は、メモリネットワーク上にknowledge stateが保存されていて、inputはある一回の問題に対するtrialの正誤のみという点。DKTなどでは入力する系列の長さの上限が決まってしまうが、原理上はDKVMNは扱える系列の長さに制限がないことになる。この性質は非常に有用。

#Pocket #AdaptiveLearning Issue Date: 2022-09-05 Applications of the Elo Rating System in Adaptive Educational Systems, Pelanek, Computers & Educations'16 Comment

Elo rating systemの教育応用に関して詳細に記述されている

#NeuralNetwork #AdaptiveLearning #LearningAnalytics #NeurIPS Issue Date: 2022-04-27 Estimating student proficiency: Deep learning is not the panacea, Wilson+, Knewton+, NIPS'16 workshop Comment

DKTの性能をBKTやPFA等の手法と比較した研究

How Deep is Knowledge Tracing?, Mozer+, EDM'16 を引用し、DKTとBKTのAUCの計算方法の違いについて言及している

#NeuralNetwork #LearningAnalytics #StudentPerformancePrediction #EDM Issue Date: 2021-05-28 Going Deeper with Deep Knowledge Tracing, Beck+, EDM'16 Comment

BKT, PFA, DKTのinputの違いが記載されており非常にわかりやすい

BKT, PFA, DKTを様々なデータセットで性能を比較している。また、ASSISTmentsデータに問題点があったことを指摘し（e.g. duplicate records問題など）、ASSSTmentsデータの問題点を取り除いたデータでも比較実験をしている。結論としては、ASSISTmentsデータの問題点を取り除いたデータで比較すると、DKTがめっちゃ強いというわけではなく、PFAと性能大して変わらなかった、ということ。

KDD cupのデータではDKTが優位だが、これはPFAをKDD Cupデータに適用する際に、難易度を適切に求められない場面があったから、とのこと（問題+ステップ名のペアで難易度を測らざるを得ないが、そもそも1人の生徒しかそういったペアに回答していない場合があり、難易度が1.0 / 0.0 等の極端な値になってしまう。これらがoverfittingの原因になったりするので、そういった問題-ステップペアの難易度をスキルの難易度で置き換えたりしている）。

ちなみにこの手のDKTこれまでのモデルと性能大して変わんないよ？系の主張は、当時だったらそうかもしれないが、2020年のRiiiDの結果みると、オリジナルなDKTがシンプルな構造すぎただけであって、SAKT+RNNみたいな構造だったら多分普通にoutperformする、と個人的には思っている。

ASSISTmentsデータにはduplicate records問題以外にも、複数種類のスキルタグが付与された問題があったときに、1つのスキルタグごとに1レコードが列挙されるようなデータになっている点が、BKTと比較してDKTが有利だった点として指摘している。スキルA, Bが付与されている問題が２問あった時に、それらにそれぞれ正解・不正解した場合のASSISTments09-10データの構造は下図のようになる。DKTを使ってこのようなsequenceを学習した場合、スキルタグBの正誤予測には、一つ前のtime-stempのスキルタグAの正誤予測がそのまま利用できる、といった関係性を学習してしまう可能性が高い。BKTはスキルタグごとにモデルを構築するので、これではBKTと比較してDKTの方が不当に有利だよね、ということも指摘している。

複数タグが存在する場合の対処方法として、シンプルに複数タグを連結して新しいタグとする、ということを提案している。

#NeuralNetwork #LearningAnalytics #StudentPerformancePrediction #EDM Issue Date: 2021-05-28 How Deep is Knowledge Tracing?, Mozer+, EDM'16 Comment

DKTでは考慮できているが、BKTでは考慮できていない4種類のregularityを指摘し、それらを考慮ようにBKT（forgetting, interactions among skills, incorporasting latent student abilities）を拡張したところ、DKTと同等のパフォーマンスを発揮したことを示した研究。

- Recency Effects, Contextualized Trial Sequence, Inter-skill similarity, Individual variation in ability

DKTの成功は、deep learningによって得られた新たなrepresentationに基づくものではなく、上記input/outputの統計的なregularityを捉えることができる柔軟性と一般性によるものだと分析している（DKTは、汎用のリカレントニューラルネットワークモデルであり、学習と忘却のモデル化、スキルの発見、学生の能力の推論に特化した構成要素はないにもかかわらず、それらを捉えることができた。この柔軟性により、DKTは、ドメイン知識・事前分析がほとんどなくても、様々なデータセットでロバストに動作する）。が、DKTはこのようなドメイン知識等がなく良い性能を達成できている代償として、解釈生を犠牲にしている。BKTのようなshallowなモデルでも上記4種類の規則性を導入することでより解釈性があり、説明性があるモデルを獲得できる、と述べている。教育に応用する上で、解釈性・説明性は非常に重要な要素であり、同等の性能が達成できるなら、BKT拡張したほうがいいじゃん？っていう主張だと思われる。

DKTのAUC計算は、trialごとに該当スキルのpredictionを行い、全てのスキルに関してAUCを計算しているのに対し、

BKTは、個々のスキルごとにAUCを計算し、最終的にそれらを平均することでAUCを算出している点を指摘している（中身の実装を読んで）。

BKTのAUC計算方法の方が、DKTよりもAUCが低くなることを述べ、どちらかに統一した方が良いことを述べている。

Khan AcademyデータをDKTの共著者に使わせてもらえないかきいてみたところ、使わせてもらえなかったとも書いてある。

BKT+Forgetsは、ある特定のスキルの間に何回のtrialがあったかを数えておき、そのfrialの機会ごとにForgetが生じる機会が生じると考えるような定式化になっている。

たとえば、A_1 - A_2 - B_1 - A_3 - B_2 - B_3 - A_4 という問題の系列があったとする（A, Bはスキル名で、添字はスキルのinstance）。そうすると、A_1とA_2間でforgettingが生じる確率はF、A_2とA_3の間でforgettingが生じる確率は1-(1-F)^2、A_3とA_4の間でforgettingが生じる確率は1-(1-F)^3となる。

※ スキルAを連続してtrialした場合はFでforgettingするが、

　スキルAをtrialしない場合は 1 - (スキルAを覚えている確率) = Aを忘れている確率ということだろうか。

BKT+Forgetsは pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models, Bardrinath+, EDM'20 に実装されている。

#AdaptiveLearning Issue Date: 2022-07-27 Adapting Bayesian Knowledge Tracing to a Massive Open Online Course in edX, Pardos+, MIT, EDM'13 Comment

# Motivation

MOOCsではITSとはことなり、on-demandなチュートリアルヘルプを提供しておらず、その代わりに、知識は自己探求され様々なタイプのリソースの冗長性によって提供され、システムを介して学生は様々な経路やリソースを選択する。このようなデータは、さまざまな条件下で学生の行動の有効性を調査する機会を提供するが、この調査を計測するためのモデルがない。

そこで、既存の学習者モデリングテクニックであるBKTを、どのようにしてMOOCsのコースに適用できるかを示した。

これには3つのチャレンジがある:

1. questionに対応するKCの、対象分野の専門家によるマッピングが不足していること

2.

3.

# データ概要

生徒のgradeは12の宿題と、12のvirtual labs (それぞれ15%の重みで無制限に回答できる)、そして中間テストと最終テスト（それぞれ30%と40%の重みで、3回の回答が許される）によって決まる。レクチャー中の問題は正誤がつくが、gradeにはカウントされないが即座にフィードバックが与えられる。104個のレクチャに289個のスコアリング可能な要素があり（すなわち、problemのsub-partをカウントした）、他にも37種類の宿題のproblemには197個、5つの中間テストproblemに26個、10個の最終テストproblemに47個のスコアリング可能なsub-partが存在する。

weeklyの宿題は複数のproblemで構成されており、それぞれがsingle web pageで表示される。典型的には図といくつかの回答フォームがある（これをsub-partsと呼ぶ）。subpartの回答チェックは、生徒がcheckボタンを押すと開始され、正誤がつく。subpartは任意の順番で回答できるが、いくつかのproblemのsubpartは、以前のsubpartの回答結果を必要とするものも存在する。もし生徒が全てのsubpartsを最初のチェックの前に回答したら、どの順番でsubpartに回答したかは分からない。しかしながら、多くの生徒は回答する度にチェックボタンを押すことを選択している。ほとんどのITSとは異なり、宿題は、最初の回答ではなく、ユーザーが入力した最後の回答に基づいて採点された。

# データセット

154,000人の登録者がいたが、108,000人が実際にコースに入学し、10,000人がコースを最終的に終えた。その中で、7158人が少なくとも60%のweighted averatgeを獲得したという証明書を受け取った。

データセットは2,000人のcertificateを獲得したランダムに選択された生徒によって構成される。さらに、homework, lecture sequence, exam problemの中から、ランダムに10個のproblem（およびそのsubparts）を選択した。

データはJSONのログファイルとして生成され、ログファイルはユーザ単位でJSONレコードとして分割された。そして人間が解釈可能なMOOCsのコンポーネントとのインタラクションのtime seriesにparseされている。

最後的には、problemごとにイベントログを作成した。このログは、そのproblemに関連する学生のイベントごとに1行で構成されている。これは、イベントで消費した時間、subpartの正誤、生徒が回答を入力したあるいは変更した場合、回答のattemptの回数、回答の間にアクセスしたリソースなどが含まれている。

# BKT

KTはmastery learningを実現したいというモチベーションからきていて、mastery learningではスbエテの生徒は自分のペースでスキルを学習していき、前提知識をマスターするまでは、より複雑なmaterialへはチャレンジできないように構成されている。これを実現するためにN問連続で正解するなどのシンプルなmastery基準などが存在しており、ASSISTments Platformのskill builder problem setで利用されている。Cognitive Tutorでは、取得可能な知識は、宣言型であろうと手続き型であろうと、通常は対象分野の専門家によって定義されるKnowledge Component（KC）と呼ばれるきめ細かいatomic piecesによって定義されます。tutorのanswer stepにはこれらのKCのタグが付けられており、生徒の過去の回答履歴は、KCの習熟度を示しています。この文脈では、KCが生徒によって高い確率で知られている（通常は> = 0.95）ときに習熟したと推測されます。

standardなBKTモデルでは、四つのパラメータが定義される:

- prior knowledge p(L_0)

- probability of learning p(T)

- probability of guessing p(G)

- probability of slipping p(S)

これらのパラメータによって、生徒の時刻nでの知識の習熟確率p(L_n)が推論される。また、これらのパラメータは生徒の回答の正誤の予測にも利用できる：

KCは、平均して習得するのに必要な難易度と練習の量が異なるため、これらのパラメーターの値はKCに依存し、以前の学生のログデータなどのトレーニングデータによってfittingすることができる。

パラメータのfittingはEMアルゴリズムかgrid searchによって、観測されたcorrectnessに対する予測された確率の残差平方和によるloss functionを最大化するようなパラメータが探索される。

ただし、どちらのフィッティング手順も、他の手順よりも一貫して優れていることは証明されていません。グリッド検索は、基本的なBKTモデルのフィッティングは高速ですが、パラメーターの数が増えると指数関数的に増加します。これは、パラメーター化が高いBKTの拡張に関する懸念事項です。どちらのフィッティング手法も、目的は観測されたデータ（生徒の特定のKCの問題に対する正誤の系列）に最もマッチするパラメータを見つけることです。

KTの利用は2つのステージに分かれており、一つは4つのパラメータを学習するステージ、そしてもう一つは生徒の知識を彼らのレスポンスから予測することです。

inferenceのステージでは、時刻nの知識の習熟度は、観測データが与えられたときに以下の指揮で計算できる。観測データが正解だった場合は

であり、不正解の場合は

となる。

右辺のp(L_n)は、時刻nでの知識の習熟度に関する事前確率であり、p(L_n | Evidence_n)はその時点でのobservationを考慮し計算される事後確率です。両方の式はベイズの定理の適用であり、観察されたresponseの説明が学生がKCを知っているということである可能性を計算します。生徒にはフィードバックが提供されるため、KCを学習する機会があります。学生が機会からKCを学習する確率は、下記指揮によって導かれる：

これらの数式がmasxteryを決定するのに利用される。この知識モデルは、学習現象を研究するためのプラットフォームとして機能するように拡張されています。BKTアプローチを採用することで、MOOCで実現することを目指しているのは、この発見能力です。

# Model Adaptation Challenge

## KCモデルの不足

"learning"には広い意味があるが、masteryの文脈では特定のスキル, あるいはKCの獲得を意味する。このようなスキルとquestionのマッピングは、Q-matrixと一般的に呼ばれるが、多くの場合は対象分野の専門家によって提供される。

これらのスキルは、psychometrics literatureの中でcognitive operationsと呼ばれ、スキルの識別プロセスは、ITSおよびエキスパートシステムの文脈では一般にcognitive task analysisと呼ばれます。

KCマッピングの評価手法である学習曲線分析は、優れたスキルマッピングの証拠は、スキルに関連するquestionに回答する機会を通じて、エラー率が単調に減少することであると主張しています。同様に、fluencyは、特定のスキルに対して正解するにつれて増加する（解決する時間が減少する）と期待されている。

たとえば、MOOCまたはGeometryなどの教科内のquestionを一次元で表示すると、カリキュラムに新しいトピック資料が導入されると、すぐにエラー率と応答時間が急増するため、パフォーマンスとfluencyのプロットにノイズが発生します。

対象分野の専門家が定義したKCまたは学習目標は、将来のMOOCsでは計画されていますが、それらは一般的ではなく、本論文で使用される6.002xコースデータには存在しません。したがって、我々のゴールはコースの構成要素を利用して、KCとquestionのマッピングを実現することである。課題のproblemとsubpartの構造を利用して、problemそのものをKCとみなし、subpartをKCに紐づくquestionとみなします。この選択の理論的根拠は、コースの教授はしばしば、それぞれのproblemにおいて、特定のconceptを利用することを念頭に置いていることが多いことです。subpartのパフォーマンスは、生徒がこのconceptを理解しているかの証拠となります。このタイプのマッピングの利点は、ドメインに依存せず、任意のMOOCのベースラインKCモデルとして利用できることです。欠点は、特定のKCへの回答が特定の週の課題の問題内でのみ発生するため、1週をまたいだ学習の長期評価ができないことです。Corbett＆Conrad [14]がコースの問題構造に対する質問の同様の表面的なマッピングを評価し、これがより体系的で窒息する学習曲線を達成することを実際に犠牲にしていることを発見したため、モデルの適合性の低下は別の欠点です（←ちょっとよくわからない）。だが、このマッピングは、problem内での現象を研究することを可能にする合理的な出発点であると信じており（これは「問題分析」と呼ばれます）、ここで説明した方法とモデルは、教科の専門家によって導かれた、あるいはデータから推論された、またはその両者のハイブリッドによる別のKCモデルにも適用できると信じています。

#Article #AdaptiveLearning #LearningAnalytics Issue Date: 2025-02-14 局所的変分法による非補償型時系列IRT, 玉野+, NEC+, 人工知能学会研究会資料, 2020.03 #Article #Pocket Issue Date: 2024-11-30 Dynamic Key-Value Memory Networks With Rich Features for Knowledge Tracing, Sun+, IEEE TRANSACTIONS ON CYBERNETICS, 2022.08 GPT Summary- 知識追跡において、DKVMNモデルは学生の行動特徴と学習能力を無視している。これを改善するために、両者を統合した新しい演習記録の表現方法を提案し、知識追跡の性能向上を目指す。実験結果は、提案手法がDKVMNの予測精度を改善できることを示した。 Comment

後で読みたい

#Article #NeuralNetwork #AdaptiveLearning Issue Date: 2022-07-25 独立な学習者・項目ネットワークをもつ Deep-IRT, 堤+, 電子情報通信学会論文誌, 2021 Comment

#Article #NeuralNetwork #AdaptiveLearning #StudentPerformancePrediction #L@S Issue Date: 2021-10-29 Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization, Yeung+, 2018, L@S Comment

実装: https://github.com/ckyeungac/deep-knowledge-tracing-plus

#Article #NeuralNetwork #LearningAnalytics Issue Date: 2021-06-02 Deep Knowledge Tracingの拡張による擬似知識タグの生成, 中川+, 人口知能学会論文誌, 33巻, 33号, C, 2018 Comment

#Article #Tutorial #Pocket #LearningAnalytics #StudentPerformancePrediction Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

#Article #LearningAnalytics #StudentPerformancePrediction Issue Date: 2021-05-30 Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge, Corbett+, User Modeling and User-Adapted Interaction, 1995 Comment

#Article #Survey #Dataset #LearningAnalytics #StudentPerformancePrediction Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

StudentPerformancePrediction (17)

#NeuralNetwork #AdaptiveLearning #LAK
Issue Date: 2021-10-28 SAINT+: Integrating Temporal Features for EdNet Correctness Prediction, Shin+, RiiiD AI Research, LAK'21 Comment

Student Performance PredictionにTransformerを初めて利用した研究

#NeuralNetwork #AdaptiveLearning #EDM
Issue Date: 2021-10-28 A Self-Attentive model for Knowledge Tracing, Pandy+ （with George Carypis）, EDM'19 Comment

Knowledge Tracingタスクに初めてself-attention layerを導入した研究

interaction (e_{t}, r_{t}) および current exercise (e_{t+1}) が与えられた時に、current_exerciseの正誤を予測したい。

* e_{t}: 時刻tのexercise

* r_{t}: 時刻tでの正誤

interactionからKey, Valueを生成し、current exerciseからQueryを生成し、multi-head attentionを適用する。その後、得られたcontext vectorをFFNにかけて、正誤を予測する。

DKTや、DKVMNを全てのデータセットでoutperform

Context-Aware Attentive Knowledge Tracing, Ghosh+, University of Massachusetts Amherst, KDD'20 においてはSAKTがDKT, DKVMN等に勝てていないのに対し（ASSSITments Data + Statics Data）

An Empirical Comparison of Deep Learning Models for Knowledge Tracing on Large-Scale Dataset, Pandey+, AAAI workshop on AI in Education'21 Do we need to go Deep? Knowledge Tracing with Big Data, Varun+, University of Maryland Baltimore County, AAAI'21 Workshop on AI Education においてはSAKTはDKT, DKVMNに勝っている（EdNet Data）

When is Deep Learning the Best Approach to Knowledge Tracing?, Theophile+ (Ken Koedinger), CMU+, JEDM'20 においてもSAKTがDKTに勝てないことが報告されている（ASSISTments Data + Statics Data + Bridge to Algebra, Squirrel dataなど）。ただし、Interaction数が大きいデータセット（Squirrel data）ではDKTの性能に肉薄している。

Large ScaleなデータだとSAKTが強いが、Large Scaleなデータでなければあまり強くないということだと思われる。

Large Scaleの基準は、なかなか難しいが、1億Interaction程度あれば（EdNetデータ）SAKTの方が優位に強くなりそう。

数十万、数百万Interaction程度のデータであれば、DKTとSAKTはおそらくcomparableだと思われる。

（追記）

しかし Learning Process-consistent Knowledge Tracing, Shen+, SIGKDD'21 においてはSAKTはEdNetデータセット（Large Scale）においてDKT, DKT+, DKVMNとcomparableなので、

正直何を信じたら良いか分からない。

#NeuralNetwork #Pocket #LearningAnalytics #KnowledgeTracing #Selected Papers/Blogs #KeyPoint Notes
Issue Date: 2021-05-28 [Paper Note] EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction, Qi Liu+, IEEE TKDE'19, 2019.06 GPT Summary- 学生のパフォーマンス予測のために、演習記録と教材情報を統合するEERNNフレームワークを提案。双方向LSTMを用いて演習内容をエンコードし、マルコフ特性とアテンションメカニズムを持つ2つの実装を提供。さらに、知識概念を追跡するEKTに拡張し、演習が知識習得に与える影響を定量化。実験により、予測精度と解釈可能性の向上が確認された。 Comment

モデル自体は、基本的にはattention-basedなRNNモデル。

Exercise EmbeddingはBidireictional-RNNを利用して、問題文をエンコードすることによって求める。

単にStudent Performance Predictionして終わり！ってんじゃなく、knowledge tracing的な側面をきちんと考慮している点で、この研究めっちゃ好き。

#NeuralNetwork #EDM Issue Date: 2021-11-12 Modeling Hint-Taking Behavior and Knowledge State of Students with Multi-Task Learning, Chaudry+, Indian Institute of Technology, EDM'18 Comment

DKVMN (Dynamic Key-Value Memory Networks for Knowledge Tracing, Yeung+, WWW'17 )をhint-takingタスクとmulti-task learningした研究

DKVMNと比較して、微小ながら性能向上

#NeuralNetwork #LearningAnalytics #AAAI Issue Date: 2021-05-28 [Paper Note] Exercise-Enhanced Sequential Modeling for Student Performance Prediction, Hu+, AAAI'18 Comment

従来のStudent Performance PredictionタスクではKnowledge Componentと問題に対する過去の正誤を入力として予測を行っていて、問題テキストを通じて得られる問題そのものの難しさは明示的に考慮できていなかった。

なので、knowledge componentではなく、問題テキストそのものを使ってStudent Performance Predictionしてみたら性能よくなりました、という話。

問題テキストを利用してNeural-basedなアプローチでStudent Performance Predictionした最初の論文だと思う。

本論文ではKnowledge Tracing的なknowledge componentに対するproficiencyを求めることは考慮されていないが、ジャーナル版 [Paper Note] EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction, Qi Liu+, IEEE TKDE'19, 2019.06 では、そのような点も考慮されたモデルの拡張が行われていてさらに洗練されている。

#NeuralNetwork #KnowledgeTracing #WWW Issue Date: 2021-05-28 Dynamic Key-Value Memory Networks for Knowledge Tracing, Yeung+, WWW'17 Comment

DeepなKnowledge Tracingの代表的なモデルの一つ。KT研究において、DKTと並んでbaseline等で比較されることが多い。

DKVMNと呼ばれることが多く、Knowledge Trackingができることが特徴。

#NeuralNetwork #LearningAnalytics #EDM Issue Date: 2021-05-29 Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation, Ekanadham+, EDM'16 Comment

Knewton社の研究。IRTとIRTを拡張したモデルでStudent Performance Predictionを行い、3種類のデータセットでDKT [Paper Note] Deep Knowledge Tracing, Piech+, NIPS'15 と比較。比較の結果、IRT、およびIRTを拡張したモデルがDKTと同等、もしくはそれ以上の性能を出すことを示した。IRTはDKTと比べて、trainingが容易であり、パラメータチューニングも少なく済むし、DKTを数万のアイテムでtrainingするとメモリと計算時間が非常に大きくなるので、性能とパフォーマンス両方の面で実用上はIRTベースドな手法のほうが良いよね、という主張。

AUCを測る際に、具体的に何に大してAUCを測っているのかがわからない。モデルで何を予測しているかが明示的に書かれていないため（普通に考えたら、生徒のquizに対する回答の正誤を予測しているはず。IRTではquizのIDをinputして予測できるがDKTでは基本的にknowledge componentに対するproficiencyという形で予測される（table 1が各モデルがどのidに対して予測を行なったかの対応を示しているのだと思われる））。

knewton社は自社のアダプティブエンジンでIRTベースの手法を利用しており、DKTに対するIRTベースな手法の性能の比較に興味があったのだと思われる。

なお、論文の著者であるKnewton社のKevin H. Wilson氏はすでにknewton社を退職されている。

https://kevinhayeswilson.com/

#NeuralNetwork #LearningAnalytics #KnowledgeTracing #EDM Issue Date: 2021-05-28 Going Deeper with Deep Knowledge Tracing, Beck+, EDM'16 Comment

#NeuralNetwork #LearningAnalytics #KnowledgeTracing #EDM Issue Date: 2021-05-28 How Deep is Knowledge Tracing?, Mozer+, EDM'16 Comment

#CollaborativeFiltering #MatrixFactorization Issue Date: 2021-10-29 Multi-Relational Factorization Models for Predicting Student Performance, Nguyen+, KDD Cup'11 Comment

過去のCollaborative Filteringを利用したStudent Performance Prediction (Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10 など)では、単一の関係性（student-skill, student-task等の関係）のみを利用していたが、この研究では複数の関係性（task-required skill-learnt skill）を利用してCFモデルの性能を向上させ、Bayesian Knowledge TracingやMatrix Factorizationに基づく手法をRMSEの観点でoutperformした。

#AdaptiveLearning #EDM Issue Date: 2018-12-22 [Paper Note] Factorization Models for Forecasting Student Performance, Thai-Nghe+, EDM'11 Comment

student performanceは、推薦システムの問題において、下記の２種類にcastできる：

1. rating prediction task, すなわち、ユーザ・アイテム・ratingを、生徒・タスク・パフォーマンスとみなす

2. sequentialなエフェクトを考慮して、forecasting problemに落とす

TensorFactorizationで、欠損値を予測

cold-start problem（new-user, new item）への対処としては、global averageをそれぞれ用いることで対処（more sophisticatedなやり方が提案されているとも述べている）

使用している手法としては、この辺？

https://pdfs.semanticscholar.org/8e6b/5991f9c1885006aa204d80cc2c23682d8d31.pdf

#NeuralNetwork #CollaborativeFiltering #MatrixFactorization Issue Date: 2021-10-29 Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10 Comment

KDD Cup'10のStudent Performance Predictionタスクにおいて3位をとった手法

メモリベースドな協調フィルタリングと、Matirx Factorizationモデルを利用してStudent Performance Predictionを実施。

最終的にこれらのモデルをニューラルネットでensembleしている。

#Article #NeuralNetwork #AdaptiveLearning #KnowledgeTracing #L@S Issue Date: 2021-10-29 Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization, Yeung+, 2018, L@S Comment

実装: https://github.com/ckyeungac/deep-knowledge-tracing-plus

#Article #Tutorial #Pocket #LearningAnalytics #KnowledgeTracing Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

#Article #LearningAnalytics #KnowledgeTracing Issue Date: 2021-05-30 Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge, Corbett+, User Modeling and User-Adapted Interaction, 1995 Comment

#Article #Survey #Dataset #LearningAnalytics #KnowledgeTracing Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #NeuralNetwork #LearningAnalytics Issue Date: 2021-05-29 Behavior-Based Grade Prediction for MOOCs Via Time Series Neural Networks, Chiang+, IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 11, NO. 5, AUGUST 2017 Comment

NFMB/NI Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation, Ekanadham+, EDM'16 データセットを利用している

Survey (3)

#Pocket #AdaptiveLearning #KnowledgeTracing
Issue Date: 2022-08-02 Knowledge Tracing: A Survey, ABDELRAHMAN+, Australian National University, ACM Computing Surveys'23 GPT Summary- 人間の教育における知識移転の重要性を背景に、オンライン教育における知識追跡（KT）の必要性が高まっている。本論文では、KTに関する包括的なレビューを行い、初期の手法から最新の深層学習技術までを網羅し、モデルの理論やデータセットの特性を強調する。また、関連手法のモデリングの違いを明確にし、KT文献の研究ギャップや今後の方向性についても議論する。 #Article #Dataset #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #AdaptiveLearning #LearningAnalytics #Selected Papers/Blogs
Issue Date: 2018-12-22 Educational Data Mining and Learning Analytics, Baker+, 2014 Comment

Ryan BakerらによるEDM Survey

CollaborativeFiltering (3)

#RecommenderSystems #NeuralNetwork #EfficiencyImprovement #Pocket #KnowledgeTracing #Contents-based #NAACL
Issue Date: 2022-08-01 GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering, Yoonseok Yang+, NAACL'22 GPT Summary- コンテンツベースの協調フィルタリング（CCF）において、PLMを用いたエンドツーエンドのトレーニングはリソースを消費するため、GRAM（勾配蓄積手法）を提案。Single-step GRAMはアイテムエンコーディングの勾配を集約し、Multi-step GRAMは勾配更新の遅延を増加させてメモリを削減。これにより、Knowledge TracingとNews Recommendationのタスクでトレーニング効率を最大146倍改善。 Comment

RiiiDがNAACL'22に論文通してた

#MatrixFactorization #StudentPerformancePrediction
Issue Date: 2021-10-29 Multi-Relational Factorization Models for Predicting Student Performance, Nguyen+, KDD Cup'11 Comment

#NeuralNetwork #MatrixFactorization #StudentPerformancePrediction
Issue Date: 2021-10-29 Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10 Comment

LanguageModel (3)

#Pocket #NLP #Supervised-FineTuning (SFT) #SyntheticData #Reasoning #Label-free
Issue Date: 2025-10-16 [Paper Note] Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors, Alexis Ross+, arXiv'25, 2025.10 GPT Summary- 新手法MISTAKEを提案し、不正確な推論パターンをモデル化。サイクル整合性を利用して高品質な推論エラーを合成し、教育タスクでの学生シミュレーションや誤解分類において高精度を達成。専門家の選択肢との整合性も向上。 Comment

元ポスト:

Loading…

#Pocket
Issue Date: 2025-01-06 Engaging an LLM to Explain Worked Examples for Java Programming: Prompt Engineering and a Feasibility Study, Hassany+, EDM'24 Workshop, 2024.07 GPT Summary- プログラミングクラスでのコード例の説明を効率化するために、LLMを用いた人間とAIの共同執筆アプローチを提案。講師が編集可能な初期コード説明を生成し、学生にとって意味のある内容を確保するためにプロンプトエンジニアリングを行い、その効果をユーザー研究で評価した。 Comment

元ポスト:

Loading…

#Pocket #NLP #Education
Issue Date: 2024-12-31 LearnLM: Improving Gemini for Learning, LearnLM Team+, arXiv'24 GPT Summary- 生成AIシステムは従来の情報提示に偏っているため、教育的行動を注入する「教育的指示の遵守」を提案。これにより、モデルの振る舞いを柔軟に指定でき、教育データを追加することでGeminiモデルの学習を向上。LearnLMモデルは、さまざまな学習シナリオで専門家から高く評価され、GPT-4oやClaude 3.5に対しても優れた性能を示した。

Dataset (2)

#Article #Education #AdaptiveLearning #ScorePrediction
Issue Date: 2022-08-23 Score Prediction dataset #Article #Survey #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

DropoutPrediction (2)

#NeuralNetwork #AdaptiveLearning #LearningAnalytics
Issue Date: 2022-04-14 Deep Attentive Study Session Dropout Prediction in Mobile Learning Environment, Riiid AI Research, Lee+, CSEDU'20 Comment

従来のdropout研究では、学校のドロップアウトやコースのドロップアウト、MOOCsなどでのドロップアウトが扱われてきたが、モバイル学習環境を考慮した研究はあまり行われてこなかった。モバイル学習環境では着信やソーシャルアプリなど、多くの外敵要因が存在するため、学習セッションのドロップアウトが頻繁に発生する。

学習セッションを、隣接するアクティビティと1時間のインターバルが空いていないアクティビティのsequenceと定義

Transformerを利用したモデルを提案。

利用したFeatureは以下の通り

AUCでの評価の結果、LSTM,GRUを用いたモデルをoutperform

また、Transformerに入力するinput sequenceのsizeで予測性能がどれだけ変化するかを確認したところ、sequence sizeが5の場合に予測性能が最大となった。

これは、session dropoutの予測には、生徒の最新のinteractionの情報と相関があることを示している。だが、sequence sizeが2のときに予測性能は低かったため、ある程度のcontext情報が必要なことも示唆している。

また、inputに利用するfeatureとしては、問題を解く際のelapsed_timeと、session内でのposition、またdropoutしたか否かのラベルが予測性能の向上に大きく寄与した。

Q. AUCの評価はどうやって評価しているのか。dropoutしたラベルの部分のみを評価しているのか否かがわからない。

Q. dropoutラベルをinputのfeatureに利用するのは実用上問題があるのでは？次の1問を解いたときにdropoutするか否かしか予測できなくなってしまうのでは。まあでもそれはelapsed_timeとかも一緒か。

#AdaptiveLearning #LearningAnalytics #EMNLP
Issue Date: 2021-10-29 Predicting MOOC Dropout over Weeks Using Machine Learning Methods, EMNLP'14 Workshop, Marius Kloft Comment

EMNLP'14のWorkshop論文。引用数が120件とかなり多め。

MOOCsのclickstreamデータから、numericalなfeatureを作成。SVMに食わせて学習し、Dropout Predictionを行なっている。

psychologyのMOOCコースからデータ収集。12週に渡って講義が行われる。統計量は以下：

初週のユーザ数：11,607

最後の週まで残ったユーザ数：3,861

参加した全体のユーザ数：20,828

DropOut率：81.4%

コース自体は19週間受講可能なので、その間のデータがある。

dropoutか否かのラベルは、翌週にターゲットユーザのIDと紐づいたアクティビティがあるかどうかで判断。ユーザuの各週Wiに対して、i=1, ..., 19の +1 / -1 ラベルが付与される。

+1 がDropout, -1がNo Dropout。

特徴量：

最初の1 -- 9週の間は、あまりDropoutが予測できないが、それ以後はhistory featureが効いて予測ができるようになる。

MatrixFactorization (2)

#CollaborativeFiltering #StudentPerformancePrediction
Issue Date: 2021-10-29 Multi-Relational Factorization Models for Predicting Student Performance, Nguyen+, KDD Cup'11 Comment

#NeuralNetwork #CollaborativeFiltering #StudentPerformancePrediction
Issue Date: 2021-10-29 Collaborative Filtering Applied to Educational Data Mining, Andreas+, KDD Cup'10 Comment

Tutorial (1)

#Article #Pocket #LearningAnalytics #StudentPerformancePrediction #KnowledgeTracing
Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

AffectDetection (1)

#NeuralNetwork #LearningAnalytics #AIED
Issue Date: 2021-06-08 Improving Sensor-Free Affect Detection Using Deep Learning, Botelho+, AIED'17 Comment

DKTが実はBKTと対して性能変わらない、みたいな話がreference付きで書かれている。Ryan Baker氏とNeil Heffernan氏の論文

Affect Detectionは、physical/psychological sensorを利用する研究が行われてきており、それらは様々な制約により（e.g. 経済的な問題や、政治の問題）実際のアプリケーションとしてdeployするには難しさがあった。これを克服するために、sensor-freeなモデルが研究されてきたが、予測性能はあまり高くなくreal-timeなinterventionを行うのに十分な性能となっていなかった。

一方で、近年DeepLearningが様々な分野で成功を収めてきており、教育分野での活用が限定的であるという状況がある。そこで、deepなsensor-freeモデルを提案。その結果、従来モデルをoutperformした。

データセットはASSISTmentsデータを利用し、フィールドワーカーが20秒おきに、class roomでASSISTmentsを利用する生徒を観察し、生徒のAffective Stateをラベル付けした（ラウンドロビン方式）。ラベルは下記の通り：

- bored

- frustrated

- confused

- engaged concentration

- other/impossible

ビデオコーディングなどとは違って、ラウンドロビン方式では特定の生徒の間でラベルの欠落が生まれるが（常に特定の生徒を監視しているわけにはいかず、class-room全体を巡回しなければいけないから？）、全てのラベルにはタイムスタンプが付与されているので、欠落はわかるようになっている。

合計で6つの学校における、646人の生徒に対する、7663のobservationが得られた。

また、各特定の感情ラベルが付与されている際には実際に生徒はASSISTmentsを利用しており、先行研究では51種類のaction-level featureが利用されており（生徒とシステムのinteractionを捉える; e.g. reponse behavior, timeworking, hintやscaffoldingの利用の有無など）、今回もそういったfeatureも予測に利用する。

各observationのinterval(=clip)には複数のアクションが含まれており、それらを集約することで、最終的に204種類のfeatureをobservation intervalごとに作成し利用（feature engineeringしてるっぽい）。

RNN, LSTM, GRUの3種類のNNを用いて、204次元のfeature vectorをinputとし、各clipの4種類の感情ラベル（bored, frustrated, confused, engaged concentration）をsoftmaxで予測する。

前回のclipが5分未満のclipについては、連続したclipとしてモデルに入力し、5分を超過したものについては新たな別のsequenceとして扱った模様。

従来手法を大幅にoutperform。しっかり読んでいないが、resampoingは、ラベルの偏りを調整したか否かだと思われる。

Assessment (1)

#AdaptiveLearning #LearningAnalytics
Issue Date: 2022-04-18 Assessment Modeling: Fundamental Pre-training Tasks for Interactive Educational Systems, Choi+, RiiiD Research, arXiv'20 Comment

# 概要

テストのスコアや、gradeなどはシステムの外側で取得されるものであり、取得するためにはコストがかかるし、十分なラベル量が得られない（label-scarce problem）。そこで、pre-training/fine-tuningの手法を用いて、label-scarce probleを緩和する手法を提案。

# Knowledge Tracingタスクの定義

手法を提案する前に、Knowledge Tracingタスクを定義した。Knowledge Tracingタスクを、マスクしたt番目のinteractionのk番目のfeatureを予測するタスクと定義した。

このような定義にすると、たとえば、予測するfeatureとしては、回答の正誤にかかわらず以下のようなものも挙げられる。

# Assessmentを予測するタスク

また、このようなKTの定義に則り、assessmentを予測するタスクを下記のように定義した。ここで、Assesmentとはinteractionの中で教育的な評価と関連するinteractionのことである。

assesmentの例としては下図のAssessment Modelingに示したようなfeatureが挙げられる。

# label-scarceなeducational featureの例

また、label-scarceなeducational featureとして、以下を例として挙げている。この論文では、assessment予測をpre-trainingタスクとして定義し、これらlabel-scarceなeducational featureを予測することを目標としている。

- Non Interactive Educational Feature

- exam_score: A student’s score on a standardized exam.

- grade: A student’s final grade in a course.

- certification: Professional certifications obtained by completion of educational programs or examinations.

- Sporadic Assessments（たまにしか発生しない偶発的なassessmentのこと）

- course_dropout: Whether a student drops out of the entire class.

- review_correctness: Whether a student responds correctly to a previously solved exercise.

# モデル

これらassessmentsのlabel-scarce problemに対処するために、pre-training/fine-tuningのパラダイムを活用する。

モデルはBERTを利用した。inputのうち、M%をランダムにマスクし、マスクしたassesment featureをlinear layerで予測するタスクを、pre-trainingフェーズで実施する。

inputとしては全てのfeatureを使うのは計算量的に現実的ではないのでknowledge-tracingタスクでよく利用される下記を用いる：

- exercise_id: We assign a latent vector unique to each exercise id.

- exercise_category: Each exercise has its own category tag that represents the type of the exercise. We assign a latent vector to each tag.

- position: The relative position 𝑡 of the interaction 𝐼𝑡 in the input sequence. We use the sinusoidal positional encoding that is used in [24].

- correctness: The value is 1 if a student response is correct and 0 otherwise. We assign a latent vector corresponding to each possible value 0 and 1.

- elapsed_time: The time taken for a student to respond is recorded in seconds. We cap any time exceeding 300 seconds to 300 seconds and normalize it by dividing by 300 to have a value between 0 and 1. The elapsed time embedding vector is calculated by multiplying the normalized time by a single latent embedding vector.

- inactive_time: The time interval between adjacent interactions is recorded in seconds. We set maximum inactive time as 86400 seconds (24 hours) and any time more than that is capped off to 86400 seconds. Also, the inactive time is normalized to have a value between 0 and 1 by dividing the value by 86400. Similar to the elapsed time embedding vector, we calculate the inactive time embedding vector by multiplying the time by a single latent embedding vector

ここで、interaction I_tのrepresentationは、e_t + c_t + et_t + it_t で表される。ここで、e_tはexercise_id, exercise_category, position embeddingを合計したもの、c_t, et_t, it_t は、それぞれcorrectness, elapsed_time, inactive_timeのembeddingである。

たとえば、assesment予測として、correctnessと、elapsed_timeを予測対象とした場合、inputのcorrectnessとelapsed_timeに関わるembeddingをmask embeddingに置き換える。すなわち、input representationは、e_t + c_t + et_t + it_t から、c_t + et_t がmaskに置き換えられ、e_t + it_t + mask となる。

Loss functionは、pre-training taskごとに定義する。

# 評価

試験のスコア予測（non-interactive educational feature）と、review correctness予測タスク（a sporadic assessment）に適用し評価した。

## Dataset

EdNetデータセットを利用。pre-trainingのためのデータセットを作成するために、chronological orderでInteractionのデータを作成した。このとき、downstreamタスクで利用するユーザは全てpre-trainingデータセットから除外した。最終的に、414,375 user, 93,121,528 interactionsのデータとなった。

## Exam Score Prediction

2594件のSantaユーザのTOEICスコアを使用（報酬を用意してユーザに報告してもらった）。これだけの量のデータを集める音に6ヶ月を要した。

## review correctness prediction

生徒の学習ログを見て、最低2回解いている問題を見つけ、1回目と2回目に問題を解いている間のinteraction sequenceをinputとし、2回目に同じ問題を解いた時の正誤をラベルとして抽出した。

最終的に4540個のラベル付されたsequenceを得た。

## モデルのセットアップ

モデルは100 interactionsをinputとした。Mは0.6とした（60%をマスクした）。

また、fine-tuningする際には、label-scarce probleに対処するためにdata-augmentationを行った。具体的には、input sequenceのうち50%の確率で各エントリを選択しsubsequenceを作成することで、学習データに利用した。

# 実験結果

## pre-trainingタスクがdown-streamタスクに与える影響

correctness + timelinessの予測を行った場合に、最も性能がよかった。

## 性能

既存のcontents-basedな手法と比べて、Assessment Modelが高い性能を発揮した。

Library (1)

#Tools #AdaptiveLearning #KnowledgeTracing
Issue Date: 2022-07-27 pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models, Bardrinath+, EDM'20 Comment

pythonによるBKTの実装。scikit-learnベースドなinterfaceを持っているので使いやすそう。

OptionTracing (1)

#Pocket #AdaptiveLearning
Issue Date: 2022-08-18 Option Tracing: Beyond Correctness Analysis in Knowledge Tracing, Ghosh+, AIED'21 Comment

これまでのKTは問題の正誤（correctness）に対してfittingしていたが、この研究ではmultiple choice questionでどの選択肢を選択するかを予測するタスクを提案している。

ScorePrediction (1)

#Article #Dataset #Education #AdaptiveLearning
Issue Date: 2022-08-23 Score Prediction dataset

QuestionGeneration (1)

#NLP #Education
Issue Date: 2023-07-15 Covering Uncommon Ground: Gap-Focused Question Generation for Answer Assessment, ACL'23 GPT Summary- 本研究では、教育的な対話における情報のギャップに焦点を当て、自動的に質問を生成する問題に取り組んでいます。良い質問の要素を明確にし、それを満たすモデルを提案します。また、人間のアノテーターによる評価を行い、生成された質問の競争力を示します。

Supervised-FineTuning (SFT) (1)

#Pocket #NLP #LanguageModel #SyntheticData #Reasoning #Label-free
Issue Date: 2025-10-16 [Paper Note] Learning to Make MISTAKEs: Modeling Incorrect Student Thinking And Key Errors, Alexis Ross+, arXiv'25, 2025.10 GPT Summary- 新手法MISTAKEを提案し、不正確な推論パターンをモデル化。サイクル整合性を利用して高品質な推論エラーを合成し、教育タスクでの学生シミュレーションや誤解分類において高精度を達成。専門家の選択肢との整合性も向上。 Comment

元ポスト:

Loading…

Others (4)

#NeuralNetwork #AdaptiveLearning #LearningAnalytics
Issue Date: 2022-04-28 An Empirical Comparison of Deep Learning Models for Knowledge Tracing on Large-Scale Dataset, Pandey+, AAAI workshop on AI in Education'21 Comment

EdNetデータにおいて、DKT, DKVMN, SAKT, RKTの性能を比較した論文

RKTがも最もパフォーマンスが良く、SAKTもDKT, DKVMNに勝っている

#Pocket #Education #AdaptiveLearning
Issue Date: 2022-12-27 Reinforcement Learning for the Adaptive Scheduling of Educational Activities, Bassen+, Stanford University, CHI'20 #NeuralNetwork #LearningAnalytics
Issue Date: 2021-06-10 Deep Model for Dropout Prediction in MOOCs, Wang+, ICCSE'17 Comment

MOOCsにおける一つの大きな問題点としてDropout率が高いことがあげられ、これを防止するために様々なモデルが提案されてきた。これまで提案されてきたモデルでは人手によるfeature-engineeringが必要であることが問題である。なぜなら、feature-engineeringはdomain expertでないとできないし、time-consumingだから。加えて、あるデータにおいて有効だったfeatureが別のデータセットにおいて有効とは限らないことも多い。

そこで、neural networkを用いて人手でのfeature engineeringなしで、dropout predictionする手法を提案する。

評価した結果、feature-engineeringを行う既存手法とcomparableな性能を得た。

Recorded periodのactivity logが与えられたときに、Prediction Periodにおいてdropoutするか否かをbinary classificationする問題として定式化

Prediction periodに生徒のactivity logがあった場合、生徒はdropoutしていないとみなす。acitivity logが存在しない場合、生徒はdropoutしたとみなす。

提案モデルはCNNとRNNの組み合わせ。個々のtime-unitごとのactivityをvectorに変換しInput Matrixを作成。その後、個々のtime-stepごとにCNNを適用しfeature mapを取得。取得したtime-stepごとのfeature mapをRNNに食わせて、最後にdropoutするか否かbinary classificationを行う。

## 評価

KDDCup 2015のデータを利用。データセットはユーザの各コースへのenrollmentを表すデータと、各enrollmentIDごとのactivity _logの二種類のデータから構成される。実験では、record periodを30日とし、その後のprediction periodを10日とした（過去1ヶ月のデータを利用し、10日以内にdropoutするか否かを予測するタスク）。

time-unit（time-sliceを構築する単位）は1時間とし、該当するtime-unitに存在するactivity records中のレコードは足し合わされ、該当time-unitのvectorとして表現。time-slice（時刻tとしてinputする単位）を1日とし、24個のtime-unit vectorのmatrixとして、時刻tのinputは表現される。実際はrecord periodが30日なので、このtime-slice のmatrixが30個（T=30）入力されることとなる。activity recordsのうち、source, event, course_IDの3種類のレコードをtime-unitのベクトルとして表現するために利用される。具体的には、source, event, course_IDをそれぞれone-hot vectorに変換し、それらのベクトルのtime-unit内に存在する全てのベクトルに対して足し合わせることで、time-unit vectorを表現している（正直これがあまり良いとは思わない）。

評価の結果、予測結果は他の既存手法とcomparableな性能を達成した。

→ 正直one-hot encodingを足し合わせるだけの入力方法（embeddingを学習しないで、実質各eventが発生した回数をFeatureとして考慮しているだけなのでは？）だと、既存手法のfeature-engineeringとやっていることは対して変わらない気はするので、comparableな結果というのもうなずける。

なぜembeddingを学習しないのか。

#Pocket #LearningAnalytics #L@S Issue Date: 2021-07-05 Autonomously Generating Hints by Inferring Problem Solving Policies, Piech+, Stanford University, L@S'15

AdaptiveLearning (54)

KnowledgeTracing (31)

#NaturalLanguageGeneration #NLP #Education #Personalization #QuestionGeneration
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

#Survey #Pocket #EducationalDataMining
Issue Date: 2022-08-02 Knowledge Tracing: A Survey, ABDELRAHMAN+, Australian National University, ACM Computing Surveys'23 GPT Summary- 人間の教育における知識移転の重要性を背景に、オンライン教育における知識追跡（KT）の必要性が高まっている。本論文では、KTに関する包括的なレビューを行い、初期の手法から最新の深層学習技術までを網羅し、モデルの理論やデータセットの特性を強調する。また、関連手法のモデリングの違いを明確にし、KT文献の研究ギャップや今後の方向性についても議論する。 #NeuralNetwork #EducationalDataMining
Issue Date: 2022-08-26 Using Neural Network-Based Knowledge Tracing for a Learning System with Unreliable Skill Tags, Karumbaiah+, （w_ Ryan Baker）, EDM'22 Comment

超重要論文。しっかり読むべき

#Pocket Issue Date: 2022-08-10 No Task Left Behind: Multi-Task Learning of Knowledge Tracing and Option Tracing for Better Student Assessment, An+, RiiiD, AAAI'22 #Pocket Issue Date: 2022-08-02 Interpretable Knowledge Tracing: Simple and Efficient Student Modeling with Causal Relations, Minn+, AAAI'22 Comment

DeepLearningを用いずに解釈性の高いKTモデルを提案。DKT, DKVMN, AKT等をoutperformしている。

#NeuralNetwork #EducationalDataMining #LearningAnalytics Issue Date: 2022-04-28 Empirical Evaluation of Deep Learning Models for Knowledge Tracing: Of Hyperparameters and Metrics on Performance and Replicability, Sami+, Aalto University, JEDM'22 Comment

Issue Date: 2022-08-31 Challenges to Applying Performance Factor Analysis to Existing Learning Systems, Cristina+ （w_ Ryan Baker）, ICCE'21 Comment

- いまだにほとんどの商用のAdaptive LearningシステムではBKTが使われている。その理由について概要が書いてある。

- BKTについて実アプ李ケーションに応用した際にどういう性質があるかを検証した文献へのリファレンスが存在する

#NeuralNetwork #EducationalDataMining #LearningAnalytics Issue Date: 2022-05-02 Learning Process-consistent Knowledge Tracing, Shen+, SIGKDD'21 Comment

#NeuralNetwork #Pocket #EducationalDataMining #LearningAnalytics Issue Date: 2022-04-28 BEKT: Deep Knowledge Tracing with Bidirectional Encoder Representations from Transformers, Tian+ （緒方先生）, Kyoto University, ICCE'21 Comment

#NeuralNetwork #EducationalDataMining #LearningAnalytics #AAAI Issue Date: 2022-04-28 Do we need to go Deep? Knowledge Tracing with Big Data, Varun+, University of Maryland Baltimore County, AAAI'21 Workshop on AI Education GPT Summary- インタラクティブ教育システム（IES）を用いて学生の知識を追跡し、パフォーマンスモデルを開発する研究が進展。深層学習モデルが従来のモデルを上回るかは未検証であり、EdNetデータセットを用いてその精度を比較。結果、ロジスティック回帰モデルが深層モデルを上回ることが確認され、LIMEを用いて予測に対する特徴の影響を解釈する研究を行った。 Comment

データ量が小さいとSAKTはDKTはcomparableだが、データ量が大きくなるとSAKTがDKTを上回る。

#NeuralNetwork #EducationalDataMining #LearningAnalytics Issue Date: 2022-04-27 A Survey of Knowledge Tracing, Liu+, IEEE Transactions on Learning Technologies, arXiv'21 Comment

古典的なBKT, PFAだけでなくDKT, DKVMN, EKT, AKTなどDeepなモデルについてもまとまっている。

#EducationalDataMining Issue Date: 2022-08-29 Extending Deep Knowledge Tracing: Inferring Interpretable Knowledge and Predicting Post-System Performance, Richard+ （w_ Ryan Baker）, ICCE'20 Comment

#Pocket Issue Date: 2022-08-17 Deep Knowledge Tracing with Transformers, Shi+ （w_ Michael Yudelson）, ETS_ACT, AIED'20 Comment

TransformerでKTした研究。あまり引用されていない。SAINT, SAINT+と同時期に発表されている。

#Tools #Library #EducationalDataMining Issue Date: 2022-07-27 pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models, Bardrinath+, EDM'20 Comment

pythonによるBKTの実装。scikit-learnベースドなinterfaceを持っているので使いやすそう。

#NeuralNetwork #EducationalDataMining #LearningAnalytics #KeyPoint Notes Issue Date: 2022-04-28 When is Deep Learning the Best Approach to Knowledge Tracing?, Theophile+ （Ken Koedinger）, CMU+, JEDM'20 Comment

データセットの統計量はこちら：

#NeuralNetwork #Pocket #EducationalDataMining #LearningAnalytics #SIGKDD Issue Date: 2022-04-27 Context-Aware Attentive Knowledge Tracing, Ghosh+, University of Massachusetts Amherst, KDD'20 Comment

この論文の実験ではSAKTがDKVMNやDKTに勝てていない

#NeuralNetwork #MachineLearning #EducationalDataMining Issue Date: 2022-07-22 Deep-IRT: Make Deep Learning Based Knowledge Tracing Explainable Using Item Response Theory, Chun-Kit Yeung, EDM'19 Comment

著者による実装: https://github.com/ckyeungac/DeepIRT

#NeuralNetwork #Pocket #EducationalDataMining #LearningAnalytics Issue Date: 2022-04-28 Knowledge Tracing with Sequential Key-Value Memory Networks, Ghodai+, Research School of Computer Science, Australian National University, SIGIR'19 #Pocket #EducationalDataMining Issue Date: 2022-09-05 Applications of the Elo Rating System in Adaptive Educational Systems, Pelanek, Computers & Educations'16 Comment

Elo rating systemの教育応用に関して詳細に記述されている

#NeuralNetwork #EducationalDataMining #LearningAnalytics #NeurIPS Issue Date: 2022-04-27 Estimating student proficiency: Deep learning is not the panacea, Wilson+, Knewton+, NIPS'16 workshop Comment

DKTの性能をBKTやPFA等の手法と比較した研究

How Deep is Knowledge Tracing?, Mozer+, EDM'16 を引用し、DKTとBKTのAUCの計算方法の違いについて言及している

#StudentPerformancePrediction #EDM Issue Date: 2021-10-29 General Features in Knowledge Tracing: Applications to Multiple Subskills, Temporal Item Response Theory, and Expert Knowledge, Brusilovsky+, EDM'14 Comment

BKTでは1種類のスキルしか扱えなかった問題を改善（skillだけでなく、sub-skillも扱えるように）

様々なFeatureを組み合わせることが可能

実装： https://github.com/ml-smores/fast

ただし、GPL-2.0ライセンス

#Pocket Issue Date: 2022-08-31 Properties of the Bayesian Knowledge Tracing Model, BRETT VAN DE SANDE, JEDM'13 #EducationalDataMining Issue Date: 2022-07-27 Adapting Bayesian Knowledge Tracing to a Massive Open Online Course in edX, Pardos+, MIT, EDM'13 Comment

Issue Date: 2022-08-31 More Accurate Student Modeling through Contextual Estimation of Slip and Guess Probabilities in Bayesian Knowledge Tracing, Ryan Baker+, ITS'08 Comment

- BKTのModel Degeneracy問題について言及されている

- Model Degeneracy: parameterの値がモデルのconceptualな意味合いを破ってしまうこと

- たとえば、学習者がスキルを知っている場合よりも、知らない場合に正答を得る可能性が高くなってしまう、など

- slipping, guessingパラメータにboundaryを設ける（0.3, 0.1未満になるようにする）などの制約をつけることでこういった事態を過去の研究では回避していることが言及されている

Issue Date: 2022-09-12 Using Knowledge Tracing to Measure Student Reading Proficiencies, Joseph+, ITS'04 Comment

英語の音読に関してKTを適用した話が記載されている

スキルの定義はgrapheme=>phoneme mappingsとして定義されるっぽい

- ch は /CH/ と発音する場合(e.g. Charles)もあれば /K/ の場合もある(e.g. Chaos)

- ch=>/CH/, ch=>/K/ のマッピングがスキルとして定義されている？

Issue Date: 2022-08-17 Modeling individualization in a bayesian networks implementation of knowledge tracing, Pardos+ （w_ Neil T. Heffernan）, UMAP'00 Comment

# モチベーション

BKTでは、全ての生徒が共通のprior knowledge（各スキルに対する習熟度）を持っていることを仮定しており、生徒ごとの事前情報を導入することが許されていない。そこで、個々の生徒のprior knowledge parameterを導入することで予測精度の向上を実現した研究。Prior Per Student (PPS) Modelと呼ぶ。

# モデル

下図にBKTモデルとPPSモデルを示す。通常のBKTモデルに、student nodeを追加する。student nodeは1から考慮する生徒の数までの範囲の値をとる。このため、initial knowledge nodeのcondotional probability tableはstudent nodeの値によって条件づけられる。student node自体にも、学生が特定の値になる確率を決定する条件付き確率テーブルが関連付けられている。

このノードのパラメータは1/Nで固定する（Nは生徒の数）。student nodeは学生 ID に対応する観測ノードであり、推論する必要がないため、このノードのパラメーター値は関係ない。

また、このモデルは下図に示すように、student nodeを後続のknowledge nodeに接続することで、個々の生徒ごとの学習率をモデル化するように容易に変更できる。これにより、studentによって条件づけられたP(T)（i.e. learning rate）を訓練できる。全ての事前分布を同じ値にするか、学生が1人だけであることを指定すれば、BKTと同等となる。

#Article #EducationalDataMining #LearningAnalytics Issue Date: 2025-02-14 局所的変分法による非補償型時系列IRT, 玉野+, NEC+, 人工知能学会研究会資料, 2020.03 #Article Issue Date: 2022-08-17 KT-IDEM: Introducing Item Difficulty to the Knowledge Tracing Model, Pardos+ （w_ Neil T. Heffernan）, UMAP11 Comment

#Article #NeuralNetwork #EducationalDataMining Issue Date: 2022-07-25 独立な学習者・項目ネットワークをもつ Deep-IRT, 堤+, 電子情報通信学会論文誌, 2021 Comment

#Article #NeuralNetwork #EducationalDataMining #StudentPerformancePrediction #L@S Issue Date: 2021-10-29 Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization, Yeung+, 2018, L@S Comment

実装: https://github.com/ckyeungac/deep-knowledge-tracing-plus

#Article #Tools #StudentPerformancePrediction Issue Date: 2021-10-29 HMM Scalable （Bayesian Knowledge Tracing; BKT） Comment

BKTを高速で学習できるツール

3-clause BSD license

StudentPerformancePrediction (8)

#NeuralNetwork #EducationalDataMining #LAK
Issue Date: 2021-10-28 SAINT+: Integrating Temporal Features for EdNet Correctness Prediction, Shin+, RiiiD AI Research, LAK'21 Comment

Student Performance PredictionにTransformerを初めて利用した研究

#NeuralNetwork #EducationalDataMining #EDM
Issue Date: 2021-10-28 A Self-Attentive model for Knowledge Tracing, Pandy+ （with George Carypis）, EDM'19 Comment

Knowledge Tracingタスクに初めてself-attention layerを導入した研究

DKTや、DKVMNを全てのデータセットでoutperform

#NeurIPS #Selected Papers/Blogs #KeyPoint Notes #Reference Collection
Issue Date: 2018-12-22 [Paper Note] Deep Knowledge Tracing, Piech+, NIPS'15 Comment

#KnowledgeTracing #EDM Issue Date: 2021-10-29 General Features in Knowledge Tracing: Applications to Multiple Subskills, Temporal Item Response Theory, and Expert Knowledge, Brusilovsky+, EDM'14 Comment

BKTでは1種類のスキルしか扱えなかった問題を改善（skillだけでなく、sub-skillも扱えるように）

様々なFeatureを組み合わせることが可能

実装： https://github.com/ml-smores/fast

ただし、GPL-2.0ライセンス

#UMAP Issue Date: 2018-12-22 [Paper Note] Improving Matrix Factorization Techniques of Student Test Data with Partial Order Constraints, Beheshti+, UMAP'12 Comment

生徒の学習の場合は、prerequisiteがあるので、factorizationする空間をかなり小さくする。

MFは、domain structure discovering (どのアイテムが生徒間の特定のスキルに紐づいているか)にも使える。

たとえば、生徒-アイテム行列をVとすると、V=WxHと分解する。ここで、Wはm x k matrixで、Q-matrixと呼ばれる。Q-matrixは、m個のアイテムをk個のスキルと紐づける。Hはスキルmastery matrix。

スキルは、成功するチャンスがあればあるほどあがっていき、下がることはない。

なので、基本的に正の値をとるので、NMFが使える。

また、カリキュラムで学習する順番は決まっている（足し算、引き算、掛け算、割り算など）ので、これがmatrixVにclosure constraintsを課すことになる(これはすなわち、partial orderがあるということ)。

partial orderのviolationは、アイテムIi, Ijが与えられてIiが常にIjよりも前に習うというとき、（student column vector）Ii=0, Ij=1というのはviolationになる。

この辺の制約を入れて、学習するらしい。

各knowledgeのpre-requisiteを、MFでうまく分解することで自動で学習することができる。
詳細な数式が書かれておらず、評価も実施していないが、考え方は興味深い。

#EducationalDataMining #EDM Issue Date: 2018-12-22 [Paper Note] Factorization Models for Forecasting Student Performance, Thai-Nghe+, EDM'11 Comment

#Article #NeuralNetwork #EducationalDataMining #KnowledgeTracing #L@S Issue Date: 2021-10-29 Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization, Yeung+, 2018, L@S Comment

実装: https://github.com/ckyeungac/deep-knowledge-tracing-plus

#Article #Tools #KnowledgeTracing Issue Date: 2021-10-29 HMM Scalable （Bayesian Knowledge Tracing; BKT） Comment

BKTを高速で学習できるツール

3-clause BSD license

Survey (6)

#Pocket #EducationalDataMining #KnowledgeTracing
Issue Date: 2022-08-02 Knowledge Tracing: A Survey, ABDELRAHMAN+, Australian National University, ACM Computing Surveys'23 GPT Summary- 人間の教育における知識移転の重要性を背景に、オンライン教育における知識追跡（KT）の必要性が高まっている。本論文では、KTに関する包括的なレビューを行い、初期の手法から最新の深層学習技術までを網羅し、モデルの理論やデータセットの特性を強調する。また、関連手法のモデリングの違いを明確にし、KT文献の研究ギャップや今後の方向性についても議論する。 #Article #EducationalDataMining #LearningAnalytics #Selected Papers/Blogs
Issue Date: 2018-12-22 Educational Data Mining and Learning Analytics, Baker+, 2014 Comment

Ryan BakerらによるEDM Survey

#Article #RecommenderSystems
Issue Date: 2018-12-22 Recommender Systems for Technology Enhanced Learning: Research Trends and Applications, Manouselis+, 2014 Comment

最近のトレンドやアプリケーションを知りたい場合はこちら

#Article #RecommenderSystems Issue Date: 2018-12-22 Panorama of recommender systems to support learning, Drachsler+, 2015 Comment

教育分野に対するRecsysのSurvey

#Article #RecommenderSystems Issue Date: 2018-12-22 Recommender Systems in Technology Enhanced Learning, Manouselis+, Recommender Systems Handbook, 2011 #Article Issue Date: 2018-12-22 [Paper Note] Personal recommender systems for learners in lifelong learning networks: the requirements, techniques and model, Drachsler+, Int. J. Learning Technology, 2008

DropoutPrediction (2)

#NeuralNetwork #EducationalDataMining #LearningAnalytics
Issue Date: 2022-04-14 Deep Attentive Study Session Dropout Prediction in Mobile Learning Environment, Riiid AI Research, Lee+, CSEDU'20 Comment

#EducationalDataMining #LearningAnalytics #EMNLP
Issue Date: 2021-10-29 Predicting MOOC Dropout over Weeks Using Machine Learning Methods, EMNLP'14 Workshop, Marius Kloft Comment

EMNLP'14のWorkshop論文。引用数が120件とかなり多め。

特徴量：

最初の1 -- 9週の間は、あまりDropoutが予測できないが、それ以後はhistory featureが効いて予測ができるようになる。

ScorePrediction (2)

#Pocket
Issue Date: 2022-08-31 Condensed Discriminative Question Set for Reliable Exam Score Prediction, Jung+, Riiid, AIED'21 #Article #Dataset #Education #EducationalDataMining
Issue Date: 2022-08-23 Score Prediction dataset

CollaborativeFiltering (1)

#Article #RecommenderSystems
Issue Date: 2018-12-22 [Paper Note] Simulated Analysis of MAUT Collaborative Filtering for Learning Object Recommendation, Manouselis+, Social Information Retrieval for Technology-Enhanced Learning & Exchange, 2007 Comment

Tutorial (1)

#Article #LearningAnalytics
Issue Date: 2021-10-29 ラーニング・アナリティクスとは何か？, 武田俊之, コンピュータ＆エデュケーション VOL.38, 2015 Comment

Assessment (1)

#EducationalDataMining #LearningAnalytics
Issue Date: 2022-04-18 Assessment Modeling: Fundamental Pre-training Tasks for Interactive Educational Systems, Choi+, RiiiD Research, arXiv'20 Comment

Library (1)

#Tools #EducationalDataMining #KnowledgeTracing
Issue Date: 2022-07-27 pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models, Bardrinath+, EDM'20 Comment

pythonによるBKTの実装。scikit-learnベースドなinterfaceを持っているので使いやすそう。

OptionTracing (1)

#Pocket #EducationalDataMining
Issue Date: 2022-08-18 Option Tracing: Beyond Correctness Analysis in Knowledge Tracing, Ghosh+, AIED'21 Comment

Dataset (1)

#Article #Education #EducationalDataMining #ScorePrediction
Issue Date: 2022-08-23 Score Prediction dataset

NaturalLanguageGeneration (1)

#NLP #Education #KnowledgeTracing #Personalization #QuestionGeneration
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

QuestionGeneration (1)

#NaturalLanguageGeneration #NLP #Education #KnowledgeTracing #Personalization
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

Others (5)

#NeuralNetwork #EducationalDataMining #LearningAnalytics
Issue Date: 2022-04-28 An Empirical Comparison of Deep Learning Models for Knowledge Tracing on Large-Scale Dataset, Pandey+, AAAI workshop on AI in Education'21 Comment

EdNetデータにおいて、DKT, DKVMN, SAKT, RKTの性能を比較した論文

RKTがも最もパフォーマンスが良く、SAKTもDKT, DKVMNに勝っている

#Pocket #IJCAI
Issue Date: 2021-08-04 RLTutor: Reinforcement Learning Based Adaptive Tutoring System by Modeling Virtual Student with Fewer Interactions, Kubotani+, Waseda University, IJCAI'21 GPT Summary- 教育分野の課題に対し、学生の知識状態に基づく適応指導を強化学習で最適化するフレームワークを提案。実際の学生との相互作用を最小限にし、仮想モデルを構築。実験により、提案モデルは従来の指導方法と同等の性能を示し、理論と実践の橋渡しを行う。 #Pocket #Education #EducationalDataMining
Issue Date: 2022-12-27 Reinforcement Learning for the Adaptive Scheduling of Educational Activities, Bassen+, Stanford University, CHI'20

#Article #LearningPath Issue Date: 2018-12-22 [Paper Note] Designing and implementing a personalized remedial learning system for enhancing the programming learning, Hsieh+, Educational Technology & Society, 2013 Comment

Fuzzy推論参考：

http://www.sist.ac.jp/~kanakubo/research/reasoning_kr/fuzzy.html

#Article #Classic #LearningStyle #Selected Papers/Blogs Issue Date: 2018-12-22 LEARNING AND TEACHING STYLES IN ENGINEERING EDUCATION, Felder, Engr. Education, 78（7）, 674–681, 1988 Comment

SpeechProcessing (40)

LanguageModel (17)

#Pocket #OpenWeight #Editing #TTS #AudioLanguageModel
Issue Date: 2025-11-09 [Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #MultiModal #Speech #NeurIPS #VisionLanguageModel #2D (Image) #TTS #AudioLanguageModel
Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

#ComputerVision #Pocket #NLP #Dataset #Evaluation #MultiModal #2D (Image) #4D (Video) #Omni #text
Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #NLP #Speech #UMM #AudioLanguageModel #text Issue Date: 2025-11-04 [Paper Note] UniTok-Audio: A Unified Audio Generation Framework via Generative Modeling on Discrete Codec Tokens, Chengwei Liu+, arXiv'25, 2025.10 GPT Summary- UniTok-Audioは、音声生成タスクのための統一されたスケーラブルフレームワークで、条件の特徴を抽出し、音声の離散トークンを生成。特別なタスク識別トークンにより、複数のタスクの学習を統一し、高忠実度の波形再構築を実現。実験では、音声復元や音声変換など5つのタスクで競争力のある性能を示し、将来的にオープンソース化予定。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #Temporal #SyntheticData #MultiModal #Architecture #2D (Image) #TTS #4D (Video) #Omni #audio #text Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

#Pocket #Dataset #Evaluation #read-later #Selected Papers/Blogs #AudioLanguageModel Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #MultiModal #OpenWeight #UMM Issue Date: 2025-07-26 [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25 GPT Summary- Ming-Omniは、画像、テキスト、音声、動画を処理できる統一マルチモーダルモデルで、音声生成と画像生成において優れた能力を示す。専用エンコーダを用いて異なるモダリティからトークンを抽出し、MoEアーキテクチャで処理することで、効率的にマルチモーダル入力を融合。音声デコーダと高品質な画像生成を統合し、コンテキストに応じたチャットやテキストから音声への変換、画像編集が可能。Ming-Omniは、GPT-4oに匹敵する初のオープンソースモデルであり、研究と開発を促進するためにコードとモデルの重みを公開。 Comment

元ポスト:

Loading…

現在はv1.5も公開されておりさらに性能が向上している模様？

HF: https://huggingface.co/inclusionAI/Ming-Lite-Omni

#ComputerVision #Pocket #NLP #MultiModal #OpenWeight #Video Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv'25 GPT Summary- マルチモーダルモデル「Qwen2.5-Omni」は、テキスト、画像、音声、動画を認識し、ストリーミング方式で自然な音声応答を生成する。音声と視覚エンコーダはブロック処理を用い、TMRoPEによる新しい位置埋め込みで音声と動画の同期を実現。Thinker-Talkerアーキテクチャにより、テキスト生成と音声出力を干渉なく行う。Qwen2.5-Omniは、エンドツーエンドで訓練され、音声指示に対する性能がテキスト入力と同等で、ストリーミングTalkerは既存手法を上回る自然さを持つ。 Comment

#ComputerVision #EfficiencyImprovement #NLP #Transformer #MultiModal #Architecture #TMLR #UMM Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, TMLR'25 GPT Summary- 大規模言語モデル（LLMs）のマルチモーダル処理を効率化するために、Mixture-of-Transformers（MoT）を提案。MoTは計算コストを削減し、モダリティごとにパラメータを分離して特化した処理を実現。Chameleon 7B設定では、55.8%のFLOPsで密なベースラインに匹敵する性能を示し、音声を含む場合も37.2%のFLOPsで同様の結果を達成。さらに、Transfusion設定では、7BのMoTモデルが密なベースラインの画像性能に対してFLOPsの3分の1で匹敵し、760Mのモデルは主要な画像生成指標で上回る結果を得た。MoTは実用的な利点も示し、画像品質を47.2%、テキスト品質を75.6%の経過時間で達成。 #ComputerVision #NLP #MultiModal #AAAI Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI'24 GPT Summary- AudioGPTは、複雑な音声情報を処理し、音声対話をサポートするマルチモーダルAIシステムである。基盤モデルとASR、TTSインターフェースを組み合わせ、音声、音楽、トーキングヘッドの理解と生成を行う。実験により、AudioGPTが多様なオーディオコンテンツの創造を容易にする能力を示した。 Comment

text, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステム

マルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい

#ComputerVision #Pocket #NLP #SpokenLanguageProcessing #MultiModal Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment

12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習

#NLP #MultiModal Issue Date: 2023-06-26 AudioPaLM: A Large Language Model That Can Speak and Listen, Paul K. Rubenstein+, N_A, arXiv'23 GPT Summary- 本研究では、音声理解と生成のためのマルチモーダルアーキテクチャであるAudioPaLMを紹介する。AudioPaLMは、テキストと音声を処理および生成することができ、PaLM-2とAudioLMを統合している。テキストのみの大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善し、多くの言語に対してゼロショット音声対テキスト翻訳を実行する能力を持つことができることを示す。また、AudioPaLMは、音声言語モデルの機能も示している。 Comment

参考:

Loading…

#Article #ComputerVision #NLP #OpenWeight #MoE(Mixture-of-Experts) #2D (Image) #UMM #4D (Video) #Omni #audio #text Issue Date: 2025-11-01 LongCat-Flash-Omni Technical Report, 2025.10 Comment

元ポスト:

Loading…

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni

text, image/video, audioをinputし、audioを生成するomniモデル

#Article #ComputerVision #NLP #MultiModal #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #Blog #OpenWeight #Editing Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

#Article #LongSequence #MultiLingual #OpenWeight #TTS Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment

元ポスト:

Loading…

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様？

#Article #Survey #ComputerVision #NLP #MultiModal Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

Dataset (8)

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal #2D (Image) #4D (Video) #Omni #text
Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #Evaluation #Reasoning #AudioLanguageModel #audio
Issue Date: 2025-10-21 [Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

#Pocket #LanguageModel #Evaluation #read-later #Selected Papers/Blogs #AudioLanguageModel
Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#NLP Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP'23 Comment

https://prtimes.jp/main/html/rd/p/000000003.000102162.html

超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

ワンセグのデータにから生成

ライブラリ:

Loading…

#Pocket #AutomaticSpeechRecognition(ASR) #One-Line Notes Issue Date: 2025-11-21 [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 GPT Summary- 本論文では、107言語のYouTube動画から自動収集した音声データを用いて音声言語認識を調査。半ランダムな検索フレーズを用いて音声セグメントを抽出し、ポストフィルタリングにより98%の正確なラベル付けを実現。得られたトレーニングセットは6628時間、評価セットは1609の発話から構成され、実験により自動取得データが手動ラベル付けデータと同等の結果を示すことが確認された。このデータセットは公開されている。 Comment

dataset: https://cs.taltech.ee/staff/tanel.alumae/data/voxlingua107/

Whisperでも活用されているLanguage Identifucation用のdataset
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

#Article #Evaluation Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #AutomaticSpeechRecognition(ASR) #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment

元ポスト:

Loading…

#Article #MachineLearning Issue Date: 2023-08-16 CommonVoice Comment

音声対応のアプリケーションをトレーニングするために誰でも使用できるオープンソースの多言語音声データセット

AutomaticSpeechRecognition(ASR) (8)

#NeuralNetwork #Pocket #Transformer #Selected Papers/Blogs #Generalization #KeyPoint Notes #Robustness
Issue Date: 2025-11-14 [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12 GPT Summary- 680,000時間の多言語音声トランスクリプトを用いて訓練した音声処理システムを研究。得られたモデルは、ゼロショット転送設定で良好に一般化し、従来の監視結果と競争力を持つ。人間の精度に近づくことが確認され、モデルと推論コードを公開。 Comment

いまさらながらWhisper論文

日本語解説: https://www.ai-shift.co.jp/techblog/3001

長文認識のためのヒューリスティックに基づくデコーディング戦略も解説されているので参照のこと。

#Pocket #Dataset #One-Line Notes
Issue Date: 2025-11-21 [Paper Note] VoxLingua107: a Dataset for Spoken Language Recognition, Jörgen Valk+, SLT'21, 2020.11 GPT Summary- 本論文では、107言語のYouTube動画から自動収集した音声データを用いて音声言語認識を調査。半ランダムな検索フレーズを用いて音声セグメントを抽出し、ポストフィルタリングにより98%の正確なラベル付けを実現。得られたトレーニングセットは6628時間、評価セットは1609の発話から構成され、実験により自動取得データが手動ラベル付けデータと同等の結果を示すことが確認された。このデータセットは公開されている。 Comment

dataset: https://cs.taltech.ee/staff/tanel.alumae/data/voxlingua107/

Whisperでも活用されているLanguage Identifucation用のdataset
- [Paper Note] Robust Speech Recognition via Large-Scale Weak Supervision, Alec Radford+, ICML'23, 2022.12

#Article #Transformer #MultiLingual #OpenWeight #Selected Papers/Blogs #AudioLanguageModel
Issue Date: 2025-11-12 Omnilingual ASR: Advancing Automatic Speech Recognition for 1,600+ Languages, Meta, 2025.11 Comment

#Article #ComputerVision #NLP #LanguageModel #MultiModal #TextToImageGeneration #OpenWeight #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #OpenWeight #OpenSource Issue Date: 2025-08-29 OLMoASR: A series of open speech recognition models, Ai2, 2025.08 Comment

元ポスト:

Loading…

オープンソースのOLMOシリーズから英語のASRが登場

モデルとトークナイザはWhisperと同様な模様

technical report: https://github.com/allenai/OLMoASR/blob/main/tech_report/olmoasr_tech_report.pdf

#Article #Dataset #SimulST(SimultaneousSpeechTranslation) Issue Date: 2025-08-17 Granary, Nvidia, 2025.08 Comment

元ポスト:

Loading…

#Article #OpenSource Issue Date: 2025-05-06 parakeet-tdt-0.6b-v2, Nvidia, 2025.05 Comment

元ポスト:

Loading…

2025.05.06時点でOpenASR Leaderboardでトップ:
https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

Already supports Nvidia Parakeet

Simultaneously supporting Linux/Windows/macOS

https://github.com/patui/Nosub

#Article #NLP #Blog Issue Date: 2024-11-07 ほぼリアルタイム！？爆速で動作する日本語特化の文字起こしAI！『kotoba-whisper-v2.0』, 遼介大堀, 2024.11 Comment

TTS (8)

#Pocket #LanguageModel #OpenWeight #Editing #AudioLanguageModel
Issue Date: 2025-11-09 [Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #NLP #LanguageModel #MultiModal #Speech #NeurIPS #VisionLanguageModel #2D (Image) #AudioLanguageModel
Issue Date: 2025-11-05 [Paper Note] VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction, Chaoyou Fu+, NeurIPS'25, 2025.01 GPT Summary- 音声の役割を重視したマルチモーダル大規模言語モデル（MLLM）の訓練手法を提案。視覚と音声の相互作用を強化し、ASRやTTSモジュールなしで効率的な音声対話を実現。ベンチマークで最先端手法と比較し、リアルタイムの視覚と音声の相互作用が可能であることを示す。 Comment

元ポスト:

Loading…

image/video, speechを入力として受けとりリアルタイムに音声を出力するマルチモーダルモデル。

#ComputerVision #Pocket #NLP #Temporal #LanguageModel #SyntheticData #MultiModal #Architecture #2D (Image) #4D (Video) #Omni #audio #text
Issue Date: 2025-10-21 [Paper Note] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM, Hanrong Ye+, arXiv'25, 2025.10 GPT Summary- OmniVinciは、視覚と音声を統合したオムニモーダルLLMを構築するプロジェクトであり、3つの革新（OmniAlignNet、Temporal Embedding Grouping、Constrained Rotary Time Embedding）を提案。2400万の会話データを用いて、モダリティ間の相互強化を実現。DailyOmni、MMAR、Video-MMEでの性能向上を達成し、トレーニングトークンの使用量を大幅に削減。ロボティクスや医療AIなどの応用におけるオムニモーダルの利点を示す。 Comment

pj page: https://nvlabs.github.io/OmniVinci/

元ポスト:

Loading…

#Pocket #Transformer #DiffusionModel #MoE(Mixture-of-Experts) #FlowMatching #LowResource #ConvolutionalModels Issue Date: 2025-10-18 [Paper Note] DiaMoE-TTS: A Unified IPA-Based Dialect TTS Framework with Mixture-of-Experts and Parameter-Efficient Zero-Shot Adaptation, Ziqi Chen+, arXiv'25, 2025.09 GPT Summary- DiaMoE-TTSは、方言の音声合成のためのIPAベースのフレームワークを提案し、音声表現の標準化と曖昧さの解決を図る。F5-TTSアーキテクチャを基に、方言に対応したMixture-of-Expertsを導入し、効率的なパラメータ適応を実現。スケーラブルでオープンデータ駆動のアプローチにより、数時間のデータで未見の方言や専門的なドメインに対して自然で表現力豊かな音声生成を達成。 Comment

元ポスト:

Loading…

#Pocket #Transformer Issue Date: 2025-09-11 [Paper Note] Streaming Sequence-to-Sequence Learning with Delayed Streams Modeling, Neil Zeghidour+, arXiv'25 GPT Summary- Delayed Streams Modeling (DSM)は、ストリーミングおよびマルチモーダルなシーケンス・ツー・シーケンス学習のための新しい手法で、入力シーケンスを完全に消費するオフライン方式とは異なり、出力タイミングを学習するストリーミング方式を採用しています。DSMはデコーダー専用の言語モデルを用いて、時間的に整列されたストリームをモデル化し、遅延を導入することで任意の出力シーケンスのストリーミング推論を実現します。特に、テキストと音声のストリームにおいて、自動音声認識（ASR）やテキスト・トゥ・スピーチ（TTS）モデルに対して優れた性能を示し、オフラインベースラインと競争できることが実験で確認されました。 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #MultiModal #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #Routing #UMM #Omni #Sparse #ImageSynthesis Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #MultiLingual #OpenWeight Issue Date: 2025-10-09 commonvoice22_sidon, sarulab-speech, 2025.10 Comment

元ポスト:

Loading…

134言語サポートのTTS

#Article #LanguageModel #LongSequence #MultiLingual #OpenWeight Issue Date: 2025-08-25 VibeVoice-1.5B, microsoft, 2025.08 Comment

元ポスト:

Loading…

outputできるspeechのlengthが先行研究より非常に長く、90分近く生成できる模様？

Evaluation (4)

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal #2D (Image) #4D (Video) #Omni #text
Issue Date: 2025-11-05 [Paper Note] UNO-Bench: A Unified Benchmark for Exploring the Compositional Law Between Uni-modal and Omni-modal in Omni Models, Chen Chen+, arXiv'25, 2025.10 GPT Summary- 新しいベンチマークUNO-Benchを提案し、ユニモーダルとオムニモーダルの能力を44のタスクと5つのモダリティで評価。人間生成データと自動圧縮データを用い、複雑な推論を評価する多段階オープンエンド質問形式を導入。実験により、オムニモーダルの能力がモデルの強さに応じて異なる影響を与えることを示した。 Comment

pj page: https://meituan-longcat.github.io/UNO-Bench/

元ポスト:

Loading…

#Pocket #Dataset #Reasoning #AudioLanguageModel #audio
Issue Date: 2025-10-21 [Paper Note] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap, Yueqian Lin+, arXiv'25, 2025.09 GPT Summary- 音声インタラクティブシステムの推論能力を評価するためのベンチマーク「VERA」を提案。2,931の音声エピソードを5つのトラックに整理し、音声インタラクションに適応。12の音声システムをテキストベースラインと比較した結果、音声モデルの精度は著しく低く、特に数学トラックでは74.8%対6.1%の差が見られた。レイテンシと精度の分析から、迅速な音声システムは約10%の精度に集約され、リアルタイム性を犠牲にしないとテキストパフォーマンスには近づけないことが示された。VERAは、音声アシスタントの推論能力向上に向けた再現可能なテストベッドを提供する。 Comment

元ポスト:

Loading…

latencyとAccuracyのトレードオフ

#Pocket #Dataset #LanguageModel #read-later #Selected Papers/Blogs #AudioLanguageModel
Issue Date: 2025-09-03 [Paper Note] AHELM: A Holistic Evaluation of Audio-Language Models, Tony Lee+, arXiv'25 GPT Summary- 音声言語モデル（ALMs）の評価には標準化されたベンチマークが欠如しており、これを解決するためにAHELMを導入。AHELMは、ALMsの多様な能力を包括的に測定するための新しいデータセットを集約し、10の重要な評価側面を特定。プロンプトや評価指標を標準化し、14のALMsをテストした結果、Gemini 2.5 Proが5つの側面でトップにランクされる一方、他のモデルは不公平性を示さなかった。AHELMは今後も新しいデータセットやモデルを追加予定。 Comment

元ポスト:

Loading…

#Article #Dataset Issue Date: 2025-10-28 Ming-Freeform-Audio-Edit, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

Editing (3)

#Pocket #LanguageModel #OpenWeight #TTS #AudioLanguageModel
Issue Date: 2025-11-09 [Paper Note] Step-Audio-EditX Technical Report, Chao Yan+, arXiv'25, 2025.11 GPT Summary- 初のオープンソースLLMベースの音声モデル「Step-Audio-EditX」を発表。感情や話し方の編集に優れ、ゼロショットのテキスト音声合成機能も搭載。大きなマージンの合成データを活用し、従来のアプローチからの転換を実現。評価では、感情編集や細かい制御タスクで他のモデルを上回る性能を示した。 Comment

元ポスト:

Loading…

#Article #ComputerVision #NLP #LanguageModel #MultiModal #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

#Article #NLP #LanguageModel #Blog #OpenWeight
Issue Date: 2025-10-03 Ming-UniAudio: Speech LLM for Joint Understanding, Generation and Editing with Unified Representation, inclusionAI, 2025.07 Comment

元ポスト:

Loading…

Ming-Omniの後継モデルで、スピーチに特化して書き起こし、理解、編集などができるモデル

- [Paper Note] Ming-Omni: A Unified Multimodal Model for Perception and Generation, Inclusion AI+, arXiv'25

HF: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B

公式ポスト:

Loading…

InstructionTuning (2)

#ComputerVision #Pretraining #Pocket #NLP #Transformer #MultiModal #CVPR #Selected Papers/Blogs #Encoder-Decoder #Robotics #UMM #EmbodiedAI
Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

#Article #Pretraining #Reasoning #SmallModel #OpenWeight #Zero/FewShotLearning #Selected Papers/Blogs #UMM #AudioLanguageModel
Issue Date: 2025-10-25 Introducing MiMo-Audio, LLM-Core Xiaomi, 2025.10 Comment

HF: https://huggingface.co/collections/XiaomiMiMo/mimo-audio

元ポスト:

Loading…

text, audioを入力として受け取り、text, audioを出力するAudioLanguageModel

Survey (1)

#Article #ComputerVision #NLP #LanguageModel #MultiModal
Issue Date: 2023-07-03 Awesome Multimodal LLMs Comment

マルチモーダルなLLMのリストがまとめられている

MachineTranslation (1)

#Unsupervised #NLP #Speech
Issue Date: 2023-07-15 Simple and Effective Unsupervised Speech Translation, ACL'23 GPT Summary- 音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。

DialogueGeneration (1)

#Article #NLP #Japanese
Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi

TextToImageGeneration (1)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

VideoGeneration/Understandings (1)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #Editing #TTS #Routing #UMM #Omni #Sparse #ImageSynthesis
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

ImageSynthesis (1)

#Article #ComputerVision #NLP #LanguageModel #MultiModal #TextToImageGeneration #OpenWeight #AutomaticSpeechRecognition(ASR) #Architecture #MoE(Mixture-of-Experts) #Selected Papers/Blogs #VideoGeneration/Understandings #Editing #TTS #Routing #UMM #Omni #Sparse
Issue Date: 2025-10-28 Ming-flash-omni-Preview, inclusionAI, 2025.10 Comment

元ポスト:

Loading…

Others (5)

#ComputerVision #Pocket #NLP #MultiModal #Reasoning #OpenWeight #VisionLanguageActionModel
Issue Date: 2025-08-12 [Paper Note] MolmoAct: Action Reasoning Models that can Reason in Space, Jason Lee+, arXiv'25 GPT Summary- アクション推論モデル（ARMs）であるMolmoActは、知覚、計画、制御を三段階のパイプラインで統合し、説明可能で操作可能な行動を実現。シミュレーションと実世界で高いパフォーマンスを示し、特にSimplerEnv Visual Matchingタスクで70.5%のゼロショット精度を達成。MolmoAct Datasetを公開し、トレーニングによりベースモデルのパフォーマンスを平均5.5%向上。全てのモデルの重みやデータセットを公開し、ARMsの構築に向けたオープンな設計図を提供。 Comment

`Action Reasoning Models (ARMs)`

元ポスト:

Loading…

blog: https://allenai.org/blog/molmoact

Robotics (37)

LanguageModel (7)

#ComputerVision #Pocket #NLP #Dataset #Evaluation #MultiModal #read-later #Selected Papers/Blogs #EmbodiedAI
Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Pocket #NLP #Test-Time Scaling #Verification #VisionLanguageActionModel
Issue Date: 2025-10-17 [Paper Note] RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models, Jacky Kwok+, arXiv'25, 2025.06 GPT Summary- VLAモデルの堅牢性を向上させるため、テスト時スケーリングを調査し、RoboMonkeyフレームワークを導入。小さなアクションセットをサンプリングし、VLMを用いて最適なアクションを選択。合成データ生成により検証精度が向上し、分布外タスクで25%、分布内タスクで9%の改善を達成。新しいロボットセットアップへの適応時には、VLAとアクション検証器の両方をファインチューニングすることで7%の性能向上を示した。 Comment

元ポスト:

Loading…

#Survey #Pocket #WorldModels #EmbodiedAI
Issue Date: 2025-09-25 [Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #FoundationModel #Navigation #VisionLanguageModel #EmbodiedAI Issue Date: 2025-09-16 [Paper Note] Embodied Navigation Foundation Model, Jiazhao Zhang+, arXiv'25 GPT Summary- NavFoMは、800万のナビゲーションサンプルで訓練されたクロス具現化・クロスタスクのナビゲーション基盤モデルであり、ビジョンと言語のナビゲーションや自律運転など多様なタスクに対応。異なるカメラ構成や時間的視野を考慮し、動的に調整されたサンプリング戦略を用いて、ファインチューニングなしで最先端の性能を達成。実世界での実験でも強力な一般化能力を示す。 Comment

pj page: https://pku-epic.github.io/NavFoM-Web/

元ポスト:

Loading…

#Pocket #NLP #memory #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-14 [Paper Note] MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation, Hao Shi+, arXiv'25 GPT Summary- MemoryVLAは、ロボット操作における時間的文脈を考慮したCognition-Memory-Actionフレームワークである。作業記憶を利用して短命の表現を制御し、知覚-認知メモリーバンクに統合された情報を保存する。これにより、時間的に意識したアクションシーケンスを生成し、150以上のシミュレーションおよび実世界のタスクで高い成功率を達成。特に、長期的なタスクにおいて顕著な性能向上を示した。 Comment

pj page: https://shihao1895.github.io/MemoryVLA/

元ポスト:

Loading…

#Pocket #ReinforcementLearning #GRPO #On-Policy #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-12 [Paper Note] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning, Haozhan Li+, arXiv'25 GPT Summary- VLAモデルの強化学習フレームワークSimpleVLA-RLを提案し、ロボット操作の効率を向上。大規模データへの依存を減らし、一般化能力を強化。OpenVLA-OFTで最先端のパフォーマンスを達成し、RoboTwin 1.0&2.0で優れた結果を示す。新たな現象「pushcut」を特定。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/Haozhan72/simplevla-rl-6833311430cd9df52aeb1f86

ポイント解説:

Loading…

VLAにおいて初めてR1-styleのルールベースのverifiable reward（シミュレーション環境から得られる結果）のみに基づくシンプルなon policy RLを実施することで、SFTを実施する場合よりも高い性能、かつ高い汎化性能を獲得できることをVLAにおいて示した研究な模様。

ただし新たなBehaviorに対するExplorationをより高めるために、Refモデルに対するKL Divergenceペナルティを除外したり、3.3節に記述されているような、
- Dynamic Sampling: 全てのロールアウトのRewardが同じ値になるとGRPOのadvantageが0となり勾配が消失する問題があるので、全てのロールアウトが成功/失敗したグループは除外（言い換えると、mixed outcomeのグループのみを利用）して学習
- Clip Higher: DAPOと同様に、直前のポリシーと現在のポリシーの比率のクリッピングの上限値を広げ（つまり、低い確率だったものをより大きな値となることを以前よりも許容する）て探索を促す
- Higher Rollout Temperature:ロールアウト時のtemperatureを1.6と高めにし、より多様なtrajectoryが生成されるようにすることで探索を促す

といった全体的に探索を強めるような調整を行なっている模様。

#Article #Tutorial #NLP #VisionLanguageActionModel Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

Dataset (5)

#ComputerVision #Pocket #NLP #LanguageModel #Evaluation #MultiModal #read-later #Selected Papers/Blogs #EmbodiedAI
Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#Analysis #MachineLearning #Pocket #ICLR #EmbodiedAI
Issue Date: 2025-07-19 [Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

#ComputerVision #Pocket #Evaluation #RA-L
Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#ComputerVision #Pocket #Evaluation #IROS Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。 #Article #4D (Video) #EmbodiedAI #One-Line Notes Issue Date: 2025-11-13 Egocentric-10K, Build AI, 2025.11 Comment

元ポスト:

Loading…

工場での主観視点での作業動画の大規模データセット。Apache 2.0!?

Evaluation (4)

#ComputerVision #Pocket #NLP #Dataset #LanguageModel #MultiModal #read-later #Selected Papers/Blogs #EmbodiedAI
Issue Date: 2025-11-10 [Paper Note] PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs, Zixin Zhang+, arXiv'25, 2025.10 GPT Summary- MLLMsの物理的道具に対する理解を評価するための新しいベンチマークPhysToolBenchを提案。1,000以上の画像-テキストペアからなるVQAデータセットで、道具認識、道具理解、道具創造の3つの能力を評価。32のMLLMsに対する評価で道具理解に欠陥があることが明らかになり、初歩的な解決策を提案。コードとデータセットは公開。 Comment

元ポスト:

Loading…

興味深い

#ComputerVision #Pocket #Dataset #RA-L
Issue Date: 2025-11-20 [Paper Note] CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks, Oier Mees+, RA-L'22 Best Paper Award, 2021.12 GPT Summary- ロボットが人間と共存する環境で、言語を知覚や行動に関連付けるためのシミュレーションベンチマークCALVINを提案。CALVINは、長期的な言語条件付きタスクを学習し、複雑なロボット操作を人間の言語指示に基づいて解決するエージェントの開発を目指す。ゼロショット評価を行い、既存のモデルが低パフォーマンスであることから、新たなエージェントの開発の可能性を示唆。 Comment

pj page: http://calvin.cs.uni-freiburg.de

#ComputerVision #Pocket #Dataset #IROS
Issue Date: 2025-11-20 [Paper Note] ReFusion: 3D Reconstruction in Dynamic Environments for RGB-D Cameras Exploiting Residuals, Emanuele Palazzolo+, IROS'19, 2019.05 GPT Summary- 動的要素を含むシーンのマッピングとローカリゼーションのために、RGB-Dセンサーを用いた新しいアプローチを提案。TSDFに基づく効率的なトラッキングを行い、色情報を利用してセンサーのポーズを推定。動的要素の検出には残差と自由空間のモデリングを活用。実験により、提案手法が最先端の密SLAM手法を上回る性能を示し、データセットも公開。オープンソースコードも提供。

#Article #VisionLanguageActionModel Issue Date: 2025-09-29 RoboArena: Distributed Real-World Evaluation of Generalist Robot Policies, Atreya+, 2025.09 Comment

元ポスト:

Loading…

Survey (3)

#Pocket #LanguageModel #WorldModels #EmbodiedAI
Issue Date: 2025-09-25 [Paper Note] Embodied AI: From LLMs to World Models, Tongtong Feng+, arXiv'25, 2025.09 GPT Summary- 具現化されたAIはAGI達成のための知的システムであり、LLMsとWMsの進展が注目されている。本論文では、具現化されたAIの歴史や技術、コンポーネントを紹介し、LLMsとWMsの役割を詳細に検討。MLLM-WM駆動のアーキテクチャの必要性を論じ、物理世界での複雑なタスクの実現における意義を明らかにする。具現化されたAIのアプリケーションと今後の研究方向についても触れる。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Article #Slide #CoRL
Issue Date: 2025-10-05 CoRL2025速報, robotpaper.challenge, 2025.10 Comment

元ポスト:

Loading…

#Article #VisionLanguageActionModel #EmbodiedAI
Issue Date: 2025-08-13 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications, Kawaharazuka+, 2025.08 Comment

元ポスト:

Loading…

FoundationModel (3)

#ComputerVision #Pocket #Transformer #read-later #2D (Image) #3D (Scene) #SpatialUnderstanding #Omni #Geometric #Robustness
Issue Date: 2025-11-16 [Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, arXiv'25, 2025.11 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #Navigation #VisionLanguageModel #EmbodiedAI
Issue Date: 2025-09-16 [Paper Note] Embodied Navigation Foundation Model, Jiazhao Zhang+, arXiv'25 GPT Summary- NavFoMは、800万のナビゲーションサンプルで訓練されたクロス具現化・クロスタスクのナビゲーション基盤モデルであり、ビジョンと言語のナビゲーションや自律運転など多様なタスクに対応。異なるカメラ構成や時間的視野を考慮し、動的に調整されたサンプリング戦略を用いて、ファインチューニングなしで最先端の性能を達成。実世界での実験でも強力な一般化能力を示す。 Comment

pj page: https://pku-epic.github.io/NavFoM-Web/

元ポスト:

Loading…

#Article #Blog #VisionLanguageActionModel #EmbodiedAI
Issue Date: 2025-09-27 RDT2: Enabling Zero-Shot Cross-Embodiment Generalization by Scaling Up UMI Data, RDT Team, 2025.09 Comment

元ポスト:

Loading…

ロボットアームのさまざまなアクションをzeroshotで実現できる基盤モデルらしい

code: https://github.com/thu-ml/RDT2

SpatialUnderstanding (3)

#ComputerVision #Pocket #Transformer #FoundationModel #read-later #2D (Image) #3D (Scene) #Omni #Geometric #Robustness
Issue Date: 2025-11-16 [Paper Note] OmniVGGT: Omni-Modality Driven Visual Geometry Grounded, Haosong Peng+, arXiv'25, 2025.11 GPT Summary- OmniVGGTという新しいフレームワークを提案し、RGB以外の幾何学的手がかりを活用して3D基盤モデルの性能を向上させる。GeoAdapterを用いて深度情報やカメラパラメータをモデルにエンコードし、安定した最適化を実現。確率的なマルチモーダル融合手法により、任意の数のモダリティ入力を可能にし、堅牢な空間表現を学習。実験により、OmniVGGTが従来手法を上回り、視覚-言語-行動モデルに統合することでロボティクスタスクでも性能向上を達成。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #3D (Scene) #VisionLanguageActionModel
Issue Date: 2025-11-03 [Paper Note] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors, Zhengshen Zhang+, arXiv'25, 2025.10 GPT Summary- FALCON（From Spatial to Action）は、視覚-言語-行動（VLA）モデルの空間的推論のギャップを解消する新しいパラダイムで、3D空間トークンを行動ヘッドに注入します。RGBから幾何学的情報を提供し、深度やポーズを融合させることで高い忠実度を実現し、再訓練やアーキテクチャの変更は不要です。FALCONは、空間表現やモダリティの転送可能性を向上させ、11の現実世界のタスクで最先端のパフォーマンスを達成しました。 Comment

pj page: https://falcon-vla.github.io/

元ポスト:

Loading…

#EfficiencyImprovement #Pocket #3D (Scene) #VisionLanguageActionModel
Issue Date: 2025-10-20 [Paper Note] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model, Fuhao Li+, arXiv'25, 2025.10 GPT Summary- Spatial Forcing (SF)という新しい整合戦略を提案し、VLAモデルが3D空間理解能力を向上させることを促進。SFは3D入力や深度推定器に依存せず、VLAの中間視覚埋め込みを3D基盤モデルの幾何学的表現と整合させる。実験により、SFは最先端の結果を達成し、トレーニングを最大3.8倍加速、データ効率を改善。 Comment

元ポスト:

Loading…

VideoGeneration/Understandings (2)

#ComputerVision #Pocket #Zero/Few/ManyShotPrompting #WorldModels #EmbodiedAI #One-Line Notes
Issue Date: 2025-11-12 [Paper Note] Robot Learning from a Physical World Model, Jiageng Mao+, arXiv'25, 2025.11 GPT Summary- PhysWorldは、物理世界のモデル化を通じてビデオ生成とロボット学習を結びつけるフレームワークです。従来のビデオ生成モデルは物理を無視しがちで、ロボットの操作に不正確さをもたらしますが、PhysWorldはタスク条件付きのビデオを生成し、物理世界を再構築します。これにより、生成されたビデオの動きを物理的に正確なアクションに変換し、実際のロボットデータ収集なしでゼロショットのロボット操作を実現します。実験により、PhysWorldは操作精度を大幅に向上させることが示されました。 Comment

pj page: https://pointscoder.github.io/PhysWorld_Web/

元ポスト:

Loading…

#Article #NLP #Transformer #Blog #VariationalAutoEncoder #OpenWeight #VisionLanguageActionModel #EmbodiedAI
Issue Date: 2025-08-12 RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation, Jiang+, Alibaba, 2025.08 Comment

元ポスト:

Loading…

HF: https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base

Tutorial (2)

#Article #ComputerVision #NLP #Blog #ScientificDiscovery #Japanese
Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

#Article #NLP #LanguageModel #VisionLanguageActionModel
Issue Date: 2025-10-16 State of VLA Research at ICLR 2026, Moritz Reuss, 2025.10 Comment

元ポスト:

Loading…

InstructionTuning (1)

#ComputerVision #Pretraining #Pocket #NLP #Transformer #MultiModal #SpeechProcessing #CVPR #Selected Papers/Blogs #Encoder-Decoder #UMM #EmbodiedAI
Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, CVPR'24 GPT Summary- Unified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment

画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI

Analysis (1)

#MachineLearning #Pocket #Dataset #ICLR #EmbodiedAI
Issue Date: 2025-07-19 [Paper Note] What Matters in Learning from Large-Scale Datasets for Robot Manipulation, Vaibhav Saxena+, ICLR'25 GPT Summary- 本研究では、ロボティクスにおける大規模データセットの構成に関する体系的な理解を深めるため、データ生成フレームワークを開発し、多様性の重要な要素を特定。特に、カメラのポーズや空間的配置がデータ収集の多様性と整合性に影響を与えることを示した。シミュレーションからの洞察が実世界でも有効であり、提案した取得戦略は既存のトレーニング手法を最大70%上回る性能を発揮した。 Comment

元ポスト:

Loading…

元ポストに著者による詳細な解説スレッドがあるので参照のこと。

#Pocket #LanguageModel #FoundationModel #VisionLanguageModel #EmbodiedAI
Issue Date: 2025-09-16 [Paper Note] Embodied Navigation Foundation Model, Jiazhao Zhang+, arXiv'25 GPT Summary- NavFoMは、800万のナビゲーションサンプルで訓練されたクロス具現化・クロスタスクのナビゲーション基盤モデルであり、ビジョンと言語のナビゲーションや自律運転など多様なタスクに対応。異なるカメラ構成や時間的視野を考慮し、動的に調整されたサンプリング戦略を用いて、ファインチューニングなしで最先端の性能を達成。実世界での実験でも強力な一般化能力を示す。 Comment

pj page: https://pku-epic.github.io/NavFoM-Web/

元ポスト:

Loading…

ScientificDiscovery (1)

#Article #Tutorial #ComputerVision #NLP #Blog #Japanese
Issue Date: 2025-11-20 TAURO Project, note, 2024.10 Comment

元ポスト:

Loading…

👀👀👀

Loco-Manipulation (1)

#Pocket #Selected Papers/Blogs #Scalability #Sim-to-Real
Issue Date: 2025-11-21 [Paper Note] VIRAL: Visual Sim-to-Real at Scale for Humanoid Loco-Manipulation, Tairan He+, arXiv'25, 2025.11 GPT Summary- VIRALというフレームワークを用いて、ヒューマノイドロボットのロコマニピュレーションをシミュレーションから実世界に展開。教師-生徒の強化学習を通じて、視覚ベースのポリシーを訓練し、計算規模が成功に重要であることを示す。シミュレーションと実世界の整合性を確保し、Unitree G1ヒューマノイドでの実験により、専門家レベルの性能に近づくことを確認。 Comment

pj page: https://viral-humanoid.github.io/

元ポスト:

Loading…

解説:

Loading…

discussionの部分が興味深い

Others (14)

#ComputerVision #Pocket #VisionLanguageModel #memory #VisionLanguageActionModel #One-Line Notes #LongHorizon
Issue Date: 2025-10-27 [Paper Note] MemER: Scaling Up Memory for Robot Control via Experience Retrieval, Ajay Sridhar+, arXiv'25, 2025.10 GPT Summary- 本研究では、ロボットポリシーに人間のような記憶能力を与えるための階層的ポリシーフレームワークを提案。高レベルポリシーが関連するキーフレームを選択し、低レベルポリシーに指示を生成することで、長期的な依存関係を効率的に推論。実験により、提案手法MemERが従来の方法を上回る性能を示した。 Comment

元ポスト:

Loading…

pj page: https://jen-pan.github.io/memer/

#Pocket #ReinforcementLearning
Issue Date: 2025-10-26 [Paper Note] RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning, Kun Lei+, arXiv'25, 2025.10 GPT Summary- RL-100は、実世界のロボット操作のための強化学習トレーニングフレームワークで、模倣学習、オフライン強化学習、オンライン強化学習の三段階のパイプラインを採用。多段階サンプリングを単一段階ポリシーに圧縮し、高頻度制御を実現。7つの実ロボットタスクで100%の成功率を達成し、人間の操作に匹敵する効率と堅牢性を示した。 Comment

pj page: https://lei-kun.github.io/RL-100/
blog: https://lei-kun.github.io/blogs/RL100.html

元ポスト:

Loading…

#VisionLanguageActionModel
Issue Date: 2025-10-26 [Paper Note] GigaBrain-0: A World Model-Powered Vision-Language-Action Model, GigaBrain Team+, arXiv'25, 2025.10 GPT Summary- GigaBrain-0は、実世界のロボットデータの収集コストを削減し、VLAモデルの一般化能力を向上させる新しい基盤モデル。世界モデル生成データを活用し、タスク間の一般化を促進。RGBD入力モデリングとChain-of-Thought監視により、空間幾何学や物体の状態を推論し、実世界のパフォーマンスを向上。GigaBrain-0は外観や配置の変化に対して優れた一般化を示し、軽量バリアントGigaBrain-0-Smallも紹介。 Comment

pj page: https://gigabrain0.github.io

元ポスト:

Loading…

#Pocket #MultiModal #DiffusionModel #Routing Issue Date: 2025-10-22 [Paper Note] Multi-Modal Manipulation via Multi-Modal Policy Consensus, Haonan Chen+, arXiv'25, 2025.09 GPT Summary- 多様な感覚モダリティを統合することはロボット操作において重要であり、従来の特徴連結アプローチは最適ではない。提案手法では、ポリシーを拡散モデルに因数分解し、各モデルが特定の表現に特化。ルーターネットワークを用いて適応的に重みを学習し、新しい表現の統合を可能にする。シミュレーションや実世界のタスクで、マルチモーダル推論において特徴連結のベースラインを上回る性能を示し、物理的な摂動に対しても堅牢性を持つことが確認された。 Comment

元ポスト:

Loading…

pj page: https://policyconsensus.github.io

先行研究の一つ:
- [Paper Note] See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation, Hao Li+, CoRL'22, 2022.12

#Pretraining #Pocket #VisionLanguageActionModel #PseudoLabeling Issue Date: 2025-10-20 [Paper Note] D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI, Suwhan Choi+, arXiv'25, 2025.10 GPT Summary- D2E（Desktop to Embodied AI）フレームワークを提案し、デスクトップ環境での相互作用がロボティクスの具現化AIタスクの事前学習に有効であることを示す。OWAツールキット、Generalist-IDM、VAPTの3つのコンポーネントを用いて、1,300時間以上のデータで高い成功率を達成。デジタル相互作用の要素が物理的タスクに転送可能であることを検証し、デスクトップ事前学習の実用性を確立。関連データとモデルは公開予定。 Comment

元ポスト:

Loading…

#ComputerVision #Pocket #ReinforcementLearning #SmallModel #VisionLanguageModel #VisionLanguageActionModel Issue Date: 2025-10-18 [Paper Note] ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning, Hanyang Chen+, arXiv'25, 2025.10 GPT Summary- Embodied Reasoning Agent (ERA)は、事前知識学習とオンライン強化学習を統合した二段階のフレームワークで、視覚言語モデルの性能向上を目指す。第一段階では、軌道拡張、環境固定、外部知識から基礎知識を抽出し、第二段階でオンラインRLを用いてエージェントのパフォーマンスを向上させる。自己要約、密な報酬形成、ターンレベルのポリシー最適化を導入し、EB-ALFREDとEB-Manipulationタスクで大規模モデルを上回る成果を示した。ERAは具現化知能の実用的な道を提供する。 Comment

pj page: https://embodied-reasoning-agent.github.io

元ポスト:

Loading…

#Pocket #DiffusionModel #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-15 [Paper Note] LLaDA-VLA: Vision Language Diffusion Action Models, Yuqing Wen+, arXiv'25 GPT Summary- 視覚-言語-拡散-アクションモデルLLaDA-VLAを提案し、事前学習されたd-VLMをロボット操作に適応。特殊トークン分類と階層的アクションデコーディングを導入し、実験で最先端のVLAを大幅に上回る性能を示した。 Comment

pj page: https://wenyuqing.github.io/llada-vla/

元ポスト:

Loading…

#Pocket #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-11 [Paper Note] TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models, Zongzheng Zhang+, arXiv'25 GPT Summary- トルク信号を統合した視覚-言語-アクション（VLA）モデルを提案し、デコーダにトルクアダプタを導入することで性能向上を実現。さらに、トルクを補助出力として予測することで、モデルの内部表現を強化。接触が豊富な操作ベンチマークでの実験により、提案手法の有効性を検証。 Comment

pj page: https://zzongzheng0918.github.io/Torque-Aware-VLA.github.io/

元ポスト:

Loading…

#Pocket #EmbodiedAI Issue Date: 2025-09-03 [Paper Note] EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control, Delin Qu+, arXiv'25 GPT Summary- EO-Roboticsは、視覚-テキスト-行動の交互の事前学習を通じてマルチモーダル推論とロボット制御を実現する統一モデルEO-1と、150万以上のサンプルを含むデータセットEO-Data1.5Mから構成される。EO-1は、無差別に処理するアーキテクチャと高品質なデータセットを活用し、シームレスなロボットアクション生成を可能にする。実験により、オープンワールドでの理解と一般化における効果が確認された。 Comment

pj page: http://eo-robotics.ai/eo-1

元ポスト:

Loading…

#Pocket #ReinforcementLearning #read-later #EmbodiedAI Issue Date: 2025-08-15 [Paper Note] Latent Policy Barrier: Learning Robust Visuomotor Policies by Staying In-Distribution, Zhanyi Sun+, arXiv'25 GPT Summary- Latent Policy Barrier（LPB）を提案し、視覚運動ポリシーの堅牢性を向上させる。LPBは専門家のデモの潜在埋め込みを安全な状態と危険な状態に分け、専門家の模倣とOODの回復を別々のモジュールで処理。ダイナミクスモデルが将来の潜在状態を予測し、専門家の分布内に留まるよう最適化。シミュレーションと実世界の実験で、LPBはデータ効率を高め、信頼性のある操作を実現。 Comment

元ポスト:

Loading…

pj page: https://project-latentpolicybarrier.github.io/

#Pocket #CoRL Issue Date: 2025-10-24 [Paper Note] See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation, Hao Li+, CoRL'22, 2022.12 GPT Summary- 本研究では、視覚、聴覚、触覚の3つの感覚モダリティを融合させたロボットシステムを構築し、複雑な操作タスクの解決における多感覚知覚の重要性を示します。密なパッキングと注ぎのタスクにおいて、視覚は全体状態を示す一方で遮蔽の影響を受け、音声は重要な瞬間のフィードバックを提供し、触覚は局所的なジオメトリを提供します。これにより、提案したロボットシステムは従来の手法を大幅に上回る性能を発揮します。 #Article #Blog #Zero/FewShotLearning #read-later #Generalization #LongHorizon Issue Date: 2025-11-20 ACT-1: A Robot Foundation Model Trained on Zero Robot Data, Sunday Team, 2025.11 Comment

元ポスト:

Loading…

#Article #Pocket #ReinforcementLearning #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-18 A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning, Zhai+, 2025.09 Comment

pj page: https://vlac.intern-ai.org.cn

元ポスト:

Loading…

#Article #ComputerVision #NLP #Slide #Chip #VisionLanguageModel #VisionLanguageActionModel #EmbodiedAI Issue Date: 2025-09-01 AIロボティクス検討会第1回事務局資料, 経済産業省, 2025.08 Comment

元ポスト:

Loading…

Nvidiaの投資額が文字通り桁違いの5000億ドル

LearningAnalytics (30)

KnowledgeTracing (17)

#NeuralNetwork #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-04-28 Empirical Evaluation of Deep Learning Models for Knowledge Tracing: Of Hyperparameters and Metrics on Performance and Replicability, Sami+, Aalto University, JEDM'22 Comment

#NeuralNetwork #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-05-02 Learning Process-consistent Knowledge Tracing, Shen+, SIGKDD'21 Comment

#NeuralNetwork #Pocket #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-04-28 BEKT: Deep Knowledge Tracing with Bidirectional Encoder Representations from Transformers, Tian+ （緒方先生）, Kyoto University, ICCE'21 Comment

#NeuralNetwork #AdaptiveLearning #EducationalDataMining #AAAI Issue Date: 2022-04-28 Do we need to go Deep? Knowledge Tracing with Big Data, Varun+, University of Maryland Baltimore County, AAAI'21 Workshop on AI Education GPT Summary- インタラクティブ教育システム（IES）を用いて学生の知識を追跡し、パフォーマンスモデルを開発する研究が進展。深層学習モデルが従来のモデルを上回るかは未検証であり、EdNetデータセットを用いてその精度を比較。結果、ロジスティック回帰モデルが深層モデルを上回ることが確認され、LIMEを用いて予測に対する特徴の影響を解釈する研究を行った。 Comment

データ量が小さいとSAKTはDKTはcomparableだが、データ量が大きくなるとSAKTがDKTを上回る。

#NeuralNetwork #AdaptiveLearning #EducationalDataMining Issue Date: 2022-04-27 A Survey of Knowledge Tracing, Liu+, IEEE Transactions on Learning Technologies, arXiv'21 Comment

古典的なBKT, PFAだけでなくDKT, DKVMN, EKT, AKTなどDeepなモデルについてもまとまっている。

#NeuralNetwork #AdaptiveLearning #EducationalDataMining #KeyPoint Notes Issue Date: 2022-04-28 When is Deep Learning the Best Approach to Knowledge Tracing?, Theophile+ （Ken Koedinger）, CMU+, JEDM'20 Comment

データセットの統計量はこちら：

#NeuralNetwork #Pocket #AdaptiveLearning #EducationalDataMining #SIGKDD Issue Date: 2022-04-27 Context-Aware Attentive Knowledge Tracing, Ghosh+, University of Massachusetts Amherst, KDD'20 Comment

この論文の実験ではSAKTがDKVMNやDKTに勝てていない

#NeuralNetwork #Pocket #AdaptiveLearning #EducationalDataMining Issue Date: 2022-04-28 Knowledge Tracing with Sequential Key-Value Memory Networks, Ghodai+, Research School of Computer Science, Australian National University, SIGIR'19 #NeuralNetwork #Pocket #EducationalDataMining #StudentPerformancePrediction #Selected Papers/Blogs #KeyPoint Notes Issue Date: 2021-05-28 [Paper Note] EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction, Qi Liu+, IEEE TKDE'19, 2019.06 GPT Summary- 学生のパフォーマンス予測のために、演習記録と教材情報を統合するEERNNフレームワークを提案。双方向LSTMを用いて演習内容をエンコードし、マルコフ特性とアテンションメカニズムを持つ2つの実装を提供。さらに、知識概念を追跡するEKTに拡張し、演習が知識習得に与える影響を定量化。実験により、予測精度と解釈可能性の向上が確認された。 Comment

モデル自体は、基本的にはattention-basedなRNNモデル。

Exercise EmbeddingはBidireictional-RNNを利用して、問題文をエンコードすることによって求める。

単にStudent Performance Predictionして終わり！ってんじゃなく、knowledge tracing的な側面をきちんと考慮している点で、この研究めっちゃ好き。

#NeuralNetwork #AdaptiveLearning #EducationalDataMining #NeurIPS Issue Date: 2022-04-27 Estimating student proficiency: Deep learning is not the panacea, Wilson+, Knewton+, NIPS'16 workshop Comment

DKTの性能をBKTやPFA等の手法と比較した研究

How Deep is Knowledge Tracing?, Mozer+, EDM'16 を引用し、DKTとBKTのAUCの計算方法の違いについて言及している

#NeuralNetwork #EducationalDataMining #StudentPerformancePrediction #EDM Issue Date: 2021-05-28 Going Deeper with Deep Knowledge Tracing, Beck+, EDM'16 Comment

#NeuralNetwork #EducationalDataMining #StudentPerformancePrediction #EDM Issue Date: 2021-05-28 How Deep is Knowledge Tracing?, Mozer+, EDM'16 Comment

#Article #AdaptiveLearning #EducationalDataMining Issue Date: 2025-02-14 局所的変分法による非補償型時系列IRT, 玉野+, NEC+, 人工知能学会研究会資料, 2020.03 #Article #NeuralNetwork #EducationalDataMining Issue Date: 2021-06-02 Deep Knowledge Tracingの拡張による擬似知識タグの生成, 中川+, 人口知能学会論文誌, 33巻, 33号, C, 2018 Comment

#Article #Tutorial #Pocket #EducationalDataMining #StudentPerformancePrediction Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

#Article #EducationalDataMining #StudentPerformancePrediction Issue Date: 2021-05-30 Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge, Corbett+, User Modeling and User-Adapted Interaction, 1995 Comment

#Article #Survey #Dataset #EducationalDataMining #StudentPerformancePrediction Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

StudentPerformancePrediction (9)

#NeuralNetwork #Pocket #EducationalDataMining #KnowledgeTracing #Selected Papers/Blogs #KeyPoint Notes
Issue Date: 2021-05-28 [Paper Note] EKT: Exercise-aware Knowledge Tracing for Student Performance Prediction, Qi Liu+, IEEE TKDE'19, 2019.06 GPT Summary- 学生のパフォーマンス予測のために、演習記録と教材情報を統合するEERNNフレームワークを提案。双方向LSTMを用いて演習内容をエンコードし、マルコフ特性とアテンションメカニズムを持つ2つの実装を提供。さらに、知識概念を追跡するEKTに拡張し、演習が知識習得に与える影響を定量化。実験により、予測精度と解釈可能性の向上が確認された。 Comment

モデル自体は、基本的にはattention-basedなRNNモデル。

Exercise EmbeddingはBidireictional-RNNを利用して、問題文をエンコードすることによって求める。

単にStudent Performance Predictionして終わり！ってんじゃなく、knowledge tracing的な側面をきちんと考慮している点で、この研究めっちゃ好き。

#NeuralNetwork #EducationalDataMining #AAAI
Issue Date: 2021-05-28 [Paper Note] Exercise-Enhanced Sequential Modeling for Student Performance Prediction, Hu+, AAAI'18 Comment

#NeuralNetwork #EducationalDataMining #EDM
Issue Date: 2021-05-29 Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation, Ekanadham+, EDM'16 Comment

knewton社は自社のアダプティブエンジンでIRTベースの手法を利用しており、DKTに対するIRTベースな手法の性能の比較に興味があったのだと思われる。

なお、論文の著者であるKnewton社のKevin H. Wilson氏はすでにknewton社を退職されている。

https://kevinhayeswilson.com/

#NeuralNetwork #EducationalDataMining #KnowledgeTracing #EDM Issue Date: 2021-05-28 Going Deeper with Deep Knowledge Tracing, Beck+, EDM'16 Comment

#NeuralNetwork #EducationalDataMining #KnowledgeTracing #EDM Issue Date: 2021-05-28 How Deep is Knowledge Tracing?, Mozer+, EDM'16 Comment

#Article #Tutorial #Pocket #EducationalDataMining #KnowledgeTracing Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

#Article #EducationalDataMining #KnowledgeTracing Issue Date: 2021-05-30 Knowledge Tracing: Modeling the Acquisition of Procedural Knowledge, Corbett+, User Modeling and User-Adapted Interaction, 1995 Comment

#Article #Survey #Dataset #EducationalDataMining #KnowledgeTracing Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #NeuralNetwork #EducationalDataMining Issue Date: 2021-05-29 Behavior-Based Grade Prediction for MOOCs Via Time Series Neural Networks, Chiang+, IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING, VOL. 11, NO. 5, AUGUST 2017 Comment

NFMB/NI Back to the basics: Bayesian extensions of IRT outperform neural networks for proficiency estimation, Ekanadham+, EDM'16 データセットを利用している

Tutorial (3)

#Article
Issue Date: 2022-03-03 ①ラーニングアナリティクスの研究動向 ─エビデンスに基づく教育の実現に向けて─, 京都大学, 緒方先生, 情報処理 Vol.59 No.9 Sep. 2018 Comment

#Article #AdaptiveLearning
Issue Date: 2021-10-29 ラーニング・アナリティクスとは何か？, 武田俊之, コンピュータ＆エデュケーション VOL.38, 2015 Comment

#Article #Pocket #EducationalDataMining #StudentPerformancePrediction #KnowledgeTracing
Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 Comment

Survey (2)

#Article #Dataset #EducationalDataMining #StudentPerformancePrediction #KnowledgeTracing
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset #Article #AdaptiveLearning #EducationalDataMining #Selected Papers/Blogs
Issue Date: 2018-12-22 Educational Data Mining and Learning Analytics, Baker+, 2014 Comment

Ryan BakerらによるEDM Survey

DropoutPrediction (2)

#NeuralNetwork #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-04-14 Deep Attentive Study Session Dropout Prediction in Mobile Learning Environment, Riiid AI Research, Lee+, CSEDU'20 Comment

#AdaptiveLearning #EducationalDataMining #EMNLP
Issue Date: 2021-10-29 Predicting MOOC Dropout over Weeks Using Machine Learning Methods, EMNLP'14 Workshop, Marius Kloft Comment

EMNLP'14のWorkshop論文。引用数が120件とかなり多め。

特徴量：

最初の1 -- 9週の間は、あまりDropoutが予測できないが、それ以後はhistory featureが効いて予測ができるようになる。

Dataset (1)

#Article #Survey #EducationalDataMining #StudentPerformancePrediction #KnowledgeTracing
Issue Date: 2021-05-29 Student Performance Prediction _ Knowledge Tracing Dataset

AffectDetection (1)

#NeuralNetwork #EducationalDataMining #AIED
Issue Date: 2021-06-08 Improving Sensor-Free Affect Detection Using Deep Learning, Botelho+, AIED'17 Comment

DKTが実はBKTと対して性能変わらない、みたいな話がreference付きで書かれている。Ryan Baker氏とNeil Heffernan氏の論文

従来手法を大幅にoutperform。しっかり読んでいないが、resampoingは、ラベルの偏りを調整したか否かだと思われる。

Assessment (1)

#AdaptiveLearning #EducationalDataMining
Issue Date: 2022-04-18 Assessment Modeling: Fundamental Pre-training Tasks for Interactive Educational Systems, Choi+, RiiiD Research, arXiv'20 Comment

Others (3)

#NeuralNetwork #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-04-28 An Empirical Comparison of Deep Learning Models for Knowledge Tracing on Large-Scale Dataset, Pandey+, AAAI workshop on AI in Education'21 Comment

EdNetデータにおいて、DKT, DKVMN, SAKT, RKTの性能を比較した論文

RKTがも最もパフォーマンスが良く、SAKTもDKT, DKVMNに勝っている

#NeuralNetwork #EducationalDataMining
Issue Date: 2021-06-10 Deep Model for Dropout Prediction in MOOCs, Wang+, ICCSE'17 Comment

#Pocket #EducationalDataMining #L@S
Issue Date: 2021-07-05 Autonomously Generating Hints by Inferring Problem Solving Policies, Piech+, Stanford University, L@S'15

Education (23)

Survey (6)

#Pocket #ChatGPT
Issue Date: 2023-05-04 A Review of ChatGPT Applications in Education, Marketing, Software Engineering, and Healthcare: Benefits, Drawbacks, and Research Directions, Mohammad Fraiwan+, N_A, arXiv'23 GPT Summary- - ChatGPTは、深層学習アルゴリズムを使用して人間らしい応答を生成する人工知能言語モデルである。- 最新のChatGPTバージョンが導入され、他の言語モデルも登場している。- これらのモデルは、教育、ソフトウェアエンジニアリング、医療、マーケティングなどの分野で応用可能性がある。- 本論文では、これらのモデルの可能な応用、制限、欠点、および研究方向について議論する。 #RecommenderSystems
Issue Date: 2018-03-30 [Paper Note] A SURVEY OF ARTIFICIAL INTELLIGENCE TECHNIQUES EMPLOYED FOR ADAPTIVE EDUCATIONAL SYSTEMS WITHIN E-LEARNING PLATFORMS, Almohammadi+, JAISCR'17 #RecommenderSystems #Pocket #TechnologyEnhancedLearning
Issue Date: 2018-03-30 [Paper Note] A Survey on Artificial Intelligence and Data Mining for MOOCs, Simon Fauvel+, arXiv'16 GPT Summary- MOOCsは人気を集めており、AIとデータマイニングがその発展に寄与している。データを活用することで、MOOCの理解を深め、学習者の体験を向上させることが可能。論文では、AIとDMの最新研究をレビューし、学生のエンゲージメントや学習成果を向上させる技術を強調。さらに、MOOCsの潜在能力を引き出すための重要な研究課題とトレンドを示す。

Issue Date: 2018-03-31 [Paper Note] Adaptive Educational HypermediaSystems in Technology Enhanced Learning: A Literature Review, Mulwa+, SIGITE'10 Comment

よさげ

#Article #RecommenderSystems #TechnologyEnhancedLearning Issue Date: 2018-03-30 Recommender Systems in Technology Enhanced Learning, Manouselis+, Recommender Systems Handbook: A Complete Guide for Research Scientists and Practitioners, 2011 #Article #RecommenderSystems #TechnologyEnhancedLearning Issue Date: 2018-03-30 [Paper Note] Context-Aware Recommender Systems for Learning: A Survey and Future Challenges, Verbert+, IEEE TRANSACTIONS ON LEARNING TECHNOLOGIES, VOL. 5, NO. 4, OCTOBER-DECEMBER 2012

LanguageModel (6)

#Pocket #NLP #AIAgents #Evaluation #Coding #read-later #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

#Pocket #NLP #EducationalDataMining
Issue Date: 2024-12-31 LearnLM: Improving Gemini for Learning, LearnLM Team+, arXiv'24 GPT Summary- 生成AIシステムは従来の情報提示に偏っているため、教育的行動を注入する「教育的指示の遵守」を提案。これにより、モデルの振る舞いを柔軟に指定でき、教育データを追加することでGeminiモデルの学習を向上。LearnLMモデルは、さまざまな学習シナリオで専門家から高く評価され、GPT-4oやClaude 3.5に対しても優れた性能を示した。
Issue Date: 2023-07-11 Generative AI for Programming Education: Benchmarking ChatGPT, GPT-4, and Human Tutors, Tung Phung+, N_A, arXiv'23 GPT Summary- 生成AIと大規模言語モデルは、プログラミング教育の向上に大きな可能性を持っています。しかし、これまでの研究は限定的であり、包括的なプログラミング教育シナリオのための最先端モデルのベンチマークが不足しています。本研究では、ChatGPTとGPT-4の2つのモデルを評価し、人間のチューターとのパフォーマンスを比較しました。結果は、GPT-4がChatGPTを大幅に上回り、一部のシナリオでは人間のチューターに近づいていることを示しています。また、GPT-4の改善のための興味深い方向性も提案されています。 Comment

GPT4とGPT3.5をプログラミング教育の文脈で評価したところ、GPT4AGPT3.5をoutperformし、人間のチューターに肉薄した。

#Pocket #NLP #AES(AutomatedEssayScoring) #ChatGPT Issue Date: 2023-04-28 [Paper Note] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Steffen Herbold+, arXiv'23 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment

#Article Issue Date: 2025-08-31 LLMは教育をどう変えるか：主要3社の「学習モード」比較考察, Kawamoto, 2025.08 Comment

元ポスト:

Loading…

#Article #NLP #AES(AutomatedEssayScoring) Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment

著者によるポスト:

Loading…

著者によるブログ:

https://mizumot.com/lablog/archives/1805

KnowledgeTracing (2)

#NaturalLanguageGeneration #NLP #AdaptiveLearning #Personalization #QuestionGeneration
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

#NeuralNetwork #GraphConvolutionalNetwork #EducationalDataMining #WI
Issue Date: 2021-07-08 GRAPH-BASED KNOWLEDGE TRACING: MODELING STUDENT PROFICIENCY USING GRAPH NEURAL NETWORK, Nakagawa+, Tokyo University, WI'19 Comment

graph neural networkでKnoelwdge Tracingした論文。各conceptのproficiencyの可視化までしっかりやってそう。

Dataset (2)

#Article #NLP #AIAgents #Evaluation #Financial #Legal
Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

#Article #AdaptiveLearning #EducationalDataMining #ScorePrediction
Issue Date: 2022-08-23 Score Prediction dataset

AES(AutomatedEssayScoring) (2)

#Pocket #NLP #LanguageModel #ChatGPT
Issue Date: 2023-04-28 [Paper Note] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Steffen Herbold+, arXiv'23 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment

#Article #NLP #LanguageModel
Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment

著者によるポスト:

Loading…

著者によるブログ:

https://mizumot.com/lablog/archives/1805

ChatGPT (2)

#Survey #Pocket
Issue Date: 2023-05-04 A Review of ChatGPT Applications in Education, Marketing, Software Engineering, and Healthcare: Benefits, Drawbacks, and Research Directions, Mohammad Fraiwan+, N_A, arXiv'23 GPT Summary- - ChatGPTは、深層学習アルゴリズムを使用して人間らしい応答を生成する人工知能言語モデルである。- 最新のChatGPTバージョンが導入され、他の言語モデルも登場している。- これらのモデルは、教育、ソフトウェアエンジニアリング、医療、マーケティングなどの分野で応用可能性がある。- 本論文では、これらのモデルの可能な応用、制限、欠点、および研究方向について議論する。 #Pocket #NLP #LanguageModel #AES(AutomatedEssayScoring)
Issue Date: 2023-04-28 [Paper Note] AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Steffen Herbold+, arXiv'23 GPT Summary- ChatGPTが生成したエッセイは、人間が書いたものよりも質が高いと評価されることが大規模な研究で示された。生成されたエッセイは独自の言語的特徴を持ち、教育者はこの技術を活用する新たな教育コンセプトを開発する必要がある。 Comment

PersonalizedDocumentSummarization (2)

#Article #NLP #Personalization
Issue Date: 2023-05-05 Towards personalized summaries in spanish based on learning styles theory, Uriel+, Res. Comput. Sci. 148.5, 1 #Article #Pocket #NLP #Personalization
Issue Date: 2023-05-05 Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model, Guangbing+, IEEE Fourth International Conference on Technology for Education, 2012, 22

QuestionGeneration (2)

#NLP #EducationalDataMining
Issue Date: 2023-07-15 Covering Uncommon Ground: Gap-Focused Question Generation for Answer Assessment, ACL'23 GPT Summary- 本研究では、教育的な対話における情報のギャップに焦点を当て、自動的に質問を生成する問題に取り組んでいます。良い質問の要素を明確にし、それを満たすモデルを提案します。また、人間のアノテーターによる評価を行い、生成された質問の競争力を示します。 #NaturalLanguageGeneration #NLP #AdaptiveLearning #KnowledgeTracing #Personalization
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

Evaluation (2)

#Pocket #NLP #LanguageModel #AIAgents #Coding #read-later #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-18 [Paper Note] AutoCode: LLMs as Problem Setters for Competitive Programming, Shang Zhou+, arXiv'25, 2025.09 GPT Summary- AutoCodeは、競技プログラミングの問題文とテストケースを生成するシステムであり、信頼性の高い問題作成を実現します。複数回の検証を通じて、生成された問題は公式の判断と99%の一貫性を持ち、従来の手法に比べて大幅な改善を示します。また、ランダムなシード問題から新しいバリアントを作成し、不正な問題をフィルタリングする機能も備えています。最終的に、AutoCodeはグランドマスター級の競技プログラマーによってコンテスト品質と評価される問題を生成します。 Comment

blog: https://livecodebenchpro.com/projects/autocode/overview

#Article #NLP #Dataset #AIAgents #Financial #Legal
Issue Date: 2025-11-26 veAgentBench, ByteDance, 2025.11 Comment

元ポスト:

Loading…

PersonalizedGeneration (1)

#Pocket #IJCAI
Issue Date: 2019-10-11 Personalized Mathematical Word Problem Generation, Polozov+, IJCAI'15

ScorePrediction (1)

#Article #Dataset #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-08-23 Score Prediction dataset

Assessment (1)

#IRT
Issue Date: 2022-11-25 Machine Learning–Driven Language Assessment, LaFlair+, TACL'20

IRT (1)

#Assessment
Issue Date: 2022-11-25 Machine Learning–Driven Language Assessment, LaFlair+, TACL'20

NaturalLanguageGeneration (1)

#NLP #AdaptiveLearning #KnowledgeTracing #Personalization #QuestionGeneration
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL'23 GPT Summary- 本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 Comment

Knowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。

Others (2)

#Pocket #ACL
Issue Date: 2025-01-06 BIPED: Pedagogically Informed Tutoring System for ESL Education, Kwon+, ACL'24, 2024.08 GPT Summary- 大規模言語モデル（LLMs）を用いた会話型インテリジェントチュータリングシステム（CITS）は、英語の第二言語（L2）学習者に対して効果的な教育手段となる可能性があるが、既存のシステムは教育的深さに欠ける。これを改善するために、バイリンガル教育的情報を持つチュータリングデータセット（BIPED）を構築し、対話行為の語彙を考案した。GPT-4とSOLAR-KOを用いて二段階のフレームワークでCITSモデルを実装し、実験により人間の教師のスタイルを再現し、多様な教育的戦略を採用できることを示した。 #Pocket #AdaptiveLearning #EducationalDataMining
Issue Date: 2022-12-27 Reinforcement Learning for the Adaptive Scheduling of Educational Activities, Bassen+, Stanford University, CHI'20

Infrastructure (12)

AWS (4)

#Article
Issue Date: 2023-08-27 SQL vs. NoSQL cheetsheet, AWS, Azure and Google Cloud Comment

データタイプやユースケースに応じてAWS上のサービスなどをマッピングしてくれているチートシート。わかりやすい。

#Article #AWSLambda
Issue Date: 2023-04-23 Lambda tips Comment

- 【AWS】VPC Lambdaを構築したときのメモ

- https://qiita.com/aiko_han/items/6b3010250e2887206b4f

#Article #ECS
Issue Date: 2023-04-16 ECS tips Comment

- キャパシティプロバイダーについて

- https://dev.classmethod.jp/articles/regrwoth-capacity-provider/

- Fargateをスポットで7割引で使うFargate Spotとは？ #reinvent

- https://dev.classmethod.jp/articles/fargate-spot-detail/

- ECSでのデプロイでコケる原因ざっくりまとめ

- https://zenn.dev/isosa/articles/e371bc2d76e812

- M1 MacでビルドしたイメージをFARGATEで使おうとした時の'exec user process caused: exec format error' の対処法

- https://qiita.com/ms2geki/items/1cfb0db3f4c1aab96e75

- PythonでログをCloudWatchに出力する「Watchtower」

- https://dev.classmethod.jp/articles/python_log_cloudwatch_watchtower/

#Article Issue Date: 2021-10-08 データレイクのつくりかた、つかいかた、そだてかた, 関山宜孝, AWS Summit Comment

こちらも参照のこと

https://logmi.jp/tech/articles/324242

データレイクを作る際のポイント「小さく始める」という部分も重要だと思われるので参照のこと

MLOps (3)

#Article #Tools #Blog #Repository
Issue Date: 2022-12-01 deploy-API-to-GCP Comment

Cloud Runについて
https://dev.classmethod.jp/articles/gc-cloud-run/

#Article #Blog
Issue Date: 2022-04-27 MLOps: 機械学習における継続的デリバリーと自動化のパイプライン, Google Comment

#Article #MachineLearning #Blog
Issue Date: 2021-06-18 NVIDIA TRITON INFERENCE SERVER, 2021 Comment

Nvidiaのオープンソースのinference server

モデルのデプロイや管理、スケーリング等を良い感じにしてくれるフレームワーク？

Tutorial (3)

#RecommenderSystems #python #Slide
Issue Date: 2021-10-21 コミュニティサービスにおけるレコメンデーションの変遷とMLパイプラインについて, PyCon'21 Comment

MLパイプラインについては下記資料により詳しい情報が書かれている

https://speakerdeck.com/takapy/sagemaker-studiotostep-functionswoyong-itemlopshefalse-bu-wota-michu-sou

#Article #Pretraining #NLP #Dataset #LanguageModel #PostTraining #Selected Papers/Blogs
Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #Pocket
Issue Date: 2021-10-19 Hidden Technical Debt in Machine Learning Systems, Sculley+, Google Comment

よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ、の図

LanguageModel (2)

#Article #Tutorial #Pretraining #NLP #Dataset #PostTraining #Selected Papers/Blogs
Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

#Article #MachineLearning #GenerativeAI #Slide #read-later #One-Line Notes
Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment

元ポスト:

Loading…

GenerativeAI (1)

#Article #MachineLearning #LanguageModel #Slide #read-later #One-Line Notes
Issue Date: 2025-09-28 AIインフラを考える, Masayuki Kobayashi, 第38回 ISOC-JP Workshop, 2025.09 Comment

元ポスト:

Loading…

Dataset (1)

#Article #Tutorial #Pretraining #NLP #LanguageModel #PostTraining #Selected Papers/Blogs
Issue Date: 2025-10-31 The Smol Training Playbook: The Secrets to Building World-Class LLMs, Allal+, HuggingFace, 2025.10 Comment

元ポスト:

Loading…

Others (1)

#Article
Issue Date: 2025-01-04 kubernetes入門, Cybozu, 2024.07

Mindset (11)

Others (11)

#Article #Management
Issue Date: 2025-10-05 後進育成のしくじり〜任せるスキルとリーダーシップの両立〜, スクラム祭り, freee, 2025.10 Comment

元ポスト:

Loading…

#Article
Issue Date: 2025-07-25 いつか起業したいエンジニアへ, TakahikoKawasaki （川崎貴彦）, 2024.03 Comment

元ポスト:

Loading…

#Article #Blog
Issue Date: 2025-07-15 個人を活かしてチーム力も最大化する、属人性解消への取り組み方, エムスリーテックブログ, 2025.07 Comment

属人性と向き合いチームの成果を最大化する

#Article #Pocket Issue Date: 2025-05-07 Google’s Hybrid Approach to Research, Spector+, Google, Communications of the ACM, 2012 Comment

元ポスト:

Loading…

ParsingのSlav Petrov氏がlast author

#Article #Blog #SoftwareEngineering Issue Date: 2025-04-01 ジュニアエンジニアからシニアエンジニアになるまでに自分がやっていたことまとめ, yasuhisa's blog, 2025.04 #Article #Blog Issue Date: 2024-11-30 道は続く, Ryo Kobayashi, 2024.11 Comment

「道は続く」、心に刻みたい言葉

#Article #Blog Issue Date: 2023-12-04 PMConf2023: シリコンバレーのプロダクトマネージャー達に見る、覚悟を決めたPMは何が違うのか？ Comment

#Article #Blog #Repository Issue Date: 2023-10-24 CTO handbook #Article Issue Date: 2023-10-10 nishibaさんの思考言語化シリーズ Comment

組織マネジメントこそ書籍に忠実であるほうがよい。

Loading…

打席に立つことについて

Loading…

#Article #Blog Issue Date: 2023-09-30 CTOの頭の中：技術を財務で表現する #Article #Blog #DesignPattern Issue Date: 2023-04-26 More Design Patterns For Machine Learning Systems, 2023 Comment

MLのデザインパターンが記述されている

UserModeling (9)

LanguageModel (5)

#Multi #Pocket #NLP #UserBased #Evaluation #Conversation #EMNLP #One-Line Notes
Issue Date: 2025-10-16 [Paper Note] SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?, Yao Dou+, arXiv'25, 2025.10 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

#Pocket #NLP #UserBased #Evaluation #Conversation #Robustness
Issue Date: 2025-10-12 [Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル（User LMs）を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…

#Pocket #NLP #Dataset #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #UserBased #Personalization #Evaluation #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

#RecommenderSystems #NLP #CTRPrediction #RAG(RetrievalAugmentedGeneration) #LongSequence #WWW Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

Evaluation (4)

#Multi #Pocket #NLP #LanguageModel #UserBased #Conversation #EMNLP #One-Line Notes
Issue Date: 2025-10-16 [Paper Note] SimulatorArena: Are User Simulators Reliable Proxies for Multi-Turn Evaluation of AI Assistants?, Yao Dou+, arXiv'25, 2025.10 GPT Summary- SimulatorArenaを導入し、909件の人間-LLM会話を用いて、数学指導と文書作成の2つのタスクにおけるシミュレーターの評価を行う。シミュレーターのメッセージが人間の行動と一致する度合いや、アシスタント評価が人間の判断と整合する度合いを基に評価。条件付けされたシミュレーターが人間の判断と高い相関を示し、実用的な代替手段を提供。最新の18のLLMをベンチマーク。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #UserBased #Conversation #Robustness
Issue Date: 2025-10-12 [Paper Note] Flipping the Dialogue: Training and Evaluating User Language Models, Tarek Naous+, arXiv'25, 2025.10 GPT Summary- LMとの会話には人間のユーザーとLMアシスタントが参加し、LMは構造化された応答を生成するよう最適化されている。しかし、ユーザーの発話は完璧ではなく、従来の研究ではアシスタントLMがユーザーをシミュレートすることが試みられたが、効果的ではないことが示された。そこで、目的特化型ユーザー言語モデル（User LMs）を導入し、これが人間の行動とより一致し、シミュレーションの堅牢性を向上させることを示した。User LMsを用いたコーディングや数学の会話シミュレーションでは、強力なアシスタントのパフォーマンスが低下し、現実的なシミュレーション環境がアシスタントの苦戦を引き起こすことが確認された。 Comment

HF: https://huggingface.co/microsoft/UserLM-8b

元ポスト:

Loading…

興味深い

所見:

Loading…

#Pocket #NLP #Dataset #LanguageModel #UserBased #AIAgents #read-later #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#Pocket #NLP #Dataset #LanguageModel #UserBased #Personalization #Conversation #read-later #One-Line Notes Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

Dataset (2)

#Pocket #NLP #LanguageModel #UserBased #AIAgents #Evaluation #read-later #Selected Papers/Blogs #One-Line Notes
Issue Date: 2025-10-08 [Paper Note] Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents, Muyu He+, arXiv'25, 2025.10 GPT Summary- TraitBasisを用いて、会話型AIエージェントの堅牢性を体系的にテストする手法を提案。ユーザーの特性（せっかちさや一貫性のなさ）を制御し、AIエージェントのパフォーマンス低下を観察。最前線のモデルで2%-30%の性能低下を確認し、現在のAIエージェントの脆弱性を示す。TraitBasisはシンプルでデータ効率が高く、現実の人間の相互作用における信頼性向上に寄与する。$\tau$-Traitをオープンソース化し、コミュニティが多様なシナリオでエージェントを評価できるようにした。 Comment

元ポスト:

Loading…

#Pocket #NLP #LanguageModel #UserBased #Personalization #Evaluation #Conversation #read-later #One-Line Notes
Issue Date: 2025-10-03 [Paper Note] Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It, Shuyue Stella Li+, arXiv'25, 2025.09 GPT Summary- 現在のLLMは、タスク解決とユーザーの好みの整合性を別々に扱っており、特にジャストインタイムのシナリオでは効果的ではない。ユーザーの好みを引き出し、応答を適応させる「パーソナライズド推論」が必要である。新たに提案された評価手法「PREFDISCO」は、ユーザーのコンテキストに応じた異なる推論チェーンを生成し、パーソナライズの重要性を示す。評価結果から、単純なパーソナライズが一般的な応答よりも劣ることが明らかになり、専用の開発が必要であることが示唆された。PREFDISCOは、教育や医療などの分野でのパーソナライズの重要性を強調する基盤を提供する。 Comment

元ポスト:

Loading…

Tutorial (1)

#Article #MachineLearning #KeyPoint Notes
Issue Date: 2017-12-28 [Paper Note] Machine Learning for User Modeling, User modeling and User-adapted Interaction, [Webb+, 2001], 2001.03 Comment

DomainAdaptation (1)

#MachineLearning #EMNLP
Issue Date: 2017-12-31 [Paper Note] Human Centered NLP with User-Factor Adaptation, Lynn+, EMNLP'17 Comment

CTRPrediction (1)

#RecommenderSystems #NLP #LanguageModel #RAG(RetrievalAugmentedGeneration) #LongSequence #WWW
Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

RAG(RetrievalAugmentedGeneration) (1)

#RecommenderSystems #NLP #LanguageModel #CTRPrediction #LongSequence #WWW
Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW'24 GPT Summary- 本論文では、ゼロショットおよび少ショットの推薦タスクにおいて、大規模言語モデル（LLMs）を強化する新しいフレームワーク「ReLLa」を提案。LLMsが長いユーザー行動シーケンスから情報を抽出できない問題に対処し、セマンティックユーザー行動検索（SUBR）を用いてデータ品質を向上させる。少ショット設定では、検索強化指示チューニング（ReiT）を設計し、混合トレーニングデータセットを使用。実験により、少ショットReLLaが従来のCTRモデルを上回る性能を示した。 Comment

- RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv'25

のベースライン

Others (2)

#Embeddings #Pocket #NLP #EMNLP
Issue Date: 2018-01-01 [Paper Note] Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction, Ding+, EMNLP'17 #Personalization #WWW #One-Line Notes
Issue Date: 2017-12-28 [Paper Note] Learning User Profiles from Tagging Data and Leveraging them for Personal（ized） Information Access, Michlmayr+, WWW'07, 2007.05 Comment

social bookmarkのタグを使ってどのようにユーザモデルを作成する手法が提案されている。タグの時系列も扱っているみたいなので、参考になりそう。

SpokenLanguageProcessing (7)

Library (2)

#Article #NLP #SpokenLanguageGeneration
Issue Date: 2023-05-04 Bark Comment

テキストプロンプトで音声生成ができるモデル。MIT License

#Article #Embeddings #NLP #RepresentationLearning
Issue Date: 2023-04-25 CLAP Comment

テキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル

たとえばゼロショットでaudio分類ができる

LanguageModel (2)

#ComputerVision #Pocket #NLP #MultiModal #SpeechProcessing
Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv'23 GPT Summary- 本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment

12種類のモダリティに対して学習できるTransformerを提案
Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習

#Article #NLP #OpenWeight #OpenSource
Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment

- MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N/A, ACL'24 Findings

マルチモーダルなLLMの基本的な概念については上記参照のこと。

Evaluation (2)

#Metrics #Pocket #Transformer
Issue Date: 2025-07-02 [Paper Note] AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences, Minoru Kishi+, arXiv'25 GPT Summary- 新しい客観的評価指標AudioBERTScoreを提案し、合成音声の性能向上を目指す。従来の客観的指標は主観的評価との相関が弱いため、AudioBERTScoreは合成音声と参照音声の埋め込みの類似性を計算し、主観的評価との相関が高いことを実験で示した。 Comment

元ポスト:

Loading…

text-to-audioの自動評価が可能な模様

#Survey #Pocket #FoundationModel #Speech
Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

RepresentationLearning (1)

#Article #Embeddings #NLP #Library
Issue Date: 2023-04-25 CLAP Comment

テキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデル

たとえばゼロショットでaudio分類ができる

SpokenLanguageGeneration (1)

#Article #NLP #Library
Issue Date: 2023-05-04 Bark Comment

テキストプロンプトで音声生成ができるモデル。MIT License

Survey (1)

#Pocket #Evaluation #FoundationModel #Speech
Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

FoundationModel (1)

#Survey #Pocket #Evaluation #Speech
Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv'24 GPT Summary- 基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理（NLP）の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク（SUPERB）を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 Comment

Speech関連のFoundation Modelの評価結果が載っているらしい。
図は下記ツイートより引用

参考:

Loading…

Metrics (1)

#Pocket #Transformer #Evaluation
Issue Date: 2025-07-02 [Paper Note] AudioBERTScore: Objective Evaluation of Environmental Sound Synthesis Based on Similarity of Audio embedding Sequences, Minoru Kishi+, arXiv'25 GPT Summary- 新しい客観的評価指標AudioBERTScoreを提案し、合成音声の性能向上を目指す。従来の客観的指標は主観的評価との相関が弱いため、AudioBERTScoreは合成音声と参照音声の埋め込みの類似性を計算し、主観的評価との相関が高いことを実験で示した。 Comment

元ポスト:

Loading…

text-to-audioの自動評価が可能な模様

Others (1)

#Article #Repository
Issue Date: 2024-10-04 textlesslib, FAIR, 2022.02 Comment

>テキストへの依存を脱し、生の音声録音のみを入力として表現力豊かな音声を生成する初の言語モデルである GSLM

元ポスト:

Loading…

HumanComputerInteraction (3)

Others (3)

#Article #Personalization
Issue Date: 2023-04-28 When does web-based personalization really work? The distinction between actual personalization and perceived personalization, Li Cong, Computers in human behavior, 2016 Comment

#Article #Personalization
Issue Date: 2023-04-28 Understanding the impact of web personalization on user information processing and decision outcomes, Tam+, MIS quarterly, 2006 Comment

#Article #Classic #ContextAware
Issue Date: 2018-12-22 [Paper Note] A Conceptual Framework and a Toolkit for Supporting the Rapid Prototyping of Context-Aware Applications, Dey+, HUMAN-COMPUTER INTERACTION, 2001, Volume 16, pp. 97–166 Comment

PsychologicalScience (1)

LanguageModel (1)

#Article
Issue Date: 2023-05-11 Can AI language models replace human participants?, Trends in Cognitive Sciences, 2023 GPT Summary- 最近の研究では、言語モデルが人間のような判断を行うことが示されています。この研究では、言語モデルが心理学の研究において人間の代わりになる可能性や条件について探求し、AIを参加者として使用する際の注意点をまとめています。

CognitiveScience (1)

LanguageModel (1)

#FoundationModel
Issue Date: 2025-07-06 [Paper Note] A foundation model to predict and capture human cognition, Binz+, Nature'25, 2025.07 Comment

元ポスト:

Loading…

FoundationModel (1)

#LanguageModel
Issue Date: 2025-07-06 [Paper Note] A foundation model to predict and capture human cognition, Binz+, Nature'25, 2025.07 Comment

元ポスト:

Loading…

Neuroscience (1)

LanguageModel (1)

#Pocket #NLP #Reasoning #Architecture #read-later #Selected Papers/Blogs #KeyPoint Notes #SpeciarizedBrainNetworks
Issue Date: 2025-10-22 [Paper Note] Mixture of Cognitive Reasoners: Modular Reasoning with Brain-Like Specialization, Badr AlKhamissi+, arXiv'25, 2025.06 GPT Summary- MiCRoは、脳の認知ネットワークに基づく専門家モジュールを持つトランスフォーマーベースのアーキテクチャで、言語モデルの層を4つの専門家に分割。これにより、解釈可能で因果的な専門家の動的制御が可能になり、機械学習ベンチマークで優れた性能を発揮。人間らしく解釈可能なモデルを実現。 Comment

pj page: https://cognitive-reasoners.epfl.ch

元ポスト:

Loading…

demo: https://huggingface.co/spaces/bkhmsi/cognitive-reasoners
HF: https://huggingface.co/collections/bkhmsi/mixture-of-cognitive-reasoners

Others (228)

Others (201)

#Pocket #AIAgents #SyntheticData
Issue Date: 2025-11-28 [Paper Note] Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework, Dong Wang+, arXiv'25, 2025.11 GPT Summary- 合成データの生成において、従来の中央集権型フレームワークの限界を克服するために、分散型フレームワーク「Matrix」を提案。Matrixは、軽量エージェントが独立してタスクを進行し、計算集約的な操作を分散サービスで処理することで、スケーラビリティを向上。数万のエージェントワークフローに対応し、さまざまなデータ生成シナリオで評価した結果、データ生成スループットを2～15倍向上させ、出力品質を維持した。 Comment

元ポスト:

Loading…

#Pocket
Issue Date: 2025-11-27 [Paper Note] General Agentic Memory Via Deep Research, B. Y. Yan+, arXiv'25, 2025.11 GPT Summary- 一般的エージェントメモリ（GAM）は、AIエージェントのための新しいメモリフレームワークで、事前に利用可能な静的メモリの制限を克服する。GAMは「ジャストインタイム（JIT）コンパイル」の原則に基づき、オフラインでシンプルなメモリを保持し、ランタイム中に最適化されたコンテキストを生成する。メモライザーとリサーチャーの2つのコンポーネントを持ち、重要な情報を強調し、オンラインリクエストに応じて有用な情報を取得・統合する。実験により、GAMは既存のメモリシステムに対してタスク完了の大幅な改善を示した。 Comment

元ポスト:

Loading…

#Pocket #FlowMaps
Issue Date: 2025-11-26 [Paper Note] Flow Map Distillation Without Data, Shangyuan Tong+, arXiv'25, 2025.11 GPT Summary- フローモデルのサンプリングを加速するために、データ依存性を排除したデータフリーの蒸留手法を提案。教師の事前分布からのみサンプリングし、Teacher-Data Mismatchのリスクを回避。新たなフレームワークにより高い忠実度を確保し、ImageNetで優れたFIDを達成。生成モデルの加速に向けた新たなパラダイムを確立。 Comment

元ポスト:

Loading…

#Pocket #ACL Issue Date: 2025-11-15 [Paper Note] Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users, Antonia Karamolegkou+, ACL'25, 2025.03 GPT Summary- 視覚障害者向けの支援技術としてのマルチモーダル大規模言語モデル（MLLM）の効果を調査。ユーザー調査により、文脈理解や文化的感受性、複雑なシーン理解に関する課題が明らかに。5つのユーザー中心のタスクを提案し、12のMLLMの評価から、さらなる進展が必要であることが示された。研究は、より包括的で信頼できる視覚支援技術の必要性を強調。 #Pocket #ACL Issue Date: 2025-11-15 [Paper Note] FloorPlan-LLaMa: Aligning Architects’ Feedback and Domain Knowledge in Architectural Floor Plan Generation, Yin+, ACL'25 GPT Summary- フロアプラン生成のために、初の評価データセットArchiMetricsNetを提案し、機能性やフローを考慮したFloorPlan-MPSを訓練。自己回帰フレームワークに基づくFloorPlan-LLaMaを開発し、建築家の専門知識を統合。実験により、提案手法がベースラインを上回り、専門家による検証で合理的なプランを生成することが確認された。 #Pocket #ACL Issue Date: 2025-11-15 [Paper Note] Biased LLMs can Influence Political Decision-Making, Fisher+, ACL'25 GPT Summary- 本論文では、LLMsの党派的バイアスが政治的意見や意思決定に与える影響を調査するための実験を行い、偏ったモデルに接触した参加者がそのバイアスに一致する意見を採用する傾向があることを発見した。また、AIに関する知識がバイアスの影響を軽減する可能性があることも示唆しており、偏ったLLMsとの相互作用が公共の議論や政治的行動に与える影響を強調している。 #Pocket #NeurIPS Issue Date: 2025-11-14 [Paper Note] Estimating cognitive biases with attention-aware inverse planning, Sounak Banerjee+, NeurIPS'25 Spotlight, 2025.10 GPT Summary- 人の目標指向行動は認知バイアスに影響されるため、自律システムはこれを認識する必要がある。本研究では、行動から注意バイアスを推定する注意認識逆計画問題を定義し、標準的な逆強化学習との違いを示す。深層強化学習と計算的認知モデルを組み合わせたアプローチを提案し、実際の運転シナリオでの注意戦略を推測し、認知バイアス推定のスケーラビリティを実証する。 Comment

元ポスト:

Loading…

#Pocket #read-later Issue Date: 2025-11-12 [Paper Note] The Path Not Taken: RLVR Provably Learns Off the Principals, Hanqing Zhu+, arXiv'25, 2025.11 GPT Summary- 強化学習における検証可能な報酬（RLVR）は、言語モデルの推論性能を向上させるが、パラメータの変更が少ないという逆説を再考。三つのゲート理論を用いて、RLVRの学習ダイナミクスを説明し、主方向から外れて学習することで利益を得ることを示す。RLVRはSFTとは異なる最適化レジームで動作し、SFTの手法を適用することには欠陥がある可能性がある。これにより、RLVRの理解と幾何学を意識した学習アルゴリズムの設計への道を開くことを目指す。 Comment

元ポスト:

Loading…

所見:

Loading…

著者ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-11-07 [Paper Note] UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective, Jing Xiong+, EMNLP'25, 2024.10 GPT Summary- 本研究では、LLMsの長文コンテキスト推論におけるメモリと計算リソースの課題を解決するため、不確実性を指標としたスパース性の分析フレームワークUNCompを提案。切り捨てられた行列エントロピーを用いて低情報量の領域を特定し、圧縮アプローチを動的に調整することで、KVキャッシュサイズを4.74%に削減し、プレフィル速度を6%向上、スループットを6.4倍改善。これにより、強力なロスレス圧縮性能を実現し、理論的ツールの有効性を示した。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-11-06 [Paper Note] Mechanisms vs. Outcomes: Probing for Syntax Fails to Explain Performance on Targeted Syntactic Evaluations, Ananth Agarwal+, EMNLP'25, 2025.06 GPT Summary- 大規模言語モデル（LLMs）は文法構造を強力に習得しているが、その表現メカニズムは未解決である。プロービングを用いて文法的特徴を抽出したが、これが文法パフォーマンスを信頼性高く予測できないことが明らかになった。32のトランスフォーマーモデルの評価により、プロービング結果と下流タスクの文法的行動との間に乖離があることが示された。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-11-06 [Paper Note] Identifying Unlearned Data in LLMs via Membership Inference Attacks, Deepak+, EMNLP'25, 2025.11 GPT Summary- FUMAという新しい評価フレームワークを提案し、アンラーニングにおけるプライバシーリスクを定量化。258のモデルで4つのアンラーニング手法を評価し、忘却セットのメンバーシップを最大99%の精度で特定できることを示す。リトリーバルベースのベンチマークではカバーされていないリスクを明らかにし、脆弱性の軽減策を議論。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-11-06 [Paper Note] In-Context Learning Boosts Speech Recognition via Human-like Adaptation to Speakers and Language Varieties, Nathan Roll+, EMNLP'25, 2025.05 GPT Summary- 本研究では、Phi-4 Multimodalにおける文脈内学習（ICL）を用いたスケーラブルなフレームワークを提案し、12の例文を用いることで音声認識の単語誤り率を平均19.7%低下させることを発見。特に、リソースが少ないバリエーションでの効果が顕著であり、ICL適応は人間のリスナーに似たパフォーマンスを示す一方で、特定のバリエーションでは依然としてギャップが存在することが明らかになった。プロンプトとコードはGitHubで公開。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-11-06 [Paper Note] Vision Transformers Don't Need Trained Registers, Nick Jiang+, NeurIPS'25 Spotlight, 2025.06 GPT Summary- Vision Transformersにおける高ノルムトークンの出現がノイズの多いアテンションマップを引き起こすメカニズムを調査。スパースなニューロンが外れ値トークンに高ノルムの活性化を集中させ、視覚処理を劣化させることを確認。訓練不要のアプローチを提案し、レジスターニューロンからの活性化を未訓練トークンにシフトさせることで、クリーンなアテンションを生成し、下流視覚タスクでのパフォーマンスを向上。テスト時のレジスターを視覚言語モデルに拡張し、効果的な訓練不要の解決策を提供することを示唆。 Comment

pj page: https://avdravid.github.io/test-time-registers/

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-11-05 [Paper Note] WebThinker: Empowering Large Reasoning Models with Deep Research Capability, Xiaoxi Li+, NeurIPS'25, 2025.04 GPT Summary- WebThinkerは、LRMsがウェブを自律的に検索し、情報を収集しながら報告書を作成できる深層研究エージェントである。Deep Web Explorerモジュールを統合し、知識のギャップを埋めるために動的に情報を抽出する。リアルタイムで情報収集と報告書作成を行うThink-Search-and-Draft戦略を採用し、RLベースのトレーニング戦略を導入。実験により、WebThinkerは複雑な推論タスクで既存手法を大幅に上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-11-05 [Paper Note] Training Language Models to Reason Efficiently, Daman Arora+, NeurIPS'25, 2025.02 GPT Summary- 大規模言語モデル（LLMs）の性能向上には限界があるため、代替手段が求められている。本研究では、強化学習を用いて推論時の計算を動的に割り当てることで、効率的な推論モデルを訓練する手法を提案。これにより、精度を維持しつつ計算コストを削減し、さまざまな効率レベルを持つモデルを生成可能にした。実験では、精度を保ちながら推論コストの大幅な削減が確認された。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-11-05 [Paper Note] Video-R1: Reinforcing Video Reasoning in MLLMs, Kaituo Feng+, NeurIPS'25, 2025.03 GPT Summary- Video-R1は、ルールベースの強化学習を用いてビデオ推論を促進する初の試みであり、T-GRPOアルゴリズムを提案して時間情報を活用し、高品質な画像データをトレーニングに組み込む。新たに構築したデータセットにより、Video-R1はビデオ推論ベンチマークで大幅な改善を達成し、特にVSI-benchで37.1%の精度を記録し、商業モデルを上回った。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-11-05 [Paper Note] Beyond the 80_20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning, Shenzhi Wang+, NeurIPS'25, 2025.06 GPT Summary- 強化学習における検証可能な報酬（RLVR）のメカニズムをトークンエントロピーの視点から探求。高エントロピーのトークンが推論の重要な分岐点であることを発見し、RLVRトレーニング中にこれらのトークンのエントロピーが調整されることを示す。トークンの20%を利用することで、フル勾配更新と同等の性能を維持し、他のモデルでの性能向上を実現。低エントロピーのトークンのみでのトレーニングは性能を低下させることが明らかに。高エントロピートークンの最適化がRLVRの効果を生むことを示唆。 Comment

元ポスト:

Loading…

pj page: https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

openreview: https://openreview.net/forum?id=yfcpdY4gMP&referrer=%5Bthe%20profile%20of%20Junyang%20Lin%5D(%2Fprofile%3Fid%3D~Junyang_Lin1)

#Pocket #NeurIPS Issue Date: 2025-11-05 [Paper Note] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, Yang Yue+, NeurIPS'25, 2025.04 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）は、LLMsの推論性能を向上させるが、現在の設定では新しい推論パターンを引き出せていない。小さなkではベースモデルを上回るが、大きなkではベースモデルが優位。RLVRアルゴリズムは類似の性能を示し、ベースモデルの潜在能力を活用できていない。蒸留は新しい推論パターンを導入し、モデルの能力を拡張できる。これにより、RLの改善が必要であることが示唆される。 Comment

pj page: https://limit-of-rlvr.github.io/

元ポスト:

Loading…

所見:

Loading…

#Pocket #NeurIPS Issue Date: 2025-11-05 [Paper Note] A-MEM: Agentic Memory for LLM Agents, Wujiang Xu+, NeurIPS'25, 2025.02 GPT Summary- LLMエージェントのための新しい動的メモリシステムを提案。Zettelkastenメソッドに基づき、メモリを相互接続された知識ネットワークとして組織。新しいメモリが追加されると、文脈的な属性を持つノートが生成され、過去のメモリとの関連性が分析される。これにより、メモリの進化と適応的な管理が可能に。実験結果は既存のベースラインを上回る性能を示す。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-11-01 [Paper Note] Synthetic Socratic Debates: Examining Persona Effects on Moral Decision and Persuasion Dynamics, Jiarui Liu+, EMNLP'25, 2025.06 GPT Summary- 本研究では、道徳的ジレンマに関するAI同士の議論におけるペルソナ特性の影響を調査。年齢、性別、国、階級、イデオロギー、性格の6次元を用いて131のケースをシミュレーションした結果、特に政治的イデオロギーと性格が道徳的立場や議論の結果に強い影響を与えることが判明。リベラルでオープンな性格が高い合意と勝率を達成し、議論中の信頼度は増加する一方で、感情的訴えは減少。これにより、AIの道徳的推論におけるペルソナを考慮した評価フレームワークの必要性が示された。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-11-01 [Paper Note] Not-Just-Scaling Laws: Towards a Better Understanding of the Downstream Impact of Language Model Design Decisions, Emmy Liu+, EMNLP'25, 2025.03 GPT Summary- モデルのサイズやトレーニングデータの量だけでなく、設計選択が性能に与える影響を定量化するため、92のオープンソース事前トレーニングモデルをメタ分析。スケール以外の特徴を考慮することで、下流のパフォーマンス予測が3-28%向上。特に、データ構成やアーキテクチャの選択がパフォーマンスに与える影響を明らかにし、モデル開発の選択が能力に与える影響を体系的に調査する基盤を提供。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-10-30 [Paper Note] LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, NeurIPS'25, 2024.10 GPT Summary- LoRAとフルファインチューニングの違いを、モデルの重み行列のスペクトル特性を通じて分析。LoRAは新しい高ランクの特異ベクトル（侵入次元）を持ち、忘却が少ないことを発見。侵入次元が忘却を引き起こすことを示し、これを縮小することで下流タスクのパフォーマンスを改善できることがわかった。LoRAモデルは連続学習中に侵入次元を蓄積し、パフォーマンス低下を引き起こす傾向がある。 Comment

元ポスト:

Loading…

#Pocket #read-later Issue Date: 2025-10-27 [Paper Note] Stress-Testing Model Specs Reveals Character Differences among Language Models, Jifan Zhang+, arXiv'25, 2025.10 GPT Summary- 本研究では、AIモデルの行動ガイドラインや倫理原則に関する仕様のストレステスト手法を提案し、原則間の矛盾や解釈の曖昧さを自動的に特定します。競合する価値に基づくシナリオを生成し、12の大規模言語モデル（LLM）の応答を評価した結果、70,000以上のケースで顕著な行動の乖離が見られ、モデル仕様の根本的な問題を示唆しました。また、生成したデータセットは、モデル間の不整合や価値の優先順位の違いも明らかにしました。 Comment

dataset: https://huggingface.co/datasets/jifanz/stress_testing_model_spec

元ポスト:

Loading…

#Pocket Issue Date: 2025-10-25 [Paper Note] MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation, Chengshu Li+, arXiv'25, 2025.10 GPT Summary- MoMaGenは、移動式二手操作のマニピュレーションにおけるデータ生成を最適化する新しい手法で、到達可能性と視認性の制約を考慮した制約付き最適化問題として定式化されている。これにより、従来の手法よりも多様なデータセットを生成し、単一のデモンストレーションから成功した模倣学習ポリシーを訓練可能にする。最終的に、物理的なロボットハードウェアへの展開が実現される。 Comment

pj page: https://momagen.github.io

元ポスト:

Loading…

#Pocket #ICCV Issue Date: 2025-10-25 [Paper Note] FullDiT: Multi-Task Video Generative Foundation Model with Full Attention, Xuan Ju+, ICCV'25, 2025.03 GPT Summary- FullDiTは、ビデオ生成のための統一基盤モデルであり、複数の条件をフルアテンションメカニズムを通じてシームレスに統合します。これにより、パラメータのオーバーヘッドを削減し、条件の競合を回避しつつ、マルチタスクビデオ生成の性能を向上させます。実験結果は、FullDiTが最先端の成果を達成し、複雑なビデオ生成におけるフルアテンションの有効性を示しています。 Comment

元ポスト:

Loading…

#Pocket #ICCV Issue Date: 2025-10-25 [Paper Note] HouseCrafter: Lifting Floorplans to 3D Scenes with 2D Diffusion Model, Hieu T. Nguyen+, ICCV'25, 2024.06 GPT Summary- HouseCrafterは、間取り図を大規模な3D屋内シーンに変換する新しいアプローチで、2D拡散モデルを適応させて一貫したマルチビューのRGBおよび深度画像を生成します。RGB-D画像は、間取り図に基づいて自己回帰的に生成され、生成された画像が条件として使用されます。グローバルな間取り図とアテンション設計により、一貫性のある画像生成が実現され、3Dシーンの再構築が可能です。3D-Frontデータセットでの評価により、高品質な3Dシーン生成が確認され、設計選択の有効性も検証されています。コードとモデルの重みは公開予定です。 Comment

元ポスト:

Loading…

#Pocket #ICCV #SparseAutoEncoder Issue Date: 2025-10-24 [Paper Note] Large Multi-modal Models Can Interpret Features in Large Multi-modal Models, Kaichen Zhang+, ICCV'25, 2024.11 GPT Summary- LMMの内部神経表現を理解するためのフレームワークを提案。スパースオートエンコーダを用いて特徴を分解し、自動解釈フレームワークでモデルの挙動を分析。結果はLMMのタスク性能や誤りの性質を明らかにし、人間の認知プロセスとの類似性を示唆。 Comment

元ポスト: https://github.com/EvolvingLMMs-Lab/multimodal-sae

#Pocket #ICCV Issue Date: 2025-10-24 [Paper Note] Towards Video Thinking Test: A Holistic Benchmark for Advanced Video Reasoning and Understanding, Yuanhan Zhang+, arXiv'25, 2025.07 GPT Summary- ビデオ理解における正確性と堅牢性のギャップを評価するために、Video Thinking Test（Video-TT）を導入。1,000本のYouTube Shortsビデオを用い、オープンエンドの質問と敵対的質問を通じて、ビデオLLMsと人間のパフォーマンスの違いを示す。 Comment

pj page: https://zhangyuanhan-ai.github.io/video-tt/

#Pocket #ICCV Issue Date: 2025-10-24 [Paper Note] Dual-Expert Consistency Model for Efficient and High-Quality Video Generation, Zhengyao Lv+, arXiv'25, 2025.06 GPT Summary- 動画合成におけるDiffusion Modelsは計算負荷が高いが、Consistency Modelsがその加速に寄与。しかし、直接適用すると時間的一貫性や外観の詳細が劣化する。本研究では、学習ダイナミクスの不一致を特定し、Dual-Expert Consistency Model（DCM）を提案。セマンティックエキスパートとディテールエキスパートを用いて、Temporal Coherence LossやGANを導入し、視覚品質を向上させつつサンプリングステップを削減。 Comment

pj page: https://vchitect.github.io/DCM/

#Pocket #ICCV Issue Date: 2025-10-24 [Paper Note] Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency, Tianqi Liu+, arXiv'25, 2025.03 GPT Summary- Free4Dは、単一の画像から4Dシーンを生成するための新しいチューニング不要のフレームワークを提案。従来の手法はオブジェクトレベルに限定され、シーンレベルの生成が困難であったが、基盤モデルの蒸留により効率性と一般化能力を向上。画像から動画への拡散モデルを用いてアニメーション化し、空間・時間的一貫性を保つための新しいガイダンスメカニズムを設計。生成された4D表現はリアルタイムでの制御可能なレンダリングを実現し、重要な進展を示す。 Comment

元ポスト: https://free4d.github.io

#Pocket #ICCV Issue Date: 2025-10-24 [Paper Note] DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior, Junzhe Lu+, arXiv'25, 2025.08 GPT Summary- DPoser-Xは、3D全身人間ポーズのための拡散ベースの事前モデルであり、ポーズの複雑さとデータセットの不足に対処する。逆問題としてポーズ中心のタスクを統一し、変分拡散サンプリングで解決。新しい切り捨てタイムステップスケジューリングとマスクトレーニングメカニズムを導入し、部位間の相互依存性を捉えつつ過剰適合を回避。実験により、DPoser-Xは複数のベンチマークで最先端の手法を上回り、新たな基準を確立した。 Comment

元ポスト: https://dposer.github.io

#Pocket #ICCV Issue Date: 2025-10-24 [Paper Note] Generating Physically Stable and Buildable Brick Structures from Text, Ava Pun+, ICCV'25 Best Paper, 2025.05 GPT Summary- BrickGPTは、テキストプロンプトから物理的に安定したレンガ組立モデルを生成する初のアプローチであり、大規模なデータセットを用いて自己回帰型言語モデルを訓練。安定性向上のために有効性チェックと物理法則に基づくロールバックを採用し、実現不可能な予測を排除。実験により、安定で多様なレンガ構造を生成できることが確認され、テクスチャリング手法も開発。新データセットStableText2Brickを公開し、28,000以上の3Dオブジェクトと47,000以上のレンガ構造を提供。コードとモデルはプロジェクトのウェブサイトで入手可能。 Comment

pj page: https://avalovelace1.github.io/BrickGPT/

#Pocket #NeurIPS Issue Date: 2025-10-13 [Paper Note] Can DPO Learn Diverse Human Values? A Theoretical Scaling Law, Shawn Im+, NeurIPS'25, 2024.08 GPT Summary- LLMsは人間の好みに合致することが難しく、有害な出力を生むことがある。好み学習は、好ましい応答を訓練する重要な手法であり、多様な価値観を考慮することが求められる。本論文では、好み最適化で訓練されたモデルの一般化能力を分析する理論的枠組みを提案し、サンプルの量と価値の多様性が一般化に与える影響を評価する。報酬マージンと訓練軌跡を分析することで、広範な価値観を学習する際の課題を示し、理論の実践的関連性を強調する。 Comment

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-12 [Paper Note] Hidden in plain sight: VLMs overlook their visual representations, Stephanie Fu+, COLM'25 Outstanding Papers, 2025.06 GPT Summary- VLMは視覚情報と言語情報を統合するが、視覚タスクでのパフォーマンスが低下し、ほぼ偶然の結果に至ることが判明。視覚表現の劣化、タスクプロンプトへの脆弱性、言語モデルの役割の3つの要因がボトルネックであり、VLMは視覚情報を効果的に活用できていない。研究はVLMの失敗モードを診断し、視覚理解に関する評価を提供。 Comment

openreview: https://openreview.net/forum?id=qQb1JLrwol#discussion

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-12 [Paper Note] Don't lie to your friends: Learning what you know from collaborative self-play, Jacob Eisenstein+, COLM'25 Outstanding Papers, 2025.03 GPT Summary- AIエージェントが有用なアシスタントになるためには、自身の能力と限界を理解する必要がある。これを実現するために「協調的自己プレイ」という新しいアプローチを提案し、マルチエージェントが共同で正しい答えに到達することで報酬を得る仕組みを構築。実験により、グループレベルの報酬が個々のエージェントのツール使用と予測の改善に寄与することが示された。 Comment

openreview: https://arxiv.org/abs/2503.14481

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-12 [Paper Note] Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling, Benjamin Lipkin+, COLM'25 Outstanding Papers, 2025.04 GPT Summary- 本研究では、言語モデルから制約に従って生成するための新しいアルゴリズムを提案。従来の局所制約デコーディング（LCD）の問題点である高コストな制約評価と文脈無視を解決するため、適応的拒絶サンプリングを用いて制約評価を効率化。さらに、低分散でバイアスのない推定を生成し、短期的な行動を修正。実証評価により、提案手法が最先端のベースラインを上回り、実行時間とパフォーマンスの両方を改善することを示した。 Comment

openreview: https://openreview.net/forum?id=3BmPSFAdq3#discussion

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-10-08 [Paper Note] Self-Improving Embodied Foundation Models, Seyed Kamyar Seyed Ghasemipour+, NeurIPS'25, 2025.09 GPT Summary- 基盤モデルを用いたロボティクスの二段階ポストトレーニングアプローチを提案。第一段階で行動クローンとステップ予測を用いて微調整し、第二段階で自己改善を行うことで、ロボットが自律的にタスクを練習可能に。実験により、提案手法がサンプル効率を高め、模倣学習データを超えた新しいスキルを習得できることを示した。これにより、ロボティクスにおける自律的なスキル習得の可能性が強調される。 Comment

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-08 [Paper Note] Shared Global and Local Geometry of Language Model Embeddings, Andrew Lee+, COLM'25 Outstanding Paper, 2025.03 GPT Summary- 大規模言語モデルのトークン埋め込みにおける幾何学的類似性を発見。グローバルな類似性として、トークン埋め込みが類似した方向を持つことを確認。局所的な幾何学を局所線形埋め込みと内因次元の尺度で特徴づけ、局所的な類似性を特定。内因次元が低いトークンは意味的に一貫したクラスターを形成し、高いトークンはそうでないことが判明。これに基づき、異なる次元の言語モデル間での線形変換を行うアプリケーションEMB2EMBを提案。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=aJDykpJAYF#discussion

#Pocket #COLM Issue Date: 2025-10-08 [Paper Note] Weak-for-Strong: Training Weak Meta-Agent to Harness Strong Executors, Fan Nie+, COLM'25, 2025.04 GPT Summary- Weak-for-Strong Harnessing（W4S）フレームワークを提案し、小型言語モデルをカスタマイズして強力なモデルを活用する効率的なワークフローを設計。マルコフ決定過程を用いて、強化学習でメタエージェントを訓練し、手動介入なしで効果的なワークフローを学習。実験結果では、7Bメタエージェントが最強のベースラインを2.9%から24.6%上回り、一般化能力も高いことを示す。 Comment

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-08 Readability ̸= Learnability: Rethinking the Role of Simplicity in Training Small Language Models, Lee+, COLM'25 Comment

openreview: https://openreview.net/forum?id=AFMGbq39bQ#discussion

元ポスト:

Loading…

#COLM Issue Date: 2025-10-08 [Paper Note] From Next-Token to Mathematics: The Learning Dynamics of Mathematical Reasoning in Language Models, Mishra+, COLM'25 Comment

openreview: https://openreview.net/forum?id=bJ9aARjtBu#discussion

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-08 [Paper Note] Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models, Hyunwoo Kim+, COLM'25, 2025.02 GPT Summary- thought-tracingを提案し、エージェントのメンタルステートを追跡する推論アルゴリズムを開発。ベイズ理論に基づき、LLMを用いて確率的推論を行い、心の理論ベンチマークで顕著な性能向上を示す。最近の推論モデルの興味深い挙動も明らかにし、社会的推論の特異性を強調。 Comment

openreview: https://openreview.net/forum?id=yGQqTuSJPK#discussion

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-08 [Paper Note] Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers, Wooseok Seo+, COLM'25, 2025.06 GPT Summary- ファクト検証はLLMアプリケーションの信頼性に不可欠であり、本研究では12の事前学習済みLLMと1つの専門ファクト検証器を評価しました。主な発見は、注釈エラーや曖昧さがモデルの性能に大きな影響を与えること、少数のインコンテキスト例で高いパフォーマンスを達成するLLMの存在、そして小型で微調整されたファクト検証器の必要性です。特に、合成のマルチホップ推論データでのトレーニングが能力向上に寄与することを示しました。コードやデータセットは公開されています。 Comment

openreview: https://openreview.net/forum?id=3NjnRo6apU#discussion

元ポスト:

Loading…

#COLM Issue Date: 2025-10-08 [Paper Note] The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning, Shah+, COLM'25 Comment

openreview: https://openreview.net/forum?id=exW2SFJK4H#discussion

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-08 [Paper Note] LongCodeBench: Evaluating Coding LLMs at 1M Context Windows, Stefano Rando+, COLM'25, 2025.05 GPT Summary- 長コンテキストモデルの急速な進化に伴い、現実的な長コンテキストベンチマークの構築が困難になっている。本研究では、コードの理解と修正を長コンテキストモデルのテストベンチとして位置付け、LongCodeBench（LCB）を導入。実際のGitHubの問題を基にしたQAおよびバグ修正タスクを通じて、LCLMの理解能力と修正能力を評価する。異なるスケールのモデルを対象にした結果、長コンテキストが全モデルにおいてパフォーマンス低下を引き起こすことが確認された。 Comment

openreview: https://openreview.net/forum?id=GFPoM8Ylp8#discussion

元ポスト:

Loading…

#Pocket #COLM #read-later Issue Date: 2025-10-08 [Paper Note] Base Models Beat Aligned Models at Randomness and Creativity, Peter West+, COLM'25, 2025.04 GPT Summary- アライメント技術はLLMの開発において重要だが、普遍的に適用すべきではないと提案。特に、ランダム数生成や創造的執筆などの予測不可能なタスクでは、アライメントされたモデルが狭い行動傾向を示し、パフォーマンスが低下することが確認された。一般的なベンチマークでの良好なパフォーマンスが、特定のタスクでのパフォーマンス低下と関連していることが示唆されている。 Comment

openreview: https://openreview.net/forum?id=vqN8uom4A1

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-08 [Paper Note] Humans overrely on overconfident language models, across languages, Neil Rathi+, COLM'25, 2025.07 GPT Summary- LLMの応答が言語間で調整される重要性を調査し、過信や依存のリスクを評価。5つの言語での認識的マーカーの分布を分析し、言語による過信の違いを発見。特に日本語では不確実性のマーカーが多く生成され、依存行動が言語によって異なることが明らかに。これにより、言語間での過信した生成物への依存リスクが高いことが示され、多言語的な調整の課題とモデルの安全性評価の重要性が強調される。 Comment

openreview: https://openreview.net/forum?id=QsQatTzATT#discussion

元ポスト:

Loading…

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-10-03 [Paper Note] SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild, Weihao Zeng+, COLM'25, 2025.03 GPT Summary- DeepSeek-R1は、ルールベースの報酬を用いた強化学習フレームワークを通じて、長い思考の連鎖推論を自然に生じさせることを示した。ゼロRLトレーニングを用いて、10の異なるベースモデルにおける推論精度と応答の長さを改善。トレーニング中に異なるモデルが異なるパターンを示すことを観察し、特に小型モデルで「アハ体験」を初めて確認。成功したゼロRLトレーニングの設計戦略を共有し、研究を促進するために関連リソースをオープンソース化する。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #read-later Issue Date: 2025-10-03 [Paper Note] RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization, Zhaoning Yu+, arXiv'25, 2025.10 GPT Summary- RESTRAINは、ラベルなしデータを用いた自己抑制型強化学習フレームワークであり、モデルが未ラベルデータから学習し改善することを目指す。過信したロールアウトや一貫性の低い例に罰則を与えつつ、有望な推論を保持する。実験により、RESTRAINは未ラベルデータのみで大幅な性能向上を達成し、金ラベル訓練に匹敵する結果を示した。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-10-01 [Paper Note] Critique-Coder: Enhancing Coder Models by Critique Reinforcement Learning, Chi Ruan+, arXiv'25, 2025.09 GPT Summary- 強化学習（RL）に批評生成を組み合わせたCritique Reinforcement Learning（CRL）を提案。モデルは（質問、解決策）ペアに対して批評を生成し、その正確性に基づいて報酬を決定。CRLデータを用いた\textsc{Critique-Coder}は、RLのみのモデルを一貫して上回り、特にLiveCodeBenchで60%以上のスコアを達成。CRLは一般的な推論能力も向上させ、LLM推論のための優れた補完となることを示す。 Comment

pj page: https://tiger-ai-lab.github.io/Critique-Coder/

元ポスト:

Loading…

#Pocket #ICML Issue Date: 2025-09-30 [Paper Note] M+: Extending MemoryLLM with Scalable Long-Term Memory, Yu Wang+, ICML'25, 2025.02 GPT Summary- 大規模言語モデルに潜在空間メモリを追加することで、コンテキストウィンドウを拡張する研究が進んでいるが、過去の情報保持には課題が残る。MemoryLLMは10億パラメータのメモリプールを形成するが、20kトークンを超える情報保持には限界がある。本研究では、MemoryLLMを基にしたメモリ拡張モデルM+を提案し、長期的な情報保持を強化。M+は長期メモリメカニズムとリトリーバーを統合し、関連情報を動的に取得する。実験により、M+はMemoryLLMや他のベースラインを大幅に上回り、知識保持を160kトークン以上に拡張できることが示された。 Comment

openreview: https://openreview.net/forum?id=OcqbkROe8J

#Pocket #TheoryOfMind Issue Date: 2025-09-29 [Paper Note] ToMPO: Training LLM Strategic Decision Making from a Multi-Agent Perspective, Yiwen Zhang+, arXiv'25, 2025.09 GPT Summary- ToMPOアルゴリズムを提案し、LLMの戦略的意思決定を強化。これにより、他者の戦略を考慮したロールアウト生成、利点の推定、報酬のバランスを実現。GRPO手法を35%上回り、パラメータサイズが大きいモデルとも比較して18%の改善を示す。 Comment

元ポスト:

Loading…

#Pocket #Personalization #EMNLP #Findings Issue Date: 2025-09-28 [Paper Note] Benchmarking and Improving LLM Robustness for Personalized Generation, Chimaobi Okite+, EMNLP'25 Findings, 2025.09 GPT Summary- LLMsの応答の個別化において、事実性も重要であると主張し、堅牢性を評価するフレームワークPERGとデータセットPERGDataを導入。14のモデルを評価した結果、LLMsは堅牢な個別化に苦労しており、特に大規模モデルでも正確性が低下することが判明。クエリの性質やユーザーの好みによって堅牢性が影響を受けることを示し、二段階のアプローチPref-Alignerを提案し、平均25%の堅牢性向上を実現。研究は評価手法のギャップを明らかにし、信頼性の高いLLMの展開を支援するツールを提供。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-26 [Paper Note] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents, Han Lin+, NeurIPS'25, 2025.08 GPT Summary- Bifrost-1というフレームワークを提案し、事前訓練されたマルチモーダルLLMsと拡散モデルをパッチレベルのCLIP画像埋め込みで統合。これにより、高忠実度の画像生成を実現し、訓練効率を向上。実験結果は、視覚的忠実度とマルチモーダル理解で従来手法と同等以上の性能を示し、計算コストを削減。 Comment

pj page: https://bifrost-1.github.io

元ポスト:

Loading…

#Pocket #ICML Issue Date: 2025-09-26 [Paper Note] CollabLLM: From Passive Responders to Active Collaborators, Shirley Wu+, ICML'25, 2025.02 GPT Summary- CollabLLMは、長期的なインタラクションを最適化するための新しい訓練フレームワークで、マルチターンの人間とLLMのコラボレーションを強化する。協調シミュレーションを用いて、応答の長期的な貢献を評価し、ユーザーの意図を明らかにすることで、より人間中心のAIを実現。文書作成などのタスクで平均18.5%のパフォーマンス向上と46.3%のインタラクティビティ改善を達成し、ユーザー満足度を17.6%向上させ、消費時間を10.4%削減した。 Comment

pj page: https://wuyxin.github.io/collabllm/

元ポスト:

Loading…

Issue Date: 2025-09-24 [Paper Note] Leveraging High-Resource English Corpora for Cross-lingual Domain Adaptation in Low-Resource Japanese Medicine via Continued Pretraining, Kobayashi+, EMNLP'25 Findings Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #NeurIPS #Off-Policy Issue Date: 2025-09-24 [Paper Note] A Clean Slate for Offline Reinforcement Learning, Matthew Thomas Jackson+, arXiv'25, 2025.04 GPT Summary- オフライン強化学習の課題に対処するため、透明な評価プロトコルを導入し、シンプルな実装を提供。これにより、さまざまな手法を統一したハイパーパラメータ空間にカプセル化する「Unifloral」を提案。新しいアルゴリズムTD3-AWRとMoBRACを開発し、既存のベースラインを上回る性能を達成。実装は公開済み。 Comment

元ポスト:

Loading…

#Pocket #ComputerUse Issue Date: 2025-09-20 [Paper Note] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data, Zhaoyang Liu+, arXiv'25 GPT Summary- ScaleCUAは、オープンソースのコンピュータ利用エージェント（CUAs）を拡張するための大規模データセットを提供し、6つのオペレーティングシステムと3つのタスクドメインをカバー。訓練されたモデルは、複数のプラットフォームでの操作においてベースラインを大幅に上回り、新たな最先端の結果を達成。データ、モデル、コードは公開予定。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-20 [Paper Note] Multi-Token Prediction Needs Registers, Anastasios Gerontopoulos+, NeurIPS'25 GPT Summary- MuToRは、マルチトークン予測のためのシンプルで効果的なアプローチで、学習可能なレジスタトークンを用いて未来のターゲットを予測します。少ない追加パラメータで、アーキテクチャ変更なしに既存の言語モデルと互換性があり、特に監視付きファインチューニングに適しています。言語と視覚の生成タスクにおける効果を示し、スケーラブルな予測ホライズンをサポートします。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

先行研究:
- [Paper Note] Better & Faster Large Language Models via Multi-token Prediction, Fabian Gloeckle+, ICML'24

#Pocket #Safety #NeurIPS Issue Date: 2025-09-19 [Paper Note] Monitoring Risks in Test-Time Adaptation, Mona Schirmer+, NeurIPS'25 GPT Summary- テスト時適応（TTA）手法は、ラベルのないテストデータを用いてモデルを継続的に適応させるが、最終的にはモデルが劣化する可能性がある。そこで、TTAをリスク監視フレームワークと組み合わせ、予測性能を追跡し、性能基準の違反を警告する方法を提案。信頼度系列に基づく逐次テストの監視ツールを拡張し、TTAに対する厳密なリスク監視を実現。提案手法の効果を様々なデータセットと分布シフトで実証。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS #ContextEngineering Issue Date: 2025-09-19 [Paper Note] Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models, Zidi Xiong+, NeurIPS'25 GPT Summary- 大規模推論モデル（LRMs）は、Chain-of-Thoughtを用いて複雑な問題解決能力を向上させているが、中間的な推論プロセスの信頼性が重要である。本研究では、思考ドラフトの信頼性を評価するための反事実介入フレームワークを提案し、インタードラフト信頼性とドラフトから回答への信頼性の2つの次元に焦点を当てた。実験の結果、LRMsは中間的な推論ステップに対して選択的な信頼性を示し、ドラフトの結論と一致しないことが多いことが明らかになった。これにより、LRMsにおける信頼性と解釈可能性の向上が求められる。 Comment

元ポスト:

Loading…

おもしろそう

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Reinforcement Learning Finetunes Small Subnetworks in Large Language Models, Sagnik Mukherjee+, NeurIPS''25 GPT Summary- 強化学習（RL）は、LLMsのパフォーマンスと人間の価値観の整合性を大幅に改善する。驚くべきことに、パラメータの5％から30％の小さなサブネットワークのみを更新することで実現されるスパース性が観察され、これは7つのRLアルゴリズムと10のLLMで共通して見られた。このスパース性は本質的であり、サブネットワークのファインチューニングによってテスト精度が回復し、ほぼ同一のモデルが生成される。更新はほぼフルランクであり、ポリシー分布に近いデータでのトレーニングが主な要因と考えられる。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-09-19 [Paper Note] Feature Extraction and Steering for Enhanced Chain-of-Thought Reasoning in Language Models, Zihao Li+, EMNLP'25 GPT Summary- 本研究では、LLMの推論能力を向上させるために、外部データセットを使用せずにステアリング技術を利用。Sparse Autoencoders（SAEs）を用いて解釈可能な特徴を抽出し、LLMの内部状態を調整。新たにSAEフリーのアルゴリズムを導入し、残差活性化から直接ステアリング方向を計算。実験により、両アルゴリズムがLLMの推論能力を大幅に向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-09-19 [Paper Note] All for One: LLMs Solve Mental Math at the Last Token With Information Transferred From Other Tokens, Siddarth Mamidanna+, EMNLP'25 GPT Summary- 大規模言語モデル（LLMs）の内部動作を調査し、メンタルマスにおける計算の実態を三つのステップで分析。特定のトークン計算を抑制し、情報転送経路を制限することで、計算が最後のトークンでのみ行われる「オール・フォー・ワン」サブグラフ（AF1）を特定。実験により、このサブグラフが高いモデル性能に寄与し、異なるモデル間での転送が可能であることを示した。CAMAとABPの技術が独自の利点を持つことも明らかに。 Comment

元ポスト:

Loading…

llmがa+b-cをどう解いているかという話で、LLMは人間とは異なり、last tokenに全ての情報をtransferしてからその時点で計算する、といった挙動をしているらしい。興味深い

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Failure by Interference: Language Models Make Balanced Parentheses Errors When Faulty Mechanisms Overshadow Sound Ones, Daking Rai+, NeurIPS'25 GPT Summary- 言語モデル（LM）は単純な構文タスクに苦労しており、本研究ではその原因を調査。LMは信頼性の高い「健全なメカニズム」と不正確な「欠陥のあるメカニズム」に依存しており、エラーは後者が前者を覆い隠すことで発生する。RASteerという手法を導入し、信頼できるコンポーネントの寄与を特定・増加させることで、バランスの取れた括弧タスクの性能を大幅に向上させ、精度を0%から約100%に引き上げた。また、算術推論タスクでも約20%の性能向上を達成した。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] RLZero: Direct Policy Inference from Language Without In-Domain Supervision, Harshit Sikchi+, NeurIPS'25 GPT Summary- 報酬仮説に基づき、自然言語を用いてRLエージェントに指示を与える新しいアプローチを提案。タスク特有の監視なしで、ラベルなしのオフラインインタラクションを利用し、想像、投影、模倣の3ステップでゼロショットのポリシー推論を実現。RLZeroは、監視なしで様々なタスクにおいて直接的な行動生成能力を示す初の手法であり、YouTubeなどのビデオからもポリシーを生成可能。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Reverse Engineering Human Preferences with Reinforcement Learning, Lisa Alazraki+, NeurIPS'25 GPT Summary- LLMの応答を判定者LLMの信号を利用して前置きを生成するモデルを敵対的に調整し、下流のパフォーマンスを向上。従来の方法より高い評価スコアを達成し、検出が難しい。調整された前置き生成器は他のモデルでも効果が移転可能で、信頼性の高い評価設定の設計に寄与。人間の好みを逆工学する新たなアプローチとして、様々なタスクへの応用が期待される。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS #read-later Issue Date: 2025-09-19 [Paper Note] Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation, Liliang Ren+, NeurIPS'25 GPT Summary- 最近の言語モデルの進展により、状態空間モデル（SSM）の効率的なシーケンスモデリングが示されています。本研究では、ゲーテッドメモリユニット（GMU）を導入し、Sambaベースの自己デコーダーからのメモリを共有する新しいデコーダーハイブリッドアーキテクチャSambaYを提案します。SambaYはデコーディング効率を向上させ、長文コンテキストの性能を改善し、位置エンコーディングの必要性を排除します。実験により、SambaYはYOCOベースラインに対して優れた性能を示し、特にPhi4-mini-Flash-Reasoningモデルは推論タスクで顕著な成果を上げました。トレーニングコードはオープンソースで公開されています。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Vision-and-Language Training Helps Deploy Taxonomic Knowledge but Does Not Fundamentally Alter It, Yulu Qin+, NeurIPS'25 GPT Summary- VLトレーニングは、語彙的概念知識の分類学的理解においてテキストのみのモデルを上回る性能を示す。分析の結果、VLトレーニングは分類学的知識自体には大きな変化をもたらさないが、特定のタスクにおける知識の展開を改善することが示唆される。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Kernel Density Steering: Inference-Time Scaling via Mode Seeking for Image Restoration, Yuyang Hu+, NeurIPS'25 GPT Summary- カーネル密度ステアリング（KDS）を導入し、拡散モデルの画像復元における忠実度とアーティファクトの問題を解決。KDSは粒子アンサンブルを用いて高密度領域に誘導し、より堅牢な出力を実現。再訓練不要で多様な拡散サンプラーと統合可能。実世界のタスクでパフォーマンスを大幅に向上。 Comment

元ポスト:

Loading…

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] MOSPA: Human Motion Generation Driven by Spatial Audio, Shuyang Xu+, arXiv'25 GPT Summary- 空間オーディオに基づく人間の動作生成のために、初の包括的なデータセット（SAM）を導入し、空間オーディオと動作データを融合する拡散ベースのフレームワーク（MOSPA）を開発。MOSPAは多様でリアルな動作を生成し、最先端の性能を達成。モデルとデータセットはオープンソースとして公開予定。 Comment

pj page: https://frank-zy-dou.github.io/projects/MOSPA/index.html

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly, Zhaowei Wang+, arXiv'25 GPT Summary- 大規模な視覚-言語モデル（LCVLMs）の評価のために、MMLongBenchという初のベンチマークを提案。これは、13,331の例を含む5つのカテゴリの長コンテキスト視覚-言語タスクをカバーし、異なる画像タイプと標準化された入力長（8K-128Kトークン）で提供される。46のLCVLMsを評価した結果、単一タスクのパフォーマンスは長コンテキスト能力の指標として不十分であり、モデルには改善の余地があることが示された。MMLongBenchは次世代LCVLMsの進展を促す基盤となる。 Comment

pj page: https://zhaowei-wang-nlp.github.io/MMLongBench-page/

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] MDNS: Masked Diffusion Neural Sampler via Stochastic Optimal Control, Yuchen Zhu+, NeurIPS'25 GPT Summary- ターゲット確率質量関数から離散状態空間のサンプルを生成するために、$\textbf{M}$asked $\textbf{D}$iffusion $\textbf{N}$eural $\textbf{S}$ampler（$\textbf{MDNS}$）を提案。MDNSは、連続時間マルコフ連鎖に基づく新しいフレームワークで、離散ニューラルサンプラーを訓練。広範な実験により、MDNSは高次元の問題でもターゲット分布から正確にサンプリングでき、他の手法を大きく上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] How Do Flow Matching Models Memorize and Generalize in Sample Data Subspaces?, Weiguo Gao+, NeurIPS'25 GPT Summary- 実世界のデータは低次元構造に存在し、サンプルデータサブスペースを観察することが重要である。本研究では、Flow Matchingモデルを用いて、サンプルを信頼性高く合成する方法を探求。最適な速度場を導出し、生成されたサンプルが実データを記憶し、サブスペースを正確に表現することを示す。さらに、OSDNetを導入し、速度場をサブスペース成分とオフサブスペース成分に分解。これにより、生成されたサンプルが近接性と多様性を保持することを保証する。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos, Zhen Xu+, NeurIPS'25 GPT Summary- 4DGTという4Dガウスベースのトランスフォーマーモデルを提案。実世界の単眼ポーズ付きビデオで訓練され、静的・動的要素を統合し複雑な環境をモデル化。新しい密度制御戦略により、長い時空間入力を処理し、効率的なレンダリングを実現。フィードフォワード推論により再構築時間を数秒に短縮し、長いビデオシーケンスにも対応。4DGTは従来の手法を大幅に上回る性能を示す。 Comment

元ポスト:

Loading…

#Pocket #TMLR Issue Date: 2025-09-19 [Paper Note] Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens, Usman Anwar+, TMLR'25 GPT Summary- 本研究では、トランスフォーマーの文脈内学習における敵対的ロバスト性をハイジャック攻撃を通じて調査し、線形トランスフォーマーとGPT-2が脆弱であることを示した。敵対的トレーニングによりロバスト性が向上することも確認。さらに、トランスフォーマーと線形モデルの敵対的脆弱性を比較し、異なるシードから訓練されたトランスフォーマー間で攻撃の転送が不十分であること、また古典的な線形モデルとの間で攻撃が転送されないことを観察した。これにより、トランスフォーマーの文脈内学習アルゴリズムと従来のアルゴリズムとの質的な違いが示唆された。 Comment

openreview: https://openreview.net/forum?id=CtMXJxO7SJ

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Grounded Reinforcement Learning for Visual Reasoning, Gabriel Sarch+, NeurIPS'25 GPT Summary- ViGoRL（視覚的に基づいた強化学習）は、視覚的推論を強化するためにRLで訓練されたモデルで、推論ステップを視覚座標に結びつける。人間の視覚的意思決定に触発され、関連領域に視覚的注意を向けることを学習。マルチターンRLフレームワークにより、動的にズームインが可能。多様な視覚的推論ベンチマークで従来の手法を上回り、V*Benchで86.4%を達成。視覚的参照が空間的に正確で、推論ステップの理解を助けることが示された。視覚的に基づいたRLは汎用的な視覚的推論を実現する強力な手法である。 Comment

pj page: https://visually-grounded-rl.github.io

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning, Roger Creus Castanyer+, NeurIPS'25 GPT Summary- 深層強化学習ネットワークのスケーリングにおける性能低下の原因を分析し、非定常性とアーキテクチャ選択の問題が根底にあることを示す。勾配の流れを安定させる介入を提案し、様々なネットワークで堅牢な性能を実現。提案手法は実装が簡単で、既存のアルゴリズムと互換性があり、大規模でも効果的な性能を発揮することを検証。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-19 [Paper Note] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training, Shizhe Diao+, NeurIPS'25 GPT Summary- CLIMB（CLustering-based Iterative Data Mixture Bootstrapping）を提案し、プレトレーニングデータの最適な混合を自動化するフレームワークを構築。大規模データセットをクラスタリングし、小規模モデルで最適な混合を探索。400Bトークンのトレーニングで1BモデルがLlama-3.2-1Bを2.0%上回り、特定ドメインで5%の改善を達成。新たにClimbLabとClimbMixデータセットを紹介し、効率的なプレトレーニングを実現。 Comment

pj page: https://research.nvidia.com/labs/lpr/climb/

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-09-17 [Paper Note] LATTE: Learning to Think with Vision Specialists, Zixian Ma+, EMNLP'25 GPT Summary- LATTEは、視覚専門家と連携して学習する視覚-言語モデルであり、複雑な質問に対する推論能力を向上させる。視覚モデルに知覚をオフロードすることで、LATTEは高品質な知覚情報に基づいて推論に集中できる。293Kのマルチモーダル推論トレースを用いて訓練されたLATTEは、6つのベンチマークで4-5%の性能向上を達成した。アブレーションスタディでは、推論トレースの効果がデータソースやフォーマットに依存することが示された。 Comment

pj page: https://latte-web.github.io

元ポスト:

Loading…

#Pocket #ICML Issue Date: 2025-09-12 [Paper Note] Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts, Jiahai Feng+, ICML'25 GPT Summary- 事前学習された言語モデル（LMs）は、ファインチューニングされた事実の含意を一般化する能力を持つが、そのメカニズムは不明である。本研究では、LMのコンポーネントが協調して一般化を実現するフレームワークとして「抽出構造」を提案。これは、トレーニング事実を重みの変化として保存する情報コンポーネントと、保存された情報を処理する抽出コンポーネントから成る。データの順序効果と重みの接ぎ木効果を予測し、複数のモデルで実証。結果は、事実の学習が初期層と後期層の両方で行われる可能性を示唆し、異なる形の一般化に寄与することを明らかにした。 Comment

openreview: https://openreview.net/forum?id=W0GrWqqTJo&referrer=%5Bthe%20profile%20of%20Stuart%20Russell%5D(%2Fprofile%3Fid%3D~Stuart_Russell1)

#Pocket #Attention Issue Date: 2025-09-10 [Paper Note] Causal Attention with Lookahead Keys, Zhuoqing Song+, arXiv'25 GPT Summary- CASTLE（CAuSal aTtention with Lookahead kEys）は、トークンのキーをコンテキストに応じて継続的に更新する新しい因果注意機構を提案。これにより、後に現れるトークンからの情報を統合しつつ自己回帰的特性を保持。効率的な並列トレーニングを実現し、言語モデルのベンチマークで標準的な因果注意機構を上回る性能を示す。 Comment

元ポスト:

Loading…

#Pocket #Length #RLVR Issue Date: 2025-09-10 [Paper Note] $ΔL$ Normalization: Rethink Loss Aggregation in RLVR, Zhiyuan He+, arXiv'25 GPT Summary- RLにおける検証可能な報酬の動的生成長に対応した損失集約手法$\Delta L$正規化を提案。従来手法の問題点を克服し、ポリシー損失の不偏推定を提供しつつ勾配の分散を最小化。実験により、様々なモデルサイズやタスクで優れた結果を達成。コードは公開予定。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #ICML Issue Date: 2025-09-10 [Paper Note] Value-Based Deep RL Scales Predictably, Oleh Rybkin+, ICML'25 GPT Summary- 価値ベースのオフポリシー強化学習手法が予測可能であることを示し、特定のパフォーマンスを達成するためのデータと計算の要件をパレートフロンティア上で制御。リソース予算の最適な配分を決定し、ハイパーパラメータを調整することでパフォーマンスを最大化。DeepMind Control、OpenAI Gym、IsaacGymで3つのアルゴリズムを用いて検証。 Comment

openreview: https://openreview.net/forum?id=FLPFPYJeVU

#Pocket #DiffusionModel Issue Date: 2025-09-04 [Paper Note] Any-Order Flexible Length Masked Diffusion, Jaeyeon Kim+, arXiv'25 GPT Summary- 柔軟なマスク付き拡散モデル（FlexMDMs）を提案し、固定長の生成制限を克服。FlexMDMsは、任意の長さのシーケンスをモデル化し、MDMsの推論の柔軟性を保持。合成迷路計画タスクで約60％の成功率向上を達成し、事前学習されたMDMsを簡単に再調整可能。ファインチューニングにより、数学とコード補完でパフォーマンスが向上。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

#Pocket #Medical Issue Date: 2025-09-03 [Paper Note] Baichuan-M2: Scaling Medical Capability with Large Verifier System, Baichuan-M2 Team+, arXiv'25 GPT Summary- 医療分野におけるLLMsの実用的応用には、静的ベンチマークと臨床意思決定の間にギャップが存在する。この課題に対処するため、動的検証フレームワークを導入し、患者シミュレーターと臨床ルーブリック生成器を用いて、Baichuan-M2という医療拡張推論モデルを開発。HealthBenchでの評価において、Baichuan-M2は他のモデルを上回り、GPT-5を超えるスコアを達成。研究は、動的検証システムがLLMの臨床応用において重要であることを示す。 Comment

元ポスト: https://huggingface.co/baichuan-inc/Baichuan-M2-32B

元ポスト:

Loading…

#Pocket #read-later Issue Date: 2025-09-02 [Paper Note] Stepwise Reasoning Checkpoint Analysis: A Test Time Scaling Method to Enhance LLMs' Reasoning, Zezhong Wang+, arXiv'25 GPT Summary- SRCAを提案し、数学的推論における経路の均質化を減少させる。中間チェックポイントを用いて回答をクラスタリングし、多様性を保ちながら品質を確保。実験により、SRCAが既存のTTS手法よりも推論精度を向上させることを示した。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-08-29 [Paper Note] User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal, Yuhan Liu+, EMNLP'25 GPT Summary- ユーザーとLMの相互作用ログから暗黙のユーザーフィードバックを収集する方法を研究。2つのデータセットでフィードバックの発生タイミングや理由を分析し、学習信号の収集方法を探る。短い質問ではフィードバックがモデルのパフォーマンスを向上させるが、長い質問では効果が薄いことを発見。また、フィードバックの有用性は初期プロンプトの質に依存することがわかった。暗黙のユーザーフィードバックの可能性と限界を示す。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-08-28 [Paper Note] VerIF: Verification Engineering for Reinforcement Learning in Instruction Following, Hao Peng+, arXiv'25 GPT Summary- 強化学習における検証可能な報酬（RLVR）の課題を探求し、ルールベースのコード検証と大規模推論モデルを組み合わせた検証手法VerIFを提案。約22,000のインスタンスを含むデータセットVerInstructを構築し、VerIFを用いたRLトレーニングで性能を大幅に向上。トレーニングされたモデルは最先端の性能を達成し、一般化能力も維持。データセットやコードは公開されている。 Comment

元ポスト:

Loading…

#Pocket #PRM Issue Date: 2025-08-27 [Paper Note] StepWiser: Stepwise Generative Judges for Wiser Reasoning, Wei Xiong+, arXiv'25 GPT Summary- 多段階の推論戦略における中間ステップの論理的妥当性を監視するために、StepWiserモデルを提案。これは、生成的なジャッジを用いて推論ステップを評価し、強化学習で訓練される。中間ステップの判断精度を向上させ、ポリシーモデルの改善や推論時の探索を促進することを示す。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-08-27 [Paper Note] Attention Layers Add Into Low-Dimensional Residual Subspaces, Junxuan Wang+, arXiv'25 GPT Summary- トランスフォーマーモデルの注意出力は低次元の部分空間に制約されており、約60％の方向が99％の分散を占めることを示した。この低ランク構造がデッドフィーチャー問題の原因であることを発見し、スパースオートエンコーダーのために部分空間制約トレーニング手法を提案。これにより、デッドフィーチャーを87％から1％未満に削減し、スパース辞書学習の改善に寄与する新たな洞察を提供。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-08-22 [Paper Note] MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness, Junsheng Huang+, EMNLP'25 GPT Summary- LLMのハルシネーション問題に対処するため、複数の問題に同時に対応する新手法MAC-Tuningを提案。回答予測と信頼度推定を分離して学習し、実験で平均精度が最大25%向上したことを示す。 Comment

元ポスト:

Loading…

#Pocket #EMNLP Issue Date: 2025-08-21 [Paper Note] Paths Not Taken: Understanding and Mending the Multilingual Factual Recall Pipeline, Meng Lu+, EMNLP'25 GPT Summary- 多言語LLMsは英語での事実再呼出しに優れていますが、他言語ではパフォーマンスが低下します。原因として、英語中心のメカニズムの不十分な活用と再翻訳時の誤りを特定。これに対処するため、言語に依存しない二つの介入を導入し、再呼出し精度を35％以上向上させました。この研究は、メカニズムの理解がLLMsの多言語能力を引き出す手助けとなることを示しています。 Comment

元ポスト:

Loading…

#Pocket #EMNLP #Findings Issue Date: 2025-08-21 [Paper Note] Evaluating Step-by-step Reasoning Traces: A Survey, Jinu Lee+, EMNLP'25 Findings GPT Summary- ステップバイステップの推論はLLMの能力向上に寄与するが、評価手法は一貫性に欠ける。本研究では、推論評価の包括的な概要と、事実性、有効性、一貫性、実用性の4カテゴリからなる評価基準の分類法を提案。これに基づき、評価者の実装や最近の発見をレビューし、今後の研究の方向性を示す。 Comment

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-08-21 [Paper Note] SSRL: Self-Search Reinforcement Learning, Yuchen Fan+, NeurIPS'25 GPT Summary- 大規模言語モデル（LLMs）が強化学習（RL）におけるエージェント検索タスクの効率的なシミュレーターとして機能する可能性を探求。LLMsの内在的な検索能力を定量化するSelf-Searchを導入し、BrowseCompタスクで高いパフォーマンスを示す。Self-Search RL（SSRL）を通じてLLMsの能力を強化し、外部ツールへの依存を減少。実証評価により、SSRLで訓練されたモデルがコスト効果の高い安定した環境を提供し、LLMsがスケーラブルなRLエージェントの訓練を支援する可能性を示唆。 Comment

解説:

Loading…

解説:

Loading…

#Pocket #read-later Issue Date: 2025-08-20 [Paper Note] Reinforcement Learning with Rubric Anchors, Zenan Huang+, arXiv'25 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）を、ルーブリックベースの報酬を統合することでオープンエンドのタスクに拡張。1万以上のルーブリックを集め、Qwen-30B-A3Bモデルを開発。5K以上のサンプルで人文学のベンチマークで+5.2%の改善を達成し、表現力豊かな応答生成を実現。ルーブリックの構築やトレーニングに関する教訓を共有し、今後の展望を議論。 Comment

元ポスト:

Loading…

所見:

Loading…

#Pocket Issue Date: 2025-08-19 [Paper Note] Data Mixing Optimization for Supervised Fine-Tuning of Large Language Models, Yuan Li+, arXiv'25 GPT Summary- 大規模言語モデルのファインチューニングにおけるデータミクスの最適化を新たな手法で提案。検証損失を最小化するためにデータの転送効果をモデル化し、最適な重みを導出。実験により、提案手法が優れたパフォーマンスを示し、従来のグリッドサーチと同等の結果を得ることを確認。さらに、人気のSFTデータセットでの重み付けにより、検証損失と下流パフォーマンスの改善を実証。ドメイン特化型モデルへの応用可能性についても考察。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-08-19 [Paper Note] Thyme: Think Beyond Images, Yi-Fan Zhang+, arXiv'25 GPT Summary- Thyme（Think Beyond Images）は、視覚情報を推論プロセスに活用し、画像処理と計算操作を自律的に生成・実行する新しいパラダイムを提案。二段階のトレーニング戦略を用いて、推論の精度とコード実行のバランスを取るGRPO-ATSアルゴリズムを導入。約20のベンチマークで顕著な性能向上を示した。 Comment

元ポスト:

Loading…

#Pocket #read-later Issue Date: 2025-08-19 [Paper Note] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models, Zhipeng Chen+, arXiv'25 GPT Summary- 検証可能な報酬を用いた強化学習（RLVR）では、Pass@1を報酬として使用することが多く、探索と活用のバランスに課題がある。これに対処するため、Pass@kを報酬としてポリシーモデルを訓練し、その探索能力の向上を観察。分析により、探索と活用は相互に強化し合うことが示され、利得関数の設計を含むPass@k Trainingの利点が明らかになった。さらに、RLVRのための利得設計を探求し、有望な結果を得た。 Comment

元ポスト:

Loading…

#Pocket #ACL #read-later Issue Date: 2025-08-03 [Paper Note] Language Models Resist Alignment: Evidence From Data Compression, Jiaming Ji+, ACL'25 GPT Summary- 本研究では、大規模言語モデル（LLMs）の整合性ファインチューニングが、意図しない行動を示す原因となる「elasticity」を理論的および実証的に探求。整合後のモデルは、事前学習時の行動分布に戻る傾向があり、ファインチューニングが整合性を損なう可能性が示された。実験により、モデルのパフォーマンスが急速に低下し、その後事前学習分布に戻ることが確認され、モデルサイズやデータの拡張とelasticityの相関も明らかに。これにより、LLMsのelasticityに対処する必要性が強調された。 #Pocket #ACL #read-later Issue Date: 2025-08-03 [Paper Note] A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive, Sarath Sivaprasad+, ACL'25 GPT Summary- LLMのサンプリング行動を調査し、ヒューリスティクスが人間の意思決定に類似していることを示す。サンプルは統計的規範から処方的要素に逸脱し、公衆衛生や経済動向において一貫して現れる。LLMの概念プロトタイプが処方的規範の影響を受け、人間の正常性の概念に類似。ケーススタディを通じて、LLMの出力が理想的な値にシフトし、偏った意思決定を引き起こす可能性があることを示し、倫理的懸念を提起。 #read-later Issue Date: 2025-07-31 A New Formulation of Zipf’s Meaning-Frequency Law through Contextual Diversity, Nagata+, ACL'25 GPT Summary- 本論文では、Zipfの意味-頻度法則を単語の頻度と文脈の多様性の関係として定式化し、言語モデルから得られた単語ベクトルを用いて意味のカウントを定量化する新たな解釈を提案。さらに、LMのサイズが小さいと法則が観測できないことを示し、自回帰型LMがマスク型LMよりも多くのパラメータを必要とすることを明らかにした。 #Pocket Issue Date: 2025-07-24 [Paper Note] RankMixer: Scaling Up Ranking Models in Industrial Recommenders, Jie Zhu+, arXiv'25 GPT Summary- RankMixerは、推薦システムのスケーラビリティを向上させるための新しいアーキテクチャで、トランスフォーマーの並列性を活かしつつ、効率的な特徴相互作用を実現。Sparse-MoEバリアントを用いて10億パラメータに拡張し、動的ルーティング戦略で専門家の不均衡を解消。実験により、1兆スケールのデータセットで優れたスケーリング能力を示し、MFUを4.5%から45%に向上させ、推論レイテンシーを維持しつつパラメータを100倍に増加。オンラインA/Bテストで推薦、広告、検索の各シナリオにおける効果を確認し、ユーザーのアクティブ日数を0.2%、アプリ内使用時間を0.5%改善。 Comment

元ポスト:

Loading…

#Pocket #read-later Issue Date: 2025-07-16 [Paper Note] Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models, Youmi Ma+, arXiv'25 GPT Summary- 本研究では、人間が書いた指示を用いた指示調整データセットを構築し、LLMの性能向上を図る。人間由来のデータで微調整されたモデルは、既存のデータセットで調整されたモデルを上回る結果を示し、日本語データセットでも同様の成果を確認。指示調整によりLLMは指示に従う能力を向上させるが、文化特有の知識が不足していることが明らかに。データセットとモデルは公開予定で、多様な使用ケースに対応可能。 #Pocket #ICML Issue Date: 2025-07-15 [Paper Note] The Value of Prediction in Identifying the Worst-Off, Unai Fischer-Abaigar+, arXiv'25 GPT Summary- 機械学習を用いて最も脆弱な個人を特定し支援する政府プログラムの影響を検討。特に、平等を重視した予測が福祉に与える影響と他の政策手段との比較を行い、ドイツの長期失業者に関するケーススタディを通じてその効果を分析。政策立案者に対して原則に基づいた意思決定を支援するフレームワークとデータ駆動型ツールを提供。 Comment

openreview: https://openreview.net/forum?id=26JsumCG0z

#Pocket #ICML Issue Date: 2025-07-15 [Paper Note] Conformal Prediction as Bayesian Quadrature, Jake C. Snell+, arXiv'25 GPT Summary- 機械学習の予測モデルの理解が重要になる中、コンフォーマル予測をベイズ的視点から再考し、頻度主義的保証の限界を指摘。ベイズ的数値積分に基づく新たな手法を提案し、解釈可能な保証と損失の範囲を豊かに表現する。 Comment

openreview: https://openreview.net/forum?id=PNmkjIzHB7

ICML'25 outstanding papers

#Pocket #ICML Issue Date: 2025-07-15 [Paper Note] Roll the dice & look before you leap: Going beyond the creative limits of next-token prediction, Vaishnavh Nagarajan+, arXiv'25 GPT Summary- 最小限のアルゴリズムタスクを設計し、現代の言語モデルの創造的限界を定量化。タスクは新しい接続の発見やパターン構築を必要とし、次トークン学習の限界を論じる。マルチトークンアプローチが独創的な出力を生成し、入力層へのノイズ注入が効果的であることを発見。研究は創造的スキル分析のためのテストベッドを提供し、新たな議論を展開。コードはGitHubで公開。 Comment

openreview: https://openreview.net/forum?id=Hi0SyHMmkd

ICML'25 outstanding papers

#Pocket #ICML Issue Date: 2025-07-15 [Paper Note] CollabLLM: From Passive Responders to Active Collaborators, Shirley Wu+, arXiv'25 GPT Summary- CollabLLMは、長期的なインタラクションを最適化するための新しい訓練フレームワークで、マルチターンの人間とLLMのコラボレーションを強化する。協調シミュレーションを用いて、応答の長期的な貢献を評価し、ユーザーの意図を明らかにすることで、より人間中心のAIを実現。文書作成などのタスクで平均18.5%のパフォーマンス向上と46.3%のインタラクティビティ改善を達成し、ユーザー満足度を17.6%向上させ、消費時間を10.4%削減した。 Comment

openreview: https://openreview.net/forum?id=DmH4HHVb3y

ICML'25 outstanding papers

#Pocket Issue Date: 2025-07-15 [Paper Note] Auditing Prompt Caching in Language Model APIs, Chenchen Gu+, arXiv'25 GPT Summary- プロンプトキャッシングはLLMにおいてタイミング変動を引き起こし、サイドチャネル攻撃のリスクをもたらす。キャッシュが共有されると、攻撃者は迅速な応答から他ユーザーのプロンプトを特定できる可能性がある。これによりプライバシー漏洩の懸念が生じ、APIプロバイダーの透明性が重要となる。本研究では、実世界のLLM APIプロバイダーにおけるプロンプトキャッシングを検出するための統計監査を開発し、7つのAPIプロバイダー間でのキャッシュ共有を確認し、潜在的なプライバシー漏洩を示した。また、OpenAIの埋め込みモデルに関する新たな情報も発見した。 #Pocket #COLM Issue Date: 2025-07-15 [Paper Note] L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning, Pranjal Aggarwal+, COLM'25 GPT Summary- Length Controlled Policy Optimization（LCPO）を導入し、推論言語モデルL1を訓練。これにより、出力の長さを制御しつつ計算コストと精度のトレードオフを最適化。LCPOは、長さ制御において最先端の手法S1を上回る性能を示し、1.5B L1モデルは同じ推論の長さでGPT-4oを超える結果を得た。 Comment

元ポスト:

Loading…

#Pocket #Tokenizer #COLM Issue Date: 2025-07-15 [Paper Note] SuperBPE: Space Travel for Language Models, Alisa Liu+, COLM'25 GPT Summary- SuperBPEという新しいトークナイザーを導入し、サブワードを超えたトークン化を実現。これにより、エンコーディング効率が33%向上し、30のダウンストリームタスクで平均+4.0%の性能改善を達成。SuperBPEは意味的に単一の単位として機能する表現を捉え、全体的に優れた言語モデルを提供する。 Comment

元ポスト:

Loading…

#Pocket #ICML #FlowMatching Issue Date: 2025-07-13 [Paper Note] Temporal Difference Flows, Jesse Farebrother+, ICML'25 GPT Summary- 未来予測モデルの精度向上のため、幾何学的ホライズンモデル（GHMs）を用いた新手法「時間差フロー（TD-Flow）」を提案。TD-Flowは新しいベルマン方程式とフローマッチング技術を活用し、従来手法の5倍以上のホライズンで正確な予測を実現。理論的には勾配分散の低減が効果の主因であることを示し、実証的には様々なドメインでの下流タスクにおいて性能向上を確認。行動基盤モデルとの統合により、長期的な意思決定の改善も示唆。 Comment

元ポスト:

Loading…

ICML2025のベストペーパーとのこと

#Pocket #ICML Issue Date: 2025-07-10 [Paper Note] How Do Large Language Monkeys Get Their Power （Laws）?, Rylan Schaeffer+, ICML'25 GPT Summary- 本研究では、マルチモーダル言語モデルの試行回数に対する成功率のスケーリング特性を探求し、単純な数学的計算が指数関数的に失敗率を減少させることを示す。成功確率の分布が重い尾を持つ場合、指数関数的スケーリングが集約的な多項式スケーリングと整合的であることを明らかにし、冪法則の逸脱を説明する方法を提案。これにより、ニューラル言語モデルの性能向上とスケーリング予測の理解が深まる。 Comment

元ポスト:

Loading…

#Pocket Issue Date: 2025-07-10 [Paper Note] The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains, Scott Geng+, arXiv'25 GPT Summary- 弱いデータポイントからなるペアの好みデータが、言語モデルの性能向上に寄与することを示す。デルタ学習仮説を提唱し、相対的な質のデルタが学習を促進することを検証。8Bモデルを小型モデルの出力とペアにして後訓練した結果、標準ベンチマークで最先端モデルに匹敵する性能を達成。デルタ学習は、シンプルで安価な後訓練手法を提供することを示唆。 Comment

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-07-09 [Paper Note] When Does Metadata Conditioning （NOT） Work for Language Model Pre-Training? A Study with Context-Free Grammars, Rei Higuchi+, COLM'25 GPT Summary- メタデータを事前学習データの先頭に追加することで、言語モデルの潜在的な意味の獲得能力を向上させるアプローチを調査。下流タスクにおいて正の効果と負の効果が見られ、効果はコンテキストの長さに依存。十分な長さのコンテキストがあれば性能向上が確認されたが、情報が不足している場合は悪影響を及ぼすことが示された。 Comment

元ポスト:

Loading…

#Pocket #FlowMatching Issue Date: 2025-07-09 [Paper Note] Mean Flows for One-step Generative Modeling, Zhengyang Geng+, arXiv'25 GPT Summary- ワンステップ生成モデリングのための新しいフレームワーク「MeanFlow」を提案。平均速度の概念を導入し、瞬間速度と対比させることで、神経ネットワークのトレーニングを導く。MeanFlowは自己完結型で、事前トレーニングを必要とせず、ImageNet 256x256でFID 3.43を達成し、従来のモデルを上回る性能を示す。研究はワンステップモデルとマルチステップモデルのギャップを縮小し、今後の研究の基礎を再考することを促す。 Comment

元ポスト:

Loading…

#Pocket #Reproducibility Issue Date: 2025-07-09 [Paper Note] RecRankerEval: A Flexible and Extensible Framework for Top-k LLM-based Recommendation, Zeyuan Meng+, arXiv'25 GPT Summary- RecRankerはLLMに基づく推薦モデルで、トップk推薦タスクで優れた性能を示すが、各コンポーネントの貢献は未探求。本研究ではRecRankerの再現性を検証し、主要コンポーネントの影響を分析。再現実験でペアワイズおよびリストワイズ手法が元の性能に匹敵することを確認。プロンプトにグラウンドトゥルース情報が含まれることでポイントワイズ手法の性能が異常に高くなることも明らかに。ユーザーサンプリング戦略や初期推薦モデルなど5つの次元をカバーするフレームワークRecRankerEvalを提案し、ML-100KおよびML-1Mデータセットで元の結果を再現。代替手法を用いることで性能向上も示唆。 Comment

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-07-09 [Paper Note] Agent S2: A Compositional Generalist-Specialist Framework for Computer Use Agents, Saaket Agashe+, COLM'25 GPT Summary- Agent S2は、GUIとの対話を通じてデジタルタスクを自動化する新しいエージェントで、一般モデルと専門モデルに認知的責任を分担させるフレームワークを採用。Mixture-of-Grounding技術でGUIの位置特定を向上させ、Proactive Hierarchical Planningで動的なアクションプランを実現。評価では、OSWorldの15ステップおよび50ステップでそれぞれ18.9%と32.7%の改善を達成し、他のシステムでも優れた性能を示した。 Comment

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-07-09 [Paper Note] ReasonIR: Training Retrievers for Reasoning Tasks, Rulin Shao+, COLM'25 GPT Summary- 推論タスク向けに特別に訓練されたリトリーバーReasonIR-8Bを提案。合成データ生成パイプラインを用いて挑戦的なクエリとハードネガティブを作成し、訓練。BRIGHTベンチマークで新たな最先端成果を達成し、RAGタスクでも他のリトリーバーを上回る性能を示す。トレーニングレシピは一般的で、将来のLLMへの拡張が容易。コード、データ、モデルはオープンソースで公開。 Comment

元ポスト:

Loading…

#Pocket #COLM Issue Date: 2025-07-09 [Paper Note] Learning to Generate Unit Tests for Automated Debugging, Archiki Prasad+, COLM'25 GPT Summary- ユニットテスト（UT）の重要性を踏まえ、UTGenを提案し、LLMを用いてエラーを明らかにするUT入力とその期待出力を生成。UTDebugを併用することで、出力予測の改善とオーバーフィッティングの回避を実現。UTGenは他のLLMベースラインを7.59%上回り、UTDebugと組み合わせることでQwen2.5の精度をそれぞれ3.17%および12.35%向上。最終的に、UTGenはHumanEval+で最先端モデルを4.43%上回る性能を示した。 Comment

元ポスト:

Loading…

#Pocket #read-later Issue Date: 2025-06-23 [Paper Note] Reinforcement Learning Teachers of Test Time Scaling, Edoardo Cetin+, arXiv'25 GPT Summary- 強化学習教師（RLT）を用いて推論言語モデル（LM）のトレーニングを行い、タスク探索の課題を回避する新しいフレームワークを提案。RLTは問題の質問と解決策を提示し、学生に合わせた説明を通じて理解をテストし、密な報酬でトレーニングされる。7BのRLTは、競技および大学レベルのタスクで既存の蒸留パイプラインよりも高いパフォーマンスを示し、分布外タスクへの適用でも効果を維持する。 Comment

元ポスト:

Loading…

#Pocket #ICLR Issue Date: 2024-10-11 GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, Iman Mirzadeh+, N_A, ICLR'25 GPT Summary- 最近のLLMsの進展により、数学的推論能力への関心が高まっているが、GSM8Kベンチマークの信頼性には疑問が残る。これに対処するため、GSM-Symbolicという新しいベンチマークを導入し、モデルの推論能力をより正確に評価。調査結果は、モデルが同じ質問の異なる具現化に対してばらつきを示し、特に数値変更や質問の節の数が増えると性能が著しく低下することを明らかにした。これは、LLMsが真の論理的推論を行えず、トレーニングデータからの再現に依存しているためと考えられる。全体として、研究は数学的推論におけるLLMsの能力と限界についての理解を深める。 Comment

元ポスト:

Loading…

May I ask if this work is open source?

I'm sorry, I just noticed your comment. From what I could see in the repository and OpenReview discussion, some parts of the dataset, such as GSMNoOp, are not part of the current public release. The repository issues also mention that the data generation code is not included at the moment. This is just based on my quick check, so there may be more updates or releases coming later.

OpenReview: https://openreview.net/forum?id=AjXkRZIvjB
Official blog post: https://machinelearning.apple.com/research/gsm-symbolic
Repo: https://github.com/apple/ml-gsm-symbolic
HuggingFace: https://huggingface.co/datasets/apple/GSM-Symbolic

#Pocket #ICLR Issue Date: 2025-11-28 [Paper Note] InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation, Xingchao Liu+, ICLR'24, 2023.09 GPT Summary- 本論文では、拡散モデルを用いたテキストから画像への生成において、従来の多段階サンプリングプロセスの遅さを改善するために、Rectified Flowを活用した新しい一段階モデル「InstaFlow」を提案します。InstaFlowは、Stable Diffusionの品質を維持しつつ、MS COCO 2017-5kでFIDを23.3に改善し、従来の手法を大きく上回る性能を示しました。また、MS COCO 2014-30kでは、わずか0.09秒でFID 13.1を達成し、トレーニングには199 A100 GPU日を要しました。コードとモデルは公開されています。 Comment

ポイント解説: https://note.com/betaitohuman/n/n34c6cb55b13e

日本語解説: https://blog.shikoan.com/web-voyager/

openreview: https://openreview.net/forum?id=xcqSOfHt4g&referrer=%5Bthe%20profile%20of%20Michalis%20Titsias%5D(%2Fprofile%3Fid%3D~Michalis_Titsias1)

- Masked Diffusion Modelの進展, Deep Learning JP, 2025.03

で紹介されている

次:
- Large Language Diffusion Models, Shen Nie+, NeurIPS'25

#Pocket #ECCV Issue Date: 2025-11-02 [Paper Note] MeshVPR: Citywide Visual Place Recognition Using 3D Meshes, Gabriele Berton+, ECCV'24, 2024.06 GPT Summary- メッシュベースのシーン表現を用いた新しい視覚的場所認識パイプラインMeshVPRを提案。合成メッシュデータベース使用時の性能低下に対処するため、実世界と合成ドメインのギャップを埋める特徴整合フレームワークを導入。広範な評価により、MeshVPRが従来のVPRパイプラインと競争力のある性能を示し、メッシュベースのローカリゼーションシステムの可能性を開くことを確認。データとコードは公開されている。 Comment

pj page: https://meshvpr.github.io/

元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-09-23 [Paper Note] LASeR: Learning to Adaptively Select Reward Models with Multi-Armed Bandits, Duy Nguyen+, arXiv'24, 2024.10 GPT Summary- LASeRを導入し、報酬モデルの選択を多腕バンディット問題として定式化。これにより、最適なRMを選択しながらLLMsを効率的に訓練。常識的および数学的推論タスクでLlama-3-8Bの精度を2.67%向上させ、2倍のスピードアップを実現。WildChatタスクでは72.69%の勝率を達成し、長文生成でもF1ポイントの改善を示す。 Comment

元ポスト:

Loading…

#Pocket #ReinforcementLearning #NeurIPS Issue Date: 2025-09-09 [Paper Note] Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback, Hamish Ivison+, NeurIPS'24 GPT Summary- 好みのフィードバックから学ぶことは、言語モデルの生成品質向上に重要である。本研究では、好みに基づく学習の4つの核心的側面（好みデータ、学習アルゴリズム、報酬モデル、ポリシートレーニングプロンプト）を特定し、それぞれの影響を調査。特に、良質な好みデータが最も大きな改善をもたらし、次いで学習アルゴリズムや報酬モデルの改善が続くことを示した。PPOを用いることで数学分野で最大2.5%、一般分野で1.2%の改善が見られ、高品質の好みデータは指示遵守能力に最大8%の向上をもたらした。 Comment

openreview: https://openreview.net/forum?id=JMBWTlazjW

以下のオンライン vs. オフラインRLのポストで本研究が引用されている:

Loading…

#Pocket Issue Date: 2025-09-03 [Paper Note] MetricX-24: The Google Submission to the WMT 2024 Metrics Shared Task, Juraj Juraska+, arXiv'24 GPT Summary- 本論文では、WMT24 Metrics Shared TaskにおけるMetricX-24の提出内容と前バージョンからの改善点を説明。参照ベースと非参照ベースのハイブリッドメトリックを提案し、翻訳のスコア付けを行う。二段階で訓練され、合成例を用いて一般的な失敗モードに対する堅牢性を向上。アブレーションスタディにより、MetricX-23に対する性能向上を示した。 #Pocket #EMNLP Issue Date: 2025-08-21 [Paper Note] Annotation-Efficient Preference Optimization for Language Model Alignment, Yuu Jinnai+, EMNLP'24 GPT Summary- AEPO（Annotation-Efficient Preference Optimization）は、限られたアノテーション予算を活用し、質と多様性を最大化する応答のサブセットに対して好みをアノテーションする手法。これにより、従来のDPOモデルよりも優れた性能を発揮することを示した。 Comment

元ポスト:

Loading…

#Pocket #ICML Issue Date: 2025-07-18 [Paper Note] Programming Every Example: Lifting Pre-training Data Quality Like Experts at Scale, Fan Zhou+, arXiv'24 GPT Summary- 本論文では、0.3Bパラメータの小規模言語モデルが人間の専門家に匹敵するデータ精製能力を持つことを示し、データ精製をプログラミングタスクとして扱う新しいフレームワーク「Programming Every Example (ProX)」を提案します。ProXは、各例に対して細かい操作を生成・実行することでコーパスを大規模に精製し、実験結果ではProXによってキュレーションされたデータで事前学習されたモデルが、元のデータや他の方法よりも2%以上の性能向上を示しました。また、ProXはドメイン特化型の継続的事前学習でも効果を発揮し、他のモデルに対しても精度を大幅に向上させることが確認されました。さらに、ProXはトレーニングFLOPsを節約し、効率的なLLM事前学習の新たな道を提供します。全てのトレーニングおよび実装の詳細はオープンソースとして共有されています。 Comment

元ポスト:

Loading…

ポスタースクショあり

#Pocket #read-later Issue Date: 2025-07-16 [Paper Note] Why We Build Local Large Language Models: An Observational Analysis from 35 Japanese and Multilingual LLMs, Koshiro Saito+, arXiv'24 GPT Summary- ローカルな大規模言語モデル（LLMs）の構築の意義や学習内容、他言語からの能力移転、言語特有のスケーリング法則を探るため、日本語を対象に19の評価ベンチマークで35のLLMを評価。英語のトレーニングが日本語の学術スコアを向上させる一方、日本語特有のタスクには日本語テキストでのトレーニングが有効であることが示された。また、日本語能力は計算予算に応じてスケールすることが確認された。 #Pocket #read-later Issue Date: 2025-07-16 [Paper Note] Accelerating Large Language Model Training with 4D Parallelism and Memory Consumption Estimator, Kazuki Fujii+, arXiv'24 GPT Summary- 本研究では、Llamaアーキテクチャにおける4D並列トレーニングに対して、メモリ使用量を正確に推定する公式を提案。A100およびH100 GPUでの454回の実験を通じて、一時バッファやメモリの断片化を考慮し、推定メモリがGPUメモリの80％未満であればメモリ不足エラーが発生しないことを示した。この公式により、メモリオーバーフローを引き起こす並列化構成を事前に特定でき、最適な4D並列性構成に関する実証的な洞察を提供する。 #Pocket #read-later Issue Date: 2025-07-16 [Paper Note] Building a Large Japanese Web Corpus for Large Language Models, Naoaki Okazaki+, arXiv'24 GPT Summary- 日本語LLMsのために、Common Crawlから634億ページを抽出・精製し、約3121億文字の大規模日本語ウェブコーパスを構築。これは既存のコーパスを上回り、Llama 2を用いた事前訓練で日本語ベンチマークデータセットにおいて6.6-8.1ポイントの改善を達成。特にLlama 2 13Bの改善が最も顕著であった。 #Pocket #read-later Issue Date: 2025-07-16 [Paper Note] Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities, Kazuki Fujii+, arXiv'24 GPT Summary- 大規模言語モデル「Swallow」は、Llama 2の語彙を日本語に拡張し、日本語ウェブコーパスで継続的事前学習を行うことで日本語能力を向上させた。実験により、日本語タスクの性能が大幅に向上し、トレーニングデータが増加するにつれて性能が向上することが確認された。Swallowは他のLLMと比較して優れた性能を示し、特に日本語の質問応答タスクに効果的であることが明らかになった。また、語彙の拡張と平行コーパスの利用が性能に与える影響を調査し、平行コーパスの併用が翻訳能力を向上させることを示した。 #Pocket #ICML #Workshop Issue Date: 2025-07-15 [Paper Note] DiLoCo: Distributed Low-Communication Training of Language Models, Arthur Douillard+, ICML'24 Workshop WANT GPT Summary- 分散最適化アルゴリズム「DiLoCo」を提案し、接続が不十分なデバイスでのLLMトレーニングを可能にする。DiLoCoは、通信量を500分の1に抑えつつ、完全同期の最適化と同等の性能をC4データセットで発揮。各ワーカーのデータ分布に対して高いロバスト性を持ち、リソースの変動にも柔軟に対応可能。 Comment

openreview: https://openreview.net/forum?id=pICSfWkJIk&referrer=%5Bthe%20profile%20of%20MarcAurelio%20Ranzato%5D(%2Fprofile%3Fid%3D~MarcAurelio_Ranzato1)

- Why do LLMs attend to the first token?, Federico Barbero+, COLM'25

の先行研究。こちらでAttentionSinkがどのように作用しているのか？が分析されている。

著者による解説:

Loading…

openreview: https://openreview.net/forum?id=NG7sS51zVF

#Pocket #ACL Issue Date: 2025-01-06 Parallel Structures in Pre-training Data Yield In-Context Learning, Yanda Chen+, arXiv'24 GPT Summary- 事前学習済み言語モデル（LMs）のインコンテキスト学習（ICL）能力は、事前学習データ内の「平行構造」に依存していることを発見。平行構造とは、同じコンテキスト内で類似のテンプレートに従うフレーズのペアであり、これを除去するとICL精度が51%低下することが示された。平行構造は多様な言語タスクをカバーし、長距離にわたることが確認された。 #Pocket #ACL Issue Date: 2025-01-06 Legal Case Retrieval: A Survey of the State of the Art, Feng+, ACL'24, 2024.08 GPT Summary- 法的ケース検索（LCR）の重要性が増しており、歴史的なケースを大規模な法的データベースから検索するタスクに焦点を当てている。本論文では、LCRの主要なマイルストーンを調査し、研究者向けに関連データセットや最新のニューラルモデル、その性能を簡潔に説明する。 #Pocket #ACL Issue Date: 2025-01-06 Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models, Changyu Chen+, arXiv'24 GPT Summary- 推論タスクにおける誤りを軽減するため、外部リソースを使わずに入力に摂動を導入する手法を開発。特定のトークンをランダムにマスクすることで、Llama-2-7Bを用いたGSM8Kの精度を5％、GSM-ICの精度を10％向上させた。この手法は既存のデータ拡張手法と組み合わせることで、複数のデータセットで改善を示し、モデルが長距離依存関係を捉えるのを助ける可能性がある。コードはGithubで公開。 Comment

気になる

#Pocket #ACL Issue Date: 2025-01-06 A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques, Megh Thakkar+, arXiv'24 GPT Summary- 大規模言語モデルの整列に関する研究で、整列データセット、整列技術、モデルの3つの要因が下流パフォーマンスに与える影響を300以上の実験を通じて調査。情報量の多いデータが整列に寄与することや、監視付きファインチューニングが最適化を上回るケースを発見。研究者向けに効果的なパラメータ効率の良いLLM整列のガイドラインを提案。 #Pocket #ACL Issue Date: 2025-01-06 NICE: To Optimize In-Context Examples or Not?, Pragya Srivastava+, ACL'24 GPT Summary- タスク固有の指示がある場合、ICEの最適化が逆効果になることを発見。指示が詳細になるほどICE最適化の効果が減少し、タスクの学習可能性を定量化する指標「NICE」を提案。これにより、指示最適化とICE最適化の選択を支援するヒューリスティックを提供。 Comment

興味深い

#Pocket #ACL Issue Date: 2025-01-06 Multi-Level Feedback Generation with Large Language Models for Empowering Novice Peer Counselors, Alicja Chaszczewicz+, arXiv'24 GPT Summary- 大規模言語モデルを活用し、初心者のピアカウンセラーに文脈に応じた多層的なフィードバックを提供することを目的とした研究。上級心理療法スーパーバイザーと協力し、感情的サポートの会話に関するフィードバック注釈付きデータセットを構築。自己改善手法を設計し、フィードバックの自動生成を強化。定性的および定量的評価により、高リスクシナリオでの低品質なフィードバック生成のリスクを最小限に抑えることを示した。 #Pocket #ACL Issue Date: 2025-01-06 Learning Global Controller in Latent Space for Parameter-Efficient Fine-Tuning, Tan+, ACL'24, 2024.08 GPT Summary- 大規模言語モデル（LLMs）の高コストに対処するため、パラメータ効率の良いファインチューニング手法を提案。潜在ユニットを導入し、情報特徴を洗練することで下流タスクのパフォーマンスを向上。非対称注意メカニズムにより、トレーニングのメモリ要件を削減し、フルランクトレーニングの問題を軽減。実験結果は、自然言語処理タスクで最先端の性能を達成したことを示す。 #Pocket #ACL Issue Date: 2025-01-06 DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows, Ajay Patel+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）の利用が広がる中、標準化ツールの欠如や再現性の問題が浮上している。本論文では、研究者が簡単にLLMワークフローを実装できるオープンソースのPythonライブラリ「DataDreamer」を紹介し、オープンサイエンスと再現性を促進するためのベストプラクティスを提案する。ライブラリはGitHubで入手可能。 #Pocket #ACL Issue Date: 2025-01-06 Self-Contrast: Better Reflection Through Inconsistent Solving Perspectives, Wenqi Zhang+, arXiv'24 GPT Summary- LLMの反射能力に関する研究では、自己評価の質がボトルネックであることが判明。過信や高いランダム性が反射の質を低下させるため、自己対比（Self-Contrast）を提案し、多様な解決視点を探求・対比することで不一致を排除。これにより、LLMのバイアスを軽減し、より正確で安定した反射を促進。実験により、提案手法の効果と一般性が示された。 #Pocket #ACL Issue Date: 2025-01-06 Llama2Vec: Unsupervised Adaptation of Large Language Models for Dense Retrieval, Li+, ACL'24, 2024.08 GPT Summary- Llama2Vecは、LLMを密な検索に適応させるための新しい非監視適応アプローチであり、EBAEとEBARの2つの前提タスクを用いています。この手法は、WikipediaコーパスでLLaMA-2-7Bを適応させ、密な検索ベンチマークでの性能を大幅に向上させ、特にMSMARCOやBEIRで最先端の結果を達成しました。モデルとソースコードは公開予定です。 #Pocket #ACL Issue Date: 2025-01-06 Beyond Memorization: The Challenge of Random Memory Access in Language Models, Tongyao Zhu+, arXiv'24 GPT Summary- 生成型言語モデル（LM）のメモリアクセス能力を調査し、順次アクセスは可能だがランダムアクセスには課題があることを明らかに。暗唱技術がランダムメモリアクセスを向上させ、オープンドメインの質問応答においても顕著な改善を示した。実験コードは公開されている。 #Pocket #ACL Issue Date: 2025-01-06 Attribute First, then Generate: Locally-attributable Grounded Text Generation, Aviv Slobodkin+, arXiv'24 GPT Summary- ローカル属性付きテキスト生成アプローチを提案し、生成プロセスをコンテンツ選択、文の計画、逐次文生成の3ステップに分解。これにより、簡潔な引用を生成しつつ、生成品質と属性の正確性を維持または向上させ、事実確認にかかる時間を大幅に削減。 #Pocket #ACL Issue Date: 2025-01-06 Can LLMs Learn from Previous Mistakes? Investigating LLMs' Errors to Boost for Reasoning, Yongqi Tong+, arXiv'24 GPT Summary- 本研究では、LLMが自らの間違いから学ぶ能力を探求し、609,432の質問を含む新しいベンチマーク\textsc{CoTErrorSet}を提案。自己再考プロンプティングと間違いチューニングの2つの方法を用いて、LLMが誤りから推論能力を向上させることを実証。これにより、コスト効果の高いエラー活用戦略を提供し、今後の研究の方向性を示す。 #Pocket #ACL Issue Date: 2025-01-06 Enhancing In-Context Learning via Implicit Demonstration Augmentation, Xiaoling Zhou+, arXiv'24 GPT Summary- インコンテキスト学習（ICL）におけるデモンストレーションの質や量がパフォーマンスに影響を与える問題に対処。デモンストレーションの深い特徴分布を活用し、表現を豊かにすることで、精度を向上させる新しいロジットキャリブレーションメカニズムを提案。これにより、さまざまなPLMやタスクでの精度向上とパフォーマンスのばらつきの減少を実現。 #Pocket #ACL Issue Date: 2025-01-06 MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs, Zimu Lu+, arXiv'24 GPT Summary- MathGenieは、少規模な問題解決データセットから多様で信頼性の高い数学問題を生成する新手法。シードデータの解答を増強し、逆翻訳モデルで新しい質問に変換。解答の正確性を確保するために根拠に基づく検証戦略を採用。MathGenieLMモデル群は、5つの数学的推論データセットでオープンソースモデルを上回り、特にGSM8Kで87.7%、MATHで55.7%の精度を達成。 #Pocket #ACL Issue Date: 2025-01-06 MELA: Multilingual Evaluation of Linguistic Acceptability, Zhang+, ACL'24, 2024.08 GPT Summary- 本研究では、46,000サンプルからなる「多言語言語的受容性評価（MELA）」ベンチマークを発表し、10言語にわたるLLMのベースラインを確立。XLM-Rを用いてクロスリンガル転送を調査し、ファインチューニングされたXLM-RとGPT-4oの性能を比較。結果、GPT-4oは多言語能力で優れ、オープンソースモデルは劣ることが判明。クロスリンガル転送実験では、受容性判断の転送が複雑であることが示され、MELAでのトレーニングがXLM-Rの構文タスクのパフォーマンス向上に寄与することが確認された。 #Pocket #ACL Issue Date: 2025-01-06 Time is Encoded in the Weights of Finetuned Language Models, Kai Nylund+, ACL'24 GPT Summary- 「時間ベクトル」を提案し、特定の時間データで言語モデルをファインチューニングする手法を示す。時間ベクトルは重み空間の方向を指定し、特定の時間帯のパフォーマンスを向上させる。隣接する時間帯に特化したベクトルは近接して配置され、補間により未来の時間帯でも良好な性能を発揮。異なるタスクやモデルサイズにおいて一貫した結果を示し、時間がモデルの重み空間にエンコードされていることを示唆。 #Pocket #ACL Issue Date: 2025-01-06 Surgical Feature-Space Decomposition of LLMs: Why, When and How?, Arnav Chavan+, arXiv'24 GPT Summary- 低ランク近似は、深層学習モデルの性能向上や推論のレイテンシ削減に寄与するが、LLMにおける有用性は未解明。本研究では、トランスフォーマーベースのLLMにおける重みと特徴空間の分解の効果を実証し、圧縮と性能のトレードオフに関する洞察を提供しつつ、常識推論性能の向上も示す。特定のネットワークセグメントの低ランク構造を特定し、モデルのバイアスへの影響も調査。これにより、低ランク近似が性能向上とバイアス修正の手段としての新たな視点を提供することを示した。 #Pocket #ACL Issue Date: 2025-01-06 MEFT: Memory-Efficient Fine-Tuning through Sparse Adapter, Jitai Hao+, arXiv'24 GPT Summary- PEFTを用いたLLMsのファインチューニング性能は、追加パラメータの制約から限られる。これを克服するために、メモリ効率の良い大きなアダプターを導入し、CPUメモリの大容量を活用。Mixture of Expertsアーキテクチャを採用し、GPUとCPU間の通信量を削減。これにより、限られたリソース下でも高いファインチューニング性能を達成。コードはGitHubで公開。 #Pocket #ACL Issue Date: 2025-01-06 Benchmarking Knowledge Boundary for Large Language Models: A Different Perspective on Model Evaluation, Xunjian Yin+, arXiv'24 GPT Summary- 大規模言語モデルの評価において、プロンプトに依存しない「知識境界」という新概念を提案。これにより、プロンプトの敏感さを回避し、信頼性の高い評価が可能に。新しいアルゴリズム「意味的制約を持つ投影勾配降下法」を用いて、知識境界を計算し、既存手法より優れた性能を示す。複数の言語モデルの能力を多様な領域で評価。 #Pocket #ACL Issue Date: 2025-01-06 ValueBench: Towards Comprehensively Evaluating Value Orientations and Understanding of Large Language Models, Yuanyi Ren+, arXiv'24 GPT Summary- 本研究では、LLMsの価値観と理解を評価するための心理測定ベンチマーク「ValueBench」を提案。453の価値次元を含むデータを収集し、現実的な人間とAIの相互作用に基づく評価パイプラインを構築。6つのLLMに対する実験を通じて、共通および独自の価値観を明らかにし、価値関連タスクでの専門家の結論に近い能力を示した。ValueBenchはオープンアクセス可能。 #Pocket #ACL Issue Date: 2025-01-06 AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension, Qian Yang+, arXiv'24 GPT Summary- 音声言語モデル（LALMs）の評価のために、初のベンチマークAIR-Benchを提案。これは、音声信号の理解と人間との相互作用能力を評価するもので、基本的な単一タスク能力を検査する約19,000の質問と、複雑な音声に対する理解力を評価する2,000のオープンエンド質問から構成。GPT-4を用いた評価フレームワークにより、LALMsの限界を明らかにし、今後の研究の指針を提供。 #Pocket #ACL Issue Date: 2025-01-06 Self-Alignment for Factuality: Mitigating Hallucinations in LLMs via Self-Evaluation, Xiaoying Zhang+, arXiv'24 GPT Summary- 自己整合性を用いてLLMの事実性を向上させるアプローチを提案。自己評価コンポーネントSelf-Evalを組み込み、生成した応答の事実性を内部知識で検証。信頼度推定を改善するSelf-Knowledge Tuningを設計し、自己注釈された応答でモデルをファインチューニング。TruthfulQAとBioGENタスクでLlamaモデルの事実精度を大幅に向上。 #Pocket #ACL Issue Date: 2025-01-06 Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering, Tobias Schimanski+, arXiv'24 GPT Summary- LLMsの信頼性と追跡可能性を向上させるため、情報源の質と回答の帰属を改善するファインチューニング手法を調査。自動データ品質フィルターを用いた高品質データの合成により、パフォーマンスが向上。データ品質の改善が証拠に基づくQAにおいて重要であることを示した。 #Pocket #ACL Issue Date: 2025-01-06 AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators, Jingwei+, ACL'24, 2024.08 GPT Summary- 生成AIの普及に伴い、自動事実確認手法が重要視されているが、事実主張の検出にはスケーラビリティと一般化可能性の問題がある。これに対処するため、事実主張の統一的な定義を提案し、AFaCTAという新しいフレームワークを導入。AFaCTAはLLMsを活用し、注釈の信頼度を調整する。広範な評価により、専門家の注釈作業を効率化し、PoliClaimという包括的な主張検出データセットを作成した。 #Pocket #ACL Issue Date: 2025-01-06 Dissecting Human and LLM Preferences, Junlong Li+, arXiv'24 GPT Summary- 本研究では、人間と32種類のLLMの好みを分析し、モデルの応答の品質比較における定量的な構成を理解するための詳細なシナリオ別分析を行った。人間はエラーに対して敏感でなく、自分の立場を支持する応答を好む一方、GPT-4-Turboのような高度なLLMは正確性や無害性を重視することが分かった。また、同サイズのLLMはトレーニング方法に関係なく似た好みを示し、ファインチューニングは大きな変化をもたらさないことが明らかになった。さらに、好みに基づく評価は操作可能であり、モデルを審査員の好みに合わせることでスコアが向上することが示された。 #Pocket #ACL Issue Date: 2025-01-06 Selene: Pioneering Automated Proof in Software Verification, Lichen Zhang+, arXiv'24 GPT Summary- ソフトウェア検証の自動化が求められる中、seL4に基づく初のプロジェクトレベルの自動証明ベンチマークSeleneを提案。Seleneは包括的な証明生成フレームワークを提供し、LLMs（GPT-3.5-turboやGPT-4）を用いた実験でその能力を示す。提案する強化策により、Seleneの課題が今後の研究で軽減可能であることを示唆。 #Pocket #ACL Issue Date: 2025-01-06 Evaluating Intention Detection Capability of Large Language Models in Persuasive Dialogues, Sakurai+, ACL'24, 2024.08 GPT Summary- LLMsを用いてマルチターン対話における意図検出を調査。従来の研究が会話履歴を無視している中、修正したデータセットを用いて意図検出能力を評価。特に説得的対話では他者の視点を考慮することが重要であり、「フェイスアクト」の概念を取り入れることで、意図の種類に応じた分析が可能となる。 #Pocket #ACL Issue Date: 2025-01-06 Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding, Zhihan Zhang+, arXiv'24 GPT Summary- デジタル環境の進化に伴い、複雑なイベントの迅速かつ正確な分析が求められている。本論文では、長期間のニュース記事から「Temporal Complex Event（TCE）」を抽出・分析するために、LLMsを用いた新しいアプローチを提案。TCEは重要なポイントとタイムスタンプで特徴付けられ、読解力、時間的配列、未来のイベント予測の3つのタスクを含むベンチマーク「TCELongBench」を設立。実験では、リトリーバー強化生成（RAG）手法と長いコンテキストウィンドウを持つLLMsを活用し、適切なリトリーバーを持つモデルが長いコンテキストウィンドウを利用するモデルと同等のパフォーマンスを示すことが確認された。 #Pocket #ACL Issue Date: 2025-01-06 Feature-Adaptive and Data-Scalable In-Context Learning, Jiahao Li+, arXiv'24 GPT Summary- FADS-ICLは、文脈内学習を強化するための特徴適応型フレームワークで、LLMの一般的な特徴を特定の下流タスクに適合させる。実験により、FADS-ICLは従来の手法を大幅に上回り、特に1.5Bモデルでの32ショット設定では平均14.3の精度向上を達成。トレーニングデータの増加により性能がさらに向上することも示された。 #Pocket #ACL Issue Date: 2025-01-06 Mitigating Catastrophic Forgetting in Large Language Models with Self-Synthesized Rehearsal, Jianheng Huang+, arXiv'24 GPT Summary- 自己合成リハーサル（SSR）フレームワークを提案し、LLMの継続的学習における壊滅的な忘却を克服。基本のLLMで合成インスタンスを生成し、最新のLLMで洗練させることで、データ効率を高めつつパフォーマンスを向上。SSRは一般化能力を効果的に保持することが実験で示された。 #Pocket #Chip Issue Date: 2024-11-21 That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design, Anna Goldie+, arXiv'24 GPT Summary- AlphaChipは深層強化学習を用いて超人的なチップレイアウトを生成する手法で、AIチップ設計の進展を促進した。しかし、ISPD 2023での非査読論文が性能に疑問を呈し、実行方法に問題があった。著者は、事前トレーニングや計算リソースの不足、評価基準の不適切さを指摘。Igor Markovによるメタ分析も行われた。AlphaChipは広範な影響を持つが、誤解を避けるためにこの応答を発表した。 Comment

oh...

#Pocket #Grokking Issue Date: 2024-11-13 Why Do You Grok? A Theoretical Analysis of Grokking Modular Addition, Mohamad Amin Mohamadi+, arXiv'24 GPT Summary- モデルの「grokking」現象を理論的に説明し、モジュラー加算問題に関連付ける。勾配降下法の初期段階では、順列不変モデルが小さな母集団誤差を達成するために一定割合のデータポイントを観察する必要があるが、最終的にはカーネル領域を脱出する。二層の二次ネットワークが限られたトレーニングポイントでゼロのトレーニング損失を達成し、良好に一般化することを示し、実証的証拠も提供。これにより、grokkingは深層ネットワークにおける勾配降下法の制限挙動への移行の結果であることが支持される。 #Pocket #EMNLP Issue Date: 2024-07-08 Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, N_A, EMNLP'24 GPT Summary- LMsの成功の背後にある重要な手法は、教師なしのマルチタスク事前学習であるが、教師ありのマルチタスク学習も重要な可能性を秘めている。本研究では、Instruction Pre-Trainingというフレームワークを提案し、大規模な生のコーパスに効率的な指示合成器によって生成された指示-応答ペアを追加することで、LMsを事前学習する。実験では、40以上のタスクカテゴリをカバーする2億の指示-応答ペアを合成し、Instruction Pre-Trainingの効果を検証する。結果として、ゼロからの事前学習では、Instruction Pre-Trainingは事前学習済みベースモデルを強化し、継続的な事前学習では、Llama3-8BがLlama3-70Bと同等以上の性能を発揮することが示された。 Comment

参考:

Loading…

#Pocket Issue Date: 2024-03-13 Stealing Part of a Production Language Model, Nicholas Carlini+, N_A, arXiv'24 GPT Summary- OpenAIのChatGPTやGoogleのPaLM-2などのブラックボックスの言語モデルから重要な情報を抽出するモデルスティーリング攻撃を紹介。APIアクセスを利用して、transformerモデルの埋め込み射影層を回復する攻撃を行い、低コストでAdaとBabbage言語モデルの全射影行列を抽出。gpt-3.5-turboモデルの隠れた次元のサイズを回復し、2000ドル未満のクエリで全射影行列を回復すると推定。潜在的な防御策と緩和策を提案し、将来の作業の影響について議論。 #Pocket #NeurIPS Issue Date: 2024-02-25 Linear Transformers are Versatile In-Context Learners, Max Vladymyrov+, N_A, NeurIPS'24 GPT Summary- 研究では、線形transformersが複雑な問題に対して効果的な最適化アルゴリズムを見つける能力を持つことが示された。特に、トレーニングデータが異なるノイズレベルで破損している場合でも、線形transformersは合理的なベースラインを上回るか匹敵する結果を示した。新しいアプローチとして、運動量と再スケーリングを組み込んだ最適化戦略が提案された。これにより、線形transformersが洗練された最適化戦略を発見する能力を持つことが示された。 Comment

openreview: https://openreview.net/forum?id=MWV9zfgW9s

#Pocket Issue Date: 2024-01-24 Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models, Zixiang Chen+, N_A, arXiv'24 GPT Summary- 本研究では、追加の人間による注釈付きデータを必要とせずに、大規模言語モデル（LLMs）を強化する方法を提案します。そのために、Self-Play fIne-tuNing（SPIN）という新しいファインチューニング手法を開発しました。SPINでは、LLMが自身と対戦しながら能力を向上させるセルフプレイのメカニズムを利用します。具体的には、LLMは自己生成応答と人間による注釈付きデータから得られた応答を区別することでポリシーを改善します。実験結果は、SPINがLLMのパフォーマンスを大幅に改善し、専門家の対戦相手を必要とせずに人間レベルのパフォーマンスを達成できることを示しています。 #Pocket #ICML Issue Date: 2023-05-22 Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling, Weijia Xu+, N_A, ICML'24 GPT Summary- 本研究では、Repromptingという反復サンプリングアルゴリズムを紹介し、Chain-of-Thought（CoT）レシピを探索することで、特定のタスクを解決する。Repromptingは、以前にサンプリングされた解決策を親プロンプトとして使用して、新しいレシピを反復的にサンプリングすることで、一貫して良い結果を出すCoTレシピを推論する。複数のステップ推論が必要な5つのBig-Bench Hardタスクにおいて、Repromptingはゼロショット、フューショット、および人間が書いたCoTベースラインよりも一貫して優れたパフォーマンスを発揮する。Repromptingは、より強力なモデルからより弱いモデルへの知識の転移を促進し、より弱いモデルの性能を大幅に向上させることもできる。全体的に、Repromptingは、人間が書いたCoTプロンプトを使用する従来の最先端手法よりも最大で+17ポイントの改善をもたらす。 Comment

んー、IterCoTとかAutoPromptingとかと比較してないので、なんとも言えない…。サーベイ不足では。あとChatGPTを使うのはやめて頂きたい。

#Pocket #ICLR #FlowMatching #OptimalTransport Issue Date: 2025-07-09 [Paper Note] Building Normalizing Flows with Stochastic Interpolants, Michael S. Albergo+, ICLR'23 GPT Summary- 基準確率密度とターゲット確率密度の間の連続時間正規化フローに基づく生成モデルを提案。従来の手法と異なり、逆伝播を必要とせず、速度に対する単純な二次損失を導出。フローはサンプリングや尤度推定に使用可能で、経路長の最小化も最適化できる。ガウス密度の場合、ターゲットをサンプリングする拡散モデルを構築可能だが、よりシンプルな確率流のアプローチを示す。密度推定タスクでは、従来の手法と同等以上の性能を低コストで達成し、画像生成においても良好な結果を示す。最大$128\times128$の解像度までスケールアップ可能。 #Pocket #ACL Issue Date: 2025-01-06 Are Emergent Abilities in Large Language Models just In-Context Learning?, Sheng Lu+, arXiv'23 GPT Summary- 大規模言語モデルの「出現能力」は、インコンテキスト学習やモデルの記憶、言語知識の組み合わせから生じるものであり、真の出現ではないと提案。1000以上の実験を通じてこの理論を裏付け、言語モデルの性能を理解するための基礎を提供し、能力の過大評価を警告。 #Pocket #ACL Issue Date: 2025-01-06 Boosting Language Models Reasoning with Chain-of-Knowledge Prompting, Jianing Wang+, arXiv'23 GPT Summary- Chain-of-Thought（CoT）プロンプティングの限界を克服するために、Chain-of-Knowledge（CoK）プロンプティングを提案。CoKは、LLMsに明示的な知識の証拠を生成させ、推論の信頼性を向上させる。F^2-Verification手法を用いて、信頼性のない応答を指摘し再考を促す。実験により、常識や事実に基づく推論タスクのパフォーマンスが向上することを示した。 #Pocket #ACL Issue Date: 2025-01-06 Exploring Memorization in Fine-tuned Language Models, Shenglai Zeng+, arXiv'23 GPT Summary- ファインチューニング中の大規模言語モデル（LLMs）の記憶を初めて包括的に分析。オープンソースのファインチューニングされたモデルを用いた結果、記憶はタスク間で不均一であることが判明。スパースコーディング理論を通じてこの不均一性を説明し、記憶と注意スコア分布の強い相関関係を明らかにした。 #Pocket #ACL Issue Date: 2025-01-06 Instruction Fusion: Advancing Prompt Evolution through Hybridization, Weidong Guo+, arXiv'23 GPT Summary- Instruction Fusion（IF）を提案し、二つの異なるプロンプトを組み合わせることでコード生成LLMの性能を向上させる。実験により、IFが従来の手法の制約を克服し、HumanEvalなどのベンチマークで大幅な性能向上を実現することを示した。 #Pocket #ACL Issue Date: 2025-01-06 Insert or Attach: Taxonomy Completion via Box Embedding, Wei Xue+, arXiv'23 GPT Summary- TaxBoxフレームワークは、ボックス埋め込み空間を利用して分類体系の補完を行い、挿入および付加操作に特化した幾何学的スコアラーを設計。動的ランキング損失メカニズムによりスコアを調整し、実験では従来手法を大幅に上回る性能向上を達成。 #Pocket #ACL Issue Date: 2025-01-06 SPARSEFIT: Few-shot Prompting with Sparse Fine-tuning for Jointly Generating Predictions and Natural Language Explanations, Jesus Solano+, arXiv'23 GPT Summary- SparseFitは、少量の自然言語による説明（NLE）データを用いて、離散的なプロンプトを活用し、予測とNLEを共同生成するスパースなfew-shot微調整戦略です。T5モデルで実験した結果、わずか6.8%のパラメータ微調整で、タスクのパフォーマンスとNLEの質が向上し、他のパラメータ効率的微調整技術よりも優れた結果を示しました。 #Pocket #ACL Issue Date: 2025-01-06 LoRAMoE: Alleviate World Knowledge Forgetting in Large Language Models via MoE-Style Plugin, Shihan Dou+, arXiv'23 GPT Summary- LoRAMoEフレームワークを提案し、教師ありファインチューニングにおける指示データの増加がLLMsの世界知識を損なう問題に対処。低ランクアダプターとルーターネットワークを用いて、世界知識を活用しつつ下流タスクの処理能力を向上させることを実証。 #Pocket Issue Date: 2024-05-28 Multi-Dimensional Evaluation of Text Summarization with In-Context Learning, Sameer Jain+, N_A, arXiv'23 GPT Summary- 本研究では、大規模な言語モデルを使用したコンテキスト内学習による多面的評価者の効果を調査し、大規模なトレーニングデータセットの必要性を排除します。実験の結果、コンテキスト内学習ベースの評価者は、テキスト要約のタスクにおいて学習された評価フレームワークと競合し、関連性や事実の一貫性などの側面で最先端の性能を確立しています。また、GPT-3などの大規模言語モデルによって書かれたゼロショット要約の評価におけるコンテキスト内学習ベースの評価者の効果も研究されています。 Comment

ICE

#Pocket Issue Date: 2024-02-15 The Consensus Game: Language Model Generation via Equilibrium Search, Athul Paul Jacob+, N_A, arXiv'23 GPT Summary- LMsを使った質問応答やテキスト生成タスクにおいて、生成的または識別的な手法を組み合わせることで一貫したLM予測を得る新しいアプローチが提案された。このアプローチは、言語モデルのデコーディングをゲーム理論的な連続シグナリングゲームとして捉え、EQUILIBRIUM-RANKINGアルゴリズムを導入することで、既存の手法よりも一貫性とパフォーマンスを向上させることが示された。 #Pocket #PEFT(Adaptor/LoRA) Issue Date: 2023-11-23 MultiLoRA: Democratizing LoRA for Better Multi-Task Learning, Yiming Wang+, N_A, arXiv'23 GPT Summary- LoRAは、LLMsを効率的に適応させる手法であり、ChatGPTのようなモデルを複数のタスクに適用することが求められている。しかし、LoRAは複雑なマルチタスクシナリオでの適応性能に制限がある。そこで、本研究ではMultiLoRAという手法を提案し、LoRAの制約を緩和する。MultiLoRAは、LoRAモジュールをスケーリングし、パラメータの依存性を減らすことで、バランスの取れたユニタリ部分空間を得る。実験結果では、わずかな追加パラメータでMultiLoRAが優れたパフォーマンスを示し、上位特異ベクトルへの依存性が低下していることが確認された。 #Pocket Issue Date: 2023-08-16 Epic-Sounds: A Large-scale Dataset of Actions That Sound, Jaesung Huh+, N_A, arXiv'23 GPT Summary- EPIC-SOUNDSは、エゴセントリックなビデオのオーディオストリーム内の時間的範囲とクラスラベルをキャプチャした大規模なデータセットです。注釈者がオーディオセグメントに時間的なラベルを付け、アクションを説明する注釈パイプラインを提案しています。オーディオのみのラベルの重要性と現在のモデルの制約を強調するために、2つのオーディオ認識モデルを訓練および評価しました。データセットには78.4kのカテゴリ分けされたオーディブルなイベントとアクションのセグメントが含まれています。 #Pocket Issue Date: 2023-07-23 Will Large-scale Generative Models Corrupt Future Datasets?, Ryuichiro Hataya+, ICCV'23 GPT Summary- 大規模なテキストから画像への生成モデル（DALL·E 2、Midjourney、StableDiffusionなど）が高品質な画像を生成する一方で、これらの生成画像がコンピュータビジョンモデルの性能に与える影響を検証。汚染をシミュレーションし、生成された画像がImageNetやCOCOデータセットで訓練されたモデルの性能にネガティブな影響を及ぼすことを実証。影響の程度はタスクや生成画像の量に依存する。生成データセットとコードは公開予定。 #Pocket #NeurIPS Issue Date: 2023-06-16 Deductive Verification of Chain-of-Thought Reasoning, Zhan Ling+, N_A, NeuriPS'23 GPT Summary- 大規模言語モデル（LLMs）を使用して、Chain-of-Thought（CoT）プロンプティングによる推論タスクを解決するために、自己検証を通じて推論プロセスの信頼性を確保するNatural Programを提案する。このアプローチにより、モデルは正確な推論ステップを生成し、各演繹的推論段階に統合された検証プロセスにより、生成された推論ステップの厳密性と信頼性を向上させることができる。コードはhttps://github.com/lz1oceani/verify_cotで公開される。 #Pocket #NeurIPS Issue Date: 2023-05-20 Language Models Meet World Models: Embodied Experiences Enhance Language Models, Jiannan Xiang+, N_A, NeurIPS'23 GPT Summary- 本論文では、大規模言語モデル（LMs）が物理的な環境での単純な推論や計画に苦労することを解決するため、LMsを世界モデルで微調整する新しいパラダイムを提案しています。具体的には、物理的な世界のシミュレータでエージェントを展開し、目的指向の計画とランダムな探索を通じて多様な具現化された経験を獲得することで、LMsを微調整して物理的な世界での推論や行動の多様な能力を教えます。また、重みの選択的な更新のための古典的な弾性重み結合（EWC）を導入し、トレーニング効率のための低ランクアダプタ（LoRA）と組み合わせています。徹底的な実験により、提案手法は18の下流タスクでベースLMsを平均64.28％改善することが示されました。 Comment

OpenReview: https://openreview.net/forum?id=SVBR6xBaMl

#Pocket #Transformer #LongSequence #NeurIPS #Encoder #Encoder-Decoder Issue Date: 2023-05-09 Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens, Zhanpeng Zeng+, N_A, NeurIPS'23 GPT Summary- 本論文では、Transformerモデルの二次コストを削減するために、各層でサイズ$r$が$n$に独立した表現に入力を圧縮する方法を提案する。VIPトークン中心の圧縮（Vcc）スキームを使用し、VIPトークンの表現を近似するために入力シーケンスを選択的に圧縮する。提案されたアルゴリズムは、競合するベースラインと比較して効率的であり、多数のタスクにおいて競争力のあるまたはより優れたパフォーマンスを発揮する。また、アルゴリズムは128Kトークンにスケーリングでき、一貫して精度の向上を提供することが示された。 #Pretraining #Pocket #ICLR Issue Date: 2025-01-06 Towards Continual Knowledge Learning of Language Models, Joel Jang+, ICLR'22 GPT Summary- 大規模言語モデル（LMs）の知識が陳腐化する問題に対処するため、「継続的知識学習（CKL）」という新しい継続的学習問題を定式化。CKLでは、時間不変の知識の保持、陳腐化した知識の更新、新しい知識の獲得を定量化するためのベンチマークとメトリックを構築。実験により、CKLが独自の課題を示し、知識を信頼性高く保持し学習するためにはパラメータの拡張が必要であることが明らかに。ベンチマークデータセットやコードは公開されている。 #Pocket Issue Date: 2024-02-22 Dense Text Retrieval based on Pretrained Language Models: A Survey, Wayne Xin Zhao+, N_A, arXiv'22 GPT Summary- テキスト検索における最近の進歩に焦点を当て、PLMベースの密な検索に関する包括的な調査を行った。PLMsを使用することで、クエリとテキストの表現を学習し、意味マッチング関数を構築することが可能となり、密な検索アプローチが可能となる。この調査では、アーキテクチャ、トレーニング、インデックス作成、統合などの側面に焦点を当て、300以上の関連文献を含む包括的な情報を提供している。 #Pocket #ICLR Issue Date: 2023-05-04 Transformers Learn Shortcuts to Automata, Bingbin Liu+, arXiv'22 GPT Summary- トランスフォーマーモデルは再帰性を欠くが、少ない層でアルゴリズム的推論を行える。研究により、低深度のトランスフォーマーが有限状態オートマトンの計算を階層的に再パラメータ化できることを発見。多項式サイズの解決策が存在し、特に$O(1)$深度のシミュレーターが一般的であることを示した。合成実験でトランスフォーマーがショートカット解決策を学習できることを確認し、その脆弱性と緩和策も提案。 Comment

OpenReview: https://openreview.net/forum?id=De4FYqjFueZ

#Pocket #ActivationSteering/ITI Issue Date: 2025-08-19 [Paper Note] Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction, Shauli Ravfogel+, arXiv'21 GPT Summary- AlterRepという手法を用いて、言語モデルが構文的に複雑な文を処理する際の因果的影響を調査。反事実的表現を生成し、BERTモデルが関係節（RC）の境界情報を文法に従って使用していることを発見。RCの境界情報は異なるタイプ間で一般化され、BERTがRCを抽象的な言語的カテゴリーとして表現していることが示された。 Comment

AlterCapという手法名だが、steeringの先行研究とのこと

Loading…

日本語解説:

https://qiita.com/saliton/items/2f7b1bfb451df75a286f
https://qiita.com/koshian2/items/a31b85121c99af0eb050

日本語解説:
https://sn-neural-compute.netlify.app/202006250/

#EfficiencyImprovement #Pocket #Transformer #Attention #LongSequence #PositionalEncoding #ACL Issue Date: 2025-08-05 [Paper Note] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Zihang Dai+, ACL'19 GPT Summary- Transformer-XLは、固定長のコンテキストを超えた長期的な依存関係を学習する新しいニューラルアーキテクチャで、セグメントレベルの再帰メカニズムと新しい位置エンコーディングを採用。これにより、RNNより80%、従来のTransformersより450%長い依存関係を学習し、評価時には最大1,800倍の速度向上を実現。enwiki8やWikiText-103などで最先端のパフォーマンスを達成し、数千トークンの一貫したテキスト生成も可能。コードとモデルはTensorflowとPyTorchで利用可能。 Comment

日本語解説:
- 事前学習言語モデルの動向 / Survey of Pretrained Language Models, Kyosuke Nishida, 2019

3.2節の定式化を見ると、一つ前のセグメントのトークン・layerごとのhidden stateを、現在のセグメントの対応するトークンとlayerのhidden stateにconcatし（過去のセグメントに影響を与えないように勾配を伝搬させないStop-Gradientを適用する）、QKVのうち、KVの計算に活用している。また、絶対位置エンコーディングを利用するとモデルがセグメント間の時系列的な関係を認識できなくなるため、位置エンコーディングには相対位置エンコーディングを利用する。これにより、現在のセグメントのKVが一つ前のセグメントによって条件づけられ、contextとして考慮することが可能となり、セグメント間を跨いだ依存関係の考慮が実現される。

#Pocket #ActivationSteering/ITI Issue Date: 2025-08-19 [Paper Note] Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information, Mario Giulianelli+, arXiv'18 GPT Summary- 神経言語モデルにおける数の一致を追跡する方法を探求し、内部状態から数を予測する「診断分類器」を用いて、数の情報がどのように表現されるかを理解する。分類器は一致エラーの原因を特定し、数の情報の破損を示す。さらに、一致情報を用いてLSTMの処理に介入することで、モデルの精度が向上することを示す。これにより、診断分類器が言語情報の表現を観察し、モデルの性能向上に寄与する可能性があることが明らかとなった。 Comment

probing/steeringのliteratureにおいて重要な研究とのこと
元ポスト:

Loading…

#Pocket #NeurIPS Issue Date: 2025-07-09 [Paper Note] Neural Ordinary Differential Equations, Ricky T. Q. Chen+, arXiv'18 GPT Summary- 新しい深層ニューラルネットワークモデルを提案し、隠れ状態の導関数をパラメータ化。ブラックボックスの微分方程式ソルバーを用いて出力を計算し、メモリコストを一定に保ちながら評価戦略を適応。連続深度残差ネットワークや連続時間潜在変数モデルで特性を実証。最大尤度で学習可能な連続正規化フローを構築し、ODEソルバーを逆伝播する方法を示すことで、エンドツーエンドの学習を実現。

Analysis (3)

#Pretraining #Pocket #DiffusionModel #ICML #Decoding
Issue Date: 2025-07-15 [Paper Note] Train for the Worst, Plan for the Best: Understanding Token Ordering in Masked Diffusions, Jaeyeon Kim+, ICML'25 GPT Summary- マスク付き拡散モデル（MDMs）は、自己回帰モデル（ARMs）と比較してトレーニングの複雑さと推論の柔軟性をトレードオフする新しい生成モデルです。本研究では、MDMsが自己回帰モデルよりも計算上解決不可能なサブ問題に取り組むことを示し、適応的なトークンデコード戦略がMDMsの性能を向上させることを実証しました。数独の論理パズルにおいて、適応的推論により解決精度が$<7$%から$\approx 90$%に向上し、教師強制でトレーニングされたMDMsがARMsを上回ることを示しました。 Comment

openreview: https://openreview.net/forum?id=DjJmre5IkP

ICML'25 outstanding papers

日本語解説:

Loading…

#Pretraining #LanguageModel #Transformer #PostTraining #COLT
Issue Date: 2025-06-01 [Paper Note] Learning Compositional Functions with Transformers from Easy-to-Hard Data, Zixuan Wang+, COLT'25 GPT Summary- 本研究では、Transformerベースの言語モデルの学習可能性を探求し、$k$-fold compositionタスクに焦点を当てる。$O(\log k)$層のトランスフォーマーでこのタスクを表現できる一方、SQオラクルに対するクエリの下限を示し、サンプルサイズが指数的である必要があることを証明。さらに、カリキュラム学習戦略を用いて、簡単な例と難しい例を含むデータ分布がトランスフォーマーの効率的な学習に必要であることを明らかにした。 Comment

元ポスト:

Loading…

こちらはまず元ポストのスレッドを読むのが良いと思われる。要点をわかりやすく説明してくださっている。

元ポストとalphaxivでざっくり理解したところ、

Transformerがcontextとして与えられた情報(σ)とparametric knowledge(π)をk回の知識マッピングが必要なタスク(k-fold composition task)を学習するにはO(log k)のlayer数が必要で、直接的にk回の知識マッピングが必要なタスクを学習するためにはkの指数オーダーのデータ量が最低限必要となることが示された。これはkが大きくなると（すなわち、複雑なreasoning stepが必要なタスク）になると非現実的なものとなるため、何らかの方法で緩和したい。学習データを簡単なものから難しいものをmixingすること（カリキュラム学習）ことで、この条件が緩和され、指数オーダーから多項式オーダーのデータ量で学習できることが示された

といった感じだと思われる。

じゃあ最新の32Bモデルよりも、よりパラメータ数が大きくてlayer数が多い古いモデルの方が複雑なreasoningが必要なタスクを実は解けるってこと！？直感に反する！と一瞬思ったが、おそらく最近のモデルでは昔のモデルと比べてparametric knowledgeがより高密度に適切に圧縮されるようになっていると思われるので、昔のモデルではk回の知識マッピングをしないと解けないタスクが、最新のモデルではk-n回のマッピングで解けるようになっていると推察され、パラメータサイズが小さくても問題なく解けます、みたいなことが起こっているのだろう、という感想を抱くなどした

#Pocket #LanguageModel
Issue Date: 2023-05-11 Out of One, Many: Using Language Models to Simulate Human Samples, Lisa P. Argyle+, N_A, arXiv'22 GPT Summary- 本研究では、言語モデルが社会科学研究において特定の人間のサブポピュレーションの代理として研究される可能性があることを提案し、GPT-3言語モデルの「アルゴリズム的忠実度」を探求する。アルゴリズム的忠実度が十分である言語モデルは、人間や社会の理解を進めるための新しい強力なツールとなる可能性があると提案する。

LanguageModel (14)

#Pocket #DiffusionModel #ICLR #read-later #Selected Papers/Blogs
Issue Date: 2025-11-04 [Paper Note] Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Marianne Arriola+, ICLR'25, 2025.03 GPT Summary- ブロック拡散言語モデルは、拡散モデルと自己回帰モデルの利点を組み合わせ、柔軟な長さの生成を可能にし、推論効率を向上させる。効率的なトレーニングアルゴリズムやデータ駆動型ノイズスケジュールを提案し、言語モデリングベンチマークで新たな最先端のパフォーマンスを達成。 Comment

解説:
- 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05

openreview: https://openreview.net/forum?id=tyEyYT267x

#Pocket #Transformer #Architecture #ICLR #read-later #Selected Papers/Blogs #memory #KeyPoint Notes
Issue Date: 2025-10-23 [Paper Note] Memory Layers at Scale, Vincent-Pierre Berges+, ICLR'25, 2024.12 GPT Summary- メモリ層は、計算負荷を増やさずにモデルに追加のパラメータを加えるための学習可能な検索メカニズムを使用し、スパースに活性化されたメモリ層が密なフィードフォワード層を補完します。本研究では、改良されたメモリ層を用いた言語モデルが、計算予算が2倍の密なモデルや同等の計算とパラメータを持つエキスパート混合モデルを上回ることを示し、特に事実に基づくタスクでの性能向上が顕著であることを明らかにしました。完全に並列化可能なメモリ層の実装とスケーリング法則を示し、1兆トークンまでの事前学習を行った結果、最大8Bのパラメータを持つベースモデルと比較しました。 Comment

openreview: https://openreview.net/forum?id=ATqGm1WyDj

#Pocket #ReinforcementLearning #NeurIPS #PostTraining #Stability
Issue Date: 2025-10-16 [Paper Note] GVPO: Group Variance Policy Optimization for Large Language Model Post-Training, Kaichen Zhang+, arXiv'25, 2025.04 GPT Summary- GVPO（グループ分散ポリシー最適化）は、ポストトレーニングにおける不安定性を解決する新手法で、KL制約付き報酬最大化の解析的解を勾配重みに組み込むことで最適ポリシーとの整合性を保つ。これにより、ユニークな最適解を保証し、柔軟なサンプリング分布をサポート。GVPOは信頼性の高いLLMポストトレーニングの新たなパラダイムを提供する。 Comment

元ポスト:

Loading…

ベースライン:
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv'24
- [Paper Note] Understanding R1-Zero-Like Training: A Critical Perspective, Zichen Liu+, arXiv'25, 2025.03

#Multi #Pocket #ReinforcementLearning #NeurIPS #Routing Issue Date: 2025-10-07 [Paper Note] Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning, Haozhen Zhang+, NeurIPS'25, 2025.06 GPT Summary- Router-R1は、複数の大規模言語モデル（LLMs）を効果的にルーティングし集約するための強化学習に基づくフレームワークを提案。内部の熟慮と動的なモデル呼び出しを交互に行い、パフォーマンスとコストのトレードオフを最適化。実験では、一般的なQAベンチマークで強力なベースラインを上回る性能を示し、優れた一般化とコスト管理を実現。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

#Pocket #Supervised-FineTuning (SFT) #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel Issue Date: 2025-07-24 [Paper Note] OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles, Yihe Deng+, NeurIPS'25 GPT Summary- OpenVLThinkerは、洗練された連鎖的思考推論を示すオープンソースの大規模視覚言語モデルであり、視覚推論タスクで顕著な性能向上を達成。SFTとRLを交互に行うことで、推論能力を効果的に引き出し、改善を加速。特に、MathVistaで3.8%、EMMAで2.4%、HallusionBenchで1.6%の性能向上を実現。コードやモデルは公開されている。 Comment

元ポスト:

Loading…

#Analysis #Pretraining #Transformer #PostTraining #COLT Issue Date: 2025-06-01 [Paper Note] Learning Compositional Functions with Transformers from Easy-to-Hard Data, Zixuan Wang+, COLT'25 GPT Summary- 本研究では、Transformerベースの言語モデルの学習可能性を探求し、$k$-fold compositionタスクに焦点を当てる。$O(\log k)$層のトランスフォーマーでこのタスクを表現できる一方、SQオラクルに対するクエリの下限を示し、サンプルサイズが指数的である必要があることを証明。さらに、カリキュラム学習戦略を用いて、簡単な例と難しい例を含むデータ分布がトランスフォーマーの効率的な学習に必要であることを明らかにした。 Comment

元ポスト:

Loading…

こちらはまず元ポストのスレッドを読むのが良いと思われる。要点をわかりやすく説明してくださっている。

#Pocket #NeurIPS #read-later #MetacognitiveKnowledge/Ability #SkillTag Issue Date: 2025-10-21 [Paper Note] Metacognitive Capabilities of LLMs: An Exploration in Mathematical Problem Solving, Aniket Didolkar+, NeurIPS'24, 2024.05 GPT Summary- メタ認知的知識を持つ大規模言語モデル（LLM）が、数学的推論において適切なスキルラベルを割り当てる能力を示す。プロンプトガイドを用いたインタラクション手法を開発し、スキルラベルの意味的クラスタリングを行う。実験では、GPT-4に数学データセットに基づくスキルラベルを割り当てさせ、精度向上を確認。提案手法は数学以外のドメインにも適用可能。 Comment

StudentPerformancePredictionのスキルモデルのような話になってきた。興味深い

#Pocket #NeurIPS #read-later #ReversalCurse Issue Date: 2025-08-11 [Paper Note] The Factorization Curse: Which Tokens You Predict Underlie the Reversal Curse and More, Ouail Kitouni+, NeurIPS'24 GPT Summary- 最先端の言語モデルは幻覚に悩まされ、情報取得において逆転の呪いが問題となる。これを因数分解の呪いとして再定義し、制御実験を通じてこの現象が次トークン予測の固有の失敗であることを発見。信頼性のある情報取得は単純な手法では解決できず、ファインチューニングも限界がある。異なるタスクでの結果は、因数分解に依存しないアプローチが逆転の呪いを軽減し、知識の保存と計画能力の向上に寄与する可能性を示唆している。 Comment

元ポスト:

Loading…

openreview: https://openreview.net/forum?id=f70e6YYFHF

Reversal Curseを提言した研究は下記:
- [Paper Note] The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A", Lukas Berglund+, arXiv'23

#Pocket #Supervised-FineTuning (SFT) #ACL #KnowledgeEditing Issue Date: 2025-01-06 Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models, Shiwen Ni+, ACL'24 GPT Summary- F-Learningという新しいファインチューニング手法を提案し、古い知識を忘却し新しい知識を学習するためにパラメトリック算術を利用。実験により、F-LearningがフルファインチューニングとLoRAファインチューニングの知識更新性能を向上させ、既存のベースラインを上回ることを示した。LoRAのパラメータを引き算することで古い知識を忘却する効果も確認。 Comment

Finetuningによって知識をアップデートしたい状況において、ベースモデルでアップデート前の該当知識を忘却してから、新しい知識を学習することで、より効果的に知識のアップデートが可能なことを示している。

古い知識のデータセットをK_old、古い知識から更新された新しい知識のデータセットをK_newとしたときに、K_oldでベースモデルを{Full-finetuning, LoRA}することで得たパラメータθ_oldを、ベースモデルのパラメータθから（古い知識を忘却することを期待して）減算し、パラメータθ'を持つ新たなベースモデルを得る。その後、パラメータθ'を持つベースモデルをk_newでFull-Finetuningすることで、新たな知識を学習させる。ただし、このような操作は、K_oldがベースモデルで学習済みである前提であることに注意する。学習済みでない場合はそもそも事前の忘却の必要がないし、減算によってベースモデルのコアとなる能力が破壊される危険がある。

結果は下記で、先行研究よりも高い性能を示している。注意点として、ベースモデルから忘却をさせる際に、Full Finetuningによってθ_oldを取得すると、ベースモデルのコアとなる能力が破壊されるケースがあるようである。一方、LoRAの場合はパラメータに対する影響が小さいため、このような破壊的な操作となりづらいようである。

評価で利用されたデータセット:
- [Paper Note] Zero-Shot Relation Extraction via Reading Comprehension, Omer Levy+, CoNLL'17
- [Paper Note] Locating and Editing Factual Associations in GPT, Kevin Meng+, NeurIPS'22

#Pocket #Personalization Issue Date: 2024-11-21 On the Way to LLM Personalization: Learning to Remember User Conversations, Lucie Charlotte Magister+, arXiv'24 GPT Summary- LLMのパーソナライズを過去の会話の知識を注入することで実現するため、PLUMというデータ拡張パイプラインを提案。会話の時間的連続性とパラメータ効率を考慮し、ファインチューニングを行う。初めての試みでありながら、RAGなどのベースラインと競争力を持ち、81.5%の精度を達成。 #Pocket #ScientificDiscovery #Investigation Issue Date: 2024-11-12 LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions, Zhehui Liao+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）の利用に関する816人の研究者を対象とした調査を実施。81%が研究ワークフローにLLMsを組み込んでおり、特に非白人や若手研究者が高い使用率を示す一方で、女性やシニア研究者は倫理的懸念を抱いていることが明らかに。研究の公平性向上の可能性が示唆される。 #Pocket #ReinforcementLearning Issue Date: 2024-09-13 Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, Zhiheng Xi+, N_A, ICML'24 GPT Summary- R$^3$は、結果の監視を用いて大規模言語モデルの推論プロセスを最適化する新手法。正しいデモンストレーションから学ぶことで、段階的なカリキュラムを確立し、エラーを特定可能にする。Llama2-7Bを用いた実験では、8つの推論タスクでRLのベースラインを平均4.1ポイント上回り、特にGSM8Kでは4.2ポイントの改善を示した。 #Pocket #MultitaskLearning #Zero/Few/ManyShotPrompting #Supervised-FineTuning (SFT) #CrossLingual #ACL #Generalization Issue Date: 2023-08-16 Crosslingual Generalization through Multitask Finetuning, Niklas Muennighoff+, N_A, ACL'23 GPT Summary- マルチタスクプロンプトフィネチューニング（MTF）は、大規模な言語モデルが新しいタスクに汎化するのに役立つことが示されています。この研究では、マルチリンガルBLOOMとmT5モデルを使用してMTFを実施し、英語のプロンプトを使用して英語および非英語のタスクにフィネチューニングすることで、タスクの汎化が可能であることを示しました。さらに、機械翻訳されたプロンプトを使用してマルチリンガルなタスクにフィネチューニングすることも調査し、モデルのゼロショットの汎化能力を示しました。また、46言語の教師ありデータセットのコンポジットであるxP3も紹介されています。 Comment

英語タスクを英語でpromptingしてLLMをFinetuningすると、他の言語（ただし、事前学習で利用したコーパスに出現する言語に限る）で汎化し性能が向上することを示した模様。
![Image](https://github.com/user-attachments/assets/44e9cf6e-e80f-4092-af46-ad74c30fe59c)

#Analysis #Pocket Issue Date: 2023-05-11 Out of One, Many: Using Language Models to Simulate Human Samples, Lisa P. Argyle+, N_A, arXiv'22 GPT Summary- 本研究では、言語モデルが社会科学研究において特定の人間のサブポピュレーションの代理として研究される可能性があることを提案し、GPT-3言語モデルの「アルゴリズム的忠実度」を探求する。アルゴリズム的忠実度が十分である言語モデルは、人間や社会の理解を進めるための新しい強力なツールとなる可能性があると提案する。

Supervised-FineTuning (SFT) (4)

#Pocket #LanguageModel #ReinforcementLearning #Reasoning #NeurIPS #VisionLanguageModel
Issue Date: 2025-07-24 [Paper Note] OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles, Yihe Deng+, NeurIPS'25 GPT Summary- OpenVLThinkerは、洗練された連鎖的思考推論を示すオープンソースの大規模視覚言語モデルであり、視覚推論タスクで顕著な性能向上を達成。SFTとRLを交互に行うことで、推論能力を効果的に引き出し、改善を加速。特に、MathVistaで3.8%、EMMAで2.4%、HallusionBenchで1.6%の性能向上を実現。コードやモデルは公開されている。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ACL #KnowledgeEditing
Issue Date: 2025-01-06 Forgetting before Learning: Utilizing Parametric Arithmetic for Knowledge Updating in Large Language Models, Shiwen Ni+, ACL'24 GPT Summary- F-Learningという新しいファインチューニング手法を提案し、古い知識を忘却し新しい知識を学習するためにパラメトリック算術を利用。実験により、F-LearningがフルファインチューニングとLoRAファインチューニングの知識更新性能を向上させ、既存のベースラインを上回ることを示した。LoRAのパラメータを引き算することで古い知識を忘却する効果も確認。 Comment

#Embeddings #Pocket #RAG(RetrievalAugmentedGeneration) #LongSequence #ACL #PostTraining
Issue Date: 2025-01-06 Grounding Language Model with Chunking-Free In-Context Retrieval, Hongjin Qian+, arXiv'24 GPT Summary- CFICは、Retrieval-Augmented Generation（RAG）システム向けの新しいリトリーバルアプローチで、従来のチャンク化を回避し、文書のエンコードされた隠れ状態を利用して正確な証拠テキストを特定します。制約付き文のプレフィックスデコーディングとスキップデコーディングを組み込むことで、リトリーバルの効率と生成された証拠の忠実性を向上させます。CFICはオープンQAデータセットで評価され、従来の方法に対して大幅な改善を示し、RAGシステムの効率的で効果的なリトリーバルソリューションを提供します。 Comment

Chunking無しでRAGを動作させられるのは非常に魅力的。

一貫してかなり性能が向上しているように見える

提案手法の概要。InputとOutput全体の実例がほとんど掲載されていないので憶測を含みます。

気持ちとしては、ソーステキストが与えられたときに、Questionの回答をsupportするようなソース中のpassageの情報を活用して回答するために、重要なsentenceのprefixを回答生成前に生成させる（重要なsentenceの識別子の役割を果たす）ことで、（識別子によって重要な情報によって条件づけられて回答生成ができるやうになるのて）それら情報をより考慮しながらモデルが回答を生成できるようになる、といった話だと思われる。

Table2のようなテンプレートを用いて、ソーステキストと質問文でモデルを条件付けて、回答をsupportするsentenceのprefixを生成する。生成するprefixは各sentenceのユニークなprefixのtoken log probabilityの平均値によって決まる（トークンの対数尤度が高かったらモデルが暗黙的にその情報はQuestionにとって重要だと判断しているとみなせる）。SkipDecodingの説を読んだが、ぱっと見よく分からない。おそらく[eos]を出力させてprefix間のデリミタとして機能させたいのだと思うが、[eos]の最適なpositionはどこなのか？みたいな数式が出てきており、これがデコーディングの時にどういった役割を果たすのかがよくわからない。

また、モデルはQAと重要なPassageの三つ組のデータで提案手法によるデコーディングを適用してSFTしたものを利用する。

#Pocket #LanguageModel #MultitaskLearning #Zero/Few/ManyShotPrompting #CrossLingual #ACL #Generalization Issue Date: 2023-08-16 Crosslingual Generalization through Multitask Finetuning, Niklas Muennighoff+, N_A, ACL'23 GPT Summary- マルチタスクプロンプトフィネチューニング（MTF）は、大規模な言語モデルが新しいタスクに汎化するのに役立つことが示されています。この研究では、マルチリンガルBLOOMとmT5モデルを使用してMTFを実施し、英語のプロンプトを使用して英語および非英語のタスクにフィネチューニングすることで、タスクの汎化が可能であることを示しました。さらに、機械翻訳されたプロンプトを使用してマルチリンガルなタスクにフィネチューニングすることも調査し、モデルのゼロショットの汎化能力を示しました。また、46言語の教師ありデータセットのコンポジットであるxP3も紹介されています。 Comment

Quantization (1)

#EfficiencyImprovement #Pocket #PEFT(Adaptor/LoRA)
Issue Date: 2024-09-24 LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models, Yixiao Li+, N_A, arXiv'23 GPT Summary- LoftQという新しい量子化フレームワークを提案し、LLMにおける量子化とLoRAファインチューニングを同時に適用。これにより、量子化モデルとフル精度モデルの不一致を軽減し、下流タスクの一般化を改善。自然言語理解や質問応答などのタスクで、特に難易度の高い条件下で既存手法を上回る性能を示した。

ScientificDiscovery (1)

#Pocket #LanguageModel #Investigation
Issue Date: 2024-11-12 LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions, Zhehui Liao+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）の利用に関する816人の研究者を対象とした調査を実施。81%が研究ワークフローにLLMsを組み込んでおり、特に非白人や若手研究者が高い使用率を示す一方で、女性やシニア研究者は倫理的懸念を抱いていることが明らかに。研究の公平性向上の可能性が示唆される。

Investigation (2)

#Pocket #AIAgents
Issue Date: 2025-07-02 [Paper Note] Future of Work with AI Agents: Auditing Automation and Augmentation Potential across the U.S. Workforce, Yijia Shao+, arXiv'25 GPT Summary- 本論文では、労働者がAIエージェントに自動化または補完してほしい職業タスクを評価する新しい監査フレームワークを提案し、労働者の希望と技術的能力の一致を分析します。音声強化ミニインタビューを用いて「人間主体性スケール（HAS）」を導入し、米国労働省のO*NETデータベースを基にしたWORKBankデータベースを構築しました。タスクを自動化のゾーンに分類し、AIエージェント開発におけるミスマッチと機会を明らかにします。結果は職業ごとの多様なHASプロファイルを示し、AIエージェントの統合がスキルのシフトを促す可能性を示唆しています。これにより、AIエージェントの開発を労働者の希望に整合させる重要性が強調されます。 Comment

元ポスト:

Loading…

#Pocket #LanguageModel #ScientificDiscovery
Issue Date: 2024-11-12 LLMs as Research Tools: A Large Scale Survey of Researchers' Usage and Perceptions, Zhehui Liao+, arXiv'24 GPT Summary- 大規模言語モデル（LLMs）の利用に関する816人の研究者を対象とした調査を実施。81%が研究ワークフローにLLMsを組み込んでおり、特に非白人や若手研究者が高い使用率を示す一方で、女性やシニア研究者は倫理的懸念を抱いていることが明らかに。研究の公平性向上の可能性が示唆される。

RAG(RetrievalAugmentedGeneration) (1)

#Embeddings #Pocket #Supervised-FineTuning (SFT) #LongSequence #ACL #PostTraining
Issue Date: 2025-01-06 Grounding Language Model with Chunking-Free In-Context Retrieval, Hongjin Qian+, arXiv'24 GPT Summary- CFICは、Retrieval-Augmented Generation（RAG）システム向けの新しいリトリーバルアプローチで、従来のチャンク化を回避し、文書のエンコードされた隠れ状態を利用して正確な証拠テキストを特定します。制約付き文のプレフィックスデコーディングとスキップデコーディングを組み込むことで、リトリーバルの効率と生成された証拠の忠実性を向上させます。CFICはオープンQAデータセットで評価され、従来の方法に対して大幅な改善を示し、RAGシステムの効率的で効果的なリトリーバルソリューションを提供します。 Comment

Chunking無しでRAGを動作させられるのは非常に魅力的。

一貫してかなり性能が向上しているように見える

InstructionTuning (1)

#Pretraining #Pocket #ACL #PerplexityCurse
Issue Date: 2025-01-06 Instruction-tuned Language Models are Better Knowledge Learners, Zhengbao Jiang+, ACL'24 GPT Summary- 新しい文書からの知識更新には、事前指示調整（PIT）を提案。これは、文書の訓練前に質問に基づいて指示調整を行う手法で、LLMが新しい情報を効果的に吸収する能力を向上させ、標準的な指示調整を17.8%上回る結果を示した。 Comment

興味深い

SNLP'24での解説スライド: https://speakerdeck.com/s_mizuki_nlp/instruction-tuned-language-models-are-better-knowledge-learners-in-acl-2024

MachineTranslation (6)

#Pocket #TACL
Issue Date: 2025-09-01 [Paper Note] xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection, Nuno M. Guerreiro+, TACL'24 GPT Summary- xCOMETは、機械翻訳評価のためのオープンソースの学習メトリックで、文レベルの評価とエラー範囲検出を統合。これにより、翻訳エラーの詳細な分類と評価が可能となり、最先端の性能を発揮。さらに、堅牢性分析により重大なエラーや幻覚の特定能力が高いことを示す。 #Pocket
Issue Date: 2025-09-01 [Paper Note] No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, arXiv'22 GPT Summary- 「No Language Left Behind」プロジェクトは、リソースが乏しい言語の機械翻訳を改善するために、母国語話者とのインタビューを通じてニーズを特定し、データセットとモデルを開発。新しいデータマイニング技術を用いた条件付き計算モデルを構築し、過学習を防ぐための訓練改善を提案。Flores-200ベンチマークでの評価により、従来技術に対して44%のBLEU改善を達成し、普遍的な翻訳システムの基盤を築いた。全ての成果はオープンソースで公開。 #Pocket
Issue Date: 2025-09-01 [Paper Note] CometKiwi: IST-Unbabel 2022 Submission for the Quality Estimation Shared Task, Rei+, WMT'22

#Pocket #Transformer #EMNLP #Normalization #Findings Issue Date: 2025-08-16 [Paper Note] Query-Key Normalization for Transformers, Alex Henry+, EMNLP'20 Findings GPT Summary- 低リソース言語翻訳において、QKNormという新しい正規化手法を提案。これは、注意メカニズムを修正し、ソフトマックス関数の飽和耐性を向上させつつ表現力を維持。具体的には、クエリとキー行列に対して$\ell_2$正規化を適用し、学習可能なパラメータでスケールアップ。TED TalksコーパスとIWSLT'15の低リソース翻訳ペアで平均0.928 BLEUの改善を達成。 Comment

QKに対してL2正規化を実施し、learnableなスカラー値を乗じることでスケーリングすることで、low resourceな言語での翻訳性能が向上。MTで実験されているが、transformerの表現力が改善されるのでGLM-4.5のアーキテクチャでも採用されている。

dot product attentionでは内積を利用するため値域に制約がなく、ある単語にのみattention scoreが集中してしまい、他の全ての単語のsignalをかき消してしまう問題がある。このため、QKをノルムによって正規化し（これにより実質QKはcosine similarityとなる）値域を制限する。しかしこうすると今度はスコア間の差が小さすぎて、attendしなくても良い単語を無視できなくなるので、learnableなパラメータでスケールを調整する。

#NeuralNetwork #Pocket #Subword #ACL #Tokenizer #read-later #Selected Papers/Blogs Issue Date: 2025-11-19 [Paper Note] Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates, Taku Kudo, ACL'18, 2018.04 GPT Summary- サブワード単位はNMTのオープンボキャブラリー問題を軽減するが、セグメンテーションの曖昧さが存在する。本研究では、この曖昧さを利用してNMTのロバスト性を向上させるため、サブワードの正則化手法を提案し、確率的にサンプリングされた複数のセグメンテーションでモデルを訓練する。また、ユニグラム言語モデルに基づく新しいセグメンテーションアルゴリズムも提案。実験により、特にリソースが限られた設定での改善を示した。 #NeuralNetwork #Pocket #ReinforcementLearning #NeurIPS #DualLearning Issue Date: 2025-08-21 [Paper Note] Dual Learning for Machine Translation, Yingce Xia+, NIPS'16 GPT Summary- デュアルラーニングメカニズムを用いたニューラル機械翻訳（dual-NMT）を提案。プライマルタスク（英語からフランス語）とデュアルタスク（フランス語から英語）を通じて、ラベルのないデータから自動的に学習。強化学習を用いて互いに教え合い、モデルを更新。実験により、モノリンガルデータから学習しつつ、バイリンガルデータと同等の精度を達成することが示された。 Comment

モノリンガルコーパスD_A, D_Bで学習した言語モデルLM_A, LM_Bが与えられた時、翻訳モデルΘ_A, Θ_Bのの翻訳の自然さ（e.g., 尤度）をrewardとして与え、互いのモデルの翻訳（プライマルタスク）・逆翻訳（デュアルタスク）の性能が互いに高くなるように強化学習するような枠組みを提案。パラレルコーパス不要でモノリンガルコーパスのみで、人手によるアノテーション無しで学習ができる。

DeepResearch (1)

#Pocket
Issue Date: 2025-09-11 [Paper Note] SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents, Xuan-Phi Nguyen+, arXiv'25 GPT Summary- 本研究では、複雑な推論能力を持つ自律単一エージェントモデルを開発し、Deep Research（DR）における情報検索と推論を効率化します。従来の指示に基づくシステムとは異なり、エージェントは文脈に応じて動的に行動を決定します。推論能力を維持しつつエージェントスキルを向上させるため、継続的強化学習（RL）を用いたシンプルなトレーニング手法を提案し、SFR-DR-20BモデルがHumanity's Last Examベンチマークで最大28.7%の成果を上げました。 Comment

元ポスト:

Loading…

OCR (1)

#Pocket
Issue Date: 2025-11-26 [Paper Note] HunyuanOCR Technical Report, Hunyuan Vision Team+, arXiv'25, 2025.11 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model（VLM）であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment

元ポスト:

Loading…

Pocket (385)

Issue Date: 2025-11-28 [Paper Note] ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration, Hongjin Su+, arXiv'25, 2025.11 GPT Summary- 小規模なオーケストレーター「ToolOrchestra」を用いて、複雑な問題解決の効率を向上させる手法を提案。Orchestratorモデルは、HLEで37.1%のスコアを達成し、GPT-5を上回りつつ効率を2.5倍向上。tau2-BenchおよびFRAMESでも高精度を維持し、コストを約30%削減。これにより、多様なツールを効果的に組み合わせる新たな推論システムの可能性を示す。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-27 [Paper Note] Latent Collaboration in Multi-Agent Systems, Jiaru Zou+, arXiv'25, 2025.11 GPT Summary- LatentMASは、マルチエージェントシステムにおいて、LLMエージェントがテキスト媒介なしで直接協力できるフレームワークを提案。各エージェントは潜在思考生成を行い、共有された潜在作業メモリを通じて情報を損失なく交換。理論的分析と9つのベンチマーク評価により、従来のテキストベースのMASよりも高い表現力と効率を示し、精度向上や推論速度の改善を実現。コードはオープンソースで提供。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-27 [Paper Note] iMontage: Unified, Versatile, Highly Dynamic Many-to-many Image Generation, Zhoujie Fu+, arXiv'25, 2025.11 GPT Summary- iMontageは、事前学習されたビデオモデルを活用し、画像データから多様なコンテンツを生成するための統一フレームワークです。このフレームワークは、可変長の画像セットを生成・消費し、幅広い画像生成および編集タスクを統合します。最小限の侵襲的な適応戦略と特別なデータキュレーションプロセスを用いることで、元の動きの知識を保持しつつ、優れた画像操作能力を獲得します。iMontageは、文脈的一貫性を維持しながら、従来の範囲を超えたダイナミックなシーンを生成します。 Comment

pj page: https://kr1sjfu.github.io/iMontage-web/

元ポスト:

Loading…

Issue Date: 2025-11-26 [Paper Note] The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation, Weijia Mao+, arXiv'25, 2025.11 GPT Summary- 信頼性のある報酬関数は画像生成における強化学習に不可欠であり、従来のスカラー報酬は人間の知覚を捉えきれず、報酬ハッキングに脆弱です。これに対処するため、Adv-GRPOという敵対的報酬を持つRLフレームワークを提案し、報酬モデルと生成器を反復的に更新します。画像自体を報酬として使用し、視覚基盤モデルを活用することで、より高品質な画像を生成し、報酬ハッキングを軽減します。人間評価では、提案手法が他の手法を上回り、画像品質と美的感覚でそれぞれ70.0%および72.4%の勝率を達成しました。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-23 [Paper Note] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs, Ali Taghibakhshi+, arXiv'25, 2025.11 GPT Summary- Nemotron Elasticは、推論指向の大規模言語モデル（LLM）を構築するためのフレームワークで、複数のサブモデルを親モデル内に埋め込み、重みを共有することでコストを削減。これにより、ゼロショットでの展開が可能となり、110Bの訓練トークンで9Bおよび6Bモデルを生成し、360倍のコスト削減を実現。各モデルは最先端技術と同等の性能を持ち、一定の展開メモリで多機能推論を可能にする。 Comment

HF: https://huggingface.co/nvidia/Nemotron-Elastic-12B

Issue Date: 2025-11-20 [Paper Note] Multi-Agent Deep Research: Training Multi-Agent Systems with M-GRPO, Haoyang Hong+, arXiv'25, 2025.11 GPT Summary- マルチエージェントシステムの精度向上のため、異なるLLMを用いたトレーニングが必要であるが、最適化の課題が存在する。これに対処するため、M-GRPOを提案し、メインエージェントとサブエージェントのグループ相対的な利点を計算し、固定サイズのバッチを生成する軌道整列スキームを導入。実験では、M-GRPOが他の手法を上回り、安定性とサンプル効率の向上を示した。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-20 [Paper Note] PhysX-Anything: Simulation-Ready Physical 3D Assets from Single Image, Ziang Cao+, arXiv'25, 2025.11 GPT Summary- PhysX-Anythingは、単一の野外画像から高品質なシミュレーション準備済みの3D資産を生成する新しいフレームワークで、ジオメトリ、関節、物理的属性を明示的に持つ。VLMベースのモデルと新しい3D表現を提案し、トークン数を193倍削減。新データセットPhysX-Mobilityにより物理3Dデータの多様性を拡張し、2,000以上の実世界オブジェクトを含む。実験により、生成性能と一般化能力が確認され、ロボティックポリシー学習に直接利用可能であることが示された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Issue Date: 2025-11-19 [Paper Note] ARC Is a Vision Problem, Keya Hu+, arXiv'25, 2025.11 GPT Summary- ARCを視覚的に定式化し、画像から画像への変換問題としてアプローチ。自然画像のように処理する「キャンバス」を用いて、ViTを適用。ゼロからトレーニングされたモデルはARC-1ベンチマークで60.4%の精度を達成し、既存手法を上回る。結果は主要なLLMと競争力があり、人間のパフォーマンスとの差を縮める。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-18 [Paper Note] MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation, Ye Tian+, arXiv'25, 2025.11 GPT Summary- 思考を意識した生成のパフォーマンス向上を目指し、エラー伝播による性能低下を分析するための新ベンチマークParaBenchを提案。生成された推論と画像の整合性不足が問題であることを明らかにし、テキストと画像間の双方向相互作用を可能にする並列マルチモーダル拡散フレームワークMMaDA-Parallelを開発。さらに、クロスモーダル整合性を強化するための並列強化学習（ParaRL）を導入。実験により、出力整合性が6.9%向上し、思考を意識した画像合成の新たなパラダイムを確立した。コードはオープンソースで公開。 Comment

元ポスト:

Loading…

著者ポスト:

Loading…

Issue Date: 2025-11-18 [Paper Note] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data, Yunxin Li+, arXiv'25, 2025.11 GPT Summary- Uni-MoE 2.0は、Lycheeファミリーから発表されたオープンソースのオムニモーダル大規模モデルで、言語中心のマルチモーダル理解と生成を大幅に向上させる。動的容量のMixture-of-Experts設計や進行的トレーニング戦略を採用し、画像、テキスト、音声の生成が可能。約75Bトークンのデータでトレーニングされ、85のベンチマークで競争力のある性能を示し、特にビデオ理解やオムニモーダリティ理解で優れた結果を達成。 Comment

pj page: https://idealistxy.github.io/Uni-MoE-v2.github.io/

元ポスト:

Loading…

Issue Date: 2025-11-18 [Paper Note] P1: Mastering Physics Olympiads with Reinforcement Learning, Jiacheng Chen+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）の進展により、物理学の推論能力を向上させるための新たなモデルP1が開発された。特にP1-235B-A22Bは、国際物理オリンピックで金メダルを獲得し、他の競技でも優れた成績を収めた。P1モデルは物理学以外の数学やコーディングタスクでも高い性能を示し、汎用性があることが確認された。 Comment

pj page: https://prime-rl.github.io/P1/

元ポスト:

Loading…

Issue Date: 2025-11-17 [Paper Note] WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation, Wei Chow+, arXiv'25, 2025.11 GPT Summary- WEAVEは、視覚的理解と生成における多ターンの文脈依存的なインタラクションを捉えるための初のデータセットとベンチマークを提案。WEAVE-100kは370Kの対話ターンと500Kの画像を含む大規模データセットで、理解、編集、生成タスクをカバー。WEAVEBenchは100のタスクを持つ人間注釈のベンチマークで、モデルの多ターン生成能力を評価。実験により、WEAVE-100kでのトレーニングが視覚理解と協力能力を向上させることが示された。WEAVEはマルチモーダル研究の基盤を提供する。 Comment

元ポスト:

Loading…

dataset: https://huggingface.co/datasets/WeiChow/WEAVE

pj page: https://weichow23.github.io/weave/

著者ポスト:

Loading…

Issue Date: 2025-11-17 [Paper Note] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism, Shulin Liu+, arXiv'25, 2025.11 GPT Summary- MarsRLという新しい強化学習フレームワークを提案し、マルチエージェント推論システムの最適化を目指す。エージェント特有の報酬メカニズムを導入し、長い軌跡の効率を向上。Qwen3-30B-A3B-Thinking-2507に適用した結果、精度が大幅に改善され、マルチエージェント推論の進展と適用性の拡大が期待される。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-17 [Paper Note] WMPO: World Model-based Policy Optimization for Vision-Language-Action Models, Fangqi Zhu+, arXiv'25, 2025.11 GPT Summary- WMPOは、VLAモデルの強化学習における新しいフレームワークで、実環境との相互作用なしにポリシー最適化を行う。ピクセルベースの予測を用いて、サンプル効率とパフォーマンスを向上させ、自己修正や一般化能力を示す。シミュレーションと実ロボットでの実験により、その効果が確認された。 Issue Date: 2025-11-17 [Paper Note] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following, Yun He+, arXiv'25, 2025.11 GPT Summary- AdvancedIFという新しいベンチマークを導入し、1,600以上のプロンプトを用いてLLMsの複雑な指示追従能力を評価。RIFLというポストトレーニングパイプラインを提案し、指示追従の強化学習を実現。実験により、RIFLが指示追従能力を6.7%向上させ、公共ベンチマークでも良好な結果を示した。ルーブリックを用いたトレーニングと評価の手法を確立し、信頼性のあるAIシステムの実現に寄与。 Issue Date: 2025-11-17 [Paper Note] Black-Box On-Policy Distillation of Large Language Models, Tianzhu Ye+, arXiv'25, 2025.11 GPT Summary- ブラックボックス蒸留に基づく生成的敵対蒸留（GAD）を提案し、教師モデルの出力から生徒LLMを生成。GADは識別器を訓練し、ミニマックスゲームを構築することで安定したフィードバックを提供。実験により、GADが従来の知識蒸留を上回り、Qwen2.5-14B-InstructがGPT-5-Chatと同等の性能を示すことを確認。GADはブラックボックスLLM蒸留の有望な手法である。 Issue Date: 2025-11-15 [Paper Note] MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix, Ziyang Ma+, arXiv'25, 2025.05 GPT Summary- MMARは、Audio-Language Models（ALMs）の推論能力を評価する新しいベンチマークで、1,000の音声-質問-回答トリプレットから構成され、広範な音声シナリオをカバー。質問は信号、知覚、意味、文化の4つの推論層に分類され、Chain-of-Thought（CoT）根拠が注釈されている。MMARは、音声キャプションを用いて多様なモデルセットで評価され、現在のモデルの限界を明らかにし、この分野の進展を促進することを目指している。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-15 [Paper Note] Music Flamingo: Scaling Music Understanding in Audio Language Models, Sreyan Ghosh+, arXiv'25, 2025.11 GPT Summary- Music Flamingoは、音楽理解を進めるために設計された新しい大規模音声-言語モデルであり、音楽の複雑な特性に対応するためにMF-Skillsという豊富なデータセットを作成。音楽理論に基づく新しいデータセットMF-Thinkを用いて推論能力を向上させ、GRPOベースの強化学習を実施。10以上のベンチマークで最先端の結果を達成し、音楽に対する深い理解を示すことで、次世代モデルの基盤を提供することを目指す。 Comment

pj page: https://research.nvidia.com/labs/adlr/MF/

元ポスト:

Loading…

元ポスト:

Loading…

Issue Date: 2025-11-13 [Paper Note] LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics, Randall Balestriero+, arXiv'25, 2025.11 GPT Summary- JEPAの理論を基にしたLeJEPAを提案し、等方的ガウス分布に基づく新しい目的関数SIGRegを導入。これにより、トレードオフハイパーパラメータの単一化、線形の複雑性、安定性を実現。10以上のデータセットでの実証実験により、LeJEPAは高い性能を示し、自己教師あり事前学習の重要性を再確認することを目指す。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-13 [Paper Note] VideoSSR: Video Self-Supervised Reinforcement Learning, Zefeng He+, arXiv'25, 2025.11 GPT Summary- 本研究では、動画内の情報を活用して高品質なトレーニングデータを自己生成する方法を探求。異常のグラウンディング、物体のカウント、時間的ジグソーの3つの自己教師あり前提タスクを導入し、VIUBenchを構築してMLLMの課題を明らかにした。新たにVideoSSR-30Kデータセットを開発し、RLVRのための動画自己教師あり強化学習フレームワークVideoSSRを提案。広範な実験により、VideoSSRがモデルの性能を平均5%以上向上させることを示し、MLLMの動画理解の基盤フレームワークとしての有効性を確立した。 Comment

HF: https://huggingface.co/datasets/yhx12/VideoSSR-30k
pj page: https://github.com/lcqysl/VideoSSR

元ポスト:

Loading…

Issue Date: 2025-11-12 [Paper Note] RLVE: Scaling Up Reinforcement Learning for Language Models with Adaptive Verifiable Environments, Zhiyuan Zeng+, arXiv'25, 2025.11 GPT Summary- 適応可能な検証可能な環境を用いた強化学習（RLVE）を提案し、動的に問題の難易度を調整することで、言語モデルの強化学習をスケールアップする。RLVE-Gymという400の検証可能な環境からなるスイートを作成し、環境の拡大が推論能力を向上させることを示した。RLVEは、共同トレーニングにより、強力な推論LMで3.37%の性能向上を達成し、従来のRLトレーニングよりも効率的であることを示した。コードは公開されている。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-09 [Paper Note] Holistic Evaluation of Multimodal LLMs on Spatial Intelligence, Zhongang Cai+, arXiv'25, 2025.08 GPT Summary- マルチモーダルモデルは進展しているが、空間理解と推論には限界がある。GPT-5の性能を評価するため、空間タスクの分類法と評価プロトコルを提案し、8つの主要ベンチマークを使用。実証研究では、GPT-5は空間知能で強さを示すが、人間のパフォーマンスには及ばず、特に難しいタスクでの能力不足が顕著であることを明らかにした。 Comment

元ポスト:

Loading…

leaderboard: https://huggingface.co/spaces/lmms-lab-si/EASI-Leaderboard

Issue Date: 2025-11-08 [Paper Note] Unlocking the Power of Multi-Agent LLM for Reasoning: From Lazy Agents to Deliberation, Zhiwei Zhang+, arXiv'25, 2025.11 GPT Summary- 大規模言語モデル（LLMs）を用いたマルチエージェント推論において、怠惰なエージェント行動が協力を損ない、効果的でない結果を招く問題を理論的に分析。因果的影響を測定する方法を導入し、推論エージェントがノイズの多い出力を捨て、指示を統合するための検証可能な報酬メカニズムを提案。実験により、提案フレームワークが怠惰な行動を軽減し、マルチエージェントの推論能力を向上させることを示した。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-08 [Paper Note] Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities, Amanda Bertsch+, arXiv'25, 2025.11 GPT Summary- 長コンテキストの効果的な利用に関する懸念を受け、Oolongという新しい長コンテキスト推論タスクのベンチマークを提案。Oolongは、合成タスクのOolong-synthと実際の会話データを用いるOolong-realの2つのタスクセットから成り、モデルに対して分類やカウントを要求。最前線のモデルでも50%未満の精度にとどまり、推論能力の向上を促すためにデータと評価ハーネスを公開。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-07 [Paper Note] BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration, Zhaoyang Li+, arXiv'25, 2025.10 GPT Summary- BindWeaveフレームワークを提案し、複雑なプロンプトを具体的な視覚的主題に結びつけることで、Diffusion Transformerによる高忠実度の動画生成を改善。MLLM-DiTを用いて主題認識の隠れ状態を得ることで、主題の一貫性と自然さを向上させ、OpenS2Vベンチマークで既存モデルを上回る性能を達成。 Comment

pj page: https://lzy-dot.github.io/BindWeave/

元ポスト:

Loading…

Issue Date: 2025-11-07 [Paper Note] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions, Guozhen Zhang+, arXiv'25, 2025.11 GPT Summary- UniAVGenは、音声と映像の共同生成のための新しいフレームワークで、二重ブランチのアーキテクチャと拡散トランスフォーマーを用いて、クロスモーダル潜在空間を構築。非対称クロスモーダル相互作用により、空間的・時間的同期と意味的一貫性を確保し、フェイスアウェアモジュレーションで重要な領域を優先。新たなガイダンス戦略により生成の忠実性を向上させ、音声-映像生成タスクを統合。実験により、少ないトレーニングサンプルで高い同期と一貫性を実現した。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-07 [Paper Note] From Memorization to Reasoning in the Spectrum of Loss Curvature, Jack Merullo+, arXiv'25, 2025.10 GPT Summary- トランスフォーマーモデルにおける記憶の表現を曲率に基づいて分析し、重みの高曲率成分と低曲率成分を分離する手法を提案。これにより、ターゲット外の記憶データの抑制が可能となり、特に事実取得や算術タスクにおいてパフォーマンスの低下が観察されることを示す。研究は、ニューラルネットワークの記憶理解を深め、実用的な応用を提供する。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-07 [Paper Note] Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization, Nikita Kachaev+, arXiv'25, 2025.10 GPT Summary- VLAモデルのファインチューニング中に視覚表現が劣化することを示し、その影響を調査。アクションファインチューニングによるVL能力の変化を分析し、視覚表現の整合性を保つための戦略を評価。劣化を軽減し、分布外シナリオへの一般化を改善する方法を提案。分析により、アクションファインチューニングとVL表現の劣化のトレードオフを明らかにし、VL能力を回復するアプローチを強調。 Comment

pj page: https://blind-vla-paper.github.io/

元ポスト:

Loading…

Issue Date: 2025-11-07 [Paper Note] The emergence of sparse attention: impact of data distribution and benefits of repetition, Nicolas Zucchet+, arXiv'25, 2025.05 GPT Summary- スパースアテンションの出現をTransformerのトレーニング過程で研究し、出現のメカニズムとタイミングがタスクの構造やアーキテクチャに依存することを示す。繰り返しが出現を加速することも発見し、文脈内連想リコールタスクで結果を確認。これにより、データ分布とモデル設計が出現の学習ダイナミクスに与える影響を理解するための理論的フレームワークを提供。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-05 [Paper Note] Towards Robust Mathematical Reasoning, Thang Luong+, arXiv'25, 2025.11 GPT Summary- IMO-Benchを提案し、基盤モデルの数学的推論能力を向上させるための高度な推論ベンチマークを提供。IMO-AnswerBenchでは400のオリンピック問題をテストし、IMO-Proof Benchは証明作成能力を評価。モデルはそれぞれ80.0%と65.7%を達成し、非Geminiモデルを大幅に上回る。自動採点者は人間の評価と良好に相関し、IMO-GradingBenchを構築。コミュニティの数学的推論の向上に寄与することを期待。 Comment

pj page: https://imobench.github.io/

元ポスト:

Loading…

Issue Date: 2025-11-05 [Paper Note] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models, Xiaoyu Zhan+, arXiv'25, 2025.11 GPT Summary- MLLMの空間推論能力を評価・改善するために「Viewpoint Learning」タスクを導入し、100Kの視点を持つ画像ペアと質問-回答ペアからなるViewpoint-100Kデータセットを作成。二段階のファインチューニング戦略を用いて、教師ありファインチューニングと強化学習を通じて性能を向上。視点表現を同時に学習するハイブリッド手法を導入し、実験結果はMLLMの空間推論能力を大幅に向上させることを示す。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-05 [Paper Note] Fleming-VL: Towards Universal Medical Visual Reasoning with Multimodal LLMs, Yan Shu+, arXiv'25, 2025.11 GPT Summary- Fleming-VLは、異質な医療データに対応するための統一されたエンドツーエンドのフレームワークで、医療視覚理解を強化します。主な戦略として、長文コンテキストデータの統合、希少な医療データを用いたファインチューニング、3Dおよびビデオ理解の評価フレームワークの拡張を採用。広範な実験により、医療VQAやビデオQAなどで最先端のパフォーマンスを達成し、医療AIの透明性と再現性を促進するために公開されます。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-05 [Paper Note] World Simulation with Video Foundation Models for Physical AI, NVIDIA+, arXiv'25, 2025.10 GPT Summary- [Cosmos-Predict2.5]は、物理AIのための最新のフローベースアーキテクチャで、Text2World、Image2World、Video2Worldの生成を統合。強化学習で洗練され、ビデオ品質と指示の整合性が大幅に向上。ロボティクスや自律システム向けの合成データ生成を可能にし、[Cosmos-Transfer2.5]で高忠実度の長期ビデオ生成を実現。ソースコードやチェックポイントを公開し、物理AIの研究と展開を加速することを目指す。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-05 [Paper Note] MemSearcher: Training LLMs to Reason, Search and Manage Memory via End-to-End Reinforcement Learning, Qianhao Yuan+, arXiv'25, 2025.11 GPT Summary- MemSearcherは、検索エージェントのインタラクション履歴をコンパクトに維持し、現在のターンと融合させることで、計算コストを削減しつつ情報の完全性を保つ新しいワークフローを提案。マルチコンテキストGRPOを用いて推論やメモリ管理を最適化し、7つのベンチマークで顕著な性能向上を達成。特に、3BベースのMemSearcherは7Bベースラインを超える結果を示し、高精度と低オーバーヘッドを実現。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-05 [Paper Note] RLAC: Reinforcement Learning with Adversarial Critic for Free-Form Generation Tasks, Mian Wu+, arXiv'25, 2025.11 GPT Summary- 「対抗批評家による強化学習（RLAC）」を提案し、動的基準検証を通じて生成タスクの評価課題に対処。LLMを批評家として利用し、失敗モードを特定して検証することで、生成器と批評家を共同最適化。実験により、RLACがテキスト生成とコード生成の正確性を向上させ、従来の手法を上回ることを示した。動的批評家の効果も確認し、RLACのスケーリング可能性を示唆。 Comment

pj page: https://mianwu01.github.io/RLAC_website/

元ポスト:

Loading…

関連:

Loading…

著者ポスト:

Loading…

Issue Date: 2025-11-05 [Paper Note] DiffAdapt: Difficulty-Adaptive Reasoning for Token-Efficient LLM Inference, Xiang Liu+, arXiv'25, 2025.10 GPT Summary- 推論型大規模言語モデル（LLMs）の効率を改善するために、思考の痕跡のエントロピーを分析し、質問の難易度に応じた推論戦略を選択するフレームワーク「DiffAdapt」を提案。これにより、トークン使用量を最大22.4％削減しつつ、精度を維持または向上させることができる。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-04 [Paper Note] NOBLE -- Neural Operator with Biologically-informed Latent Embeddings to Capture Experimental Variability in Biological Neuron Models, Luca Ghafourpour+, arXiv'25, 2025.06 GPT Summary- NOBLEは、神経細胞の特性を理解するためのニューラルオペレーターフレームワークで、電流注入による体細胞電圧応答を予測します。合成データで訓練され、実験的変動性を考慮した神経ダイナミクスを提供し、従来のモデルよりも効率的に合成神経細胞を生成します。NOBLEは、実験データに基づく一般化を検証し、神経特性の理解を深める新たなアプローチを提供します。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-03 [Paper Note] ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning, Jiawei Gu+, arXiv'25, 2025.10 GPT Summary- ThinkMorphは、言語と視覚の相互推論を促進するために24Kの高品質な交互推論トレースでファインチューニングされた統一モデルです。視覚コンテンツを操作しながら一貫した言語論理を維持し、視覚中心のベンチマークで平均34.7%の性能向上を達成。未見の視覚操作スキルや推論モードの適応的切り替えを示し、マルチモーダル推論の新たな能力を明らかにします。 Comment

pj page: https://thinkmorph.github.io/

元ポスト:

Loading…

ポイント解説:

Loading…

著者ポスト:

Loading…

Issue Date: 2025-11-03 [Paper Note] GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning, Jiaqi Wu+, arXiv'25, 2025.10 GPT Summary- GAPフレームワークを提案し、タスク間の依存関係をグラフでモデル化することで、ツールの並列および逐次実行を最適化。MHQAデータセットでの実験により、従来のReActを大幅に上回る性能を示し、多段階情報取得タスクでの効率を向上。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-02 [Paper Note] Scaling Image Geo-Localization to Continent Level, Philipp Lindenberger+, arXiv'25, 2025.10 GPT Summary- 画像の正確な地理位置をグローバルスケールで特定するためのハイブリッドアプローチを提案。プロキシ分類タスクを利用して特徴表現を学習し、空中画像と組み合わせることで地上データのスパース性に対するロバスト性を向上。評価結果では、ヨーロッパのデータセットの68%以上のクエリを200m以内で位置特定可能であることを示した。 Comment

元ポスト:

Loading…

Issue Date: 2025-11-02 [Paper Note] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer, Junsong Chen+, arXiv'25, 2025.09 GPT Summary- SANA-Videoは、720x1280の解像度で1分間の高品質な動画を効率的に生成する小型の拡散モデルです。Linear DiTと定常メモリKVキャッシュを活用し、従来の注意機構よりも効率的に動画を生成します。訓練コストは64台のH100 GPUで12日間に抑え、MovieGenの1%に相当。SANA-Videoは、競争力のある性能を持ち、生成速度を71秒から29秒に加速します。低コストで高品質な動画生成を実現します。 Comment

pj page: https://nvlabs.github.io/Sana/Video/

元ポスト:

Loading…

Issue Date: 2025-11-02 [Paper Note] LongCat-Video Technical Report, Meituan LongCat Team+, arXiv'25, 2025.10 GPT Summary- 「LongCat-Video」は、13.6Bパラメータを持つ動画生成モデルで、複数の動画生成タスクにおいて高いパフォーマンスを発揮します。Diffusion Transformerフレームワークに基づき、テキストや画像から動画を生成し、長時間動画の生成においても高品質と一貫性を維持します。効率的な推論を実現するために、粗から細への生成戦略とブロックスパースアテンションを採用し、720p、30fpsの動画を数分で生成可能です。マルチリワードRLHFによるトレーニングにより、最新のモデルと同等の性能を達成し、コードとモデルの重みは公開されています。 Comment

pj page: https://github.com/meituan-longcat/LongCat-Video

元ポスト:

Loading…

Issue Date: 2025-11-01 [Paper Note] The End of Manual Decoding: Towards Truly End-to-End Language Models, Zhichao Wang+, arXiv'25, 2025.10 GPT Summary- LLMの「エンドツーエンド」ラベルは誤解を招くもので、手動調整が必要なデコーディングプロセスに依存している。本論文では、デコーディング戦略を学習する新アーキテクチャAutoDecoを提案し、文脈に応じた温度とtop-pを動的に予測することで、自己調整可能なトークンレベルのプロセスを実現。実験により、AutoDecoは従来のデコーディング戦略を超え、指示に基づくデコーディング制御の新たな能力を示し、操作可能なLLMデコーディングの新しいパラダイムを開くことが確認された。 Comment

元ポスト:

Loading…

ポイント解説:

Loading…

Issue Date: 2025-11-01 [Paper Note] Emu3.5: Native Multimodal Models are World Learners, Yufeng Cui+, arXiv'25, 2025.10 GPT Summary- Emu3.5は、視覚と言語の両方に基づく次の状態を予測する大規模なマルチモーダルワールドモデルで、10兆トークン以上のデータで事前訓練されています。双方向の並列予測を用いた「Discrete Diffusion Adaptation（DiDA）」により、推論を約20倍加速し、強力なマルチモーダル能力を発揮します。Emu3.5は、画像生成や編集タスクで優れたパフォーマンスを示し、オープンソースとして提供されています。 Comment

pj page: https://emu.world/

元ポスト:

Loading…

Issue Date: 2025-10-31 [Paper Note] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning, Yihe Deng+, arXiv'25, 2025.10 GPT Summary- 教師あり強化学習（SRL）を提案し、複雑な推論問題に対処。SRLは論理的な「アクション」のシーケンスを生成し、内部の推論モノローグを用いてモデルを訓練。これにより、専門家のアクションとの類似性に基づく報酬を提供し、柔軟な推論を促進。SRLは小規模モデルが難しい問題を学ぶことを可能にし、RLVRでの洗練により最強のパフォーマンスを発揮。推論ベンチマークやエージェントソフトウェア工学タスクにも効果的に一般化。 Issue Date: 2025-10-30 [Paper Note] Memory Mosaics at scale, Jianyu Zhang+, arXiv'25, 2025.07 GPT Summary- Memory Mosaics v2は、10Bサイズにスケールアップされ、1兆トークンでトレーニングされた結果、トランスフォーマーと同等の知識学習能力を示し、新しいタスクの実行においては大幅に優れた性能を発揮。トレーニングデータの単なる増加では再現できない改善が見られ、8兆トークンでトレーニングされたトランスフォーマーを上回る結果を得た。 Comment

元ポスト:

Loading…

Issue Date: 2025-10-30 [Paper Note] VisCoder2: Building Multi-Language Visualization Coding Agents, Yuansheng Ni+, arXiv'25, 2025.10 GPT Summary- 大規模言語モデル（LLMs）を用いた視覚化コーディングエージェントは、実行や修正において課題がある。これを解決するために、679Kの視覚化サンプルを含むデータセットVisCode-Multi-679K、自己デバッグ用のベンチマークVisPlotBench、そしてマルチ言語モデルVisCoder2を提案。実験結果では、VisCoder2がオープンソースのベースラインを超え、商用モデルに近い性能を示し、特に記号的言語での成功が顕著であった。 Comment

pj page: https://tiger-ai-lab.github.io/VisCoder2/

元ポスト:

Loading…

Issue Date: 2025-10-30 [Paper Note] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution, Junlong Li+, arXiv'25, 2025.10 GPT Summary- Toolathlonは、現実世界の言語エージェントのパフォーマンスを評価するための新しいベンチマークであり、32のアプリケーションと604のツールを含む多様な環境設定を提供します。従来の研究と異なり、実際のソフトウェアからのリアルな初期環境状態を用いて、108のタスクを通じてエージェントの能力を評価します。最先端モデルの評価では、成功率が低いことが明らかになり、Toolathlonがより優れた言語エージェントの開発を促進することが期待されています。 Comment

pj page: https://toolathlon.xyz/introduction

元ポスト:

Loading…

Issue Date: 2025-10-30 [Paper Note] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence, Qiushi Sun+, arXiv'25, 2025.10 GPT Summary- 神経コードインテリジェンスは、テキストベースのソースコードから視覚出力へと急速に拡大しているが、高品質なマルチモーダルコードデータの不足が進展を妨げている。本研究では、データとモデリングの観点から、標準的なチャートから複雑なウェブUIやアニメーションまでの高品質なコーパスを生成する合成ツールキットを導入し、JanusCode-800Kを構築。これにより、視覚プログラムインターフェースを用いたコード生成モデルJanusCoderおよびJanusCoderVのトレーニングが可能となり、優れたパフォーマンスを示した。モデルは商業モデルに匹敵する性能を持ち、プログラム的論理と視覚的表現の調和に関する重要な洞察も得られた。 Comment

元ポスト:

Loading…

Issue Date: 2025-10-30 [Paper Note] Rethinking Thinking Tokens: LLMs as Improvement Operators, Lovish Madaan+, arXiv'25, 2025.10 GPT Summary- 推論トレーニングにより、LLMが長い思考の連鎖を生成し、精度を向上させるが、コンテキストの長さや計算コストが増加する。そこで、メタ認知を活用し、精度を保ちながら遅延を低減する方法を探る。Parallel-Distill-Refine（PDR）という手法を提案し、多様なドラフトを生成し、制約のあるテキストワークスペースに蒸留し、洗練することで精度を向上させる。PDRは長いCoTよりも優れた精度を持ち、遅延を抑える。強化学習を用いて8Bの思考モデルをトレーニングし、数学タスクにおいてPDRが大幅な性能向上を示すことを報告。 Comment

元ポスト:

Loading…

Issue Date: 2025-10-30 [Paper Note] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents, Zihao Wang+, arXiv'25, 2025.10 GPT Summary- Game-TARSは、ネイティブなキーボード・マウス入力に基づいた統一的なアクション空間で訓練された一般的なゲームエージェントであり、異種ドメインにわたる大規模な事前訓練を実現します。500Bトークン以上のデータで事前訓練され、因果関係の混乱を減少させる減衰継続損失や効率的なSparse-Thinking戦略を採用。実験では、Minecraftタスクで従来モデルの約2倍の成功率を達成し、未見のウェブ3DゲームやFPSベンチマークでも優れた性能を示しました。統一されたアクション空間は、クロスゲームやマルチモーダルデータにおいてもスケーラブルであることが確認され、幅広いコンピュータ利用能力を持つエージェントへの道を示しています。 Comment

pj page: https://seed-tars.com/game-tars/

元ポスト:

Loading…

Issue Date: 2025-10-29 [Paper Note] Training-Free Group Relative Policy Optimization, Yuzheng Cai+, arXiv'25, 2025.10 GPT Summary- 最近のLLMエージェントは一般的な能力を示すが、専門的なドメインでのパフォーマンスは外部ツールとの統合に課題がある。従来の強化学習手法はコストがかかるが、我々は経験的知識を用いて出力分布を改善できると主張する。これを実現するために、Training-Free GRPOを提案し、パラメータ更新なしでLLMの性能を向上させる。実験により、Training-Free GRPOが少数のトレーニングサンプルでファインチューニングされた小型LLMを上回ることを示した。 Comment

元ポスト:

Loading…

Issue Date: 2025-10-29 [Paper Note] How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations, Zora Zhiruo Wang+, arXiv'25, 2025.10 GPT Summary- 本研究では、AIエージェントと人間の労働者のタスク実行を比較し、エージェントの専門知識やワークフローを明らかにします。スケーラブルなツールキットを用いて、エージェントは人間のワークフローに整合性を持ちながらも、プログラム的アプローチを取ることが判明。エージェントは質の劣る成果物を生み出す一方で、88.3%速く結果を提供し、コストを90.4-96.2%削減できることが示され、効率的な協力の可能性があることが明らかになりました。 Comment

元ポスト:

Loading…

Issue Date: 2025-10-29 [Paper Note] Critique-RL: Training Language Models for Critiquing through Two-Stage Reinforcement Learning, Zhiheng Xi+, arXiv'25, 2025.10 GPT Summary- Critique-RLは、強力なスーパーバイザーなしで批評言語モデルを訓練するためのオンライン強化学習アプローチを提案。二人プレイヤーのパラダイムで、アクターが応答を生成し、クリティックがフィードバックを提供。二段階の最適化戦略を採用し、クリティックの識別能力を強化しつつ、アクターの応答を洗練。実験により、Qwen2.5-7Bでドメイン内タスクで9.02%、ドメイン外タスクで5.70%の性能向上を達成。 Comment

元ポスト:

Loading…

Issue Date: 2025-10-29 [Paper Note] Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation, Ling-Team+, arXiv'25, 2025.10 GPT Summary- Ling 2.0は、推論能力を高めるための言語基盤シリーズで、数十億から1兆パラメータまでスケール可能なMixture-of-Experts（MoE）パラダイムを採用。3つの非思考モデル（Ling-mini-2.0、Ling-flash-2.0、Ling-1T）を含み、最大7倍の計算効率を実現。高スパースMoEや強化学習を用いたファインチューニングにより、推論精度と計算効率の新たなフロンティアを確立。Ling 2.0は、将来の推論モデルの基盤を提供する。 Comment

元ポスト:

Loading…