ICLR

#Pocket#NLP#LanguageModel#Test-Time Scaling
Issue Date: 2025-07-01 Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search, Yuichi Inoue+, ICLR25 Comment元ポスト:https://x.com/iwiwi/status/1939914618132168961?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel#Alignment#SyntheticData#SyntheticDataGeneration
Issue Date: 2025-06-25 Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR25 CommentOpenReview:https://openreview.net/forum?id=Pnk7vMbznK![image](https://github.com/user-attachments/assets/9cb451b2-5440-43a4-9867-b5206dd08cca)下記のようなpr ... #EfficiencyImprovement#Pretraining#Pocket#NLP#LanguageModel#MoE(Mixture-of-Experts)
Issue Date: 2025-06-25 Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization, Taishi Nakamura+, ICLR25 CommentOpenReview:https://openreview.net/forum?id=gx1wHnf5Vp関連:#1546提案手法の全体像とDiversity re-initializationの概要。元のUpcyclingでは全てidenticalな重みでreplicateされていたため、これが個 ...

#Analysis#Pocket#NLP#LanguageModel#SelfImprovement#read-later#Verification
Issue Date: 2025-06-24 Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models, Yuda Song+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/misleadVerificationに対する理解を深めるのに非常に良さそう ... #Analysis#Pocket#NLP#LanguageModel#Verification
Issue Date: 2025-06-24 On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks, Kaya Stechly+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/misleadOpenReview:https://openreview.net/forum?id=4O0v4s3IzY ... #Analysis#Pocket#NLP#LanguageModel#RLHF
Issue Date: 2025-06-24 Language Models Learn to Mislead Humans via RLHF, Jiaxin Wen+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/mislead ... #Pocket#NLP#LanguageModel#Evaluation#Contamination#Admin'sPick
Issue Date: 2025-05-23 LiveBench: A Challenging, Contamination-Limited LLM Benchmark, Colin White+, ICLR25 Commentテストデータのコンタミネーションに対処できるように設計されたベンチマーク。重要研究 ... #EfficiencyImprovement#Pocket#NLP#LanguageModel#Test-Time Scaling#Verification
Issue Date: 2025-05-13 Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR25 Comment元ポスト:https://x.com/hillbig/status/1922059828429832259?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview: https://openreview.net/forum?id=vo9t20wsmd ... #Analysis#Pocket#NLP#LanguageModel#Chain-of-Thought
Issue Date: 2025-04-30 When More is Less: Understanding Chain-of-Thought Length in LLMs, Yuyang Wu+, ICLR25 CommentICLR 2025 Best Paper Runner Up Award元ポスト:https://x.com/yifeiwang77/status/1916873981979660436?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel#KnowledgeEditing
Issue Date: 2025-04-30 AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models, Junfeng Fang+, ICLR25 Comment元ポスト:https://x.com/hillbig/status/1917343444810489925?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview:https://openreview.net/forum?id=HvSytvg3JhMLPに新たな知識を直接注入 ... #Pocket#NLP#Transformer#Chain-of-Thought#In-ContextLearning#SSM (StateSpaceModel)
Issue Date: 2025-04-26 RNNs are not Transformers (Yet): The Key Bottleneck on In-context Retrieval, Kaiyue Wen+, ICLR25 Comment元ポスト:https://x.com/yuma_1_or/status/1915968478735130713?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:#1210↑とはどういう関係があるだろうか? ... #ComputerVision#Pocket#NLP#Dataset#LanguageModel#Evaluation#MulltiModal#x-Use
Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR25 CommentAndroid環境でのPhone Useのベンチマーク ... #Analysis#MachineLearning#Pocket#NLP#LanguageModel#Alignment#Hallucination#DPO#Repetition
Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR25 Comment元ポスト:https://x.com/joshuarenyi/status/1913033476275925414?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/hillbig/status/1917189793588613299?s=46&t=Y ... #Pocket#NLP#LanguageModel#SelfImprovement#RewardHacking
Issue Date: 2025-04-06 CREAM: Consistency Regularized Self-Rewarding Language Models, Zhaoyang Wang+, ICLR25 Comment#1212を改善した研究OpenReview:https://openreview.net/forum?id=Vf6RDObyEFこの方向性の研究はおもしろい ... #Pocket#NLP#LanguageModel#Attention#AttentionSinks
Issue Date: 2025-04-05 When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR25 CommentSink Rateと呼ばれる、全てのheadのFirst Tokenに対するattention scoreのうち(layer l * head h個存在する)、どの程度の割合のスコアが閾値を上回っているかを表す指標を提案#1860の先行研究 ... #Analysis#Pretraining#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#read-later
Issue Date: 2025-03-27 Overtrained Language Models Are Harder to Fine-Tune, Jacob Mitchell Springer+, ICLR25 Comment著者によるポスト:https://x.com/jacspringer/status/1904960783341023521?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q事前学習のトークン数を増やすとモデルのsensitivityが増し、post-trainingでのパフォーマンスの劣化 ... #Pocket#NLP#LanguageModel#Alignment#DPO#PostTraining#Diversity
Issue Date: 2025-02-01 Diverse Preference Optimization, Jack Lanchantin+, ICLR25 Comment元ポスト:https://x.com/jaseweston/status/1885399530419450257?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview: https://openreview.net/forum?id=pOq9vDIYevDPOと同じ最適化方 ... #NLP#LanguageModel#SelfCorrection#Verification
Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, ICLR25 CommentLLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができ ... #Pocket#NLP#Dataset#LanguageModel#ReinforcementLearning#Reasoning#Admin'sPick#PRM
Issue Date: 2025-06-26 Lets Verify Step by Step, Hunter Lightman+, ICLR24 CommentOpenReview:https://openreview.net/forum?id=v8L0pN6EOiPRM800K:https://github.com/openai/prm800k/tree/main ... #Pocket#Attention#AttentionSinks
Issue Date: 2025-04-05 Efficient Streaming Language Models with Attention Sinks, Guangxuan Xiao+, ICLR24 CommentAttention Sinkという用語を提言した研究#1860の先行研究 ... #Pocket#NLP#Dataset#LanguageModel#LLMAgent
Issue Date: 2025-04-02 WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR24 CommentWebにおけるさまざまなrealisticなタスクを評価するためのベンチマーク![image](https://github.com/user-attachments/assets/8895fc29-e997-4cce-a43e-65b928dc1d78)実際のexample。スタート地点からピッツ ... #Analysis#Pocket#NLP#LanguageModel
Issue Date: 2025-03-15 Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR24 Comment日本語解説:https://note.com/ainest/n/nbe58b36bb2dbOpenReview:https://openreview.net/forum?id=F76bwRSLeKSparseAutoEncoderはネットワークのあらゆるところに仕込める(と思われる)が、たとえばTr ... #Pocket#NLP#LanguageModel#DataToTextGeneration#TabularData
Issue Date: 2024-01-24 Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding, Zilong Wang+, N_A, ICLR24 SummaryLLMsを使用したChain-of-Tableフレームワークは、テーブルデータを推論チェーン内で活用し、テーブルベースの推論タスクにおいて高い性能を発揮することが示された。このフレームワークは、テーブルの連続的な進化を表現し、中間結果の構造化情報を利用してより正確な予測を可能にする。さまざまなベンチマークで最先端のパフォーマンスを達成している。 CommentTable, Question, Operation Historyから次のoperationとそのargsを生成し、テーブルを順次更新し、これをモデルが更新の必要が無いと判断するまで繰り返す。最終的に更新されたTableを用いてQuestionに回答する手法。Questionに回答するために、複雑 ... #MachineLearning#Pocket#NLP#LanguageModel#read-later#ModelMerge
Issue Date: 2024-01-23 Knowledge Fusion of Large Language Models, Fanqi Wan+, N_A, ICLR24 Summary本研究では、既存の事前訓練済みの大規模言語モデル(LLMs)を統合することで、1つの強力なモデルを作成する方法を提案しています。異なるアーキテクチャを持つ3つの人気のあるLLMsを使用して、ベンチマークとタスクのパフォーマンスを向上させることを実証しました。提案手法のコード、モデルの重み、およびデータはGitHubで公開されています。 #NLP#LanguageModel#FactualConsistency#RAG(RetrievalAugmentedGeneration)
Issue Date: 2023-10-29 Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N_A, ICLR24 Summary大規模言語モデル(LLMs)は、事実に基づかない回答を生成することがあります。そこで、自己反省的な検索増強生成(Self-RAG)という新しいフレームワークを提案します。このフレームワークは、検索と自己反省を通じてLLMの品質と事実性を向上させます。実験結果は、Self-RAGが最先端のLLMsおよび検索増強モデルを大幅に上回ることを示しています。 CommentRAGをする際の言語モデルの回答の質とfactual consistencyを改善せるためのフレームワーク。reflection tokenと呼ばれる特殊トークンを導入し、言語モデルが生成の過程で必要に応じて情報をretrieveし、自身で生成内容を批評するように学習する。単語ごとに生成するのではO ... image#Pocket#NLP#LanguageModel#Reasoning#Verification
Issue Date: 2023-08-08 SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, N_A, ICLR24 Summary最新の大規模言語モデル(LLMs)は、推論問題を解決するために有望な手法ですが、複雑な問題にはまだ苦戦しています。本研究では、LLMsが自身のエラーを認識する能力を持っているかどうかを探求し、ゼロショットの検証スキームを提案します。この検証スキームを使用して、異なる回答に対して重み付け投票を行い、質問応答のパフォーマンスを向上させることができることを実験で確認しました。 Commentこれはおもしろそう。後で読むOpenReview:https://openreview.net/forum?id=pTHfApDakA ... #NLP#LanguageModel#DataGeneration
Issue Date: 2023-04-25 WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft_Peking University, ICLR24 Commentinstruction trainingは大きな成功を収めているが、人間がそれらのデータを作成するのはコストがかかる。また、そもそも複雑なinstructionを人間が作成するのは苦労する。そこで、LLMに自動的に作成させる手法を提案している(これはself instructと一緒)。データを生成す ... #Pretraining#Pocket#NLP#LanguageModel
Issue Date: 2024-09-26 UL2: Unifying Language Learning Paradigms, Yi Tay+, N_A, ICLR23 CommentOpenReview:https://openreview.net/forum?id=6ruVLB727MC ... #Pocket#NLP#LanguageModel#KnowledgeEditing
Issue Date: 2023-05-04 Mass-Editing Memory in a Transformer, Kevin Meng+, N_A, ICLR23 Summary大規模言語モデルを更新することで、専門的な知識を追加できることが示されているしかし、これまでの研究は主に単一の関連付けの更新に限定されていた本研究では、MEMITという方法を開発し、多数のメモリを直接言語モデルに更新することができることを実験的に示したGPT-J(6B)およびGPT-NeoX(20B)に対して数千の関連付けまでスケーリングでき、これまでの研究を桁違いに上回ることを示したコードとデータはhttps://memit.baulab.infoにあります。 #NeuralNetwork#NLP#LanguageModel#Chain-of-Thought
Issue Date: 2023-04-27 Automatic Chain of Thought Prompting in Large Language Models, Zhang+, Shanghai Jiao Tong University, ICLR23 CommentLLMによるreasoning chainが人間が作成したものよりも優れていることを示しているとのこと #532 よりclusteringベースな手法を利用することにより、誤りを含む例が単一のクラスタにまとめられうことを示し、これにより過剰な誤ったデモンストレーションが軽減されることを示した。手法の ... #Pocket#NLP#LanguageModel#KnowledgeEditing
Issue Date: 2025-06-18 Fast Model Editing at Scale, Eric Mitchell+, ICLR22 CommentOpenReview:https://openreview.net/forum?id=0DcZxeWfOPt ... #Pocket#NLP#LanguageModel#PEFT(Adaptor/LoRA)#PostTraining#Admin'sPick
Issue Date: 2025-05-12 LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu+, ICLR22 CommentOpenrReview:https://openreview.net/forum?id=nZeVKeeFYf9LoRAもなんやかんやメモってなかったので追加。事前学習済みのLinear Layerをfreezeして、freezeしたLinear Layerと対応する低ランクの行列A,Bを別途定義し、 ... #Pretraining#Pocket
Issue Date: 2025-01-06 Towards Continual Knowledge Learning of Language Models, Joel Jang+, ICLR22 #NeuralNetwork#ComputerVision#MachineLearning#Pocket#Supervised-FineTuning (SFT)#CLIP#OOD
Issue Date: 2023-05-15 Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, Ananya Kumar+, N_A, ICLR22 Summary事前学習済みモデルをダウンストリームタスクに転移する際、ファインチューニングと線形プロービングの2つの方法があるが、本研究では、分布のシフトが大きい場合、ファインチューニングが線形プロービングよりも分布外で精度が低くなることを発見した。LP-FTという2段階戦略の線形プロービング後の全体のファインチューニングが、両方のデータセットでファインチューニングと線形プロービングを上回ることを示唆している。 Comment事前学習済みのニューラルモデルをfinetuningする方法は大きく分けて1. linear layerをヘッドとしてconcatしヘッドのみのパラメータを学習2. 事前学習済みモデル全パラメータを学習の2種類がある。前者はin-distributionデータに強いが、out-of-dis ... image#Pocket
Issue Date: 2023-05-04 Transformers Learn Shortcuts to Automata, Bingbin Liu+, arXiv22 CommentOpenReview: https://openreview.net/forum?id=De4FYqjFueZ ... #Pocket#NLP#Dataset#LanguageModel#Evaluation#Admin'sPick
Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR21 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 CommentOpenReview:https://openreview.net/forum?id=d7KBjmI3GmQMMLU論文 ... #NeuralNetwork#MachineLearning#Grokking
Issue Date: 2023-04-25 GROKKING: GENERALIZATION BEYOND OVERFIT- TING ON SMALL ALGORITHMIC DATASETS, Power+, ICLR21 Workshop Comment学習後すぐに学習データをmemorizeして、汎化能力が無くなったと思いきや、10^3ステップ後に突然汎化するという現象(Grokking)を報告 ![image](https://user-images.githubusercontent.com/12249301/234430324-a23学習 ... #ComputerVision#Pocket#DataAugmentation#ContrastiveLearning#Self-SupervisedLearning#Admin'sPick
Issue Date: 2025-05-18 A Simple Framework for Contrastive Learning of Visual Representations, Ting Chen+, ICML20 Comment日本語解説:https://techblog.cccmkhd.co.jp/entry/2022/08/30/163625 ... #NeuralNetwork#ComputerVision#MachineLearning#Pocket#NLP#KnowledgeEditing#read-later
Issue Date: 2025-05-07 Editable Neural Networks, Anton Sinitsin+, ICLR20 Comment(おそらく)Knowledge Editingを初めて提案した研究OpenReview:https://openreview.net/forum?id=HJedXaEtvS ... #Pocket#NLP#LanguageModel#Decoding#Admin'sPick
Issue Date: 2025-04-14 The Curious Case of Neural Text Degeneration, Ari Holtzman+, ICLR20 Comment現在のLLMで主流なNucleus (top-p) Samplingを提案した研究 ... #DocumentSummarization#Supervised#Pocket#NLP#Abstractive
Issue Date: 2017-12-31 A Deep Reinforced Model for Abstractive Summarization, Paulus+(with Socher), ICLR18 #NeuralNetwork#Pocket#NLP#MoE(Mixture-of-Experts)
Issue Date: 2025-04-29 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR17 CommentMixture-of-Experts (MoE) Layerを提案した研究 ... #NeuralNetwork#Sentence#Embeddings#NLP#Admin'sPick
Issue Date: 2017-12-28 A structured self-attentive sentence embedding, Li+ (Bengio group), ICLR17 CommentOpenReview:https://openreview.net/forum?id=BJC_jUqxe ... #RecommenderSystems#SessionBased#SequentialRecommendation#Admin'sPick
Issue Date: 2019-08-02 SESSION-BASED RECOMMENDATIONS WITH RECURRENT NEURAL NETWORKS, Hidasi+, ICLR16 CommentRNNを利用したsequential recommendation (session-based recommendation)の先駆け的論文。日本語解説: https://qiita.com/tatamiya/items/46e278a808a51893deac ... #NeuralNetwork#MachineTranslation#Pocket#NLP#Attention#Admin'sPick
Issue Date: 2025-05-12 Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR15 Comment(Cross-)Attentionを初めて提案した研究。メモってなかったので今更ながら追加。Attentionはここからはじまった(と認識している) ...