ICML
#Pocket#NLP#DataGeneration#DataDistillation#SyntheticData
Issue Date: 2025-05-07 R.I.P.: Better Models by Survival of the Fittest Prompts, Ping Yu+, ICML25 Comment元ポスト:https://x.com/jaseweston/status/1885160135053459934?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスレッドで著者が論文の解説をしている。 ... #NLP#LanguageModel#Reasoning#PostTraining
Issue Date: 2025-05-07 Thinking LLMs: General Instruction Following with Thought Generation, Tianhao Wu+, ICML25 Comment元ポスト:https://x.com/tesatory/status/1919461701206081813?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q外部のCoTデータを使わないで、LLMのreasoning capabilityを向上させる話っぽい。DeepSeek-R1の登場以 ... #ComputerVision#Embeddings#Analysis#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#SSM (StateSpaceModel)#PostTraining#read-later
Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML25 Comment現代の代表的な言語モデルのアーキテクチャ(decoder-only model, encoder-only model, SSM)について、最終層のembeddingよりも中間層のembeddingの方がdownstream task(MTEBの32Taskの平均)に、一貫して(ただし、これはMTE ...
Issue Date: 2025-05-07 R.I.P.: Better Models by Survival of the Fittest Prompts, Ping Yu+, ICML25 Comment元ポスト:https://x.com/jaseweston/status/1885160135053459934?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスレッドで著者が論文の解説をしている。 ... #NLP#LanguageModel#Reasoning#PostTraining
Issue Date: 2025-05-07 Thinking LLMs: General Instruction Following with Thought Generation, Tianhao Wu+, ICML25 Comment元ポスト:https://x.com/tesatory/status/1919461701206081813?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q外部のCoTデータを使わないで、LLMのreasoning capabilityを向上させる話っぽい。DeepSeek-R1の登場以 ... #ComputerVision#Embeddings#Analysis#Pocket#NLP#LanguageModel#Supervised-FineTuning (SFT)#Chain-of-Thought#SSM (StateSpaceModel)#PostTraining#read-later
Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML25 Comment現代の代表的な言語モデルのアーキテクチャ(decoder-only model, encoder-only model, SSM)について、最終層のembeddingよりも中間層のembeddingの方がdownstream task(MTEBの32Taskの平均)に、一貫して(ただし、これはMTE ...
#Pocket#NLP#LanguageModel#Alignment#Supervised-FineTuning (SFT)
Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, ICML25 Comment元ポスト:https://x.com/jaseweston/status/1854532624116547710?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSelf-Consistencyのように、モデルに複数の出力をさせて、最も頻度が高い回答と頻度が低い回答の2つでDPOのペアデー ... #Pocket#NLP#Dataset#LanguageModel#Alignment#InstructionTuning#PostTraining
Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML24 #Pocket#NLP#LanguageModel#SSM (StateSpaceModel)
Issue Date: 2025-03-24 Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML24 CommentMamba2の詳細を知りたい場合に読む ... #Pocket
Issue Date: 2023-05-22 Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling, Weijia Xu+, N_A, ICML24 Summary本研究では、Repromptingという反復サンプリングアルゴリズムを紹介し、Chain-of-Thought(CoT)レシピを探索することで、特定のタスクを解決する。Repromptingは、以前にサンプリングされた解決策を親プロンプトとして使用して、新しいレシピを反復的にサンプリングすることで、一貫して良い結果を出すCoTレシピを推論する。複数のステップ推論が必要な5つのBig-Bench Hardタスクにおいて、Repromptingはゼロショット、フューショット、および人間が書いたCoTベースラインよりも一貫して優れたパフォーマンスを発揮する。Repromptingは、より強力なモデルからより弱いモデルへの知識の転移を促進し、より弱いモデルの性能を大幅に向上させることもできる。全体的に、Repromptingは、人間が書いたCoTプロンプトを使用する従来の最先端手法よりも最大で+17ポイントの改善をもたらす。 Commentんー、IterCoTとかAutoPromptingとかと比較してないので、なんとも言えない…。サーベイ不足では。あとChatGPTを使うのはやめて頂きたい。 ... #Pocket#NLP#LanguageModel#Poisoning
Issue Date: 2023-05-04 Poisoning Language Models During Instruction Tuning, Alexander Wan+, N_A, ICML23 SummaryInstruction-tuned LMs(ChatGPT、FLAN、InstructGPTなど)は、ユーザーが提出した例を含むデータセットでfinetuneされる。本研究では、敵対者が毒入りの例を提供することで、LMの予測を操作できることを示す。毒入りの例を構築するために、LMのbag-of-words近似を使用して入出力を最適化する。大きなLMほど毒入り攻撃に対して脆弱であり、データフィルタリングやモデル容量の削減に基づく防御は、テストの正確性を低下させながら、中程度の保護しか提供しない。 #ComputerVision#NLP#MulltiModal#ContrastiveLearning
Issue Date: 2023-04-27 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML21 CommentCLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル と呼ばれる. onlineでlearning to rankを行える手法で、現在の重みwとwをランダムな方向に動かし ... #Pocket#NLP#MultitaskLearning#Admin'sPick
Issue Date: 2018-02-05 A unified architecture for natural language processing: Deep neural networks with multitask learning, Collobert+, ICML2008. CommentDeep Neural Netを用いてmultitask learningを行いNLPタスク(POS tagging, Semantic Role Labeling, Chunking etc.)を解いた論文。 被引用数2000を超える。 multitask learningの学習プロセスな ... #InformationRetrieval#LearningToRank#ListWise#Pocket
Issue Date: 2018-01-01 Listwise Approach to Learning to Rank - Theory and Algorithm (ListMLE), Xia+, ICML2008 #NaturalLanguageGeneration#SingleFramework#NLP#DataToTextGeneration
Issue Date: 2017-12-31 Learning to sportscast: a test of grounded language acquisition, Chen+, ICML08 #InformationRetrieval#LearningToRank#ListWise#Admin'sPick
Issue Date: 2018-01-01 Learning to Rank: From Pairwise Approach to Listwise Approach (ListNet), Cao+, ICML2007 Comment解説スライド:http://www.nactem.ac.uk/tsujii/T-FaNT2/T-FaNT.files/Slides/liu.pdf 解説ブログ:https://qiita.com/koreyou/items/a69750696fd0b9d88608従来行われてきたLearning t ... #InformationRetrieval#LearningToRank#PairWise#Admin'sPick
Issue Date: 2018-01-01 Learning to Rank using Gradient Descent (RankNet), Burges+, ICML2005 Commentpair-wiseのlearning2rankで代表的なRankNet論文 解説ブログ:https://qiita.com/sz_dr/items/0e50120318527a928407 lossは2個のインスタンスのpair、A, Bが与えられたとき、AがBよりも高くランクされる場合は確 ... #Article#Pocket#NLP#LanguageModel#Alignment#InstructionTuning#LLM-as-a-Judge#AIF(AI Feedback)
Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, ICML24 Summary将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment人間の介入無しで(人間がアノテーションしたpreference data無しで)LLMのAlignmentを改善していく手法。LLM-as-a-Judge Promptingを用いて、LLM自身にpolicy modelとreward modelの役割の両方をさせる。unlabeledなprompt ...
Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, ICML25 Comment元ポスト:https://x.com/jaseweston/status/1854532624116547710?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSelf-Consistencyのように、モデルに複数の出力をさせて、最も頻度が高い回答と頻度が低い回答の2つでDPOのペアデー ... #Pocket#NLP#Dataset#LanguageModel#Alignment#InstructionTuning#PostTraining
Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML24 #Pocket#NLP#LanguageModel#SSM (StateSpaceModel)
Issue Date: 2025-03-24 Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML24 CommentMamba2の詳細を知りたい場合に読む ... #Pocket
Issue Date: 2023-05-22 Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling, Weijia Xu+, N_A, ICML24 Summary本研究では、Repromptingという反復サンプリングアルゴリズムを紹介し、Chain-of-Thought(CoT)レシピを探索することで、特定のタスクを解決する。Repromptingは、以前にサンプリングされた解決策を親プロンプトとして使用して、新しいレシピを反復的にサンプリングすることで、一貫して良い結果を出すCoTレシピを推論する。複数のステップ推論が必要な5つのBig-Bench Hardタスクにおいて、Repromptingはゼロショット、フューショット、および人間が書いたCoTベースラインよりも一貫して優れたパフォーマンスを発揮する。Repromptingは、より強力なモデルからより弱いモデルへの知識の転移を促進し、より弱いモデルの性能を大幅に向上させることもできる。全体的に、Repromptingは、人間が書いたCoTプロンプトを使用する従来の最先端手法よりも最大で+17ポイントの改善をもたらす。 Commentんー、IterCoTとかAutoPromptingとかと比較してないので、なんとも言えない…。サーベイ不足では。あとChatGPTを使うのはやめて頂きたい。 ... #Pocket#NLP#LanguageModel#Poisoning
Issue Date: 2023-05-04 Poisoning Language Models During Instruction Tuning, Alexander Wan+, N_A, ICML23 SummaryInstruction-tuned LMs(ChatGPT、FLAN、InstructGPTなど)は、ユーザーが提出した例を含むデータセットでfinetuneされる。本研究では、敵対者が毒入りの例を提供することで、LMの予測を操作できることを示す。毒入りの例を構築するために、LMのbag-of-words近似を使用して入出力を最適化する。大きなLMほど毒入り攻撃に対して脆弱であり、データフィルタリングやモデル容量の削減に基づく防御は、テストの正確性を低下させながら、中程度の保護しか提供しない。 #ComputerVision#NLP#MulltiModal#ContrastiveLearning
Issue Date: 2023-04-27 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML21 CommentCLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル と呼ばれる. onlineでlearning to rankを行える手法で、現在の重みwとwをランダムな方向に動かし ... #Pocket#NLP#MultitaskLearning#Admin'sPick
Issue Date: 2018-02-05 A unified architecture for natural language processing: Deep neural networks with multitask learning, Collobert+, ICML2008. CommentDeep Neural Netを用いてmultitask learningを行いNLPタスク(POS tagging, Semantic Role Labeling, Chunking etc.)を解いた論文。 被引用数2000を超える。 multitask learningの学習プロセスな ... #InformationRetrieval#LearningToRank#ListWise#Pocket
Issue Date: 2018-01-01 Listwise Approach to Learning to Rank - Theory and Algorithm (ListMLE), Xia+, ICML2008 #NaturalLanguageGeneration#SingleFramework#NLP#DataToTextGeneration
Issue Date: 2017-12-31 Learning to sportscast: a test of grounded language acquisition, Chen+, ICML08 #InformationRetrieval#LearningToRank#ListWise#Admin'sPick
Issue Date: 2018-01-01 Learning to Rank: From Pairwise Approach to Listwise Approach (ListNet), Cao+, ICML2007 Comment解説スライド:http://www.nactem.ac.uk/tsujii/T-FaNT2/T-FaNT.files/Slides/liu.pdf 解説ブログ:https://qiita.com/koreyou/items/a69750696fd0b9d88608従来行われてきたLearning t ... #InformationRetrieval#LearningToRank#PairWise#Admin'sPick
Issue Date: 2018-01-01 Learning to Rank using Gradient Descent (RankNet), Burges+, ICML2005 Commentpair-wiseのlearning2rankで代表的なRankNet論文 解説ブログ:https://qiita.com/sz_dr/items/0e50120318527a928407 lossは2個のインスタンスのpair、A, Bが与えられたとき、AがBよりも高くランクされる場合は確 ... #Article#Pocket#NLP#LanguageModel#Alignment#InstructionTuning#LLM-as-a-Judge#AIF(AI Feedback)
Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, ICML24 Summary将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment人間の介入無しで(人間がアノテーションしたpreference data無しで)LLMのAlignmentを改善していく手法。LLM-as-a-Judge Promptingを用いて、LLM自身にpolicy modelとreward modelの役割の両方をさせる。unlabeledなprompt ...