SelfCorrection
#Survey#Pocket#NLP#LanguageModel
Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL24 CommentLLMのself-correctionに関するサーベイ![image](https://github.com/user-attachments/assets/bea63e03-8b6f-4c3e-b8ff-d738c062149c)![image](https://github.com/user-a ... #NLP#LanguageModel
Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, arXiv24 CommentLLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができ ... #Survey#NLP#LanguageModel
Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL24 Comment![image](https://github.com/user-attachments/assets/8049b03d-927b-49ee-98eb-7b690b92c229) ...
Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL24 CommentLLMのself-correctionに関するサーベイ![image](https://github.com/user-attachments/assets/bea63e03-8b6f-4c3e-b8ff-d738c062149c)![image](https://github.com/user-a ... #NLP#LanguageModel
Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, arXiv24 CommentLLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができ ... #Survey#NLP#LanguageModel
Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL24 Comment![image](https://github.com/user-attachments/assets/8049b03d-927b-49ee-98eb-7b690b92c229) ...
#Pocket#NLP#LanguageModel
Issue Date: 2024-09-07 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N_A, arXiv24 #Pocket#NLP#LanguageModel
Issue Date: 2024-09-07 Large Language Models Cannot Self-Correct Reasoning Yet, Jie Huang+, N_A, arXiv23 #Pocket#NLP#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv23 CommentReflection-Tuningを提案している研究? ... #Article#NLP#LanguageModel#InstructionTuning#OpenWeightLLM
Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Commentただまあ仮に同じInputを利用していたとして、promptingは同じ(モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない)なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験 ...
Issue Date: 2024-09-07 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N_A, arXiv24 #Pocket#NLP#LanguageModel
Issue Date: 2024-09-07 Large Language Models Cannot Self-Correct Reasoning Yet, Jie Huang+, N_A, arXiv23 #Pocket#NLP#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv23 CommentReflection-Tuningを提案している研究? ... #Article#NLP#LanguageModel#InstructionTuning#OpenWeightLLM
Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Commentただまあ仮に同じInputを利用していたとして、promptingは同じ(モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない)なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験 ...