SelfCorrection

#Survey#Pocket#NLP#LanguageModel
Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL24 CommentLLMのself-correctionに関するサーベイ![image](https://github.com/user-attachments/assets/bea63e03-8b6f-4c3e-b8ff-d738c062149c)![image](https://github.com/user-a ... #NLP#LanguageModel
Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, arXiv24 CommentLLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができ ... #Survey#NLP#LanguageModel
Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL24 Comment![image](https://github.com/user-attachments/assets/8049b03d-927b-49ee-98eb-7b690b92c229) ...

#Pocket#NLP#LanguageModel
Issue Date: 2024-09-07 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N_A, arXiv24 #Pocket#NLP#LanguageModel
Issue Date: 2024-09-07 Large Language Models Cannot Self-Correct Reasoning Yet, Jie Huang+, N_A, arXiv23 #Pocket#NLP#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv23 CommentReflection-Tuningを提案している研究? ... #Article#Pocket#LanguageModel#Article#Reasoning
Issue Date: 2024-12-22 OpenAI o1を再現しよう(Reasoningモデルの作り方), はち, 2024.12 CommentReflection after Thinkingを促すためのプロンプトが興味深い ... #Article#Survey#NLP#LanguageModel#Repository
Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Commentself-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。元ポスト: https://x.com/ryokamoi_ja/status/1862635105010799054?s=46&t=Y6UuIHB0Lv0IpmFAjlc ... #Article#NLP#LanguageModel#InstructionTuning#OpenWeightLLM
Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Commentただまあ仮に同じInputを利用していたとして、promptingは同じ(モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない)なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験 ...