NLPに関する論文・技術記事メモの一覧

NLP

#ComputerVision #Pocket #Dataset #LanguageModel #Evaluation #ACL(Findings)#VisionLanguageModel
Issue Date: 2025-07-02 Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation, Qiyue Gao+, ACL（Findings）25 Comment元ポスト:https://x.com/qiyuegao123/status/1940097188220297613?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #ComputerVision #Pocket #Dataset #LanguageModel #Evaluation #MulltiModal
Issue Date: 2025-07-02 MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning, Yulun Jiang+, arXiv25 Comment元ポスト:https://x.com/michael_d_moor/status/1940062842742526445?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QPortal2を使った新たなベンチマーク。筆者は昔このゲームを少しだけプレイしたことがあるが、普通に難しかった記憶がある ... #ComputerVision #Pocket #Dataset #LanguageModel #Zero/FewShotPrompting #MulltiModal #In-ContextLearning
Issue Date: 2025-07-01 SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning, Melanie Rieff+, arXiv25 Comment元ポスト:https://x.com/michael_d_moor/status/1939664155813839114?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#Pocket #LanguageModel #ICLR #Test-Time Scaling
Issue Date: 2025-07-01 Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search, Yuichi Inoue+, ICLR25 Comment元ポスト:https://x.com/iwiwi/status/1939914618132168961?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #Dataset #LanguageModel #LLMAgent #Evaluation #Reproducibility
Issue Date: 2025-06-30 The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements, Bingchen Zhao+, arXiv25 Comment元ポスト:https://x.com/karpathy/status/1939709449956126910?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #Pocket #LanguageModel #ReinforcementLearning #TransferLearning #DPO #GRPO #VerifiableRewards #Off-Policy #On-Policy #Non-VerifiableRewards
Issue Date: 2025-06-30 Bridging Offline and Online Reinforcement Learning for LLMs, Jack Lanchantin+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1939673136842313960?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement #Pocket #LanguageModel #Architecture
Issue Date: 2025-06-28 Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models, Zihan Wang+, arXiv25 Comment元ポスト:https://x.com/theturingpost/status/1938728784351658087?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pretraining #Pocket #Dataset #LanguageModel #MultiLingual
Issue Date: 2025-06-28 FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language, Guilherme Penedo+, arXiv25 Comment元ポスト:https://x.com/gui_penedo/status/1938631842720022572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qv1#1942abstを見る限りFinewebを多言語に拡張した模様 ... #Analysis #Pocket #LanguageModel #ReinforcementLearning #mid-training #PostTraining #read-later #Admin'sPick
Issue Date: 2025-06-27 OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling, Zengzhi Wang+, arXiv25 Comment元ポスト:https://x.com/sinclairwang1/status/1938244843857449431?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qmid-trainingの観点から、post trainingにおけるRLがスケーリングする条件をsystematical ... #Pocket #LanguageModel #ReinforcementLearning
Issue Date: 2025-06-27 RLPR: Extrapolating RLVR to General Domains without Verifiers, Tianyu Yu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1938359430980268329?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q既存のRLVRはVerifierを構築しなければならず、しばしばそのVerifierは複雑になりやすく、スケールさせるには課題があった ... #ComputerVision #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #MulltiModal
Issue Date: 2025-06-26 OpenVision: A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning, Xianhang Li+, arXiv25 Comment元ポスト:https://x.com/cihangxie/status/1920575141849030882?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #ReinforcementLearning #PRM
Issue Date: 2025-06-26 Process Reward Models That Think, Muhammad Khalifa+, arXiv25 #Pocket #LanguageModel #ReinforcementLearning #RewardHacking
Issue Date: 2025-06-26 Robust Reward Modeling via Causal Rubrics, Pragya Srivastava+, arXiv25 Comment元ポスト:https://x.com/harman26singh/status/1937876897058181230?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q以下がresearch question:![image](https://github.com/user-attachm ... #Pocket #LanguageModel #Alignment #SyntheticData #SyntheticDataGeneration #ICLR
Issue Date: 2025-06-25 Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing, Zhangchen Xu+, ICLR25 CommentOpenReview:https://openreview.net/forum?id=Pnk7vMbznK![image](https://github.com/user-attachments/assets/9cb451b2-5440-43a4-9867-b5206dd08cca)下記のようなpr ... #Embeddings #Pocket #LanguageModel #pretrained-LM #Japanese
Issue Date: 2025-06-25 llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length, Issa Sugiura+, arXiv25 Comment参考:#1761 ... #Pocket #Dataset #LanguageModel #Alignment #Safety #Japanese #PostTraining
Issue Date: 2025-06-25 AnswerCarefully: A Dataset for Improving the Safety of Japanese LLM Output, Hisami Suzuki+, arXiv25 CommentBlog:https://llmc.nii.ac.jp/answercarefully-dataset/ ... #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #MoE(Mixture-of-Experts)#ICLR
Issue Date: 2025-06-25 Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization, Taishi Nakamura+, ICLR25 CommentOpenReview:https://openreview.net/forum?id=gx1wHnf5Vp関連:#1546提案手法の全体像とDiversity re-initializationの概要。元のUpcyclingでは全てidenticalな重みでreplicateされていたため、これが個 ... #Pocket #LanguageModel #Verification
Issue Date: 2025-06-25 Shrinking the Generation-Verification Gap with Weak Verifiers, Jon Saad-Falcon+, arXiv25 Comment元ポスト:https://x.com/jonsaadfalcon/status/1937600479527317802?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement #Pocket #LanguageModel #DiffusionModel
Issue Date: 2025-06-25 Mercury: Ultra-Fast Language Models Based on Diffusion, Inception Labs+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1937360864262389786?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスループット（モデルのトークン生成速度）が、SoTAらしいdLLMモデル解説:https://x.com/hillbi ... #Pretraining #Pocket #Dataset #LanguageModel #SyntheticData
Issue Date: 2025-06-25 Recycling the Web: A Method to Enhance Pre-training Data Quality and Quantity for Language Models, Thao Nguyen+, arXiv25 Comment元ポスト:https://x.com/thao_nguyen26/status/1937210428876292457?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q学習データの枯渇に対する対処として別の方向性としては下記のような研究もある:#1829 ... #Pocket #LanguageModel #Reasoning #PRM
Issue Date: 2025-06-25 ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs, Jiaru Zou+, arXiv25 Comment元ポスト:https://x.com/_akhaliq/status/1937345023005048925?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #ComputerVision #Pocket #LanguageModel #MulltiModal #Tokenizer
Issue Date: 2025-06-24 Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations, Jiaming Han+, arXiv25 Comment元ポスト:https://x.com/_akhaliq/status/1937345768223859139?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qtext modalityとvision modalityを共通の空間で表現する![image](https://github.co ... #Analysis #Pocket #LanguageModel #SelfImprovement #ICLR #read-later #Verification
Issue Date: 2025-06-24 Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models, Yuda Song+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/misleadVerificationに対する理解を深めるのに非常に良さそう ... #ComputerVision #Embeddings #Pocket #MulltiModal
Issue Date: 2025-06-24 jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval, Michael Günther+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1937342962075378014?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #Pocket #LanguageModel #ICLR #Verification
Issue Date: 2025-06-24 On the Self-Verification Limitations of Large Language Models on Reasoning and Planning Tasks, Kaya Stechly+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/misleadOpenReview:https://openreview.net/forum?id=4O0v4s3IzY ... #Analysis #Pocket #LanguageModel #RLHF #ICLR
Issue Date: 2025-06-24 Language Models Learn to Mislead Humans via RLHF, Jiaxin Wen+, ICLR25 Comment参考:https://joisino.hatenablog.com/entry/mislead ... #Pretraining #Pocket #LanguageModel #Tokenizer
Issue Date: 2025-06-23 From Bytes to Ideas: Language Modeling with Autoregressive U-Nets, Mathurin Videau+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1936825784473096335?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #ReinforcementLearning #Reasoning #PostTraining #read-later #Admin'sPick
Issue Date: 2025-06-22 Revisiting Reinforcement Learning for LLM Reasoning from A Cross-Domain Perspective, Zhoujun Cheng+, arXiv25 Comment元ポスト:https://x.com/chengzhoujun/status/1936113985507803365?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qpost-trainingにおけるRLのcross domain（Math, Code, Science, Logic, T ... #Document #Pocket #Library #ACL #parser
Issue Date: 2025-06-21 Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting, Hao Feng+, ACL25 Commentrepo:https://github.com/bytedance/DolphinSoTAなDocumentのparser![image](https://github.com/user-attachments/assets/5b1c4480-65f1-46cc-9318-f8126327e066) ... #Pocket #LanguageModel #MoE(Mixture-of-Experts)#ICML #Scaling Laws
Issue Date: 2025-06-21 Scaling Laws for Upcycling Mixture-of-Experts Language Models, Seng Pei Liew+, ICML25 Comment元ポスト:https://x.com/sbintuitions/status/1935970879923540248?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview:https://openreview.net/forum?id=ZBBo19jldX関連:#1546 ... #Analysis #Pocket #LanguageModel #Chain-of-Thought
Issue Date: 2025-06-18 Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought, Hanlin Zhu+, arXiv25 Comment元ポスト:https://x.com/tydsh/status/1935206012799303817?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #OpenWeight #OpenSource #PostTraining
Issue Date: 2025-06-18 AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy, Zihan Liu+, arXiv25 Comment元ポスト:https://x.com/ychennlp/status/1935005283178492222?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q様々なtakeawayがまとめられている。SFT,RLに利用されたデータも公開#1829において事前学習時に4 epochまでは性能 ... #Pocket #LanguageModel #Reasoning
Issue Date: 2025-06-18 Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks, Yifei Xu+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1934957116571451409?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement #Pocket #LanguageModel #Reasoning
Issue Date: 2025-06-18 Wait, We Dont Need to Wait Removing Thinking Tokens Improves Reasoning Efficiency, Chenlong Wang+, arXiv25 CommentWait, Hmmといったlong CoTを誘導するようなtokenを抑制することで、Accはほぼ変わらずに生成されるトークン数を削減可能、といった図に見える。Reasoningモデルでデコーディング速度を向上したい場合に効果がありそう。![image](https://github.com/us元 ... #Analysis #Pocket #LanguageModel #Supervised-FineTuning (SFT)#read-later
Issue Date: 2025-06-18 Massive Supervised Fine-tuning Experiments Reveal How Data, Layer, and Training Factors Shape LLM Alignment Quality, Yuto Harada+, arXiv25 Comment元ポスト:https://x.com/odashi_t/status/1935191113981403359?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #Pocket #Dataset #LanguageModel #FactualKnowledge
Issue Date: 2025-06-17 What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models, Kaiser Sun+, arXiv25 Comment元ポスト:https://x.com/kaiserwholearns/status/1934582217692295268?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement #Pocket #LanguageModel #Reasoning
Issue Date: 2025-06-17 Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs, Roy Eisenstadt+, arXiv25 Comment元ポスト:https://x.com/gm8xx8/status/1934357202619310559?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #Dataset #LanguageModel #Evaluation #Programming
Issue Date: 2025-06-17 LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?, Zihan Zheng+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1934433210387296414?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QHardな問題は現状のSoTAモデル（Claude4が含まれていないが）でも正答率0.0%![image](https ... #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-06-17 RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning, Yu Wang+, arXiv25 Comment元ポスト:https://x.com/omarsar0/status/1934667096828399641?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q知識だけでなく知識の使い方も蓄積し、利用時に検索された知識と紐づいた使い方を活用することでRAGの推論能力を向上させる。![imag ... #Pocket #Dataset #LLMAgent #Evaluation #Programming #LongSequence
Issue Date: 2025-06-17 ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering, Yuki Imajuku+, arXiv25 Comment元ポスト:https://x.com/sakanaailabs/status/1934767254715117812?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連ポスト:https://x.com/iwiwi/status/1934830621756674499?s=46&t=Y6 ... #Pocket #LanguageModel #KnowledgeEditing #FactualKnowledge #meta-learning
Issue Date: 2025-06-17 PropMEND: Hypernetworks for Knowledge Propagation in LLMs, Zeyu Leo Liu+, arXiv25 Comment元ポスト:https://x.com/zeyuliu10/status/1934659512046330057?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q従来のKnowledge Editing手法は新たな知識を記憶させることはできる（i.e., 注入した知識を逐語的に生成できる;東 ... #Pocket #LanguageModel #Hallucination #ICML
Issue Date: 2025-06-14 Steer LLM Latents for Hallucination Detection, Seongheon Park+, ICML25 Comment元ポスト:https://x.com/sharonyixuanli/status/1933522788645810493?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Reasoning #Reproducibility
Issue Date: 2025-06-13 Give Me FP32 or Give Me Death? Challenges and Solutions for Reproducible Reasoning, Jiayi Yuan+, arXiv25 #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning
Issue Date: 2025-06-13 Self-Adapting Language Models, Adam Zweiger+, arXiv25 Comment元ポスト:https://x.com/jyo_pari/status/1933350025284702697?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QコンテキストCと評価データtauが与えられたとき、Cを入力した時にモデルが自分をSFTし、tau上でより高い性能を得られるようなサン ... #EfficiencyImprovement #MachineLearning #Pocket #LanguageModel #Supervised-FineTuning (SFT)#PostTraining #read-later
Issue Date: 2025-06-13 Resa: Transparent Reasoning Models via SAEs, Shangshang Wang+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1933101904529363112?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q著者ポスト:https://x.com/upupwang/status/1933207676663865482?s=46&t ... #EfficiencyImprovement #Pocket #LanguageModel #PEFT(Adaptor/LoRA)#ICML
Issue Date: 2025-06-12 Text-to-LoRA: Instant Transformer Adaption, Rujikorn Charakorn+, ICML25 Comment元ポスト:https://x.com/roberttlange/status/1933074366603919638?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qな、なるほど、こんな手が…！ ... #Pocket #Supervised-FineTuning (SFT)#LLMAgent #x-Use
Issue Date: 2025-06-12 Go-Browse: Training Web Agents with Structured Exploration, Apurva Gandhi+, arXiv25 Comment元ポスト:https://x.com/gneubig/status/1932786231542493553?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QWebArena:#1849 ... #Pretraining #Pocket #LanguageModel #ReinforcementLearning
Issue Date: 2025-06-12 Reinforcement Pre-Training, Qingxiu Dong+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1932922314578145640?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Transformer #Architecture #ACL
Issue Date: 2025-06-12 Value Residual Learning, Zhanchao Zhou+, ACL25 Comment元ポスト:https://x.com/zhanchaozhou/status/1932829678081098079?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q![image](https://github.com/user-attachments/assets/c2c97ea1-0 ... #EfficiencyImprovement #Pocket #LanguageModel #Alignment #ReinforcementLearning #Safety
Issue Date: 2025-06-11 Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance, Ruizhong Qiu+, arXiv25 Comment元ポスト:https://x.com/gaotangli/status/1932289294657626189?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Subword
Issue Date: 2025-06-11 StochasTok: Improving Fine-Grained Subword Understanding in LLMs, Anya Sims+, arXiv25 Comment元ポスト:https://x.com/cong_ml/status/1932369418534760554?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qおもしろそう ... #EfficiencyImprovement #Pocket #Transformer #Attention #Architecture
Issue Date: 2025-06-10 Log-Linear Attention, Han Guo+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1932194773559107911?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/theturingpost/status/1931432543766847887?s=46&t ... #MachineLearning #Pocket #LanguageModel #ICML #KnowledgeEditing
Issue Date: 2025-06-10 Representation Shattering in Transformers: A Synthetic Study with Knowledge Editing, Kento Nishi+, ICML25 Comment元ポスト:https://x.com/kento_nishi/status/1932072335726539063?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #InformationRetrieval #Pocket #Search #Dataset #LanguageModel
Issue Date: 2025-06-08 Search Arena: Analyzing Search-Augmented LLMs, Mihran Miroyan+, arXiv25 Comment元ポスト:https://x.com/mirmiroyan/status/1931081734764081391?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Dataset #LanguageModel #SyntheticData #Reasoning
Issue Date: 2025-06-06 SynLogic: Synthesizing Verifiable Reasoning Data at Scale for Learning Logical Reasoning and Beyond, Junteng Liu+, arXiv25 Comment元ポスト:https://x.com/junxian_he/status/1930558456907669638?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q35種類のタスクを人手で選定し、タスクごとに困難度の鍵となるパラメータを定義（数独ならばグリッド数など）。その上で、各タスクごと ... #Pocket #LanguageModel #ReinforcementLearning #LLMAgent #Coding
Issue Date: 2025-06-06 Training Language Models to Generate Quality Code with Program Analysis Feedback, Feng Yao+, arXiv25 Comment元ポスト:https://x.com/fengyao1909/status/1930377346693116350?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q現在のCoding LLMはUnitTestを通るように学習されるが、UnitTestに通るからといってコードの品質が良いわけ ... #Pocket #LanguageModel #RLVR
Issue Date: 2025-06-05 Writing-Zero: Bridge the Gap Between Non-verifiable Problems and Verifiable Rewards, Xun Lu, arXiv25 Comment元ポスト:https://x.com/grad62304977/status/1929996614883783170?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QWriting Principleに基づいて（e.g., 一貫性、創造性とか？）批評を記述し、最終的に与えられたペアワイズの ... #Pocket #LanguageModel #ReinforcementLearning #Programming #SoftwareEngineering #UnitTest
Issue Date: 2025-06-05 Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning, Yinjie Wang+, arXiv25 Comment元ポスト:https://x.com/lingyang_pu/status/1930234983274234232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QUnitTestの性能向上させます系の研究が増えてきている感関連ポスト:https://x.com/gm8xx8/status ... #ComputerVision #Pocket #LanguageModel #MulltiModal #RLVR #DataMixture
Issue Date: 2025-06-05 MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning, Yiqing Liang+, arXiv25 Comment元ポスト:https://x.com/_vztu/status/1930312780701413498?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qマルチモーダルな設定でRLVRを適用すると、すべてのデータセットを学習に利用する場合より、特定のタスクのみのデータで学習した方が当該タスク ... #Analysis #Pocket #LanguageModel #read-later #Memorization
Issue Date: 2025-06-05 How much do language models memorize?, John X. Morris+, arXiv25 Comment元ポスト:https://x.com/rohanpaul_ai/status/1929989864927146414?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2025-06-05 Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem, Yubo Wang+, arXiv25 Comment元ポスト:https://x.com/wenhuchen/status/1930447298527670662?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:#1832#1938参考:https://x.com/weiliu99/status/1930826904522875309 ... #Pocket #LanguageModel #LLMAgent #SelfImprovement #read-later
Issue Date: 2025-06-05 Darwin Godel Machine: Open-Ended Evolution of Self-Improving Agents, Jenny Zhang+, arXiv25 Comment元ポスト:https://www.linkedin.com/posts/omarsar_new-paper-open-ended-evolution-of-self-improving-activity-7334610178832556033-8dA-?utm_source=share&utm_me ... #Analysis #Pocket #LanguageModel #ReinforcementLearning #read-later
Issue Date: 2025-06-04 ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, Mingjie Liu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1930043688329326962?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Verification
Issue Date: 2025-06-03 xVerify: Efficient Answer Verifier for Reasoning Model Evaluations, Ding Chen+, arXiv25 #Pocket #LanguageModel #read-later #VerifiableRewards #RLVR #Verification
Issue Date: 2025-06-03 Pitfalls of Rule- and Model-based Verifiers -- A Case Study on Mathematical Reasoning, Yuzhen Huang+, arXiv25 Comment元ポスト:https://x.com/junxian_he/status/1929371821767586284?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qverificationタスクに特化してfinetuningされたDiscriminative Classifierが、rewa ... #Pocket #LanguageModel #LLMAgent #SelfImprovement
Issue Date: 2025-06-03 Self-Challenging Language Model Agents, Yifei Zhou+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1929719473952497797?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/omarsar0/status/1930748591242424439?s=46&t=Y ... #Pocket #Dataset #LanguageModel #Evaluation #Reasoning
Issue Date: 2025-06-01 BIG-Bench Extra Hard, Mehran Kazemi+, arXiv25 CommentBig-Bench hard（既にSoTAモデルの能力差を識別できない）の難易度をさらに押し上げたデータセット。Inputの例![image](https://github.com/user-attachments/assets/b9d1308f-1481-470d-a553-c181d902Big ... #LanguageModel #SyntheticData #PRM #Verification
Issue Date: 2025-06-01 Training Step-Level Reasoning Verifiers with Formal Verification Tools, Ryo Kamoi+, arXiv25 Comment元ポスト:https://x.com/ryokamoi/status/1925939062348697874?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q人手によるAnnotation（step levelのラベルのアノテーション)無しでProcsee Reward Modelの学習デ ... #Pocket #LanguageModel #LLMAgent #SoftwareEngineering #read-later
Issue Date: 2025-06-01 Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering, Guangtao Zeng+, arXiv25 Comment元ポスト:https://x.com/gan_chuang/status/1928963872188244400?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #LanguageModel #RLVR
Issue Date: 2025-06-01 Can Large Reasoning Models Self-Train?, Sheikh Shafayat+, arXiv25 Comment元ポスト:https://x.com/askalphaxiv/status/1928487492291829809?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1995と似ているように見えるself-consistencyでground truthを推定し、推定したground tr ... #Survey #Pocket #LanguageModel #Chain-of-Thought #COLING
Issue Date: 2025-05-29 Beyond Chain-of-Thought: A Survey of Chain-of-X Paradigms for LLMs, Yu Xia+, COLING25 #Pocket #LanguageModel #Distillation #Scaling Laws
Issue Date: 2025-05-29 Distillation Scaling Laws, Dan Busbridge+, arXiv25 #Pocket #Temporal #LanguageModel #read-later
Issue Date: 2025-05-27 Temporal Sampling for Forgotten Reasoning in LLMs, Yuetai Li+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1927286319018832155?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QTemporal ForgettingとTemporal Sampling ... #Pocket #LanguageModel #ReinforcementLearning #Reasoning
Issue Date: 2025-05-27 Learning to Reason without External Rewards, Xuandong Zhao+, arXiv25 Comment元ポスト:https://x.com/xuandongzhao/status/1927270931874910259?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qおもしろそうexternalなsignalをrewardとして用いないで、モデル自身が内部的に保持しているconfidenc ... #Pocket #LanguageModel #LongSequence #OpenWeight
Issue Date: 2025-05-27 QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization, Weizhou Shen+, arXiv25 Comment元ポスト:https://x.com/_akhaliq/status/1927014346690826684?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #LongSequence #OpenWeight #read-later
Issue Date: 2025-05-27 QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning, Fanqi Wan+, arXiv25 Comment元ポスト:https://x.com/_akhaliq/status/1927011243597967524?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Evaluation #Mathematics #InstructionFollowingCapability
Issue Date: 2025-05-24 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models, Tingchen Fu+, arXiv25 Comment元ポスト:https://x.com/yafuly/status/1925753754961236006?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #Pocket #LanguageModel #Conversation
Issue Date: 2025-05-24 LLMs Get Lost In Multi-Turn Conversation, Philippe Laban+, arXiv25 Comment元ポスト:https://x.com/_stakaya/status/1926009283386155009?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLost in the MiddleならぬLost in Conversation![image](https://github.c ... #ComputerVision #Pocket #LanguageModel #MulltiModal #DiffusionModel
Issue Date: 2025-05-24 LaViDa: A Large Diffusion Language Model for Multimodal Understanding, Shufan Li+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1925749919312159167?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QDiffusion Modelの波が来た同程度のサイズのARモデルをoutperform [^1]![image](http ... #EfficiencyImprovement #Pocket #LanguageModel #DiffusionModel
Issue Date: 2025-05-24 dKV-Cache: The Cache for Diffusion Language Models, Xinyin Ma+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1925384029718946177?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q提案手法を適用した場合、ARなモデルとDiffusion Modelで、実際のところどの程度のdecoding速度の差 ... #Embeddings #Pocket #LanguageModel #DiffusionModel
Issue Date: 2025-05-24 Diffusion vs. Autoregressive Language Models: A Text Embedding Perspective, Siyue Zhang+, arXiv25 Comment元ポスト:https://x.com/trtd6trtd/status/1925775950500806742?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Evaluation #ICLR #Contamination #Admin'sPick
Issue Date: 2025-05-23 LiveBench: A Challenging, Contamination-Limited LLM Benchmark, Colin White+, ICLR25 Commentテストデータのコンタミネーションに対処できるように設計されたベンチマーク。重要研究 ... #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #Scaling Laws
Issue Date: 2025-05-21 Parallel Scaling Law for Language Models, Mouxiang Chen+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1924959706331939099?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#405と考え方が似ている ... #EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #Chain-of-Thought #Reasoning
Issue Date: 2025-05-21 AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning, Chenwei Lou+, arXiv25 CommentRLのRewardにおいて、bassのリワードだけでなく、reasoningをなくした場合のペナルティ項reasoningをoveruseした場合のペナルティ項formattingに関するペナルティ項を設定し、reasoningの有無を適切に判断できた場合にrewardが最大化さいつか必要になったら ... #Pretraining #MachineLearning #Pocket #LanguageModel #ModelMerge
Issue Date: 2025-05-20 Model Merging in Pre-training of Large Language Models, Yunshui Li+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1924804324812873990?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/giffmana/status/1924849877634449878?s=46&t ... #Pocket #LanguageModel #QuestionAnswering #KnowledgeGraph #FactualConsistency #Reasoning #Test-Time Scaling #PostTraining
Issue Date: 2025-05-20 Scaling Reasoning can Improve Factuality in Large Language Models, Mike Zhang+, arXiv25 Comment元ポスト:https://x.com/_akhaliq/status/1924477447120068895?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement #Pocket #LanguageModel #Transformer #Attention #LLMServing #Architecture #MoE(Mixture-of-Experts)#SoftwareEngineering
Issue Date: 2025-05-20 Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures, Chenggang Zhao+, arXiv25 Comment元ポスト:https://x.com/deedydas/status/1924512147947848039?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #ComputerVision #Analysis #Pocket #LanguageModel #Supervised-FineTuning (SFT)#SyntheticData #ACL #DPO #PostTraining #Probing
Issue Date: 2025-05-18 Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding, Kung-Hsiang Huang+, ACL25 Comment元ポスト:https://x.com/steeve__huang/status/1923543884367306763?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q既存のLLM (proprietary, openweightそれぞれ)が、シンプルなvisual arithmeticタ ... #Pocket #LanguageModel #ReinforcementLearning #LLM-as-a-Judge #PostTraining #GRPO #VerifiableRewards
Issue Date: 2025-05-16 J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning, Chenxi Whitehouse+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1923186392420450545?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLM-as-a-Judgeのなめのモデルを学習するレシピにおいて、初めてRLを適用した研究と主張し、より高品質なreasoni ... #EfficiencyImprovement #Pocket #LanguageModel #ICLR #Test-Time Scaling #Verification
Issue Date: 2025-05-13 Faster Cascades via Speculative Decoding, Harikrishna Narasimhan+, ICLR25 Comment元ポスト:https://x.com/hillbig/status/1922059828429832259?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview: https://openreview.net/forum?id=vo9t20wsmd ... #Pocket #LanguageModel #Library #KnowledgeEditing
Issue Date: 2025-05-11 EasyEdit2: An Easy-to-use Steering Framework for Editing Large Language Models, Ziwen Xu+, arXiv25 Commentgithub:https://github.com/zjunlp/EasyEdit/tree/main ... #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Safety #DPO #Toxicity #ITI (Inference Time Intervention)
Issue Date: 2025-05-09 When Bad Data Leads to Good Models, Kenneth Li+, arXiv25 Comment元ポスト:https://x.com/ke_li_2021/status/1920646069613957606?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qこれは面白そうWebコーパスなどを事前学習で利用する際は、質の高いデータを残して学習した方が良いとされているが、4chanのよう ... #EfficiencyImprovement #Pocket #LanguageModel #ReinforcementLearning #read-later
Issue Date: 2025-05-09 Reinforcement Learning for Reasoning in Large Language Models with One Training Example, Yiping Wang+, arXiv25 Comment![image](https://github.com/user-attachments/assets/03cd9200-7fed-4c6d-a5a6-2379d2c8950a)下記ポストでQwenに対してpromptを適切に与えることで、追加のpost training無しで高い数学に関する能力を ... #Pocket #Dataset #LanguageModel #Mathematics #read-later #Coding
Issue Date: 2025-05-08 Rewriting Pre-Training Data Boosts LLM Performance in Math and Code, Kazuki Fujii+, arXiv25 Comment元ポスト:https://x.com/okoge_kaz/status/1920141189652574346?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/hillbig/status/1920613041026314274?s=46&t=Y6U ... #EfficiencyImprovement #Pocket #ReinforcementLearning #Reasoning #PEFT(Adaptor/LoRA)#GRPO
Issue Date: 2025-05-07 Tina: Tiny Reasoning Models via LoRA, Shangshang Wang+, arXiv25 Comment元ポスト:https://x.com/rasbt/status/1920107023980462575?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q（おそらく）Reasoningモデルに対して、LoRAとRLを組み合わせて、reasoning能力を向上させた初めての研究 ... #Pocket #DataGeneration #DataDistillation #SyntheticData #ICML
Issue Date: 2025-05-07 R.I.P.: Better Models by Survival of the Fittest Prompts, Ping Yu+, ICML25 Comment元ポスト:https://x.com/jaseweston/status/1885160135053459934?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスレッドで著者が論文の解説をしている。 ... #LanguageModel #Reasoning #ICML #PostTraining
Issue Date: 2025-05-07 Thinking LLMs: General Instruction Following with Thought Generation, Tianhao Wu+, ICML25 Comment元ポスト:https://x.com/tesatory/status/1919461701206081813?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q外部のCoTデータを使わないで、LLMのreasoning capabilityを向上させる話っぽい。DeepSeek-R1の登場以 ... #ComputerVision #Embeddings #Analysis #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Chain-of-Thought #SSM (StateSpaceModel)#ICML #PostTraining #read-later
Issue Date: 2025-05-04 Layer by Layer: Uncovering Hidden Representations in Language Models, Oscar Skean+, ICML25 Comment現代の代表的な言語モデルのアーキテクチャ（decoder-only model, encoder-only model, SSM）について、最終層のembeddingよりも中間層のembeddingの方がdownstream task（MTEBの32Taskの平均）に、一貫して（ただし、これはMTE ... #LanguageModel #Bias #NAACL #PostTraining #PerplexityCurse
Issue Date: 2025-05-02 Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction, Kuniaki Saito+, NAACL25 Comment元ポスト:https://x.com/losnuevetoros/status/1918332232181207096?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q![Image](https://github.com/user-attachments/assets/dd6bdffa- ... #Analysis #Pocket #LanguageModel #Chain-of-Thought #ICLR
Issue Date: 2025-04-30 When More is Less: Understanding Chain-of-Thought Length in LLMs, Yuyang Wu+, ICLR25 CommentICLR 2025 Best Paper Runner Up Award元ポスト:https://x.com/yifeiwang77/status/1916873981979660436?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #ICLR #KnowledgeEditing
Issue Date: 2025-04-30 AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models, Junfeng Fang+, ICLR25 Comment元ポスト:https://x.com/hillbig/status/1917343444810489925?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview:https://openreview.net/forum?id=HvSytvg3JhMLPに新たな知識を直接注入 ... #Survey #InformationRetrieval #Pocket #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-04-30 Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets, Lorenz Brehme+, arXiv25 Comment元ポスト:https://x.com/_reachsumit/status/1917425829233189027?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qおもしろそう ... #Pocket #Transformer #Chain-of-Thought #In-ContextLearning #SSM (StateSpaceModel)#ICLR
Issue Date: 2025-04-26 RNNs are not Transformers （Yet）: The Key Bottleneck on In-context Retrieval, Kaiyue Wen+, ICLR25 Comment元ポスト:https://x.com/yuma_1_or/status/1915968478735130713?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:#1210↑とはどういう関係があるだろうか？ ... #Multi #Analysis #Pocket #LLMAgent
Issue Date: 2025-04-26 Why Do Multi-Agent LLM Systems Fail?, Mert Cemri+, arXiv25 Comment元ポスト:https://x.com/mertcemri/status/1915567789714329799?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q7つのメジャーなマルチエージェントフレームワークに対して200以上のタスクを実施し、6人の専門家がtraceをアノテーション。14 ... #EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Quantization #SmallModel
Issue Date: 2025-04-19 BitNet b1.58 2B4T Technical Report, Shuming Ma+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1912783876365177235?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q圧倒的省メモリかつcpuでのinference速度も早そう![image](https://github.com/user- ... #ComputerVision #Pocket #Dataset #LanguageModel #Evaluation #MulltiModal #ICLR #x-Use
Issue Date: 2025-04-18 AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents, Christopher Rawles+, ICLR25 CommentAndroid環境でのPhone Useのベンチマーク ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #DiffusionModel #Reasoning #PostTraining #GRPO
Issue Date: 2025-04-18 d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning, Siyan Zhao+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1912785180504535121?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QdLLMに対してGRPOを適用する手法(diffuGRPO)を提案している。long CoTデータでSFTしてreasoni ... #Analysis #MachineLearning #Pocket #LanguageModel #Alignment #Hallucination #ICLR #DPO #Repetition
Issue Date: 2025-04-18 Learning Dynamics of LLM Finetuning, Yi Ren+, ICLR25 Comment元ポスト:https://x.com/joshuarenyi/status/1913033476275925414?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/hillbig/status/1917189793588613299?s=46&t=Y ... #Analysis #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Evaluation #SmallModel #PostTraining #read-later
Issue Date: 2025-04-13 A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility, Andreas Hochlehnert+, arXiv25 Comment元ポスト:https://x.com/wenhuchen/status/1911143014258405420?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSLMをmath reasoning向けにpost-trainingする場合、RL（既存研究で試されているもの）よりも（大規模モデ ... #Pocket #LLMAgent #Hallucination
Issue Date: 2025-04-11 Hallucination Mitigation using Agentic AI Natural Language-Based Frameworks, Diego Gosmar+, arXiv25 #Pocket #LanguageModel #Attention #AttentionSinks
Issue Date: 2025-04-09 Using Attention Sinks to Identify and Evaluate Dormant Heads in Pretrained LLMs, Pedro Sandoval-Segura+, arXiv25 Comment元ポスト:https://x.com/psandovalsegura/status/1909652533334712691?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Attention #Architecture
Issue Date: 2025-04-07 KAA: Kolmogorov-Arnold Attention for Enhancing Attentive Graph Neural Networks, Taoran Fang+, arXiv25 Comment元ポスト:https://x.com/theturingpost/status/1908966571227398449?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Attention #Architecture
Issue Date: 2025-04-07 XAttention: Block Sparse Attention with Antidiagonal Scoring, Ruyi Xu+, arXiv25 Comment元ポスト:https://x.com/theturingpost/status/1908966571227398449?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Attention #Architecture
Issue Date: 2025-04-07 Slim attention: cut your context memory in half without loss of accuracy -- K-cache is all you need for MHA, Nils Graef+, arXiv25 Comment元ポスト:https://x.com/theturingpost/status/1908966571227398449?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #SelfImprovement #ICLR #RewardHacking
Issue Date: 2025-04-06 CREAM: Consistency Regularized Self-Rewarding Language Models, Zhaoyang Wang+, ICLR25 Comment#1212を改善した研究OpenReview:https://openreview.net/forum?id=Vf6RDObyEFこの方向性の研究はおもしろい ... #EfficiencyImprovement #Pocket #Transformer #LongSequence #Architecture
Issue Date: 2025-04-06 Scalable-Softmax Is Superior for Attention, Ken M. Nakanishi, arXiv25 Comment#1863で採用されている手法で、ブログポスト中で引用されている。Long Contextになった場合にsoftmaxの分布が均一になる（＝重要な情報にattendする能力が削がれる）ことを防ぐための手法を提案している。解説ポスト:https://x.com/nrehiew_/status/1908 ... #Pocket #LanguageModel #Attention #ICLR #AttentionSinks
Issue Date: 2025-04-05 When Attention Sink Emerges in Language Models: An Empirical View, Xiangming Gu+, ICLR25 CommentSink Rateと呼ばれる、全てのheadのFirst Tokenに対するattention scoreのうち（layer l * head h個存在する）、どの程度の割合のスコアが閾値を上回っているかを表す指標を提案#1860の先行研究 ... #Analysis #LanguageModel #Attention #AttentionSinks
Issue Date: 2025-04-05 Why do LLMs attend to the first token?, Federico Barbero+, arXiv25 Comment元ポスト:https://x.com/omarsar0/status/1908187563422261411?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QAttention Sinkによって、トークンの情報がover-mixingされることが抑制され、Decoder-only LLMの ... #Pocket #LanguageModel #ConceptErasure #AISTATS
Issue Date: 2025-04-03 Fundamental Limits of Perfect Concept Erasure, Somnath Basu Roy Chowdhury+, AISTATS25 Comment元ポスト:https://x.com/somnathbrc/status/1907463419105570933?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey #Pocket #LanguageModel #Test-Time Scaling
Issue Date: 2025-04-02 What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models, Qiyuan Zhang+, arXiv25 Comment元ポスト:https://x.com/hesamation/status/1907095419793911893?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qとてつもない量だ…網羅性がありそう。What to Scaleがよくあるselfconsistency(Parallel Sca ... #Pocket #LanguageModel #Transformer #Attention #Architecture
Issue Date: 2025-04-02 Multi-Token Attention, Olga Golovneva+, arXiv25 Comment元ポスト:https://x.com/jaseweston/status/1907260086017237207?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q従来のMulti Head Attentionでは、単体のQKのみを利用していたけど、複数のQKの情報を畳み込んで活用できるよう ... #Pocket #Dataset #LanguageModel #LLMAgent #Evaluation #QuestionGeneration
Issue Date: 2025-04-02 Interactive Agents to Overcome Ambiguity in Software Engineering, Sanidhya Vijayvargiya+, arXiv25 Comment曖昧なユーザメッセージに対する、エージェントが"質問をする能力を測る"ベンチマーク<img width="422" alt="Image" src="https://github.com/user-attachments/assets/3d201ebf-9ca1-4333-9d27-e33a90 ... #Analysis #Pocket #LanguageModel #FactualKnowledge
Issue Date: 2025-04-01 Inside-Out: Hidden Factual Knowledge in LLMs, Zorik Gekhman+, arXiv25 Comment元ポスト:https://x.com/zorikgekhman/status/1906693729886363861?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #ComputerVision #Pocket #LanguageModel #MulltiModal #SpeechProcessing #OpenWeight #Video
Issue Date: 2025-03-31 Qwen2.5-Omni Technical Report, Jin Xu+, arXiv25 CommentQwen TeamによるマルチモーダルLLM。テキスト、画像、動画音声をinputとして受け取り、テキスト、音声をoutputする。![image](https://github.com/user-attachments/assets/03e54fd7-2011-4069-aa1b-38d1610元 ... #Metrics #LanguageModel #GenerativeAI #Evaluation
Issue Date: 2025-03-31 Measuring AI Ability to Complete Long Tasks, Thomas Kwa+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1902854727089656016?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q確かに線形に見える。てかGPT-2と比べるとAIさん進化しすぎである…。![image](https://github.com/use ... #RecommenderSystems #CollaborativeFiltering #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)#Reasoning
Issue Date: 2025-03-27 RALLRec+: Retrieval Augmented Large Language Model Recommendation with Reasoning, Sichun Luo+, arXiv25 Comment元ポスト:https://x.com/_reachsumit/status/1905107217663336832?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QReasoning LLMをRecSysに応用する初めての研究（らしいことがRelated Workに書かれている）arxiv ... #Pocket #LanguageModel #LLM-as-a-Judge #Test-Time Scaling
Issue Date: 2025-03-27 Scaling Evaluation-time Compute with Reasoning Models as Process Evaluators, Seungone Kim+, arXiv25 Comment元ポスト:https://x.com/jinulee_v/status/1905025016401428883?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLM-as-a-JudgeもlongCoT+self-consistencyで性能が改善するらしい。![image](https ... #Analysis #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ICLR #read-later
Issue Date: 2025-03-27 Overtrained Language Models Are Harder to Fine-Tune, Jacob Mitchell Springer+, ICLR25 Comment著者によるポスト:https://x.com/jacspringer/status/1904960783341023521?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q事前学習のトークン数を増やすとモデルのsensitivityが増し、post-trainingでのパフォーマンスの劣化 ... #InformationRetrieval #Pocket #Evaluation #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-03-25 ExpertGenQA: Open-ended QA generation in Specialized Domains, Haz Sameen Shahgir+, arXiv25 Comment元ポスト:https://x.com/at_sushi_/status/1904325501331890561?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #LanguageModel #Supervised-FineTuning (SFT)#PostTraining
Issue Date: 2025-03-25 Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate, Yubo Wang+, arXiv25 Comment元ポスト: https://x.com/WenhuChen/status/1885060597500567562Critique Fine-Tuning (CFT) を提案。CFTでは、query x, noisy response y [^1] が与えられたときに、それに対する批評 cを学習する。 ... #Survey #Pocket #LanguageModel #Reasoning
Issue Date: 2025-03-23 Thinking Machines: A Survey of LLM based Reasoning Strategies, Dibyanayan Bandyopadhyay+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1903843684568666450?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QRL, Test Time Compute, Self-trainingの3種類にカテゴライズされている。また、各カテゴリごとにより細 ... #Pretraining #Pocket #LanguageModel #Scaling Laws
Issue Date: 2025-03-23 Compute Optimal Scaling of Skills: Knowledge vs Reasoning, Nicholas Roberts+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1903843682509312218?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q知識を問うQAのようなタスクはモデルのパラメータ量が必要であり、コーディングのようなReasoningに基づくタスクはデータ量が必要で ... #Survey #EfficiencyImprovement #Pocket #LanguageModel #Reasoning
Issue Date: 2025-03-22 Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models, Yang Sui+, arXiv25 CommentReasoning Modelにおいて、Over Thinking現象（不要なreasoning stepを生成してしまう）を改善するための手法に関するSurvey。![image](https://github.com/user-attachments/assets/a411f2cf-2ba1-元 ... #Pocket #Dataset #LanguageModel #LongSequence
Issue Date: 2025-03-20 Lost-in-the-Middle in Long-Text Generation: Synthetic Dataset, Evaluation Framework, and Mitigation, Junhao Zhang+, arXiv25 CommentLost in the Middleに関する研究。関連研究:#793 ... #EfficiencyImprovement #Supervised-FineTuning (SFT)#Reasoning #PEFT(Adaptor/LoRA)
Issue Date: 2025-03-19 The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models, Ke Ji+, arXiv25 Comment斜め読みだが、reasoning traceの冒頭部分は重要な役割を果たしており、サンプリングした多くのresponseのreasoning traceにおいて共通しているものは重要という直感から（Prefix Self-Consistency）、reasoning traceの冒頭部分を適切に生成 ... #Pocket #LanguageModel #Test-Time Scaling #Verification
Issue Date: 2025-03-18 Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification, Eric Zhao+, arXiv25 Comment元ポスト:https://x.com/ericzhao28/status/1901704339229732874?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qざっくりしか読めていないが、複数の解答をサンプリングして、self-verificationをさせて最も良かったものを選択するア ... #Analysis #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #RLHF
Issue Date: 2025-03-17 All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning, Gokul Swamy+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1901392286694678568?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QAlignmentのためのPreferenceデータがある時に、そのデータから直接最尤推定してモデルのパラメータを学習するのではなく、 ... #Pocket #Transformer
Issue Date: 2025-03-15 NeoBERT: A Next-Generation BERT, Lola Le Breton+, arXiv25 Comment関連: #1606## BERT, ModernBERTとの違い![Image](https://github.com/user-attachments/assets/58dbdcf6-e7dc-43c2-94ed-d8bb73cd2617)## 性能![Image](https://github. ... #Survey #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Reasoning
Issue Date: 2025-03-15 A Survey on Post-training of Large Language Models, Guiyao Tie+, arXiv25 CommentPost Trainingの時間発展の図解が非常にわかりやすい（が、厳密性には欠けているように見える。当該モデルの新規性における主要な技術はこれです、という図としてみるには良いのかもしれない）。個々の技術が扱うスコープとレイヤー、データの性質が揃っていない気がするし、それぞれのLLMがy軸の単一の元 ... #EfficiencyImprovement #MachineLearning #Pocket #Transformer #CVPR #Normalization
Issue Date: 2025-03-14 Transformers without Normalization, Jiachen Zhu+, CVPR25 Commentなん…だと…。LayerNormalizationを下記アルゴリズムのようなtanhを用いた超絶シンプルなレイヤー（parameterized thnh [Lecun氏ポスト](https://x.com/ylecun/status/1900610590315249833?s=46&t=Y6UuIH ... #Embeddings #LanguageModel
Issue Date: 2025-03-12 Gemini Embedding: Generalizable Embeddings from Gemini, Jinhyuk Lee+, arXiv25 Comment元ポスト:https://x.com/_reachsumit/status/1899667900728037621?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q世のdecoder-onlyモデルベースのembeddingモデルがどのように作られているか具体的によくわかっていないので読み ... #Tools #Pocket #Supervised-FineTuning (SFT)#SelfImprovement
Issue Date: 2025-03-07 START: Self-taught Reasoner with Tools, Chengpeng Li+, arXiv25 Comment論文の本題とは関係ないが、QwQ-32Bよりも、DeepSeek-R1-Distilled-Qwen32Bの方が性能が良いのは興味深い。やはり大きいパラメータから蒸留したモデルの方が、小さいパラメータに追加学習したモデルよりも性能が高い傾向にあるのだろうか（どういうデータで蒸留したかにもよるけど）。 ... #Survey #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Reasoning
Issue Date: 2025-03-04 LLM Post-Training: A Deep Dive into Reasoning Large Language Models, Komal Kumar+, arXiv25 Comment非常にわかりやすい。![image](https://github.com/user-attachments/assets/855326f0-bc18-4ce1-9870-7690393af21e)元ポスト:https://x.com/gm8xx8/status/189639919559626371 ... #ComputerVision #Pocket #LanguageModel #DiffusionModel
Issue Date: 2025-03-02 Large Language Diffusion Models, Shen Nie+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1893698288328602022?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考:https://x.com/karpathy/status/1894923254864978091 ... #EfficiencyImprovement #MachineLearning #Pocket #LanguageModel #Attention
Issue Date: 2025-03-02 Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention, Jingyang Yuan+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1893698286545969311?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey #Pocket #LanguageModel #Reasoning
Issue Date: 2025-02-26 From System 1 to System 2: A Survey of Reasoning Large Language Models, Zhong-Zhi Li+, arXiv25 Comment元ポスト:https://x.com/_reachsumit/status/1894282083956396544?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Dataset #LanguageModel #QuestionAnswering
Issue Date: 2025-02-21 SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines, M-A-P Team+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1892779892674351532?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Tools #LanguageModel #LLMAgent #Reasoning #NAACL
Issue Date: 2025-02-20 OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning, Pan Lu+, NAACL25 Comment元ポスト:https://x.com/lupantech/status/1892260474320015861?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QNAACL'25でベストペーパーに選出:https://x.com/lupantech/status/19194953621021 ... #Pocket #Dataset #LanguageModel #SyntheticData #Reasoning #Distillation
Issue Date: 2025-02-19 NaturalReasoning: Reasoning in the Wild with 2.8M Challenging Questions, Weizhe Yuan+, arXiv25 Comment元ポスト: https://x.com/jaseweston/status/1892041992127021300?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning
Issue Date: 2025-02-18 Scaling Test-Time Compute Without Verification or RL is Suboptimal, Amrith Setlur+, arXiv25 Comment元ポスト:https://x.com/iscienceluvr/status/1891839822257586310?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1749 ... #Pretraining #Pocket #LanguageModel
Issue Date: 2025-02-14 LLM Pretraining with Continuous Concepts, Jihoon Tack+, arXiv25 #Pocket #LanguageModel #Test-Time Scaling
Issue Date: 2025-02-12 Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling, Runze Liu+, arXiv25 #InformationRetrieval #Pocket #LanguageModel #Supervised-FineTuning (SFT)#RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-02-12 DeepRAG: Thinking to Retrieval Step by Step for Large Language Models, Xinyan Guan+, arXiv25 Comment日本語解説。ありがとうございます！RAGでも「深い検索」を実現する手法「DeepRAG」, Atsushi Kadowaki, ナレッジセンス AI知見共有ブログ:https://zenn.dev/knowledgesense/articles/034b613c9fd6d3 ... #Pocket #LanguageModel #ReinforcementLearning #SyntheticData #CodeGeneration #SyntheticDataGeneration
Issue Date: 2025-02-12 ACECODER: Acing Coder RL via Automated Test-Case Synthesis, Huaye Zeng+, arXiv25 #Pocket #LanguageModel #Architecture #Test-Time Scaling
Issue Date: 2025-02-10 Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach, Jonas Geiping+, arXiv25 #Pocket #LanguageModel #Distillation #TeacherHacking
Issue Date: 2025-02-10 On Teacher Hacking in Language Model Distillation, Daniil Tiapkin+, arXiv25 Comment元ポスト:https://x.com/_philschmid/status/1888516494100734224?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q自分で蒸留する機会は今のところないが、覚えておきたい。過学習と一緒で、こういう現象が起こるのは想像できる。 ... #Pocket #LanguageModel #LLMAgent
Issue Date: 2025-02-09 Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?, Wenzhe Li+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1888658770059816968?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Test-Time Scaling #read-later
Issue Date: 2025-02-07 s1: Simple test-time scaling, Niklas Muennighoff+, arXiv25 Comment解説:https://x.com/hillbig/status/1887260791981941121?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#DataDistillation #Reasoning #PostTraining
Issue Date: 2025-02-07 LIMO: Less is More for Reasoning, Yixin Ye+, arXiv25 Comment元ポスト:https://x.com/arankomatsuzaki/status/1887353699644940456?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Chain-of-Thought #Reasoning #LongSequence #RewardHacking #PostTraining
Issue Date: 2025-02-07 Demystifying Long Chain-of-Thought Reasoning in LLMs, Edward Yeo+, arXiv25 Comment元ポスト:https://x.com/xiangyue96/status/1887332772198371514?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q元ポストのスレッド中に論文の11個の知見が述べられている。どれも非常に興味深い。DeepSeek-R1のテクニカルペーパーと同様 ... #Pocket #LanguageModel #Alignment #ICLR #DPO #PostTraining #Diversity
Issue Date: 2025-02-01 Diverse Preference Optimization, Jack Lanchantin+, ICLR25 Comment元ポスト:https://x.com/jaseweston/status/1885399530419450257?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview: https://openreview.net/forum?id=pOq9vDIYevDPOと同じ最適化方 ... #ComputerVision #Analysis #MachineLearning #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #PostTraining
Issue Date: 2025-01-30 SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training, Tianzhe Chu+, arXiv25 Comment元ポスト:https://x.com/hillbig/status/1884731381517082668?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Reasoning #Test-Time Scaling
Issue Date: 2025-01-28 Evolving Deeper LLM Thinking, Kuang-Huei Lee+, arXiv25 CommentOpenReview: https://openreview.net/forum?id=nGP1UxhAbV&referrer=%5Bthe%20profile%20of%20Kuang-Huei%20Lee%5D(%2Fprofile%3Fid%3D~Kuang-Huei_Lee1) ... #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2025-01-25 Perspective Transition of Large Language Models for Solving Subjective Tasks, Xiaolong Wang+, arXiv25 Comment元ポスト:https://x.com/rohanpaul_ai/status/1882739526361370737?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview: https://openreview.net/forum?id=cFGPlRony5"Subject ... #Pocket #LanguageModel #Alignment #Supervised-FineTuning (SFT)#LLMAgent #COLING #PostTraining
Issue Date: 2024-12-10 Towards Adaptive Mechanism Activation in Language Agent, Ziyang Huang+, COLING25 Comment元ポスト: https://x.com/omarsar0/status/1863956776623747433?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q手法としては、SFTとKTOを活用しpost trainingするようである![image](https://github.com ... #Pocket #DataAugmentation #Distillation #NAACL #Verification
Issue Date: 2024-12-02 Reverse Thinking Makes LLMs Stronger Reasoners, Justin Chih-Yao Chen+, NAACL25 Comment## 手法概要Original QuestionからTeacher Modelでreasoningと逆質問を生成（Forward Reasoning, Backward Question）し、逆質問に対するReasoningを生成する（Backward Reasoning）。その後、Forwa ... #Pocket #LanguageModel #Alignment #Supervised-FineTuning (SFT)#ICML
Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, ICML25 Comment元ポスト:https://x.com/jaseweston/status/1854532624116547710?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QSelf-Consistencyのように、モデルに複数の出力をさせて、最も頻度が高い回答と頻度が低い回答の2つでDPOのペアデー ... #LanguageModel #Transformer #Architecture
Issue Date: 2024-10-21 Differential Transformer, Tianzhu Ye+, N_A, ICLR25 Comment最近のMSはなかなかすごい（小並感# 概要 attention scoreのノイズを低減するようなアーキテクチャとして、二つのQKVを用意し、両者の差分を取ることで最終的なattentiok scoreを計算するDifferential Attentionを提案した。 attentionのnois ... #LanguageModel #SelfCorrection #ICLR #Verification
Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, ICLR25 CommentLLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができ ... #Multi #Pocket #LanguageModel #Reasoning #ACL
Issue Date: 2025-06-29 Do Large Language Models Latently Perform Multi-Hop Reasoning?, Sohee Yang+, ACL24 #Pocket #Dataset #LanguageModel #ReinforcementLearning #Reasoning #ICLR #Admin'sPick #PRM
Issue Date: 2025-06-26 Lets Verify Step by Step, Hunter Lightman+, ICLR24 CommentOpenReview:https://openreview.net/forum?id=v8L0pN6EOiPRM800K:https://github.com/openai/prm800k/tree/main ... #Pocket #Dataset #LanguageModel #ReinforcementLearning #Evaluation
Issue Date: 2025-06-26 RewardBench: Evaluating Reward Models for Language Modeling, Nathan Lambert+, arXiv24 #Pocket #LanguageModel #ACL #ModelMerge
Issue Date: 2025-06-25 Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages, Shih-Cheng Huang+, ACL24 Comment日本語解説:https://qiita.com/jovyan/items/ee6affa5ee5bdaada6b4下記ブログによるとChatだけではなく、Reasoningでも（post-trainingが必要だが）使える模様Reasoning能力を付与したLLM ABEJA-QwQ32b-Reas ... #Analysis #Pocket #LanguageModel #Alignment #ReinforcementLearning #PPO (ProximalPolicyOptimization)#ICML #DPO #On-Policy
Issue Date: 2025-06-25 Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data, Fahim Tajwar+, ICML24 #Pretraining #Pocket #LanguageModel #InstructionTuning #EMNLP
Issue Date: 2025-06-25 Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, EMNLP24 #Analysis #Tools #Pocket #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-06-18 A Comparative Study of PDF Parsing Tools Across Diverse Document Categories, Narayan S. Adhikari+, arXiv24 CommentPDFのparsingツールについて、text, table抽出の性能を様々なツールと分野別に評価している。F1, precision, recallなどは、ground truthとのレーベンシュタイン距離からsimilarityを計算し、0.7以上であればtrue positiveとみなすこより ... #EfficiencyImprovement #Pocket #LanguageModel #Scaling Laws #read-later
Issue Date: 2025-05-27 Densing Law of LLMs, Chaojun Xiao+, arXiv24 Comment元ポスト:https://x.com/hillbig/status/1926785750277693859?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q![image](https://github.com/user-attachments/assets/8cdcfe78-6682-4 ... #Pocket #Dataset #LanguageModel #Alignment #InstructionTuning #ICML #PostTraining
Issue Date: 2025-05-11 UltraFeedback: Boosting Language Models with Scaled AI Feedback, Ganqu Cui+, ICML24 #Pocket #LanguageModel #Alignment #InstructionTuning #EMNLP
Issue Date: 2025-05-11 ORPO: Monolithic Preference Optimization without Reference Model, Jiwoo Hong+, EMNLP24 Commentざっくり言うとinstruction tuningとalignmentを同時にできる手法らしいがまだ理解できていない ... #Pocket #LanguageModel #Library #ACL #KnowledgeEditing
Issue Date: 2025-05-11 EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models, Peng Wang+, ACL24, （System Demonstrations） Commentver2.0:#1946 ... #Dataset #Japanese #read-later #Trustfulness
Issue Date: 2025-05-10 日本語TrustfulQAの構築, 中村+, NLP24 #Pretraining #Pocket #Dataset #LanguageModel
Issue Date: 2025-05-10 Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset, Dan Su+, arXiv24 #Pretraining #Pocket #Dataset #LanguageModel
Issue Date: 2025-05-10 DataComp-LM: In search of the next generation of training sets for language models, Jeffrey Li+, arXiv24 #Pretraining #Pocket #Dataset #LanguageModel
Issue Date: 2025-05-10 The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale, Guilherme Penedo+, arXiv24 Comment日本語解説:https://zenn.dev/deepkawamura/articles/da9aeca6d6d9f9 ... #Pocket #Dataset #LanguageModel #EMNLP #KnowledgeEditing #read-later
Issue Date: 2025-05-07 Editing Large Language Models: Problems, Methods, and Opportunities, Yunzhi Yao+, EMNLP24 #Analysis #LanguageModel #SyntheticData #read-later
Issue Date: 2025-05-06 Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers, Zeyuan Allen-Zhu+, ICML24 Tutorial Comment元ポスト:https://x.com/hillbig/status/1919878625488449849?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QCanon層の発見 ... #LanguageModel #Alignment #Supervised-FineTuning (SFT)#Safety
Issue Date: 2025-04-29 Safety Alignment Should Be Made More Than Just a Few Tokens Deep, Xiangyu Qi+, arXiv24 Comment元ポスト:https://x.com/hillbig/status/1917006979836612640?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview:https://openreview.net/forum?id=6Mxhg9PtDESafety Alignme ... #Pocket #LanguageModel #Evaluation #Decoding
Issue Date: 2025-04-14 Non-Determinism of Deterministic LLM Settings, Berk Atil+, arXiv24 #Tools #Pocket #Dataset #LanguageModel #API #NeurIPS
Issue Date: 2025-04-08 Gorilla: Large Language Model Connected with Massive APIs, Shishir G. Patil+, NeurIPS24 CommentAPIBench:https://huggingface.co/datasets/gorilla-llm/APIBenchOpenReview:https://openreview.net/forum?id=tBRNC6YemY ... #Survey #Pocket #LanguageModel #Alignment #TMLR
Issue Date: 2025-04-06 Foundational Challenges in Assuring Alignment and Safety of Large Language Models, Usman Anwar+, TMLR24 CommentOpenReview:https://openreview.net/forum?id=oVTkOs8Pka ... #Pocket #Transformer #Attention
Issue Date: 2025-04-06 Flex Attention: A Programming Model for Generating Optimized Attention Kernels, Juechu Dong+, arXiv24 Comment#1863で利用されているAttentionpytochによる解説:https://pytorch.org/blog/flexattention/Flex AttentionはオリジナルのAttentionのQK/sqrt(d_k)の計算後にユーザが定義した関数score_modを適用するscore ... #Pocket #LanguageModel #LLMAgent
Issue Date: 2025-04-02 Agent Workflow Memory, Zora Zhiruo Wang+, arXiv24 Comment過去のワークフローをエージェントがprompt中で利用することができ、利用すればするほど賢くなるような仕組みの提案<img width="873" alt="Image" src="https://github.com/user-attachments/assets/6160cfa5-9dbd-4 ... #Pocket #LanguageModel #LLMAgent
Issue Date: 2025-04-02 CoAct: A Global-Local Hierarchy for Autonomous Agent Collaboration, Xinming Hou+, arXiv24 CommentPlanningエージェントと実行エージェントを活用するソフトウェアエージェント<img width="632" alt="Image" src="https://github.com/user-attachments/assets/55db47b8-15f8-4a9c-b641-ce90699 ... #Pocket #Dataset #LanguageModel #LLMAgent #SoftwareEngineering
Issue Date: 2025-04-02 Training Software Engineering Agents and Verifiers with SWE-Gym, Jiayi Pan+, arXiv24 CommentSWE-Benchとは完全に独立したより広範な技術スタックに関連するタスクに基づくSWEベンチマーク#1848SWE-Benchと比べて実行可能な環境と単体テストが提供されており、単なるベンチマークではなくエージェントを訓練できる環境が提供されている点が大きく異なるように感じる。![image](h ... #Pocket #Dataset #LanguageModel #LLMAgent #ICLR
Issue Date: 2025-04-02 WebArena: A Realistic Web Environment for Building Autonomous Agents, Shuyan Zhou+, ICLR24 CommentWebにおけるさまざまなrealisticなタスクを評価するためのベンチマーク![image](https://github.com/user-attachments/assets/8895fc29-e997-4cce-a43e-65b928dc1d78)実際のexample。スタート地点からピッツ ... #EfficiencyImprovement #Pocket #LanguageModel #LLMAgent #SoftwareEngineering
Issue Date: 2025-04-02 Agentless: Demystifying LLM-based Software Engineering Agents, Chunqiu Steven Xia+, arXiv24 Comment日本語解説:https://note.com/ainest/n/nac1c795e3825LLMによる計画の立案、環境からのフィードバックによる意思決定などの複雑なワークフローではなく、Localization（階層的に問題のある箇所を同定する）とRepair（LLMで複数のパッチ候補を生成する）、 ... #RecommenderSystems #UserModeling #LanguageModel #CTRPrediction #RAG(RetrievalAugmentedGeneration)#LongSequence #WWW
Issue Date: 2025-03-27 ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation, Jianghao Lin+, WWW24 Comment#1839のベースラインLLMでCTR予測する際の性能を向上した研究。そもそもLLMでCTR予測をする際は、ユーザのデモグラ情報とアクティビティログなどのユーザプロファイルと、ターゲットアイテムの情報でpromptingし、yes/noを出力させる。yes/noトークンのスコアに対して2次元のソフト ... #Pocket #LanguageModel #SSM (StateSpaceModel)#ICML
Issue Date: 2025-03-24 Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, Tri Dao+, ICML24 CommentMamba2の詳細を知りたい場合に読む ... #Pocket #LanguageModel #Pruning #Distillation #NeurIPS
Issue Date: 2025-03-16 Compact Language Models via Pruning and Knowledge Distillation, Saurav Muralidharan+, NeurIPS24 CommentOpenReview:https://openreview.net/forum?id=9U0nLnNMJ7&referrer=%5Bthe%20profile%20of%20Pavlo%20Molchanov%5D(%2Fprofile%3Fid%3D~Pavlo_Molchanov1)![imag ... #Analysis #Pocket #LanguageModel #ICLR
Issue Date: 2025-03-15 Sparse Autoencoders Find Highly Interpretable Features in Language Models, Hoagy Cunningham+, ICLR24 Comment日本語解説:https://note.com/ainest/n/nbe58b36bb2dbOpenReview:https://openreview.net/forum?id=F76bwRSLeKSparseAutoEncoderはネットワークのあらゆるところに仕込める（と思われる）が、たとえばTr ... #EfficiencyImprovement #ACL
Issue Date: 2025-03-06 Full Parameter Fine-tuning for Large Language Models with Limited Resources, Lv+, ACL24, 2024.08 CommentLarge Language Models (LLMs) have revolutionized Natural Language Processing (NLP) but demand massive GPU resources for training. Lowering the thresh ... #Pocket #LanguageModel #LLMAgent #AutomaticPromptEngineering
Issue Date: 2025-02-10 PromptWizard: Task-Aware Prompt Optimization Framework, Eshaan Agarwal+, arXiv24 CommentGithub:https://github.com/microsoft/PromptWizard?tab=readme-ov-file元ポスト:https://x.com/tom_doerr/status/1888178173684199785?s=46&t=Y6UuIHB0Lv0IpmFAjlc初 ... #Pocket #LanguageModel #OpenSource #PostTraining
Issue Date: 2025-02-01 Tulu 3: Pushing Frontiers in Open Language Model Post-Training, Nathan Lambert+, arXiv24 Comment元ポスト:https://x.com/icoxfog417/status/1885460713264775659?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey #Pocket #LanguageModel #Distillation
Issue Date: 2025-02-01 A Survey on Knowledge Distillation of Large Language Models, Xiaohan Xu+, arXiv24 #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-01-26 Dont Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks, Brian J Chan+, arXiv24 Comment元ポスト:https://x.com/omarsar0/status/1876721221083214200?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q外部知識として利用したいドキュメントがそこまで大きく無いなら、事前にLLMで全てのKey Valueを計算しておきKV Cacheと ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2025-01-25 Spectrum: Targeted Training on Signal to Noise Ratio, Eric Hartford+, arXiv24 Comment#1723によるとLLMのうち最もinformativeなLayerを見つけ、選択的に学習することで、省リソースで、Full-Parameter tuningと同等の性能を発揮する手法らしい ... #Pocket #LanguageModel #MoE(Mixture-of-Experts)#ACL
Issue Date: 2025-01-06 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models, Damai+, ACL24, 2024.08 CommentIn the era of large language models, Mixture-of-Experts (MoE) is a promising architecture for managing computational costs when scaling up model param ... #LanguageModel #RLHF #Reasoning #Mathematics #GRPO #read-later
Issue Date: 2025-01-04 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, Zhihong Shao+, arXiv24 Comment元ポスト:https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_the-rlhf-method-behind-the-best-open-models-activity-7280850174522843137-3V9v?utm_source= ... #Analysis #Pocket #RLHF
Issue Date: 2025-01-03 Does RLHF Scale? Exploring the Impacts From Data, Model, and Method, Zhenyu Hou+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1868299930600628451?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #QuestionAnswering #Zero/FewShotPrompting #Chain-of-Thought #RAG(RetrievalAugmentedGeneration)#Reasoning
Issue Date: 2025-01-03 AutoReason: Automatic Few-Shot Reasoning Decomposition, Arda Sevinc+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1868299926897074309?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #Dataset #LLMAgent #SyntheticData #Evaluation #SyntheticDataGeneration
Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1868299921117630528?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #PositionalEncoding #Length
Issue Date: 2025-01-03 Precise Length Control in Large Language Models, Bradley Butcher+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1870821203780256178?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1647などのEncoder-Decoderモデルで行われていたoutput lengthの制御をDecoder-onlyモデルでも ... #Dataset #LanguageModel #LLMAgent #Evaluation
Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1870821189809217921?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qソフトウェアエンジニアリングの企業の設定で現実に起こりうるな　175種類のタスクを定義してAI Agentを評価できるベンチマークTh ... #Survey #Pocket #LanguageModel #Reasoning #Mathematics
Issue Date: 2025-01-03 A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges, Yibo Yan+, arXiv24 #LanguageModel #KnowledgeGraph
Issue Date: 2025-01-03 Can LLMs Convert Graphs to Text-Attributed Graphs?, Zehong Wang+, arXiv24 Comment元ポスト:https://x.com/omarsar0/status/1868691391129272461?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #MachineTranslation #Analysis #LanguageModel #Supervised-FineTuning (SFT)#PEFT(Adaptor/LoRA)
Issue Date: 2025-01-02 How Much Data is Enough Data? Fine-Tuning Large Language Models for In-House Translation: Performance Evaluation Across Multiple Dataset Sizes, Inacio Vieira+, arXiv24 Comment元ポスト:https://x.com/gyakuse/status/1874357127248306200?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QQLoRAでLlama 8B InstructをMTのデータでSFTした場合のサンプル数に対する性能の変化を検証している。ただし、検証 ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#PEFT(Adaptor/LoRA)
Issue Date: 2025-01-02 LoRA Learns Less and Forgets Less, Dan Biderman+, TMLR24 Comment元ポスト:https://x.com/gyakuse/status/1874357127248306200?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qfull finetuningとLoRAの性質の違いを理解するのに有用 ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ProprietaryLLM
Issue Date: 2025-01-02 FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?, Eric Wu+, arXiv24 Comment元ポスト:https://x.com/gyakuse/status/1874357127248306200?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pretraining #Pocket #Catastrophic Forgetting
Issue Date: 2025-01-02 Examining Forgetting in Continual Pre-training of Aligned Large Language Models, Chen-An Li+, arXiv24 Comment元ポスト:https://x.com/gyakuse/status/1874357127248306200?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey #Pocket #LanguageModel #SyntheticData
Issue Date: 2025-01-02 Generative AI for Synthetic Data Generation: Methods, Challenges and the Future, Xu Guo+, arXiv24 Comment元ポスト:https://x.com/gyakuse/status/1874357127248306200?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey #Pocket #LanguageModel #SyntheticData
Issue Date: 2025-01-02 On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey, Lin Long+, arXiv24 Comment元ポスト:https://x.com/gyakuse/status/1874357127248306200?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Tokenizer
Issue Date: 2025-01-02 Byte Latent Transformer: Patches Scale Better Than Tokens, Artidoro Pagnoni+, arXiv24 Comment興味深い図しか見れていないが、バイト列をエンコード/デコードするtransformer学習して複数のバイト列をパッチ化（エントロピーが大きい部分はより大きなパッチにバイト列をひとまとめにする）、パッチからのバイト列生成を可能にし、パッチを変換するのをLatent Transformerで学習させるよ ... #Pocket #LanguageModel #Reasoning
Issue Date: 2024-12-31 Mulberry: Empowering MLLM with o1-like Reasoning and Reflection via Collective Monte Carlo Tree Search, Huanjin Yao+, arXiv24 #Pocket #LanguageModel #Education #EducationalDataMining
Issue Date: 2024-12-31 LearnLM: Improving Gemini for Learning, LearnLM Team+, arXiv24 #Pocket #LanguageModel #TheoryOfMind #read-later
Issue Date: 2024-12-31 Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning, Melanie Sclar+, arXiv24 Commentおもしろそう。あとで読む ... #Survey #EfficiencyImprovement #Pocket #LanguageModel
Issue Date: 2024-12-31 A Survey on LLM Inference-Time Self-Improvement, Xiangjue Dong+, arXiv24 #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-30 RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation, Xiaoxi Li+, arXiv24 Comment元ポスト:https://x.com/rohanpaul_ai/status/1872714703090401721?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q従来のRAGとの違いと、提案手法の概要![image](https://github.com/user-attachment ... #Survey #Pocket #LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2024-12-25 A Survey on LLM-as-a-Judge, Jiawei Gu+, arXiv24 #ComputerVision #InformationRetrieval #Dataset #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-16 VLR-Bench: Multilingual Benchmark Dataset for Vision-Language Retrieval Augmented Generation, Hyeonseok Lim+, arXiv24 CommentMultilingual VLMを用いたRAGのベンチマークデータセット ... #LanguageModel #Reasoning #SelfImprovement
Issue Date: 2024-12-16 Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions, Yu Zhao+, arXiv24 Comment元ポスト:https://x.com/bilzrd/status/1868568258468774048?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLarge Reasoning Model （LRM）という用語は初めて見た。 ... #Pocket #LanguageModel #Evaluation
Issue Date: 2024-12-15 When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards, Norah Alzahrani+, ACL24 Comment#1591に日本語でのサマリが記載されているので参照のこと。リーダーボードのバイアスを軽減した結果、どのLLMが最大パフォーマンスとみなされるようになったのだろうか？ ... #Pocket #LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2024-12-15 BatchEval: Towards Human-like Text Evaluation, Peiwen Yuan+, ACL24 Comment#1591に日本語によるサマリが掲載されているので参照のこと。 ... #NeuralNetwork #NaturalLanguageGeneration #Dataset #LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2024-12-15 Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation, Masato Mita+, ACL24 Comment広告文生成タスク（Ad Text Generation）は個々のグループのプロプライエタリデータでしか評価されてこなかったことと、そもそもタスク設定が十分に規定されていないので、その辺を整備したという話らしい。特に広告文生成のための初のオープンデータなCAMERAを構築している。データセットをTab ... #Analysis #Pocket #LanguageModel #In-ContextLearning
Issue Date: 2024-12-15 The broader spectrum of in-context learning, Andrew Kyle Lampinen+, arXiv24 CommentOpenReview:https://openreview.net/forum?id=RHo3VVi0i5OpenReviewによると、論文は理解しやすく、meta learningについて広範にサーベイされている。しかし、論文が定義しているICLの拡張はICLを過度に一般化し過ぎており（具体 ... #Pocket #LanguageModel #OpenWeight
Issue Date: 2024-12-15 Phi-4 Technical Report, Marah Abdin+, arXiv24 Comment現状Azureでのみ利用可能かも。Huggingfaceにアップロードされても非商用ライセンスになるという噂もMITライセンスHuggingFace:https://huggingface.co/microsoft/phi-4 ... #Pocket #LanguageModel #Chain-of-Thought #PostTraining
Issue Date: 2024-12-12 Training Large Language Models to Reason in a Continuous Latent Space, Shibo Hao+, arXiv24 CommentChain of Continuous Thought...?通常のCoTはRationaleをトークン列で生成するが、Coconutは最終的なhidden state（まだ読んでないのでこれが具体的に何を指すか不明）をそのまま入力に追加することで、トークンに制限されずにCoTさせるということらしい ... #Multi #InformationRetrieval #Pocket #LanguageModel #Supervised-FineTuning (SFT)#RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-10 Auto-RAG: Autonomous Retrieval-Augmented Generation for Large Language Models, Tian Yu+, arXiv24 Comment元ポスト:https://x.com/omarsar0/status/1863600141103501454?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOpenReview:https://openreview.net/forum?id=jkVQ31GeIAOpenReview:ht ... #Pocket #LanguageModel #Hallucination
Issue Date: 2024-12-09 LLMs Will Always Hallucinate, and We Need to Live With This, Sourav Banerjee+, arXiv24 #Dataset #FactualConsistency #Conversation
Issue Date: 2024-12-05 事実正誤判定が不要な生成応答の検出に向けたデータセットの収集と分析, rryohei Kamei+, NLP24, 2024.03 #Analysis #Pocket #LanguageModel #Quantization
Issue Date: 2024-12-02 The Super Weight in Large Language Models, Mengxia Yu+, arXiv24 Comment図にある通り、たった一つのニューラルネットワーク中の重みを0にするだけで、途端に意味のあるテキストが生成できなくなるような重みが存在するらしい。![image](https://github.com/user-attachments/assets/065e921b-c447-4c0d-b1de-aI ... #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-01 Astute RAG: Overcoming Imperfect Retrieval Augmentation and Knowledge Conflicts for Large Language Models, Fei Wang+, arXiv24 #Dataset #AES(AutomatedEssayScoring)#Japanese
Issue Date: 2024-11-28 Japanese-English Sentence Translation Exercises Dataset for Automatic Grading, Miura+, EACL24, 2024.03 CommentThis paper proposes the task of automatic assessment of Sentence Translation Exercises (STEs), that have been used in the early stage of L2 language l ... #Survey #Pocket #LanguageModel #LLM-as-a-Judge
Issue Date: 2024-11-27 From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge, Dawei Li+, arXiv24 CommentLLM-as-a-Judgeに関するサーベイ![image](https://github.com/user-attachments/assets/88059cc4-123e-4a89-ac2d-4b3db83cd2df)![image](https://github.com/user-att#12 ... #Analysis #Pocket #LanguageModel #Prompting
Issue Date: 2024-11-27 Does Prompt Formatting Have Any Impact on LLM Performance?, Jia He+, arXiv24 Comment（以下、個人の感想です）本文のみ斜め読みして、Appendixは眺めただけなので的外れなことを言っていたらすみません。まず、実務上下記知見は有用だと思いました:プロンプトのフォーマットによって性能に大きな差があるより大きいモデルの方がプロンプトフォーマットに対してロバストただし参考: Data2Te ... #Pocket #LLMAgent
Issue Date: 2024-11-27 Generative Agent Simulations of 1,000 People, Joon Sung Park+, arXiv24 #ComputerVision #Pretraining #Pocket #LanguageModel #MulltiModal
Issue Date: 2024-11-25 Multimodal Autoregressive Pre-training of Large Vision Encoders, Enrico Fini+, arXiv24 #Analysis #EfficiencyImprovement #Pocket #LanguageModel
Issue Date: 2024-11-22 Observational Scaling Laws and the Predictability of Language Model Performance, Yangjun Ruan+, arXiv24 Comment縦軸がdownstreamタスクの主成分（のうち最も大きい80%を説明する成分）の変化（≒LLMの性能）で、横軸がlog scaleの投入計算量。Qwenも頑張っているが、投入データ量に対する性能（≒データの品質）では、先駆け的な研究であるPhiがやはり圧倒的?![image](https://#7 ... #Analysis #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv24 Commentトークンレベルの平均値をとった生成テキストの対数尤度と、RAGの回答性能に関する分析をした模様。![image](https://github.com/user-attachments/assets/ac03c0b6-b16c-4992-8446-2f56bad09ab2)とりあえず、もし「L参考: ... #Survey #Pocket #LanguageModel #MultiLingual
Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv24 Comment![image](https://github.com/user-attachments/assets/0b86445f-b974-459c-94f0-a80f5e2bbc9a)![image](https://github.com/user-attachments/assets/0d03af89 ... #Analysis #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Japanese
Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv24 Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よ ... #Survey #EfficiencyImprovement #LanguageModel #Transformer #Attention
Issue Date: 2024-11-17 Understanding LLMs: A Comprehensive Overview from Training to Inference, Yiheng Liu+, arXiv24 Comment[Perplexity（参考;Hallucinationに注意）](https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-7vGwDK_AQX.HDO7j9H8iNA)単なるLLMの理論的な説明にとどまらず、実用的に必要な各種 ... #Analysis #Pocket #LanguageModel
Issue Date: 2024-11-17 The Geometry of Concepts: Sparse Autoencoder Feature Structure, Yuxiao Li+, arXiv24 Comment参考: https://ledge.ai/articles/llm_conceptual_structure_sae[Perplexity（参考;Hallucinationに注意）](https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-min ... #Analysis #LanguageModel #Chain-of-Thought
Issue Date: 2024-11-13 A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration, Yingqian Cui+, arXiv24 Comment元ポスト:https://x.com/_philschmid/status/1855926845855699311?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qおもしろそうな研究 ... #Pretraining #MachineLearning #Pocket #LanguageModel #Subword #Tokenizer
Issue Date: 2024-11-12 LBPE: Long-token-first Tokenization to Improve Large Language Models, Haoran Lian+, arXiv24 CommentBPEとは異なりトークンの長さを優先してマージを実施することで、最終的なトークンを決定する手法で、![image](https://github.com/user-attachments/assets/99b91472-88d8-4792-bf04-acc67956e4f5)![image]( ... #ComputerVision #EfficiencyImprovement #Transformer #MulltiModal #SpeechProcessing #Architecture
Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/340ab176-7b17-467a-8731-20d1594d6951) ... #EfficiencyImprovement #Pocket #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning
Issue Date: 2024-11-12 DELIFT: Data Efficient Language model Instruction Fine Tuning, Ishika Agarwal+, arXiv24 #Survey #Pocket #LanguageModel #LLMAgent
Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/999adca8-f0d7-483c-ae5a-b6f78fe9da4b)![image](https://github.com/user-attachments/assets/b69dc991R ... #EfficiencyImprovement #Pocket #LanguageModel #Test-Time Scaling
Issue Date: 2024-11-12 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, Charlie Snell+, arXiv24 Comment![image](https://github.com/user-attachments/assets/0562a65e-b2f1-4ff4-b806-107313fc255e)[Perplexity（参考;Hallucinationに注意）](https://www.perplexity.ai/s ... #Pocket #LLMAgent #API
Issue Date: 2024-11-11 Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv24 Comment![image](https://github.com/user-attachments/assets/f4beb58b-f6da-4536-87e6-3d746cb7c586)CMUの研究。後で読みたい ... #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv24 Comment#1498 も参照のこと。下記に試しにHyQEとHyDEの比較の記事を作成したのでご参考までに（記事の内容に私は手を加えていないのでHallucinationに注意）。ざっくりいうとHyDEはpseudo documentsを使うが、HyQEはpseudo queryを扱う。 [参![imag ... #Pocket #LanguageModel #NumericReasoning
Issue Date: 2024-11-09 Number Cookbook: Number Understanding of Language Models and How to Improve It, Haotong Yang+, arXiv24 Commentんー、abstしか読んでいないけれども、9.11 > 9.9 については、このような数字に慣れ親しんでいるエンジニアなどに咄嗟に質問したら、ミスして答えちゃう人もいるのでは？という気がする（エンジニアは脳内で9.11 > 9.9を示すバージョン管理に触れる機会が多く、こちらの尤度が高い）。LLM元ポ ... #Analysis #MachineLearning #Pocket #LanguageModel #PEFT(Adaptor/LoRA)
Issue Date: 2024-11-09 LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv24 Comment元ポスト: https://x.com/aratako_lm/status/1854838012909166973?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1423 や #1475 、双方の知見も交えて、LoRAの挙動を考察する必要がある気がする。それぞれ異なるデータセットやモデ ... #Survey #LanguageModel #SmallModel
Issue Date: 2024-11-07 A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, Fali Wang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/9faf2732-233d-468e-ac4c-98b18f2f2bcf)![image](https://github.com/user-attachments/assets/889ebda5- ... #InformationRetrieval #RAG(RetrievalAugmentedGeneration)#Attack
Issue Date: 2024-11-07 Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors, Yuefeng Peng+, arXiv24 Commentfinetuning用データセットに対して、攻撃者がpoisoningしたデータを忍ばせることで、クエリ中のトリガーワード（trigger）に反応して、RAGで検索対象となったドキュメントを抽出的に、あるいはparaphraseしたものを出力させるようなバックドアを仕掛ける攻撃方法を指摘している。2 ... #Survey #LanguageModel #Evaluation #Reasoning
Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv24 Comment論文紹介（sei_shinagawa）:https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey![image](https://github.com/ ... #LanguageModel #SyntheticData #OpenWeight #OpenSource
Issue Date: 2024-11-06 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv24 Comment合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。 ... #MachineLearning #Pocket #LongSequence #SSM (StateSpaceModel)
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #Pocket #ChatGPT
Issue Date: 2024-11-02 On The Planning Abilities of OpenAIs o1 Models: Feasibility, Optimality, and Generalizability, Kevin Wang+, N_A, arXiv24, 2024.11 Commento1のplanningの性能について知りたくなったら読む ... #Pocket #LanguageModel
Issue Date: 2024-11-02 Looking Inward: Language Models Can Learn About Themselves by Introspection, Felix J Binder+, N_A, arXiv24, 2024.11 Comment![image](https://github.com/user-attachments/assets/2b19bc9c-342d-42a9-b603-ff9cfc694570)LLMが単に訓練データを模倣しているにすぎない的な主張に対するカウンターに使えるかも ... #Supervised-FineTuning (SFT)#InstructionTuning #PEFT(Adaptor/LoRA)
Issue Date: 2024-10-30 Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING24 CommentLow-Rank Adaptation (LoRA) is a widespread parameter-efficient fine-tuning algorithm for large-scale language models. It has been commonly accepted tL ... #MachineLearning #Pocket #LanguageModel #Alignment #ICML #PostTraining
Issue Date: 2024-10-27 KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N_A, ICML24 CommentbinaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文 ... #EfficiencyImprovement #Transformer
Issue Date: 2024-10-22 What Matters in Transformers? Not All Attention is Needed, Shwai He+, N_A, arXiv24 Comment通常LLMはtransformer decoderのブロックをstackすることで形成されるが、積み上げたブロック、あるいはlayerってほんとに全部必要なの?という疑問に答えてくれる論文のようである。transformer blockそのもの、あるいはMLP layerを削除するとpeformパフ ... #Pretraining #LanguageModel #Alignment #Supervised-FineTuning (SFT)#SyntheticData #PostTraining
Issue Date: 2024-10-21 Self-Taught Evaluators, Tianlu Wang+, N_A, arXiv24 CommentLLMのアラインメント等をSFTする際に、preferenceのラベル付きデータが必要になるが、このようなデータを作るのはコストがかかって大変なので自動生成して、より良いreward modelを作りたいよね、という話。具体的には、LLMを用いて good responseと、instructio ... #Survey #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-10-20 Retrieval Augmented Generation （RAG） and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv24 CommentRAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey![image](https://github.com/user-attachments/assets/b551725d-5f82-4914-8b8f-716ddb6a342b) ... #InformationRetrieval #Dataset #Evaluation #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-10-20 Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, arXiv24 CommentRAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク元ポスト:https://x.com/_philschmid/status/184062 ... #Pocket #LanguageModel #Hallucination
Issue Date: 2024-10-20 LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations, Hadas Orgad+, N_A, arXiv24 Comment特定のトークンがLLMのtrustfulnessに集中していることを実験的に示し、かつ内部でエンコードされたrepresentationは正しい答えのものとなっているのに、生成結果に誤りが生じるような不整合が生じることも示したらしい ... #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2024-10-20 Addition is All You Need for Energy-efficient Language Models, Hongyin Luo+, N_A, arXiv24 #Pretraining #Tools #LanguageModel #Supervised-FineTuning (SFT)#LLMAgent
Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv24 Comment昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルに ... #ComputerVision #Pocket #Dataset #LanguageModel
Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv24 Comment元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。![image](https://github.com/user-attachments/assets/9675c2ad-650a-460b-9655-1c6347d07f58)元ポスト:https://x ... #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2024-09-29 Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models, Tongxuan Liu+, N_A, arXiv24 CommentSNSで話題になっているようだがGPT-3.5-TurboとGPT-4でしか比較していない上に、いつの時点のモデルかも記述されていないので、unreliableに見える ![image](https://github.com/user-attachments/assets/9ca6fc62-269 ... #Pretraining #Pocket #Supervised-FineTuning (SFT)#SyntheticData
Issue Date: 2024-09-29 Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling, Hritik Bansal+, N_A, arXiv24 Comment元ポスト:https://x.com/rohanpaul_ai/status/1840172683528425718?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2024-09-26 When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N_A, ICLR24 Comment> When only few thousands of finetuning examples are available, PET should be considered first, either Prompt or LoRA. With sightly larger datasets, L ... #LanguageModel #Alignment #DPO #PostTraining #read-later #Admin'sPick
Issue Date: 2024-09-25 Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, N_A, NeurIPS24 CommentDPOを提案した研究

解説ポスト:https://x.com/thet ... #Pocket #LanguageModel #Alignment #Supervised-FineTuning (SFT)#Safety #DPO #PostTraining
Issue Date: 2024-09-24 Backtracking Improves Generation Safety, Yiming Zhang+, N_A, arXiv24 Comment元ポスト: https://x.com/jaseweston/status/1838415378529112330?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis #LanguageModel #Chain-of-Thought
Issue Date: 2024-09-24 To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, Zayne Sprague+, N_A, arXiv24 CommentCoTを100個以上の先行研究でmeta-analysisし（i.e. CoTを追加した場合のgainとタスクのプロット）、20個超えるデータセットで著者らが実験した結果、mathはsymbolic reasoning（12*4のように、シンボルを認識し、何らかの操作をして回答をする問題）が必要なタ ... #LanguageModel #Supervised-FineTuning (SFT)#CrossLingual
Issue Date: 2024-09-19 PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning, Zhihan Zhang+, N_A, ACL24 Comment# 概要 cross-lingualでinstruction tuningをする手法。target言語のInstructionが与えられたときに、Pivotとなる言語でInstructionとResponseを生成した後、targetとなる言語に翻訳するようなデータ（それぞれをseparatorを ... #Survey #Pocket #LanguageModel #SelfCorrection
Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL24 CommentLLMのself-correctionに関するサーベイ![image](https://github.com/user-attachments/assets/bea63e03-8b6f-4c3e-b8ff-d738c062149c)![image](https://github.com/user-a ... #Pocket #LanguageModel #QuestionAnswering #SyntheticData #SyntheticDataGeneration
Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv24 Comment合成データ生成に関する研究。ソースからQAを生成し、2つのsliceに分ける。片方をLLMのfinetuning（LLMSynth）に利用し、もう片方をfinetuningしたLLMで解答可能性に基づいてフィルタリング（curation）する。最終的にフィルタリングして生成された高品質なデータでMu ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Chain-of-Thought #PostTraining
Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL24 Comment![image](https://github.com/user-attachments/assets/ab5ed92d-6a5c-48dc-a607-3f652b2c9b3f) ![image](https://github.com/user-attachments/assets/e34e5a6 ... #Survey #EfficiencyImprovement #Pocket #LanguageModel
Issue Date: 2024-09-10 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models, Sean Welleck+, N_A, arXiv24 Comment元ツイート: https://x.com/gneubig/status/1833522477605261799?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QCMUのチームによるinference timeの高速化に関するサーベイ ... #Pocket #LanguageModel #Idea/PaperGeneration
Issue Date: 2024-09-10 Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers, Chenglei Si+, N_A, arXiv24 CommentLLMがアイデアを考えた方が、79人のresearcherにblind reviewさせて評価した結果、Noveltyスコアが有意に高くなった（ただし、feasibilityは人手で考えた場合の方が高い）という話らしい。アイデア生成にどのようなモデル、promptingを利用したかはまだ読めてい ... #Survey #Pocket #LanguageModel #Alignment
Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv24 #Survey #LanguageModel #SelfCorrection
Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL24 Comment![image](https://github.com/user-attachments/assets/8049b03d-927b-49ee-98eb-7b690b92c229) ... #Pocket #LanguageModel #SelfCorrection
Issue Date: 2024-09-07 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N_A, arXiv24 #Survey #LanguageModel #Prompting
Issue Date: 2024-09-02 The Prompt Report: A Systematic Survey of Prompting Techniques, Sander Schulhoff+, N_A, arXiv24 CommentPromptingに関するサーベイ初期の手法からかなり網羅的に記述されているように見える。 ![image](https://github.com/user-attachments/assets/a6e6fd6c-910c-4d5d-a98e-47cf51e254ab)また、誤用されていたり、色々な ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Hallucination
Issue Date: 2024-09-01 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, EMNLP24 Commentpre-training時に獲得されていない情報を用いてLLMのalignmentを実施すると、知識がない状態で学習データを正しく予測できるように学習されてしまうため、事実に基づかない回答をする（つまりhallucination）ように学習されてしまう、といったことを調査している模様。 >新し下記 ... #Pocket #In-ContextLearning #DemonstrationSelection
Issue Date: 2024-08-28 Revisiting Demonstration Selection Strategies in In-Context Learning, Keqin Peng+, N_A, ACL24 SummaryLLMsは幅広いタスクを実行する能力を持ち、わずかな例でタスクを説明できることが示されている。しかし、ICLのパフォーマンスはデモンストレーションの選択によって大きく異なり、その要因はまだ明確ではない。本研究では、データとモデルの両面からこの変動に寄与する要因を再検討し、デモンストレーションの選択がデータとモデルの両方に依存することを見出した。さらに、"TopK + ConE"というデータとモデルに依存したデモンストレーション選択手法を提案し、ICLのための効果的なレシピを生み出していることを示した。提案手法は異なるモデルスケールで言語理解および生成タスクの両方で一貫した改善をもたらし、一般性と安定性に加えて以前の手法の効果的な説明を提供している。 CommentICLで利用するデモンストレーションの選択は、BM25やDense Retrieverなどを用いて、テストサンプルと類似したサンプルをretrieveすることで実施されてきた。これらはテストサンプルのみに着目した手法であるが、実際には有効なデモンストレーションはモデルによって変化するため、利用するモ ... #Analysis #Pocket #LanguageModel #In-ContextLearning
Issue Date: 2024-08-27 What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N_A, ACL24 SummaryLLMsのコンテキスト内学習（ICL）能力を説明する3つの仮説について、一連の実験を通じて探究。最初の2つの仮説を無効にし、最後の仮説を支持する証拠を提供。LLMが事前学習中に学習したタスクを組み合わせることで、コンテキスト内で新しいタスクを学習できる可能性を示唆。 CommentSNLP2024での解説スライド:http://chasen.org/~daiti-m/paper/SNLP2024-Task-Emergence.pdfICLが何をやっているのか?について、これまでの仮説が正しくないことを実験的に示し、新しい仮説「ICLは事前学習で得られたタスクを組み合わせて新し ... #Analysis #MachineLearning #Pocket #SSM (StateSpaceModel)#ICML
Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, ICML24 SummarySSM（状態空間モデル）は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment>しかし、SSMが状態追跡の表現力で本当に（トランスフォーマーよりも）優位性を持っているのでしょうか？驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています：SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を ... #Survey #NaturalLanguageGeneration #Controllable
Issue Date: 2024-08-25 Controllable Text Generation for Large Language Models: A Survey, Xun Liang+, N_A, arXiv24 SummaryLLMsの制御可能なテキスト生成（CTG）技術に関する最新の進展を体系的にレビューし、その中核的な概念の包括的な定義を提供し、制御条件とテキスト品質の要件を明確にする。CTGタスクをコンテンツ制御と属性制御の2つの主要なタイプに分類し、モデルの再学習、ファインチューニング、強化学習、プロンプトエンジニアリング、潜在空間の操作、デコーディング時の介入など、主要な手法について議論する。さらに、CTGの評価方法を検討し、領域全体での応用をまとめ、現在の研究における主要な課題に取り組む。また、将来の研究で実世界の応用に重点を置くなど、いくつかの提案も行う。 CommentSurveyの内容![image](https://github.com/user-attachments/assets/1117d721-26b9-4361-855f-a6bf9efb93a4) ... #Analysis #Pretraining #Pocket #Supervised-FineTuning (SFT)
Issue Date: 2024-08-19 Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models, Kaiser Sun+, N_A, arXiv24 Summary大規模なテキストコーパスで事前学習された複数の中間事前学習モデルのチェックポイントを微調整することによって、事前学習と微調整の関係を調査した。18のデータセットでの結果から、i）継続的な事前学習は、微調整後にモデルを改善する潜在的な方法を示唆している。ii）追加の微調整により、モデルが事前学習段階でうまく機能しないデータセットの改善が、うまく機能するデータセットよりも大きいことを示している。iii）監督された微調整を通じてモデルは恩恵を受けるが、以前のドメイン知識や微調整中に見られないタスクを忘れることがある。iv）監督された微調整後、モデルは評価プロンプトに対して高い感度を示すが、これはより多くの事前学習によって緩和できる。 #Analysis #Pocket #LanguageModel #GrammaticalErrorCorrection
Issue Date: 2024-08-14 Prompting open-source and commercial language models for grammatical error correction of English learner text, Christopher Davis+, N_A, arXiv24 SummaryLLMsの進歩により、流暢で文法的なテキスト生成が可能になり、不文法な入力文を与えることで文法エラー修正（GEC）が可能となった。本研究では、7つのオープンソースと3つの商用LLMsを4つのGECベンチマークで評価し、商用モデルが常に教師ありの英語GECモデルを上回るわけではないことを示した。また、オープンソースモデルが商用モデルを上回ることがあり、ゼロショットのプロンプティングがフューショットのプロンプティングと同じくらい競争力があることを示した。 Comment元ポスト:https://x.com/chemical_tree/status/1822860849935253882?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket #LanguageModel #LLMAgent #Idea/PaperGeneration
Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv24 Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #EfficiencyImprovement #Pocket #LanguageModel #OpenWeight
Issue Date: 2024-04-23 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N_A, arXiv24 Summaryphi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。 Comment#1039 の次の次（Phi2.0についてはメモってなかった）。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしいLlama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。 ... #EfficiencyImprovement #Pocket #LanguageModel #Pruning
Issue Date: 2024-04-22 The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N_A, arXiv24 Summary一般的なオープンウェイトの事前学習されたLLMのレイヤー剪定戦略を研究し、異なる質問応答ベンチマークでのパフォーマンスの低下を最小限に抑えることを示しました。レイヤーの最大半分を削除することで、最適なブロックを特定し、微調整して損傷を修復します。PEFT手法を使用し、実験を単一のA100 GPUで実行可能にします。これにより、計算リソースを削減し、推論のメモリとレイテンシを改善できることが示唆されます。また、LLMがレイヤーの削除に対して堅牢であることは、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性を示唆しています。 Comment下記ツイートによると、学習済みLLMから、コサイン類似度で入出力間の類似度が高い層を除いてもタスクの精度が落ちず、特に深い層を2-4割削除しても精度が落ちないとのこと。参考:https://x.com/hillbig/status/1773110076502368642?s=46&t=Y6UuI ... #Analysis #Pocket #LanguageModel #SyntheticData
Issue Date: 2024-04-15 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws, Zeyuan Allen-Zhu+, N_A, arXiv24 Summary言語モデルのサイズと能力の関係を記述するスケーリング則に焦点を当てた研究。モデルが格納する知識ビット数を推定し、事実知識をタプルで表現。言語モデルは1つのパラメータあたり2ビットの知識を格納可能であり、7Bモデルは14Bビットの知識を格納可能。さらに、トレーニング期間、モデルアーキテクチャ、量子化、疎な制約、データの信号対雑音比が知識格納容量に影響することを示唆。ロータリー埋め込みを使用したGPT-2アーキテクチャは、知識の格納においてLLaMA/Mistralアーキテクチャと競合する可能性があり、トレーニングデータにドメイン名を追加すると知識容量が増加することが示された。 Comment参考:https://x.com/hillbig/status/1779640139263901698?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説:#1834 ... #Survey #Pocket #LanguageModel
Issue Date: 2024-04-14 Knowledge Conflicts for LLMs: A Survey, Rongwu Xu+, N_A, arXiv24 SummaryLLMsにおける知識の衝突に焦点を当て、文脈とパラメトリック知識の組み合わせによる複雑な課題を分析。文脈-メモリ、文脈間、メモリ内の衝突の3つのカテゴリーを探求し、実世界のアプリケーションにおける信頼性とパフォーマンスへの影響を検討。解決策を提案し、LLMsの堅牢性向上を目指す。 #Pocket #LanguageModel #SelfImprovement
Issue Date: 2024-04-14 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking, Eric Zelikman+, N_A, arXiv24 SummarySTaR（Self-Taught Reasoner）では、少数の例から合理的な推論を学習し、質問応答に活用する方法が提案された。Quiet-STaRでは、LMが合理性を生成する方法を学習し、難しい質問に直接答える能力を向上させる。この手法は、GSM8KやCommonsenseQAなどのタスクにおいてゼロショットの改善を実現し、ファインチューニングが不要であることが示された。Quiet-STaRは、推論を学習するための一般的でスケーラブルな方法を提供する一歩となっている。 Comment#1390 o1の基礎技術と似ている可能性がある先行研究: #1397参考:https://x.com/hillbig/status/1835449666588271046?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity（参考; Hallucinationに注意）] ... #InformationRetrieval #Pocket #Chain-of-Thought #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-04-14 RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, N_A, arXiv24 Summary大規模言語モデルの推論および生成能力を向上させ、幻覚を軽減する方法として、情報検索を利用して思考の連鎖を修正する「retrieval-augmented thoughts（RAT）」が提案された。この方法は、ゼロショットのCoTが生成された後、取得した情報を使用して各思考ステップを修正する。GPT-3.5、GPT-4、およびCodeLLaMA-7bにRATを適用することで、コード生成、数学的推論、創造的な執筆、具体的なタスク計画などのタスクでパフォーマンスが大幅に向上した。デモページはhttps://craftjarvis.github.io/RATで利用可能。 CommentRAGにおいてCoTさせる際に、各reasoningのstepを見直させることでより質の高いreasoningを生成するRATを提案。Hallucinationが低減し、生成のパフォーマンスも向上するとのこと。コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した ...

#ComputerVision #Pocket #LanguageModel #Chain-of-Thought
Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv24 SummaryLLMsの空間推論能力を向上させるために、Visualization-of-Thought（VoT）プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Analysis #Pocket #LanguageModel #ContextWindow #LongSequence
Issue Date: 2024-04-07 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv24 SummaryLLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 CommentGPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。 ...

#EfficiencyImprovement #Pocket #LanguageModel #Transformer
Issue Date: 2024-04-07 Mixture-of-Depths: Dynamically allocating compute in transformer-based language models, David Raposo+, N_A, arXiv24 SummaryTransformerベースの言語モデルは、入力シーケンス全体に均等にFLOPsを分散させる代わりに、特定の位置にFLOPsを動的に割り当てることを学習できることを示す。モデルの深さにわたって割り当てを最適化するために、異なるレイヤーで計算を動的に割り当てる。この手法は、トークンの数を制限することで合計計算予算を強制し、トークンはtop-kルーティングメカニズムを使用して決定される。この方法により、FLOPsを均等に消費しつつ、計算の支出が予測可能であり、動的かつコンテキストに敏感である。このようにトレーニングされたモデルは、計算を動的に割り当てることを学習し、効率的に行うことができる。 Comment参考: https://x.com/theseamouse/status/1775782800362242157?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #EfficiencyImprovement #Pocket #LanguageModel #Transformer #Attention
Issue Date: 2024-04-07 Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, Piotr Nawrot+, N_A, arXiv24 Summaryトランスフォーマーの生成効率を向上させるために、Dynamic Memory Compression（DMC）が提案された。DMCは、異なるヘッドとレイヤーで異なる圧縮率を適用する方法を学習し、事前学習済みLLMsに適用される。DMCは、元の下流パフォーマンスを最大4倍のキャッシュ圧縮で維持しつつ、スループットを向上させることができる。DMCは、GQAと組み合わせることでさらなる利益をもたらす可能性があり、長いコンテキストと大きなバッチを処理する際に有用である。 Comment参考: https://x.com/hillbig/status/1776755029581676943?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q論文中のFigure1が非常にわかりやすい。GQA #1271 と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモ ...

#InformationRetrieval #Pocket #LanguageModel #Supervised-FineTuning (SFT)#RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv24 Summary大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning（RAFT）を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 CommentQuestion, instruction, coxtext, cot style answerの4つを用いてSFTをする模様画像は下記ツイートより引用https://x.com/cwolferesearch/status/1770912695765660139?s=46&t=Y6UuIHB0 ...

#InformationRetrieval #Pocket #LanguageModel #Prompting #Reasoning
Issue Date: 2024-04-07 RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N_A, arXiv24 SummaryLLMsは推論タスクで優れた性能を発揮しているが、論理エラーが起こりやすい。RankPromptという新しいプロンプティング方法を導入し、LLMsが自己ランク付けを行い推論パフォーマンスを向上させる。実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させ、AlpacaEvalデータセットで人間の判断と74%の一致率を示すことが示された。RankPromptは言語モデルから高品質なフィードバックを引き出す効果的な方法であることが示された。 CommentLLMでランキングをするためのプロンプト手法。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある ...

#NaturalLanguageGeneration #Pocket #DataToTextGeneration #Prompting #NumericReasoning
Issue Date: 2024-04-04 Prompting for Numerical Sequences: A Case Study on Market Comment Generation, Masayuki Kawarada+, N_A, arXiv24 SummaryLLMsは、構造化データに対するプロンプト生成に関する研究が進んでいるが、時系列数値データに関する詳細な調査が不足している。本研究では、株価の数値系列を入力として市場コメントを生成するタスクに焦点を当て、さまざまな入力表現を探究する。実験結果は、プログラミング言語に似たプロンプトがより良い結果をもたらすことを示しており、数値系列からテキストを生成する際の効果的なプロンプト作成について示唆を提供している。 CommentData-to-Text系のタスクでは、しばしば数値列がInputとなり、そこからテキストを生成するが、この際にどのようなフォーマットで数値列をPromptingするのが良いかを調査した研究。Pythonリストなどのプログラミング言語に似たプロンプトが高い性能を示し、自然言語やhtml, latex ...

#ComputerVision #Pocket #LanguageModel #ModelMerge
Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, arXiv24 Summary進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。著者スライドによると、従来のモデルマージにはbase modelが著者 ... #Pocket #LanguageModel #OpenWeight #OpenSource
Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv24 SummaryLMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 CommentModel Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル（truly Open Language Model）。AllenAI ... #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2024-03-05 Chain-of-Thought Reasoning Without Prompting, Xuezhi Wang+, N_A, arXiv24 SummaryLLMsの推論能力を向上させるための新しいアプローチに焦点を当てた研究が行われている。この研究では、LLMsがプロンプトなしで効果的に推論できるかどうかを検証し、CoT推論パスをデコーディングプロセスを変更することで引き出す方法を提案している。提案手法は、従来の貪欲なデコーディングではなく、代替トークンを調査することでCoTパスを見つけることができることを示しており、様々な推論ベンチマークで有効性を示している。 Comment以前にCoTを内部的に自動的に実施されるように事前学習段階で学習する、といった話があったと思うが、この研究はデコーディング方法を変更することで、promptingで明示的にinstructionを実施せずとも、CoTを実現するもの、ということだと思われる。 ...

#EfficiencyImprovement #Pocket #LanguageModel #PEFT(Adaptor/LoRA)
Issue Date: 2024-03-05 LoRA+: Efficient Low Rank Adaptation of Large Models, Soufiane Hayou+, N_A, arXiv24 Summary本研究では、Huら（2021）によって導入されたLow Rank Adaptation（LoRA）が、大埋め込み次元を持つモデルの適切な微調整を妨げることを指摘します。この問題は、LoRAのアダプターマトリックスAとBが同じ学習率で更新されることに起因します。我々は、AとBに同じ学習率を使用することが効率的な特徴学習を妨げることを示し、異なる学習率を設定することでこの問題を修正できることを示します。修正されたアルゴリズムをLoRA$+$と呼び、幅広い実験により、LoRA$+$は性能を向上させ、微調整速度を最大2倍高速化することが示されました。 CommentLoRAと同じ計算コストで、2倍以上の高速化、かつ高いパフォーマンスを実現する手法 ... #Survey #Pocket #LanguageModel #Annotation
Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv24 SummaryGPT-4などの大規模言語モデル（LLMs）を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 CommentData AnnotationにLLMを活用する場合のサーベイ ... #Survey #LanguageModel #DataToTextGeneration #TabularData
Issue Date: 2024-03-05 Large Language Models（LLMs） on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv24 Summary最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 CommentTabular DataにおけるLLM関連のタスクや技術等のサーベイ ... #Pocket #LanguageModel #Personalization
Issue Date: 2024-02-24 User-LLM: Efficient LLM Contextualization with User Embeddings, Lin Ning+, N_A, arXiv24 SummaryLLMsを活用したUser-LLMフレームワークが提案された。ユーザーエンベッディングを使用してLLMsをコンテキストに位置付けし、ユーザーコンテキストに動的に適応することが可能になる。包括的な実験により、著しい性能向上が示され、Perceiverレイヤーの組み込みにより計算効率が向上している。 Commentnext item prediction, favorite genre or category predictimnreview generationなどで評価している ... #Pocket #LanguageModel #ProgressiveLearning #ACL
Issue Date: 2024-01-24 LLaMA Pro: Progressive LLaMA with Block Expansion, Chengyue Wu+, N_A, ACL24 Summary本研究では、大規模言語モデル（LLMs）の新しい事前学習後の手法を提案し、モデルの知識を効果的かつ効率的に向上させることを目指しました。具体的には、Transformerブロックの拡張を使用し、新しいコーパスのみを使用してモデルを調整しました。実験の結果、提案手法はさまざまなベンチマークで優れたパフォーマンスを発揮し、知的エージェントとして多様なタスクに対応できることが示されました。この研究は、自然言語とプログラミング言語を統合し、高度な言語エージェントの開発に貢献するものです。 Comment追加の知識を導入したいときに使えるかも?事前学習したLLaMA Blockに対して、追加のLLaMA Blockをstackし、もともとのLLaMA Blockのパラメータをfreezeした上でドメインに特化したコーパスで事後学習することで、追加の知識を挿入する。LLaMA Blockを挿入するとき ...

#Survey #Pocket #LanguageModel #Hallucination
Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv24 Summary要約：本論文では、大規模言語モデル（LLMs）における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。 #Pocket #LanguageModel #DataToTextGeneration #TabularData #ICLR
Issue Date: 2024-01-24 Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding, Zilong Wang+, N_A, ICLR24 SummaryLLMsを使用したChain-of-Tableフレームワークは、テーブルデータを推論チェーン内で活用し、テーブルベースの推論タスクにおいて高い性能を発揮することが示された。このフレームワークは、テーブルの連続的な進化を表現し、中間結果の構造化情報を利用してより正確な予測を可能にする。さまざまなベンチマークで最先端のパフォーマンスを達成している。 CommentTable, Question, Operation Historyから次のoperationとそのargsを生成し、テーブルを順次更新し、これをモデルが更新の必要が無いと判断するまで繰り返す。最終的に更新されたTableを用いてQuestionに回答する手法。Questionに回答するために、複雑 ... #Survey #NaturalLanguageGeneration #Pocket #Evaluation #LLM-as-a-Judge
Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv24 Summary本研究は、大規模言語モデル（LLMs）を使用した自然言語生成（NLG）の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment重要NLGの評価をするモデルのアーキテクチャとして、BERTScoreのようなreferenceとhvpothesisのdistiebuted representation同士を比較するような手法（matching-based）と、性能指標を直接テキストとして生成するgenerative-based ... #MachineLearning #Pocket #LanguageModel #ICLR #read-later #ModelMerge
Issue Date: 2024-01-23 Knowledge Fusion of Large Language Models, Fanqi Wan+, N_A, ICLR24 Summary本研究では、既存の事前訓練済みの大規模言語モデル（LLMs）を統合することで、1つの強力なモデルを作成する方法を提案しています。異なるアーキテクチャを持つ3つの人気のあるLLMsを使用して、ベンチマークとタスクのパフォーマンスを向上させることを実証しました。提案手法のコード、モデルの重み、およびデータはGitHubで公開されています。 #Pocket #LanguageModel #Alignment #InstructionTuning #LLM-as-a-Judge #SelfImprovement #ICML
Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, ICML24 Summary将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment人間の介入無しで（人間がアノテーションしたpreference data無しで）LLMのAlignmentを改善していく手法。LLM-as-a-Judge Promptingを用いて、LLM自身にpolicy modelとreward modelの役割の両方をさせる。unlabeledなprompt ...

#MachineLearning #Transformer #EMNLP
Issue Date: 2024-01-16 Transformers are Multi-State RNNs, Matanel Oren+, N_A, EMNLP24 Summary本研究では、トランスフォーマーのデコーダーは無限マルチステートRNNとして概念化できることを示し、有限のマルチステートRNNに変換することも可能であることを示します。さらに、新しいキャッシュ圧縮ポリシーであるTOVAを導入し、他のポリシーよりも優れた性能を示すことを実験結果で示しました。TOVAは元のキャッシュサイズの1/8しか使用せず、トランスフォーマーデコーダーLLMが実際にはRNNとして振る舞うことが多いことを示しています。 CommentTransformerはRNNとは異なる概念、特に全てのトークンの情報に直接アクセスできるということで区別されてきたが、よくよく考えてみると、Transformer Decoderは、RNNのhidden_states h を（hは1つのstateをベクトルで表している）、multi-stateを表 ... #Pocket #LanguageModel #Chain-of-Thought
Issue Date: 2024-01-16 The Impact of Reasoning Step Length on Large Language Models, Mingyu Jin+, N_A, arXiv24 SummaryChain of Thought（CoT）の推論ステップの長さとLLMsの推論能力の関係を調査した。推論ステップを延長すると、プロンプトに新しい情報を追加せずにLLMsの推論能力が向上することがわかった。逆に、キーとなる情報を保持しながら推論ステップを短縮すると、推論能力が低下する。また、誤った根拠でも推論の必要な長さを保つ限り、好ましい結果が得られることも示された。さらに、タスクによって推論ステップの増加の利点が異なることも観察された。 #Pocket #LanguageModel #OpenWeight
Issue Date: 2024-01-09 Mixtral of Experts, Albert Q. Jiang+, N_A, arXiv24 SummaryMixtralは、Sparse Mixture of Experts（SMoE）言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 CommentMixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。![image](https://github.com/user-attachm ... #Pocket #Dataset #LanguageModel #QuestionAnswering #COLM
Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, COLM24 Summary私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家（Googleへアクセスして良い環境）で34%しか正答できないQAデータセット。元ツイート: https://x.com/idavidrein/status/1727033002234909060?s=46&t=Y6UuIHB0Lv0IpO ... #LanguageModel #QuestionAnswering #Prompting #EMNLP
Issue Date: 2023-10-30 Re-Reading Improves Reasoning in Language Models, Xiaohan Xu+, N_A, EMNLP24 Summary大規模言語モデル（LLMs）において、推論は重要で困難な問題です。従来のアプローチでは、プロンプティング戦略を開発することに焦点が当てられてきましたが、双方向の相互作用や質問の重要性には注意が払われていませんでした。この問題に対処するため、質問の再読という新しいプロンプティング戦略を提案します。再読は、質問情報を再訪することで、LLMsの推論能力を向上させることができます。実験結果は、この手法の効果と汎用性を示しており、LLMsの領域でのその有用性を強調しています。 Comment問題文を2,3回promptで繰り返すだけで、数学のベンチマークとCommonsenseのベンチマークの性能が向上したという非常に簡単なPrompting。self-consistencyなどの他のPromptingとの併用も可能。なぜ性能が向上するかというと、1. LLMはAuporegresこの ...

#LanguageModel #FactualConsistency #RAG(RetrievalAugmentedGeneration)#ICLR
Issue Date: 2023-10-29 Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N_A, ICLR24 Summary大規模言語モデル（LLMs）は、事実に基づかない回答を生成することがあります。そこで、自己反省的な検索増強生成（Self-RAG）という新しいフレームワークを提案します。このフレームワークは、検索と自己反省を通じてLLMの品質と事実性を向上させます。実験結果は、Self-RAGが最先端のLLMsおよび検索増強モデルを大幅に上回ることを示しています。 CommentRAGをする際の言語モデルの回答の質とfactual consistencyを改善せるためのフレームワーク。reflection tokenと呼ばれる特殊トークンを導入し、言語モデルが生成の過程で必要に応じて情報をretrieveし、自身で生成内容を批評するように学習する。単語ごとに生成するのではO ...

#Pretraining #Pocket #LanguageModel
Issue Date: 2023-10-10 Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N_A, ICLR24 Summary言語モデルのトレーニングと推論において、遅延を導入することでモデルの性能を向上させる手法を提案しました。具体的には、入力に特定のトークンを追加し、そのトークンが現れるまでモデルの出力を遅らせることで、追加の計算を行うことができます。実験結果では、この手法が推論タスクにおいて有益であり、特にQAタスクでの性能向上が見られました。今後は、この遅延予測の手法をさらに研究していく必要があります。 Commentこの研究は興味深いが、事前学習時に入れないと効果が出にくいというのは直感的にわかるので、実用的には活用しづらい。また、promptでこの研究をimitateする方法については、ZeroShot CoTにおいて、思考プロセスを明示的に指定するようなpromptingと同様のことを行っており、これは実 ... #Pocket #LanguageModel #LongSequence #NAACL
Issue Date: 2023-10-09 Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N_A, NAACL24 Summary私たちは、長いコンテキストをサポートする一連のLLMsを提案します。これらのモデルは、長いテキストを含むデータセットでトレーニングされ、言語モデリングや他のタスクで評価されます。提案手法は、通常のタスクと長いコンテキストのタスクの両方で改善をもたらします。また、70Bバリアントはgpt-3.5-turbo-16kを上回るパフォーマンスを実現します。さらに、私たちはLlamaの位置エンコーディングや事前学習プロセスの設計選択の影響についても分析しました。結果から、長いコンテキストの継続的な事前学習が効果的であることが示されました。 Comment以下elvis氏のツイートの意訳Metaが32kのcontext windowをサポートする70BのLLaMa2のvariant提案し、gpt-3.5-turboをlong contextが必要なタスクでoutperform。short contextのLLaMa2を継続的に訓練して実現。これ位置エ ... #LanguageModel #QuestionAnswering #Chain-of-Thought #Prompting #ACL #Verification
Issue Date: 2023-09-30 Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, ACL24 Summary私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification（CoVe）メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment# 概要ユーザの質問から、Verificationのための質問をplanningし、質問に対して独立に回答を得たうえでオリジナルの質問に対するaggreementを確認し、最終的に生成を実施するPrompting手法 # 評価 ## dataset Wikidata ...

#Pocket #LanguageModel #Reasoning #ICLR #Verification
Issue Date: 2023-08-08 SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, N_A, ICLR24 Summary最新の大規模言語モデル（LLMs）は、推論問題を解決するために有望な手法ですが、複雑な問題にはまだ苦戦しています。本研究では、LLMsが自身のエラーを認識する能力を持っているかどうかを探求し、ゼロショットの検証スキームを提案します。この検証スキームを使用して、異なる回答に対して重み付け投票を行い、質問応答のパフォーマンスを向上させることができることを実験で確認しました。 Commentこれはおもしろそう。後で読むOpenReview:https://openreview.net/forum?id=pTHfApDakA ... #MachineLearning #LanguageModel #PEFT(Adaptor/LoRA)#COLM
Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, COLM24 Summary本研究では、大規模言語モデル（LLMs）を新しいタスクに適応させるための低ランク適応（LoRA）を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment学習されたLoRAのパラメータをモジュールとして捉え、新たなタスクのinputが与えられた時に、LoRA Hub上の適切なモジュールをLLMに組み合わせることで、ICL無しで汎化を実現するというアイデア。few shotのexampleを人間が設計する必要なく、同等の性能を達成。複数のLoRAモジュ ...

#InformationRetrieval #LearningToRank #PairWise #LanguageModel #Prompting #NAACL
Issue Date: 2023-07-11 Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting, Zhen Qin+, N_A, NAACL24 SummaryLLMsを使用してドキュメントをランキングする際に、Pairwise Ranking Prompting（PRP）という新しい技術を提案する。PRPは、LLMsへの負荷を軽減し、最先端のランキングパフォーマンスを達成することができる。具体的には、20Bパラメータを持つFlan-UL2モデルに基づくPRPは、商用のGPT-4に基づく従来の手法を上回る結果を示した。さらに、PRPのバリアントを提案し、効率を改善することができることを示した。PRPは生成とスコアリングのLLM APIの両方をサポートし、入力の順序に対して無感度であることも示された。 Commentopen source LLMにおいてスタンダードなランキングタスクのベンチマークでSoTAを達成できるようなprompting技術を提案従来のランキングのためのpromptingはpoint-wiseとlist wiseしかなかったが、前者は複数のスコアを比較するためにスコアのcalibratio ... #Analysis #MachineLearning #LanguageModel #Prompting #In-ContextLearning #TACL
Issue Date: 2023-07-11 Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N_A, TACL24 Summary最近の言語モデルは、長い文脈を入力として受け取ることができますが、その長い文脈をどれだけうまく利用しているかについてはまだよくわかっていません。この研究では、マルチドキュメントの質問応答とキー・バリューの検索という2つのタスクにおいて、言語モデルのパフォーマンスを分析しました。その結果、関連情報が入力文脈の始まりや終わりにある場合、パフォーマンスが最も高くなることがわかりましたが、長い文脈の中で関連情報にアクセスする必要がある場合、パフォーマンスが著しく低下します。さらに、入力文脈が長くなるにつれて、明示的に長い文脈を扱うモデルでもパフォーマンスが大幅に低下します。この分析は、言語モデルが入力文脈をどのように利用しているかをより良く理解するためのものであり、将来の長い文脈モデルのための新しい評価プロトコルを提供します。 Comment元ツイートhttps://twitter.com/drjimfan/status/1678460065811136512?s=46&t=5BO_qSlNBSEGSugyUlP5Hw非常に重要な知見がまとめられている1. モデルはコンテキストのはじめと最後の情報をうまく活用でき、真ん中の情報をうまく活 ... #NeuralNetwork #LanguageModel #Chain-of-Thought #ACL
Issue Date: 2023-04-27 Active prompting with chain-of-thought for large language models, Diao+, The Hong Kong University of Science and Technology, ACL24 Commentしっかりと読めていないが、CoT-answerが存在しないtrainingデータが存在したときに、nサンプルにCoTとAnswerを与えるだけでFew-shotの予測をtestデータに対してできるようにしたい、というのがモチベーションっぽいそのために、questionに対して、training ... #ComputerVision #LanguageModel #MulltiModal #SpeechProcessing #AAAI
Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, AAAI24 Commenttext, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステムマルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい ![image](https://user-images ... #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning
Issue Date: 2023-04-26 Scaling Instruction-Finetuned Language Models, Chung+, Google, JMLR24 CommentT5をinstruction tuningしたFlanT5の研究Finetuning language models on a collection of datasets phrased as instructions has been shown to improvemodel performa ... #Dataset #PersonalizedGeneration #ACL
Issue Date: 2023-04-26 LaMP: When Large Language Models Meet Personalization, Selemi+, University of Massachusetts Amherst （w_ Google Research）, ACL24 Comment# 概要 Personalizationはユーザのニーズや嗜好に応えるために重要な技術で、IRやRecSysで盛んに研究されてきたが、NLPではあまり実施されてこなかった。しかし、最近のタスクで、text classificationやgeneration taskでPersonalization# ... #LanguageModel #DataGeneration #ICLR
Issue Date: 2023-04-25 WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft_Peking University, ICLR24 Commentinstruction trainingは大きな成功を収めているが、人間がそれらのデータを作成するのはコストがかかる。また、そもそも複雑なinstructionを人間が作成するのは苦労する。そこで、LLMに自動的に作成させる手法を提案している（これはself instructと一緒）。データを生成す ... #NeuralNetwork #Chain-of-Thought #Prompting #AutomaticPromptEngineering #NAACL
Issue Date: 2023-04-25 Enhancing LLM Chain-of-Thought with Iterative Bootstrapping, Sun+, Xiamen University （w_ MSRA et al.）, NAACL24 CommentZero shot CoTからスタートし、正しく問題に回答できるようにreasoningを改善するようにpromptをreviseし続けるループを回す。最終的にループした結果を要約し、それらをプールする。テストセットに対しては、プールの中からNshotをサンプルしinferenceを行う。![imで ... #NeuralNetwork #Survey #GraphBased
Issue Date: 2023-04-25 Graph Neural Networks for Text Classification: A Survey, Wang+, Artificial Intelligence Review24 CommentText Classification is the most essential and fundamental problem in Natural Language Processing. While numerous recent text classification models ap ... #EfficiencyImprovement #Pocket #LanguageModel #read-later #Inference
Issue Date: 2025-06-12 SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills, Amey Agrawal+, arXiv23 CommentvLLMでも採用されている `Chunked Prefills` と `Decode-Maximal Batching` を提案している。![Image](https://github.com/user-attachments/assets/4db0f73d-bdf4-4c2b-a765-2c9b ... #EfficiencyImprovement #Pocket #LanguageModel #ACL #Parallelism
Issue Date: 2025-05-16 Sequence Parallelism: Long Sequence Training from System Perspective, Li+, ACL23 Comment入力系列をチャンクに分割して、デバイスごとに担当するチャンクを決めることで原理上無限の長さの系列を扱えるようにした並列化手法。系列をデバイス間で横断する場合attention scoreをどのように計算するかが課題になるが、そのためにRing Self attentionと呼ばれるアルゴリズムを提案 ... #MachineLearning #Pocket #LanguageModel #NeurIPS #read-later #ITI (Inference Time Intervention)#Probing #Trustfulness
Issue Date: 2025-05-09 Inference-Time Intervention: Eliciting Truthful Answers from a Language Model, Kenneth Li+, NeurIPS23 CommentInference Time Interventionを提案した研究。Attention Headに対して線形プロービング[^1]を実施し、真実性に関連するであろうHeadをtopKで特定できるようにし、headの出力に対し真実性を高める方向性のベクトルvを推論時に加算することで（＝interven ... #Analysis #Pocket #LanguageModel #SyntheticData
Issue Date: 2025-05-03 Physics of Language Models: Part 3.1, Knowledge Storage and Extraction, Zeyuan Allen-Zhu+, arXiv23 Comment解説:#1834 ... #ComputerVision #Pocket #Transformer #MulltiModal #SpeechProcessing #Architecture #Normalization
Issue Date: 2025-04-19 Foundation Transformers, Hongyu Wang+, PMLR23 Comment![image](https://github.com/user-attachments/assets/2847f982-3266-4394-9920-01d9977e505e)関連:#1900 ... #ComputerVision #Pocket #LanguageModel #MulltiModal #OpenWeight
Issue Date: 2025-04-11 PaLI-3 Vision Language Models: Smaller, Faster, Stronger, Xi Chen+, arXiv23 CommentOpenReview:https://openreview.net/forum?id=JpyWPfzu0b実験的に素晴らしい性能が実現されていることは認められつつも比較対象がSigLIPのみでより広範な比較実験と分析が必要なことBackboneモデルをContrastive Lear ... #EfficiencyImprovement #LanguageModel #Transformer #LongSequence #PositionalEncoding #NeurIPS
Issue Date: 2025-04-06 The Impact of Positional Encoding on Length Generalization in Transformers, Amirhossein Kazemnejad+, NeurIPS23 Comment#1863において、Llama4 Scoutが10Mコンテキストウィンドウを実現できる理由の一つとのこと。元ポスト:https://x.com/drjimfan/status/1908615861650547081?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLlama斜め読みだが、l ... #Pocket #Dataset #LanguageModel #LLMAgent #SoftwareEngineering
Issue Date: 2025-04-02 SWE-bench: Can Language Models Resolve Real-World GitHub Issues?, Carlos E. Jimenez+, arXiv23 Commentソフトウェアエージェントの最もpopularなベンチマーク

SWE- ... #MachineLearning #Pocket #LanguageModel #NeurIPS #Scaling Laws #read-later
Issue Date: 2025-03-23 Scaling Data-Constrained Language Models, Niklas Muennighoff+, NeurIPS23 CommentOpenReview:https://openreview.net/forum?id=j5BuTrEj35チンチラ則のようなScaling Lawsはパラメータとデータ量の両方をスケールさせた場合の前提に立っており、かつデータは全てuniqueである前提だったが、データの枯渇が懸念される昨今の状況に ... #Survey #Pocket #Dataset #Distillation
Issue Date: 2025-02-01 Data Distillation: A Survey, Noveen Sachdeva+, arXiv23 #Survey #Pocket #LanguageModel #Chain-of-Thought #ACL
Issue Date: 2025-01-06 Navigate through Enigmatic Labyrinth A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future, Zheng Chu+, arXiv23 #Pocket #LanguageModel #Chain-of-Thought
Issue Date: 2025-01-05 Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks, Wenhu Chen+, TMLR23 Comment1. LLMsは算術演算を実施する際にエラーを起こしやすく、特に大きな数に対する演算を実施する際に顕著2. LLMsは複雑な数式（e.g. 多項式, 微分方程式）を解くことができない3. LLMsはiterationを表現するのが非常に非効率の3点を解決するために、外部のインタプリタに演算処テキスト ... #LanguageModel #Chain-of-Thought #Reasoning
Issue Date: 2025-01-05 Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models, Soochan Lee+, arXiv23 Commentdivide-and-conquerで複雑な問題に回答するCoT手法。生成過程でsubquestionが生じた際にモデルに特殊トークン（GO）を出力させ、subquestionの回答部分に特殊トークン（THINK）を出力させるようにSupervisedに学習させる。最終的にTHINKトークン部分は、 ... #LanguageModel #Diversity
Issue Date: 2024-12-03 Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions, John Chung+, ACL23, 2023.07 CommentLarge language models (LLMs) can be used to generate text data for training and evaluating other models. However, creating high-quality datasets with生 ... #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-12-01 Improving the Domain Adaptation of Retrieval Augmented Generation （RAG） Models for Open Domain Question Answering, Siriwardhana+, TACL23, 2023.01 CommentRetrieval Augment Generation (RAG) is a recent advancement in Open-Domain Question Answering (ODQA). RAG has only been trained and explored with a Wi ... #Pretraining #MachineLearning #Pocket #LanguageModel #Supervised-FineTuning (SFT)#MoE(Mixture-of-Experts)#PostTraining
Issue Date: 2024-11-25 Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints, Aran Komatsuzaki+, ICLR23 Comment斜め読みしかできていないが、Mixture-of-Expertsを用いたモデルをSFT/Pretrainingする際に、既存のcheckpointの重みを活用することでより効率的かつ性能向上する方法を提案。MoE LayerのMLPを全て既存のcheckpointにおけるMLPの重みをコピーして初期 ... #MachineTranslation #Pocket #LanguageModel
Issue Date: 2024-11-20 Prompting Large Language Model for Machine Translation: A Case Study, Biao Zhang+, arXiv23 Commentzero-shotでMTを行うときに、改行の有無や、少しのpromptingの違いでCOMETスコアが大幅に変わることを示している。モデルはGLM-130BをINT4で量子化したモデルで実験している。興味深いが、この知見を一般化して全てのLLMに適用できるか？と言われると、そうはならない気が ... #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)#ACL
Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, ACL23 #Pretraining #Pocket #LanguageModel #ICLR
Issue Date: 2024-09-26 UL2: Unifying Language Learning Paradigms, Yi Tay+, N_A, ICLR23 CommentOpenReview:https://openreview.net/forum?id=6ruVLB727MC ... #Dataset #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv23 Comment現在はOpenAIの利用規約において、outputを利用してOpenAIと競合するモデルを構築することは禁止されているので、この点には注意が必要https://openai.com/ja-JP/policies/terms-of-use/ ... #Pocket #LanguageModel #SelfCorrection
Issue Date: 2024-09-07 Large Language Models Cannot Self-Correct Reasoning Yet, Jie Huang+, N_A, arXiv23 #Pocket #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning #SelfCorrection
Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv23 CommentReflection-Tuningを提案している研究? ... #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #EMNLP #Finetuning
Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, EMNLP-Findings23 Summary埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。 CommentOpenReview: https://openreview.net/forum?id=2jibzAXJzH¬eId=rgNMHmjShZ ... #DocumentSummarization #NaturalLanguageGeneration #Pocket #Dataset #LanguageModel #Annotation
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv23 SummaryLLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Commentニュース記事の高品質な要約を人間に作成してもらい、gpt-3.5を用いてLLM-basedな要約も生成 annotatorにそれぞれの要約の品質をスコアリングさせたデータセットを作成 ... #EfficiencyImprovement #Pocket #LanguageModel #Transformer #Attention
Issue Date: 2024-04-07 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N_A, arXiv23 SummaryMulti-query attention（MQA）は、単一のkey-value headのみを使用しており、デコーダーの推論を劇的に高速化しています。ただし、MQAは品質の低下を引き起こす可能性があり、さらには、より速い推論のためだけに別個のモデルをトレーニングすることが望ましくない場合もあります。既存のマルチヘッド言語モデルのチェックポイントを、オリジナルの事前トレーニング計量の5%を使用してMQAを持つモデルにアップトレーニングするためのレシピを提案し、さらに、複数のkey-value headを使用するマルチクエリアテンションの一般化であるグループ化クエリアテンション（GQA）を紹介します。アップトレーニングされたGQAが、MQAと同等の速度でマルチヘッドアテンションに匹敵する品質を達成することを示しています。 Comment通常のMulti-Head AttentionがQKVが1対1対応なのに対し、Multi Query Attention (MQA) #1272 は全てのQに対してKVを共有する。一方、GQAはグループごとにKVを共有する点で異なる。MQAは大幅にInfeerence` speedが改善するが、精 ...

#NaturalLanguageGeneration #Pocket #LanguageModel #Explanation #Supervised-FineTuning (SFT)#Evaluation #EMNLP #PostTraining
Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, EMNLP23 Summary自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment伝統的なNLGの性能指標の解釈性が低いことを主張する研究![image](https://github.com/user-attachments/assets/4c4fe705-e0c5-41d1-b3c8-c084d85b77ba) ... #Pocket #LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP23 Summary従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル（LLMs）を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究# 手法概要 CoTを利用して、生成されたテキストの品質を評価する手法を提案している。タスクのIntroductionと、評価のCriteriaをプロンプトに仕込むだけで、自動的にLLMに評価ステップに関するCoTを生成させ、最終 ...

#NaturalLanguageGeneration #LLM-as-a-Judge
Issue Date: 2024-01-25 Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT23 SummaryGEMBAは、参照翻訳の有無に関係なく使用できるGPTベースの翻訳品質評価メトリックです。このメトリックは、ゼロショットのプロンプティングを使用し、4つのプロンプトバリアントを比較します。私たちの手法は、GPT 3.5以上のモデルでのみ機能し、最先端の精度を達成します。特に、英語からドイツ語、英語からロシア語、中国語から英語の3つの言語ペアで有効です。この研究では、コード、プロンプトテンプレート、およびスコアリング結果を公開し、外部の検証と再現性を可能にします。 #Pocket #LanguageModel #ProprietaryLLM
Issue Date: 2023-12-21 Gemini: A Family of Highly Capable Multimodal Models, Gemini Team+, N_A, arXiv23 Summaryこの報告書では、マルチモーダルモデル「Gemini」のファミリーについて紹介します。Geminiは画像、音声、動画、テキストの理解に優れた能力を持ち、Ultra、Pro、Nanoのサイズがあります。Gemini Ultraは幅広いベンチマークで最先端の技術を提供し、MMLUでは人間の専門家のパフォーマンスを初めて達成しました。Geminiモデルはクロスモーダルな推論と言語理解の能力を持ち、さまざまなユースケースに適用できます。また、ユーザーへの責任ある展開についても議論しています。 Comment#1181 で発表されたGeminiの論文 ... #LanguageModel #Blog #ProprietaryLLM
Issue Date: 2023-12-07 Gemini, Google23 Comment多くのベンチマークでGPT4超えらしい（追記1）テクニカルレポートのp.44を見ると、ブログポスト中のGPT4のMMLUのスコアはGPT-4-0613のもののようなので、これが正しいとすると他のベンチマークのスコアも同モデルのものである可能性が高く、GPT-4-1163-preview（最新モテクニ ...

#LanguageModel #Alignment #In-ContextLearning
Issue Date: 2023-12-05 The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning, Bill Yuchen Lin+, N_A, arXiv23 Summaryアラインメント調整は、大規模言語モデル（LLMs）のパフォーマンスを向上させるために使用されます。しかし、アラインメント調整の効果は「表面的」である可能性があります。この研究では、基本的なLLMとアラインメント調整されたバージョンのトークン分布のシフトを分析しました。結果は、アラインメント調整が主にスタイルトークンに影響を与えることを示しました。さらに、シンプルでチューニングフリーなアラインメント手法であるURIALを導入し、基本的なLLMのパフォーマンスを向上させることができることを示しました。これらの結果から、アラインメントのより深い分析と理論的な理解が重要であることが示唆されます。 Commentモデルの知識はPre-training時に十分獲得されており、モデルのAlignmentをとることで生じるものは表面的な変化のみであるという仮説がある #700 。この仮説に関して分析をし、結果的にスタイリスティックな情報を生成する部分でAlignmentの有無で違いが生じることを明らかにし、そうで ...

#Analysis #Pocket #LanguageModel #QuestionAnswering
Issue Date: 2023-12-04 Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text, Qi Cao+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の内部動作についての新しい洞察を提供します。特に、GPT-4を調査し、LLMsの耐久性に関する実験結果を示します。実験では、文字レベルの順列に対するLLMsの耐性を調べるために、Scrambled Benchというスイートを使用しました。結果は、GPT-4がtypoglycemiaという現象に似た能力を持ち、非常に自然でないエラーを含む入力をほぼ完璧に処理できることを示しています。これは、LLMsの耐性が直感に反するものであり、他のLLMsや人間にとっても困難なタスクであることを示しています。 CommentOpenAIのモデルがブラックボックスである限り、コンタミネーションがあるのでは？という疑念は持ってしまう。（部分的にしか読めていないが…）RealtimeQAと呼ばれるweeklyで直近のニュースに対するQuestionを発表することで構築されるデータセットのうち、2023.03.17--2完全に ...

#Pocket #Transformer
Issue Date: 2023-12-04 Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N_A, EMNLP23 Summary本研究では、再帰構造をうまく捉えるために新しい自己注意層であるPushdown Layersを導入しました。Pushdown Layersは、再帰状態をモデル化するためにスタックテープを使用し、トークンごとの推定深度を追跡します。このモデルは、構文的な一般化を改善し、サンプル効率を向上させることができます。さらに、Pushdown Layersは標準の自己注意の代替としても使用でき、GLUEテキスト分類タスクでも改善を実現しました。 #ComputerVision #Pocket #GenerativeAI #MulltiModal
Issue Date: 2023-12-01 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv23 Summary本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Commenthttps://huggingface.co/spaces/Vchitect/SEINE 画像 + テキストpromptで、動画を生成するデモ ... #EfficiencyImprovement #Pocket #LanguageModel
Issue Date: 2023-11-23 Exponentially Faster Language Modelling, Peter Belcak+, N_A, arXiv23 SummaryUltraFastBERTは、推論時にわずか0.3%のニューロンしか使用せず、同等の性能を発揮することができる言語モデルです。UltraFastBERTは、高速フィードフォワードネットワーク（FFF）を使用して、効率的な実装を提供します。最適化されたベースラインの実装に比べて78倍の高速化を実現し、バッチ処理された推論に対しては40倍の高速化を実現します。トレーニングコード、ベンチマークのセットアップ、およびモデルの重みも公開されています。 #ComputerVision #Pocket #LanguageModel #AutomaticPromptEngineering
Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, arXiv23 Summary本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #Pocket #LanguageModel #QuestionAnswering
Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv23 SummaryGAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92％の正答率を達成し、GPT-4は15％の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 CommentYann LeCun氏の紹介ツイートhttps://x.com/ylecun/status/1727707519470977311?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QMeta-FAIR, Meta-GenAI, HuggingFace, AutoGPTによる研究。人間は ...

#Pocket #Alignment
Issue Date: 2023-11-21 Unbalanced Optimal Transport for Unbalanced Word Alignment, Yuki Arase+, N_A, arXiv23 Summary単一言語の単語アライメントにおいて、null alignmentという現象は重要であり、不均衡な単語アライメントを実現するために最適輸送（OT）のファミリーが有効であることを示している。教師あり・教師なしの設定での包括的な実験により、OTベースのアライメント手法が最新の手法と競争力があることが示されている。 Comment最適輸送で爆速でモノリンガルの単語アライメントがとれるらしい実装:https://github.com/yukiar/OTAlign単語のアライメント先がない（null alignment）、one-to-oneの関係ではなく、one-to-many, many-to-manyのアライメントが必要な ...

#Tutorial #Pocket #LanguageModel #Chain-of-Thought
Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhikers Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv23 Summary大規模言語モデル（LLMs）は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought（CoT）推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 CommentCoTに関するチュートリアル論文 ... #Pretraining #Pocket #LanguageModel #Chain-of-Thought
Issue Date: 2023-11-21 Implicit Chain of Thought Reasoning via Knowledge Distillation, Yuntian Deng+, N_A, arXiv23 Summary本研究では、言語モデルの内部の隠れ状態を使用して暗黙的な推論を行う手法を提案します。明示的なチェーン・オブ・ソートの推論ステップを生成する代わりに、教師モデルから抽出した暗黙的な推論ステップを使用します。実験により、この手法が以前は解決できなかったタスクを解決できることが示されました。 Commentこれは非常に興味深い話 ... #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-11-19 Contrastive Chain-of-Thought Prompting, Yew Ken Chia+, N_A, arXiv23 Summary言語モデルの推論を改善するために、対照的なchain of thoughtアプローチを提案する。このアプローチでは、有効な推論デモンストレーションと無効な推論デモンストレーションの両方を提供し、モデルが推論を進める際にミスを減らすようにガイドする。また、自動的な方法を導入して対照的なデモンストレーションを構築し、汎化性能を向上させる。実験結果から、対照的なchain of thoughtが一般的な改善手法として機能することが示された。 #Pocket #LanguageModel #Chain-of-Thought #Prompting #RAG(RetrievalAugmentedGeneration)
Issue Date: 2023-11-17 Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models, Wenhao Yu+, N_A, arXiv23 Summary検索補完言語モデル（RALM）は、外部の知識源を活用して大規模言語モデルの性能を向上させるが、信頼性の問題や知識の不足による誤った回答がある。そこで、Chain-of-Noting（CoN）という新しいアプローチを導入し、RALMの頑健性を向上させることを目指す。CoNは、順次の読み取りノートを生成し、関連性を評価して最終的な回答を形成する。ChatGPTを使用してCoNをトレーニングし、実験結果はCoNを装備したRALMが標準的なRALMを大幅に上回ることを示している。特に、ノイズの多いドキュメントにおいてEMスコアで平均+7.9の改善を達成し、知識範囲外のリアルタイムの質問に対する拒否率で+10.5の改善を達成している。 Comment一番重要な情報がappendixに載っているCoNによって、ノイズがあった場合にゲインが大きい。 ...

#Pocket #LanguageModel #Supervised-FineTuning (SFT)#FactualConsistency
Issue Date: 2023-11-15 Fine-tuning Language Models for Factuality, Katherine Tian+, N_A, arXiv23 Summary本研究では、大規模な言語モデル（LLMs）を使用して、より事実に基づいた生成を実現するためのファインチューニングを行います。具体的には、外部の知識ベースや信頼スコアとの一貫性を測定し、選好最適化アルゴリズムを使用してモデルを調整します。実験結果では、事実エラー率の削減が観察されました。 #Pocket #LanguageModel #InstructionTuning #Evaluation
Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv23 Summary大規模言語モデル（LLMs）の能力を評価するために、Instruction-Following Eval（IFEval）という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 CommentLLMがinstructionにどれだけ従うかを評価するために、検証可能なプロンプト（400字以上で書きなさいなど）を考案し評価する枠組みを提案。人間が評価すると時間とお金がかかり、LLMを利用した自動評価だと評価を実施するLLMのバイアスがかかるのだ、それら両方のlimitationを克服できると ...

#EfficiencyImprovement #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-11-15 Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster, Hongxuan Zhang+, N_A, arXiv23 Summaryこの研究では、FastCoTというフレームワークを提案します。FastCoTは、LLMを使用して並列デコーディングと自己回帰デコーディングを同時に行い、計算リソースを最大限に活用します。また、FastCoTは推論時間を約20%節約し、性能の低下がほとんどないことを実験で示しました。さらに、異なるサイズのコンテキストウィンドウに対しても頑健性を示すことができました。 Comment論文中の図を見たが、全くわからなかった・・・。ちゃんと読まないとわからなそうである。 ... #ComputerVision #Pocket #LayoutGeneration
Issue Date: 2023-11-14 LayoutPrompter: Awaken the Design Ability of Large Language Models, Jiawei Lin+, N_A, NeurIPS23 SummaryLayoutPrompterは、大規模言語モデル（LLMs）を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 CommentConditional Graphic Layout Generation ... #Pocket #LanguageModel #SmallModel #NeurIPS
Issue Date: 2023-11-14 Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer, Bowen Tan+, N_A, NeurIPS23 Summary大規模言語モデル（LLMs）はマルチタスキングに優れた性能を示していますが、パラメータ数が多く計算リソースを必要とし、効率的ではありません。そこで、小規模なスコアラーであるCappyを導入し、独立して機能するかLLMsの補助として使用することでパフォーマンスを向上させました。Cappyはファインチューニングやパラメータへのアクセスを必要とせず、さまざまなタスクで高い性能を発揮します。実験結果では、Cappyは独立したタスクや複雑なタスクで大きなLLMsを上回り、他のLLMsとの連携も可能です。 Comment360MパラメータでさまざまなタスクでLLMに勝つっぽいのでおもしろそうだし実用性もありそう ... #Pocket #Dataset #LanguageModel #Evaluation #MultiLingual
Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, arXiv23 SummaryLLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket #LanguageModel #Prompting #AutomaticPromptEngineering
Issue Date: 2023-11-13 Prompt Engineering a Prompt Engineer, Qinyuan Ye+, N_A, arXiv23 Summaryプロンプトエンジニアリングは、LLMsのパフォーマンスを最適化するための重要なタスクであり、本研究ではメタプロンプトを構築して自動的なプロンプトエンジニアリングを行います。改善されたパフォーマンスにつながる推論テンプレートやコンテキストの明示などの要素を導入し、一般的な最適化概念をメタプロンプトに組み込みます。提案手法であるPE2は、さまざまなデータセットやタスクで強力なパフォーマンスを発揮し、以前の自動プロンプトエンジニアリング手法を上回ります。さらに、PE2は意味のあるプロンプト編集を行い、カウンターファクトの推論能力を示します。 #ComputerVision #Pocket #MultitaskLearning #MulltiModal #FoundationModel
Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv23 SummaryFlorence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 CommentVison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。 ...

#Survey #Pocket #LanguageModel #Hallucination
Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv23 SummaryLLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 CommentHallucinationを現象ごとに分類したSurveyとして #1048 もあるSurveyの内容。必要に応じて参照すべし。 ...

#Pocket #LanguageModel #Attention
Issue Date: 2023-11-10 Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs, Qingru Zhang+, N_A, arXiv23 SummaryPASTAは、大規模言語モデル（LLMs）において、ユーザーが指定した強調マークのあるテキストを読むことを可能にする手法です。PASTAは、注意の一部を特定し、再重み付けを適用してモデルの注意をユーザーが指定した部分に向けます。実験では、PASTAがLLMの性能を大幅に向上させることが示されています。 Commentユーザがprompt中で強調したいした部分がより考慮されるようにattention weightを調整することで、より応答性能が向上しましたという話っぽい。かなり重要な技術だと思われる。後でしっかり読む。 ...

#Analysis #LanguageModel
Issue Date: 2023-11-08 Do LLMs exhibit human-like response biases? A case study in survey design, Lindia Tjuatja+, N_A, arXiv23 SummaryLLMsを使用して人間の代理としてタスクを実行する際に、LLMsが人間の応答バイアスをどの程度反映するかを調査する必要がある。この研究では、調査設計を使用して人間の応答バイアスを評価するデータセットとフレームワークを設計し、9つのモデルを評価した結果、一般的なLLMsが人間のような振る舞いを反映することに失敗していることが示された。これらの結果は、LLMsを人間の代わりに使用する際の潜在的な落とし穴を強調し、モデルの振る舞いの細かい特性の重要性を強調している。 CommentLLMはPromptにsensitiveだが、人間も質問の仕方によって応答が変わるから、sensitiveなのは一緒では？ということを調査した研究。Neubig氏のツイートだと、instruction tuningやRLHFをしていないBase LLMの方が、より人間と類似した回答をするのだそう。人 ...

#Analysis #Pocket #LanguageModel #Transformer
Issue Date: 2023-11-06 Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models, Steve Yadlowsky+, N_A, arXiv23 Summary本研究では、トランスフォーマーモデルの文脈学習（ICL）能力を調査しました。トランスフォーマーモデルは、事前学習データの範囲内で異なるタスクを特定し、学習する能力を持っています。しかし、事前学習データの範囲外のタスクや関数に対しては一般化が劣化することが示されました。また、高容量のシーケンスモデルのICL能力は、事前学習データの範囲に密接に関連していることが強調されました。 CommentTransformerがpre-training時に利用された学習データ以外の分布に対しては汎化性能が落ちることを示したらしい。もしこれが正しいとすると、結局真に新しい分布というか関数というかタスクというか、をTransformerが創出する可能性は低いと言えるかもしれない。が、新しいものって大体は ... #Pocket #LanguageModel #Evaluation #FactualConsistency #RAG(RetrievalAugmentedGeneration)
Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv23 Summary自律型の事実チェックにおいて、大規模言語モデル（LLMs）を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Commentgpt3とgpt4でFactCheckして傾向を分析しました、という研究。promptにstatementとgoogleで補完したcontextを含め、出力フォーマットを指定することでFactCheckする。promptingする際の言語や、statementの事実性の度合い（半分true, 全て斜 ...

#Pretraining #Pocket #LanguageModel #FoundationModel #Mathematics
Issue Date: 2023-10-29 Llemma: An Open Language Model For Mathematics, Zhangir Azerbayev+, N_A, arXiv23 Summary私たちは、数学のための大規模な言語モデルであるLlemmaを提案します。Llemmaは、Proof-Pile-2と呼ばれるデータセットを用いて事前学習され、MATHベンチマークで他のモデルを上回る性能を示しました。さらに、Llemmaは追加のfine-tuningなしでツールの使用や形式的な定理証明が可能です。アーティファクトも公開されています。 CommentCodeLLaMAを200B tokenの数学テキスト（proof-pile-2データ;論文、数学を含むウェブテキスト、数学のコードが含まれるデータ）で継続的に事前学習することでfoundation modelを構築約半分のパラメータ数で数学に関する性能でGoogleのMinervaと同等の性元ツイ ...

#LanguageModel #Evaluation
Issue Date: 2023-10-29 Large Language Models are not Fair Evaluators, Peiyi Wang+, N_A, arXiv23 Summaryこの論文では、大規模言語モデル（LLMs）を使用して、候補モデルの応答品質を評価する評価パラダイムにおける系統的なバイアスを明らかにします。さらに、バイアスを軽減するためのキャリブレーションフレームワークを提案し、実験によってその有効性を示します。また、コードとデータを公開して、今後の研究を支援します。 #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT)#DataGeneration
Issue Date: 2023-10-28 Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N_A, arXiv23 Summary私たちは、小さな言語モデルを作成するために、教師モデルからの優先データを使用する手法を提案しています。この手法により、自然なプロンプトに対するモデルの応答が改善されます。提案手法を用いて学習されたZephyr-7Bモデルは、チャットベンチマークで最先端の性能を発揮し、人間の注釈を必要としません。詳細はGitHubで利用可能です。 Comment7BパラメータでLlaMa70Bと同等の性能を達成したZephyrの論文。dSFT:既存データからpromptをサンプリングし、user,assistantのmulti turnの対話をLLMでシミュレーションしてデータ生成しSFTAIF:既存データからpromstをサンプリングしBlog: htt ...

#Pocket #LanguageModel #Evaluation
Issue Date: 2023-10-28 Human Feedback is not Gold Standard, Tom Hosking+, N_A, arXiv23 Summary人間のフィードバックは、大規模言語モデルの性能評価に使用されているが、その好みのスコアがどの特性を捉えているのかは明確ではない。この研究では、人間のフィードバックの使用を分析し、重要なエラー基準を適切に捉えているかどうかを検証した。結果として、好みのスコアは広範なカバレッジを持っているが、事実性などの重要な側面が過小評価されていることがわかった。また、好みのスコアとエラーアノテーションは交絡因子の影響を受ける可能性があり、出力の断定性が事実性エラーの知覚率を歪めることも示された。さらに、人間のフィードバックを訓練目標として使用することが、モデルの出力の断定性を過度に増加させることも示された。今後の研究では、好みのスコアが望ましい目標と一致しているかどうかを慎重に考慮する必要がある。 Comment参考: https://x.com/icoxfog417/status/1718151338520199180?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#ComputerVision #Pocket #LanguageModel #MulltiModal
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V（ision） : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv23 Summaryこの論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識（OCR）能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 CommentGPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む）で性能検証した研究。MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。 ...

#Pocket #LanguageModel #InstructionTuning #InstructionGeneration
Issue Date: 2023-10-26 Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models, Zhihan Zhang+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の性能を向上させるための新しい手法であるAuto-Instructを提案しています。この手法では、LLMsが生成する指示の品質を自動的に向上させるために、多様な候補の指示を生成し、スコアリングモデルでランク付けします。実験結果では、Auto-Instructが人間による指示や既存のLLM生成指示を上回ることが示されています。また、他のLLMsでも顕著な汎化性能を示すことも確認されています。 Commentseed instructionとdemonstrationに基づいて、異なるスタイルのinstructionを自動生成し、自動生成したinstructionをとinferenceしたいexampleで条件づけてランキングし、良質なものを選択。選択したinstructionでinferenceを実施 ...

#MachineLearning #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2023-10-26 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, arXiv23 Summary私たちは、言語モデルのファインチューニングを改善するために、ノイズを加えた埋め込みベクトルを使用する手法を提案します。この手法は、AlpacaEvalやEvol-Instructなどのデータセットで強力なベースラインを上回る性能を示しました。また、RLHFでトレーニングされたモデルにも適用可能です。 CommentAlpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。HuggingFaceのTRLでサポートされている https://huggingface.co/docs/trl/sft_trainer ... #Pocket #LanguageModel #In-ContextLearning
Issue Date: 2023-10-26 In-Context Learning Creates Task Vectors, Roee Hendel+, N_A, EMNLP23 Summary大規模言語モデル（LLMs）におけるインコンテキスト学習（ICL）の基本的なメカニズムはまだ十分に理解されていない。本研究では、ICLによって学習される関数が非常に単純な構造を持つことを示し、ICLがトランスフォーマーLLMを使用して単一のタスクベクトルを生成し、それを使用して出力を生成するということを明らかにする。さまざまなモデルとタスクにわたる実験によって、この主張を支持している。 Comment参考: https://x.com/hillbig/status/1717302086587875395?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QICLが実現可能なのは実はネットワーク内部で与えられたdemonstrationに対して勾配効果法を再現しているからです、という研究もあ ... #MachineLearning #LanguageModel
Issue Date: 2023-10-26 Detecting Pretraining Data from Large Language Models, Weijia Shi+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）を訓練するためのデータの検出問題を研究し、新しい検出方法であるMin-K% Probを提案します。Min-K% Probは、LLMの下で低い確率を持つアウトライアーワードを検出することに基づいています。実験の結果、Min-K% Probは従来の方法に比べて7.4%の改善を達成し、著作権のある書籍の検出や汚染された下流の例の検出など、実世界のシナリオにおいて効果的な解決策であることが示されました。 Comment実験結果を見るにAUCは0.73-0.76程度であり、まだあまり高くない印象。また、テキストのlengthはそれぞれ32,64,128,256程度。 ...

#Pocket #LanguageModel #Evaluation
Issue Date: 2023-10-25 Branch-Solve-Merge Improves Large Language Model Evaluation and Generation, Swarnadeep Saha+, N_A, arXiv23 Summary本研究では、多面的な言語生成および評価タスクにおいて、大規模言語モデルプログラム（BSM）を提案します。BSMは、ブランチ、ソルブ、マージの3つのモジュールから構成され、タスクを複数のサブタスクに分解し、独立して解決し、解決策を統合します。実験により、BSMが評価の正確性と一貫性を向上させ、パフォーマンスを向上させることが示されました。 #Pocket #LanguageModel #Personalization
Issue Date: 2023-10-24 Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, N_A, arXiv23 SummaryReinforcement Learning from Human Feedback (RLHF) is not optimal for learning diverse individual perspectives, as it aligns general aggregated human preferences with large language models (LLMs). This study investigates the problem of Reinforcement Learning from Individual Human Feedback (RLPHF) and models the alignment with LLMs to multiple (sometimes conflicting) preferences as a Multi-Objective Reinforcement Learning (MORL) problem. It demonstrates that individual alignment can be achieved by decomposing preferences into multiple dimensions based on personalized declarations. The study shows that these dimensions can be efficiently trained independently and distributed, and effectively combined in post-processing through parameter merging. The code is available at https://github.com/joeljang/RLPHF. Commentどこまでのことが実現できるのかが気になる。 ... #MachineLearning #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-10-24 Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs Non-linear Thinking, Yongqi Tong+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）に非線形の思考を促すために、新しいプロンプティング方法であるInferential Exclusion Prompting（IEP）を提案する。IEPは、計画を立てて可能な解を推論し、逆推論を行うことで広い視点を得ることができる。IEPは他の手法と比較して複雑な人間の思考プロセスをシミュレートできることを実証し、LLMsのパフォーマンス向上にも貢献することを示した。さらに、Mental-Ability Reasoning Benchmark（MARB）を導入し、LLMsの論理と言語推論能力を評価するための新しいベンチマークを提案した。IEPとMARBはLLMsの研究において有望な方向性であり、今後の進展が期待される。 Comment元論文は読んでいないのだが、CoTが線形的だという主張がよくわからない。CoTはAutoregressiveな言語モデルに対して、コンテキストを自己生成したテキストで利用者の意図した方向性にバイアスをかけて補完させ、利用者が意図した通りのアウトプットを最終的に得るためのテクニック、だと思っていて ... #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-10-13 Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models, Anni Zou+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）を使用して、推論のためのチェーン・オブ・ソート（CoT）プロンプトを生成する方法を提案しています。従来のCoTの方法では、一般的なプロンプトや手作業デモンストレーションに依存していましたが、本研究では入力質問のタイプに基づいて自動的にプロンプトを生成するMeta-CoTを提案しています。Meta-CoTは、10のベンチマーク推論タスクで優れたパフォーマンスを示し、SVAMPでは最先端の結果を達成しました。また、分布外データセットでも安定性と汎用性が確認されました。 Comment色々出てきたがなんかもう色々組み合わせれば最強なんじゃね?って気がしてきた。 ...

#Survey #LanguageModel #FactualConsistency
Issue Date: 2023-10-13 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity, Cunxiang Wang+, N_A, arXiv23 Summaryこの研究では、大規模言語モデル（LLMs）の事実性の問題に取り組んでいます。LLMsの出力の信頼性と正確性は重要であり、事実に矛盾した情報を生成することがあるため、その問題を解決する方法を探求しています。具体的には、LLMsの事実的なエラーの影響や原因を分析し、事実性を評価する手法や改善策を提案しています。また、スタンドアロンのLLMsと外部データを利用する検索拡張型LLMsに焦点を当て、それぞれの課題と改善策について詳しく説明しています。この研究は、LLMsの事実的な信頼性を向上させるためのガイドとなることを目指しています。 Comment ...

#Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-10-12 Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, Huaixiu Steven Zheng+, N_A, arXiv23 SummaryStep-Back Promptingは、大規模言語モデル（LLMs）を使用して推論の手順をガイドするシンプルなプロンプティング技術です。この技術により、LLMsは具体的な詳細から高レベルの概念や基本原則を抽象化し、正しい推論経路をたどる能力を向上させることができます。実験により、Step-Back PromptingはSTEM、Knowledge QA、Multi-Hop Reasoningなどのタスクにおいて大幅な性能向上が観察されました。具体的には、MMLU Physics and Chemistryで7%、11%、TimeQAで27%、MuSiQueで7%の性能向上が確認されました。 Commentまた新しいのが出た ...

#Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2023-10-10 RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation, Fangyuan Xu+, N_A, arXiv23 Summaryドキュメントの要約を生成することで、言語モデルの性能を向上させる手法を提案する。抽出型の圧縮器と抽象型の圧縮器を使用し、LMsの入力に要約を追加して訓練する。実験結果では、圧縮率が6％まで達成され、市販の要約モデルを上回る性能を示した。また、訓練された圧縮器は他のLMsにも転移可能であることが示された。 CommentRetrieval Augmentationをする際に、元文書群を要約して圧縮することで、性能低下を抑えながら最大6%程度まで元文書群を圧縮できた、とのこと。元ツイート: https://x.com/omarsar0/status/1711384213092479130?s=46&t=Y6UuIHB ...

#Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2023-10-09 Retrieval meets Long Context Large Language Models, Peng Xu+, N_A, arXiv23 Summary最先端の事前学習済みLLMsを使用して、リトリーバル拡張と長いコンテキストウィンドウの組み合わせについて研究しました。結果として、リトリーバル拡張LLMsは、ファインチューニングLLMsと比較しても高いパフォーマンスを示し、計算量も少ないことがわかりました。さらに、リトリーバルはLLMsのパフォーマンスを向上させることができることが示されました。リトリーバル拡張LLMsは、質問応答や要約などのタスクにおいて、他のモデルよりも優れた性能を発揮し、生成速度も速いです。この研究は、実践者にとってリトリーバル拡張と長いコンテキストウィンドウのLLMsの選択に関する洞察を提供します。 Comment参考: https://x.com/hillbig/status/1711502993508671670?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q検索補強（Retrieval Augmentation）とは、言語モデルの知識を補完するために、関連する文書を外部の文書集合からとってき ... #Pocket #Dataset #LanguageModel #Alignment #Conversation
Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment# Overview # RoleBench ...

#ComputerVision #Pocket #LanguageModel #QuestionAnswering
Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, arXiv23 SummaryLLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment画像分析が可能なオープンソースLLMとのこと。# Overview 画像生成をできるわけではなく、inputとして画像を扱えるのみ。 ...

#MachineLearning #Pocket #Dataset #LanguageModel #LLMAgent #Evaluation #AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク（新たなKaggle Challenge等）では30%程度とのこと。 ... #Pocket #Prompting #AutomaticPromptEngineering
Issue Date: 2023-10-09 Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, Chrisantha Fernando+, N_A, arXiv23 Summary本研究では、Promptbreederという自己参照的な自己改善メカニズムを提案し、大規模言語モデル（LLM）の推論能力を向上させるための汎用的なプロンプト戦略を進化させる方法を示しています。Promptbreederは、LLMが自己参照的な方法で進化する変異プロンプトによって制御され、タスクプロンプトの集団を変異させて改善します。この手法は、算術や常識的な推論のベンチマークだけでなく、ヘイトスピーチ分類などの難しい問題に対しても優れた性能を発揮します。 Comment詳細な解説記事: https://aiboom.net/archives/56319APEとは異なり、GAを使う。突然変異によって、予期せぬ良いpromptが生み出されるかも…？ ... #Pocket #Prompting #AutomaticPromptEngineering
Issue Date: 2023-10-09 Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic, Xufeng Zhao+, N_A, arXiv23 Summary大規模言語モデルの進歩は驚異的だが、多段階の推論には改善の余地がある。大規模言語モデルは知識を持っているが、推論には一貫性がなく、幻覚を示すことがある。そこで、Logical Chain-of-Thought（LogiCoT）というフレームワークを提案し、論理による推論パラダイムの効果を示した。 Commentまーた新しいX of Thoughtが出た。必要そうなら読む。 ... #GraphBased #Pocket #Prompting #AutomaticPromptEngineering
Issue Date: 2023-10-09 Graph Neural Prompting with Large Language Models, Yijun Tian+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）を知識グラフと組み合わせるための新しい手法であるGraph Neural Prompting（GNP）を提案しています。GNPは、標準的なグラフニューラルネットワークエンコーダやクロスモダリティプーリングモジュールなどの要素から構成されており、異なるLLMのサイズや設定において、常識的な推論タスクやバイオメディカル推論タスクで優れた性能を示すことが実験によって示されました。 Comment以下elvis氏のツイートの意訳事前学習されたLLMがKGから有益な知識を学習することを支援する手法を提案。元ツイート: https://arxiv.org/abs/2309.15427しっかり論文を読んでいないが、freezeしたLLMがあった時に、KGから求めたGraph Neural Prom ...

#LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-10-07 Large Language Models as Analogical Reasoners, Michihiro Yasunaga+, N_A, arXiv23 Summary本研究では、言語モデルの推論プロセスを自動的にガイドするための新しいプロンプティング手法であるアナロジカルプロンプティングを提案しています。この手法は、関連する過去の経験を引用して新しい問題に取り組む認知プロセスに倣い、問題を解決する前に文脈内で関連する例示や知識を自己生成させるように言語モデルに促します。この手法は、例示のラベリングや検索の必要性を排除し、一般性と適応性を提供します。実験結果は、この手法がさまざまな推論タスクで他の手法を上回ることを示しています。 Comment以下、著者ツイートのざっくり翻訳: https://x.com/michiyasunaga/status/1709582150025240854?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q人間は新しい問題に取り組む時、過去に解いた類義の問題を振り返り、その経験を活用する。これをLLL ...

#Pocket #Dataset #LanguageModel #InstructionTuning #NumericReasoning #Mathematics
Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv23 SummaryMAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment9つのmath reasoningが必要なデータセットで13-29%のgainでSoTAを達成。260kの根拠情報を含むMath Instructデータでチューニングされたモデル。project page: https://tiger-ai-lab.github.io/MAmmoTH/ ... #Survey #Pocket #LanguageModel #Hallucination
Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv23 Summary本研究では、大規模ファウンデーションモデル（LFMs）におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 CommentHallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。 ...

#General #Pocket #LanguageModel #Alignment
Issue Date: 2023-09-30 RAIN: Your Language Models Can Align Themselves without Finetuning, Yuhui Li+, N_A, arXiv23 Summary本研究では、追加のデータなしで凍結された大規模言語モデル（LLMs）を整列させる方法を探求しました。自己評価と巻き戻しメカニズムを統合することで、LLMsは自己ブースティングを通じて人間の好みと一致する応答を生成することができることを発見しました。RAINという新しい推論手法を導入し、追加のデータやパラメータの更新を必要とせずにAIの安全性を確保します。実験結果は、RAINの効果を示しており、LLaMA 30Bデータセットでは無害率を向上させ、Vicuna 33Bデータセットでは攻撃成功率を減少させることができました。 Commentトークンのsetで構成されるtree上を探索し、出力が無害とself-evaluationされるまで、巻き戻しと前方生成を繰り返し、有害なトークンsetの重みを動的に減らすことでalignmentを実現する。モデルの追加のfinetuning等は不要。self-evaluationでは下記のようなp ...

#Pocket #Dataset #LanguageModel #StructuredData
Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 CommentFormatに関する情報を含むデータでInstruction TuningすることでFormatCoT（フォーマットに関する情報のCoT）を実現している模様。ざっくりしか論文を読んでいないが詳細な情報があまり書かれていない印象で、ちょっとなんともいえない。 ...

#EfficiencyImprovement #MachineLearning #Pocket #Dataset #QuestionAnswering #Supervised-FineTuning (SFT)#LongSequence #PEFT(Adaptor/LoRA)
Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv23 Summary本研究では、計算コストを制限しながら大規模言語モデル（LLMs）のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment# 概要 context長が大きい場合でも効率的にLoRAする手法。通常のLoRAではcontext lengthが大きくなるにつれてperplexityが大きくなってしまう。一方、通常のFinetuningではperplexityは高い性能を維持するが、計算コストとVRAMの消費量が膨大になって ...

#DocumentSummarization #NaturalLanguageGeneration #Pocket #LanguageModel
Issue Date: 2023-09-17 From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting, Griffin Adams+, N_A, arXiv23 Summary要約は詳細でエンティティ中心的でありながら、理解しやすくすることが困難です。この課題を解決するために、私たちは「密度の連鎖」（CoD）プロンプトを使用して、GPT-4の要約を生成します。CoDによって生成された要約は抽象的であり、リードバイアスが少なく、人間に好まれます。また、情報量と読みやすさのトレードオフが存在することも示されました。CoD要約は無料で利用できます。 Comment論文中のprompt例。InformativeなEntityのCoverageを増やすようにイテレーションを回し、各Entityに関する情報（前ステップで不足している情報は補足しながら）を具体的に記述するように要約を生成する。人間が好むEntityのDensityにはある程度の閾値がある模様（でもこ ...

#Pocket #LanguageModel #Hallucination #FactualConsistency
Issue Date: 2023-09-13 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models, Yung-Sung Chuang+, N_A, arXiv23 Summary我々は、事前学習済みの大規模言語モデル（LLMs）における幻覚を軽減するためのシンプルなデコーディング戦略を提案する。このアプローチは、ロジットの差異を対比することで次のトークンの分布を得るもので、事実知識をより明確に示し、誤った事実の生成を減らすことができる。このアプローチは、複数の選択課題やオープンエンドの生成課題において真実性を向上させることができることが示されている。 Comment【以下、WIP状態の論文を読んでいるため今後内容が変化する可能性あり】 # 概要 Transformer Layerにおいて、factual informationが特定のレイヤーに局所化するという現象を観測しており、それを活用しよりFactual Consistencyのある生成をします、とい ...

#EfficiencyImprovement #MachineLearning #Pocket #LanguageModel
Issue Date: 2023-09-13 Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N_A, arXiv23 Summary私たちは、小さなTransformerベースの言語モデルであるTinyStoriesと、大規模な言語モデルであるphi-1の能力について調査しました。また、phi-1を使用して教科書の品質のデータを生成し、学習プロセスを改善する方法を提案しました。さらに、phi-1.5という新しいモデルを作成し、自然言語のタスクにおいて性能が向上し、複雑な推論タスクにおいて他のモデルを上回ることを示しました。phi-1.5は、良い特性と悪い特性を持っており、オープンソース化されています。 Comment#766 に続く論文 ... #Pocket #LanguageModel #Alignment #Supervised-FineTuning (SFT)#Synchrophancy
Issue Date: 2023-09-10 Simple synthetic data reduces sycophancy in large language models, Jerry Wei+, N_A, arXiv23 Summary本研究では、機械学習モデルのおべっか行動を減らすための方法を提案しています。まず、言語モデルにおけるおべっか行動の普及度を調査し、その行動を減らすための合成データ介入を提案しています。具体的には、ユーザーの意見に対してモデルが頑健であることを促す合成データを使用し、モデルのファインチューニングを行います。これにより、おべっか行動を大幅に減らすことができます。提案手法の詳細は、https://github.com/google/sycophancy-intervention で確認できます。 CommentLLMはユーザの好む回答をするように事前学習されるため、prompt中にユーザの意見が含まれていると、ユーザの意見に引っ張られ仮に不正解でもユーザの好む回答をしてしまう問題があることを示した。また、その対策として人工的にユーザの意見と、claimを独立させるように学習するためのデータセットを生成しF ...

#MachineLearning #Pocket #LanguageModel #AutomaticPromptEngineering
Issue Date: 2023-09-09 Large Language Models as Optimizers, Chengrun Yang+, N_A, arXiv23 Summary本研究では、最適化タスクを自然言語で記述し、大規模言語モデル（LLMs）を使用して最適化を行う手法「Optimization by PROmpting（OPRO）」を提案しています。この手法では、LLMが以前の解とその値を含むプロンプトから新しい解を生成し、評価して次の最適化ステップのためのプロンプトに追加します。実験結果では、OPROによって最適化された最良のプロンプトが、人間が設計したプロンプトよりも優れていることが示されました。 Comment`Take a deep breath and work on this problem step-by-step. `論文 # 概要 LLMを利用して最適化問題を解くためのフレームワークを提案したという話。論文中では、linear regressionや巡回セールスマン問題に適用している。 ...

#MachineLearning #Pocket #LanguageModel #AutomaticPromptEngineering
Issue Date: 2023-09-05 Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR23 Summary大規模言語モデル（LLMs）は、自然言語の指示に基づいて一般的な用途のコンピュータとして優れた能力を持っています。しかし、モデルのパフォーマンスは、使用されるプロンプトの品質に大きく依存します。この研究では、自動プロンプトエンジニア（APE）を提案し、LLMによって生成された指示候補のプールから最適な指示を選択するために最適化します。実験結果は、APEが従来のLLMベースラインを上回り、19/24のタスクで人間の生成した指示と同等または優れたパフォーマンスを示しています。APEエンジニアリングされたプロンプトは、モデルの性能を向上させるだけでなく、フューショット学習のパフォーマンスも向上させることができます。詳細は、https://sites.google.com/view/automatic-prompt-engineerをご覧ください。 Commentプロジェクトサイト: https://sites.google.com/view/automatic-prompt-engineer ... #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-09-04 Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models, Bilgehan Sel+, N_A, arXiv23 Summary大規模言語モデル（LLMs）の推論能力を向上させるために、新しい戦略「Algorithm of Thoughts」を提案している。この戦略では、LLMsをアルゴリズム的な推論経路に導き、わずか1つまたは数個のクエリでアイデアの探索を拡大する。この手法は、以前の単一クエリ手法を上回り、マルチクエリ戦略と同等の性能を発揮する。また、LLMを指導するアルゴリズムを使用することで、アルゴリズム自体を上回るパフォーマンスが得られる可能性があり、LLMが最適化された検索に自己の直感を織り込む能力を持っていることを示唆している。 #Survey #Pocket #LanguageModel #LLMAgent
Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv23 Summary自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル（LLMs）を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment良いサーベイ ...

#MachineLearning #LanguageModel #Transformer #DataAugmentation #Supervised-FineTuning (SFT)#DataGeneration
Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, EMNLP23 Summary本研究では、大規模言語モデル（LLMs）を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 CommentDataset Generatorによって、アノテーションが存在しないデータについても擬似ラベル付きデータを生成することができ、かつそれを既存のラベル付きデータと組み合わせることによってさらに性能が向上することが報告されている。これができるのはとても素晴らしい。Dataset Generatorにつ ... #Pocket #LanguageModel #Bias
Issue Date: 2023-08-28 Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions, Pouya Pezeshkpour+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の頑健性に焦点を当てています。LLMsは多肢選択問題において順序に敏感であり、オプションの配置によって性能に大きな差が生じることを示しました。さらに、オプションの配置に対するバイアスを増幅または軽減する方法を特定し、LLMsの予測を改善するアプローチを提案しました。実験により、最大8パーセントポイントの改善が実現されました。 Commentこれはそうだろうなと思っていたけど、ここまで性能に差が出るとは思わなかった。これがもしLLMのバイアスによるもの（2番目の選択肢に正解が多い）の場合、ランダムにソートしたり、平均取ったりしても、そもそもの正解に常にバイアスがかかっているので、結局バイアスがかかった結果しか出ないのでは、と思ってしまう ...

#Pocket #Dataset #LanguageModel #LLMAgent #Evaluation
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-08-22 Large Language Model Guided Tree-of-Thought, Jieyi Long, N_A, arXiv23 Summaryこの論文では、Tree-of-Thought（ToT）フレームワークを紹介し、自己回帰型の大規模言語モデル（LLM）の問題解決能力を向上させる新しいアプローチを提案しています。ToTは、人間の思考方法に触発された技術であり、複雑な推論タスクを解決するためにツリー状の思考プロセスを使用します。提案手法は、LLMにプロンプターエージェント、チェッカーモジュール、メモリモジュール、およびToTコントローラーなどの追加モジュールを組み込むことで実現されます。実験結果は、ToTフレームワークがSudokuパズルの解決成功率を大幅に向上させることを示しています。 #Pocket #LanguageModel #Prompting
Issue Date: 2023-08-22 Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding, Yuxi Xie+, N_A, arXiv23 Summary私たちは、大規模言語モデル（LLMs）を使用して、推論の品質と多様性を向上させるための効果的なプロンプティングアプローチを提案しました。自己評価によるガイド付き確率的ビームサーチを使用して、GSM8K、AQuA、およびStrategyQAのベンチマークで高い精度を達成しました。また、論理の失敗を特定し、一貫性と堅牢性を向上させることもできました。詳細なコードはGitHubで公開されています。 Comment ...

#Pocket #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-08-22 Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta+, N_A, arXiv23 Summary私たちは、Graph of Thoughts（GoT）というフレームワークを紹介しました。これは、大規模言語モデル（LLMs）のプロンプティング能力を進化させるもので、任意のグラフとしてモデル化できることが特徴です。GoTは、思考の組み合わせやネットワーク全体の本質の抽出、思考の強化などを可能にします。さまざまなタスクで最先端の手法に比べて利点を提供し、LLMの推論を人間の思考に近づけることができます。 CommentChain of Thought #551 => Self-consistency #558 => Thought Decomposition #1013 => Tree of Thoughts #684 Tree of Thought #1015 => Graph of Thoug ... #Pocket #LanguageModel
Issue Date: 2023-08-22 Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, Patrick Butlin+, N_A, arXiv23 SummaryAIの意識についての厳密なアプローチを提案し、既存のAIシステムを神経科学的な意識理論に基づいて評価する。意識の指標的特性を導き出し、最近のAIシステムを評価することで、現在のAIシステムは意識的ではないが、意識的なAIシステムを構築するための障壁は存在しないことを示唆する。 #Pocket #Dataset #LanguageModel #InstructionTuning
Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv23 Summary私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。これにより高品質なinstruction following LLMの構築が可能手法概要結果的に得られるデータは、訓練において非常にインパクトがあり高品質なものとなる。実際に、他の同サイズのinstruct tu ...

#Pocket #LanguageModel #PersonalizedGeneration
Issue Date: 2023-08-18 Teach LLMs to Personalize -- An Approach inspired by Writing Education, Cheng Li+, N_A, arXiv23 Summary個別化されたテキスト生成において、大規模言語モデル（LLMs）を使用した一般的なアプローチを提案する。教育の執筆をベースに、多段階かつマルチタスクのフレームワークを開発し、検索、ランキング、要約、統合、生成のステージで構成される個別化されたテキスト生成へのアプローチを採用する。さらに、マルチタスク設定を導入してモデルの生成能力を向上させる。3つの公開データセットでの評価結果は、他のベースラインに比べて大幅な改善を示している。 Comment研究の目的としては、ユーザが現在執筆しているdocumentのwriting支援 ... #Dataset #SpeechProcessing
Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP23 Comment超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開ワンセグのデータにから生成 ... #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #LM-based #Coherence
Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL23 Summary本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #DocumentSummarization #Pocket #Evaluation #Reference-free
Issue Date: 2023-08-13 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N_A, Findings of ACL23 Summary自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。 Comment# 概要 Dual-Encoderを用いて、ソースドキュメントとシステム要約をエンコードし、dot productをとることでスコアを得る手法。モデルの訓練は、Contrastive Learningで行い、既存データセットのソースと参照要約のペアを正例とみなし、In Batch training# ...

#DocumentSummarization #Pocket #Evaluation #LLM-as-a-Judge
Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv23 Summary本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 CommentBERTScoreと同様、評価したいテキストの対数尤度で評価しているBERTScoreよりも相関が高く、instructionによって性能が向上することが示されている ... #DocumentSummarization #Pocket #Evaluation
Issue Date: 2023-08-13 Large Language Models are Diverse Role-Players for Summarization Evaluation, Ning Wu+, N_A, arXiv23 Summary本研究では、テキスト要約の評価フレームワークを提案し、生成されたテキストと参照テキストを客観的および主観的な側面から比較することで包括的な評価を行います。具体的には、ロールプレイヤーのプロンプティングメカニズムを使用してテキストの評価をモデル化し、コンテキストベースのプロンプティングメカニズムを導入して動的なロールプレイヤープロファイルを生成します。さらに、バッチプロンプティングに基づいたマルチロールプレイヤープロンプティング技術を使用して複数の評価結果を統合します。実験結果は、提案モデルが競争力があり、人間の評価者と高い一致性を持つことを示しています。 #DocumentSummarization #Pocket #Evaluation #FactualConsistency
Issue Date: 2023-08-13 ChatGPT as a Factual Inconsistency Evaluator for Text Summarization, Zheheng Luo+, N_A, arXiv23 Summary事前学習された言語モデルによるテキスト要約の性能向上が注目されているが、生成された要約が元の文書と矛盾することが問題となっている。この問題を解決するために、効果的な事実性評価メトリクスの開発が進められているが、計算複雑性や不確実性の制約があり、人間の判断との一致に限定されている。最近の研究では、大規模言語モデル（LLMs）がテキスト生成と言語理解の両方で優れた性能を示していることがわかっている。本研究では、ChatGPTの事実的な矛盾評価能力を評価し、バイナリエンテイルメント推論、要約ランキング、一貫性評価などのタスクで優れた性能を示した。ただし、ChatGPTには語彙的な類似性の傾向や誤った推論、指示の不適切な理解などの制限があることがわかった。 #Pocket #LanguageModel #Prompting
Issue Date: 2023-08-12 Metacognitive Prompting Improves Understanding in Large Language Models, Yuqing Wang+, N_A, arXiv23 Summary本研究では、LLMsにメタ認知プロンプト（MP）を導入し、人間の内省的な推論プロセスを模倣することで、理解能力を向上させることを目指しています。実験結果は、MPを備えたPaLMが他のモデルに比べて優れたパフォーマンスを示しており、MPが既存のプロンプト手法を上回ることを示しています。この研究は、LLMsの理解能力向上の可能性を示し、人間の内省的な推論を模倣することの利点を強調しています。 CommentCoTより一貫して性能が高いので次のデファクトになる可能性あり ...

#MachineLearning #Pocket #AutoML
Issue Date: 2023-08-10 MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks, Lei Zhang+, N_A, arXiv23 Summary本研究では、機械学習タスクの自動化における人間の知識と機械知能のギャップを埋めるために、新しいフレームワークMLCopilotを提案する。このフレームワークは、最先端のLLMsを使用して新しいMLタスクのソリューションを開発し、既存のMLタスクの経験から学び、効果的に推論して有望な結果を提供することができる。生成されたソリューションは直接使用して競争力のある結果を得ることができる。 #MachineLearning #LanguageModel #Attention
Issue Date: 2023-08-08 The Hydra Effect: Emergent Self-repair in Language Model Computations, Thomas McGrath+, N_A, arXiv23 Summary私たちは、言語モデルの内部構造を調査し、言語モデルの計算における特定の効果を示しました。具体的には、1つの層の削除が他の層によって補完される「Hydra効果」と、遅いMLP層が最大尤度トークンを制御する役割を持つことを示しました。また、ドロップアウトを使用しない言語モデルでも同様の効果が見られることを示しました。これらの効果を事実の回想の文脈で分析し、言語モデルの回路レベルの属性付与について考察しました。 CommentLLMからattention layerを一つ取り除くと、後続の層が取り除かれたlayerの機能を引き継ぐような働きをすることがわかった。これはLLMの自己修復機能のようなものであり、HydraEffectと命名された。 ... #LanguageModel
Issue Date: 2023-08-08 MetaGPT: Meta Programming for Multi-Agent Collaborative Framework, Sirui Hong+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）を使用したマルチエージェントの自動タスク解決における進歩について調査しました。既存の研究では単純なタスクに焦点を当てており、複雑なタスクにおける探索や調査が不足していることがわかりました。そこで、MetaGPTという革新的なフレームワークを提案しました。MetaGPTは、人間のワークフローをLLMに組み込むことで、マルチエージェントの協力を効果的に支援します。実験結果から、MetaGPTが既存のシステムに比べてより高い結束性を持つ解決策を生成することが示されました。これは、マルチエージェントに人間のドメイン知識を組み込むことの潜在能力を示し、新しいアプローチの可能性を開拓するものです。 Comment要はBabyTalk, AutoGPTの進化系で、人間のワークフローを模倣するようにデザインしたら良くなりました、という話と思われるソフトウェアエンジニア、アーキテクト、プロダクトオーナー、プロジェクトマネージャーなどのロールを明示的に与えて、ゴールを目指す。もはやLLM内部でソフトウェア企業を ... #EfficiencyImprovement #LanguageModel
Issue Date: 2023-08-08 Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding, Xuefei Ning+, N_A, arXiv23 Summaryこの研究では、大規模言語モデル（LLMs）の生成遅延を減らすために、思考の骨組み（SoT）という手法を提案しています。SoTは、回答の骨組みをまず生成し、その後に内容を並列で処理することで高速化を実現します。また、回答品質の向上も期待されます。SoTはデータ中心の最適化の初めの試みであり、LLMsの人間らしい思考を可能にする可能性があります。 Comment最初に回答の枠組みだけ生成して、それぞれの内容を並列で出力させることでデコーディングを高速化しましょう、という話。 ...

#Tools #Pocket #LanguageModel
Issue Date: 2023-08-08 ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, Yujia Qin+, N_A, arXiv23 Summaryオープンソースの大規模言語モデル（LLMs）を使用して、外部ツール（API）の高度なタスクの実行を容易にするためのToolLLMというフレームワークを紹介します。ToolBenchというデータセットを使用して、ツールの使用方法を調整し、DFSDTという決定木を使用して効率的な検索を行います。ToolEvalという自動評価ツールを使用して、ToolLLaMAが高いパフォーマンスを発揮することを示します。さらに、ニューラルAPIリトリーバーを使用して、適切なAPIを推奨します。 Comment16000のreal worldのAPIとインタラクションし、データの準備、訓練、評価などを一貫してできるようにしたフレームワーク。LLaMAを使った場合、ツール利用に関してturbo-16kと同等の性能に達したと主張。 ...

#Dataset #LanguageModel #Evaluation
Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv23 Summary長い文脈の言語モデル（LCLM）の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Commentlong contextに対するLLMの評価セット。411のlong documentに対する2kのquery-response pairのデータが存在。法律、fainance, school lectures, 長文対話、小説、ミーティングなどのドメインから成る。 ... #Pocket #LanguageModel #Prompting
Issue Date: 2023-08-07 Do Multilingual Language Models Think Better in English?, Julen Etxaniz+, N_A, arXiv23 Summaryself-translateは、マルチリンガル言語モデルの少数ショット翻訳能力を活用する新しいアプローチであり、外部の翻訳システムの必要性を克服する。実験結果は、self-translateが直接推論を上回る性能を示し、非英語の言語でプロンプトされた場合にも有効であることを示している。コードはhttps://github.com/juletx/self-translateで利用可能。 Comment参考: https://twitter.com/imai_eruel/status/1687735268311511040?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...

#EfficiencyImprovement #LanguageModel
Issue Date: 2023-07-26 FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance, Lingjiao Chen+, N_A, arXiv23 Summary大規模言語モデル（LLMs）の使用には高いコストがかかるため、LLMsの推論コストを削減するための3つの戦略（プロンプトの適応、LLMの近似、LLMのカスケード）を提案する。FrugalGPTという具体的な手法を紹介し、最大98％のコスト削減と4％の精度向上を実現することを示す。これにより、LLMsの持続可能な使用が可能となる。 Comment限られた予算の中で、いかに複数のLLM APIを使い、安いコストで高い性能を達成するかを追求した研究。LLM Cascadeなどはこの枠組みでなくても色々と使い道がありそう。Question Concatenationは実質Batch Prompting。 ... #Pocket #LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, arXiv23 Summary大規模言語モデル（LLM）を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 CommentMT-Bench（MTBench）スコアとは、multi-turnのQAを出題し、その回答の質をGPT-4でスコアリングしたスコアのこと。 GPT-4の判断とhuman expertの判断とのagreementも検証しており、agreementは80%以上を達成している。 ...

#PersonalizedDocumentSummarization #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration
Issue Date: 2023-07-22 Generating User-Engaging News Headlines, ACL23 Summaryニュース記事の見出しを個別化するために、ユーザープロファイリングを組み込んだ新しいフレームワークを提案。ユーザーの閲覧履歴に基づいて個別のシグネチャフレーズを割り当て、それを使用して見出しを個別化する。幅広い評価により、提案したフレームワークが多様な読者のニーズに応える個別の見出しを生成する効果を示した。 Comment# モチベーション推薦システムのヘッドラインは未だに全員に同じものが表示されており、ユーザが自身の興味とのつながりを正しく判定できるとは限らず、推薦システムの有用性を妨げるので、ユーザごとに異なるヘッドラインを生成する手法を提案した。ただし、クリックベイトは避けるようなヘッドラインを生成しなけれ# ...

#LanguageModel #Evaluation #LLM-as-a-Judge
Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL23 Summary本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル（LLMs）を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #ComputerVision #NaturalLanguageGeneration #Dataset #Evaluation
Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL23 Summary自動画像キャプションの評価には、情報豊かなメトリック（InfoMetIC）が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Metrics #LanguageModel #QuestionAnswering #Evaluation #Reference-free
Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL23 Summary既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment# 概要質問自動生成の性能指標（e.g. ROUGE, BERTScore）は、表層の一致、あるいは意味が一致した場合にハイスコアを与えるが、以下の欠点がある人手で作成された大量のreference questionが必要表層あるいは意味的に近くないが正しいquestionに対し ...

#LanguageModel #FoundationModel #OpenWeight
Issue Date: 2023-07-22 Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N_A, arXiv23 Summaryこの研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。 Comment参考: https://twitter.com/hillbig/status/1681436336451125257?s=46&t=LJIgfuO352oK3zU2FKFpNALlama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの” ...

#Pocket #ChatGPT #Evaluation
Issue Date: 2023-07-22 How is ChatGPTs behavior changing over time?, Lingjiao Chen+, N_A, arXiv23 SummaryGPT-3.5とGPT-4は、大規模言語モデル（LLM）のサービスであり、その性能と振る舞いは時間とともに変動することがわかった。例えば、GPT-4は素数の特定に優れていたが、後のバージョンでは低い正答率となった。また、GPT-3.5はGPT-4よりも優れた性能を示した。さらに、GPT-4とGPT-3.5の両方が時間とともに敏感な質問への回答やコード生成でのミスが増えた。この結果から、LLMの品質を継続的に監視する必要性が示唆される。 CommentGPT3.5, GPT4共にfreezeされてないのなら、研究で利用すると結果が再現されないので、研究で使うべきではない。また、知らんうちにいくつかのタスクで勝手に性能低下されたらたまったものではない。 ... #Tutorial #Survey #LanguageModel
Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv23 Summary本論文では、大規模言語モデル（LLMs）の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 CommentLLMのここ数年の進化早すぎわろたでキャッチアップむずいので、未解決の課題や、すでに良い感じのアプリケーションの分野分かりづらいので、まとめました論文 ... #ComputerVision #Pocket #LanguageModel #LLMAgent
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ...

#Pocket #LanguageModel #Annotation
Issue Date: 2023-07-22 LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs, Tongshuang Wu+, N_A, arXiv23 Summary大規模言語モデル（LLMs）は、クラウドソーシングタスクにおいて人間のような振る舞いを再現できる可能性がある。しかし、現在の取り組みは単純なタスクに焦点を当てており、より複雑なパイプラインを再現できるかどうかは不明である。LLMsの成功は、リクエスターの理解力やサブタスクのスキルに影響を受ける。人間とLLMsのトレーニングの組み合わせにより、クラウドソーシングパイプラインの再現が可能であり、LLMsは一部のタスクを完了させながら、他のタスクを人間に任せることができる。 #Pocket #LanguageModel #InstructionTuning #Evaluation
Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv23 Summary本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #ComputerVision #Pocket #LanguageModel #SpokenLanguageProcessing #MulltiModal #SpeechProcessing
Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv23 Summary本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment12種類のモダリティに対して学習できるTransformerを提案Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習 ...

#Pocket #Dataset #LanguageModel #Evaluation
Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 CommentこのベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。 ...

#Pocket #Dataset #LanguageModel
Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #DocumentSummarization #Metrics #Dataset #Evaluation
Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL23 Summary要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #Pocket #Dataset #LanguageModel #Programming
Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA23 Summary本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #LanguageModel #Chain-of-Thought #Distillation
Issue Date: 2023-07-18 Teaching Small Language Models to Reason, ACL23 Summary本研究では、大規模な言語モデルの推論能力を小さなモデルに転送するための知識蒸留を探求しました。具体的には、大きな教師モデルによって生成された出力を用いて学生モデルを微調整し、算術、常識、象徴的な推論のタスクでのパフォーマンスを向上させることを示しました。例えば、T5 XXLの正解率は、PaLM 540BとGPT-3 175Bで生成された出力を微調整することで、それぞれ8.11％から21.99％および18.42％に向上しました。 #NaturalLanguageGeneration #Pocket #FactualConsistency
Issue Date: 2023-07-18 WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning, ACL23 Summary現在のテキスト生成モデルは、入力と矛盾するテキストを制御できないという課題があります。この問題を解決するために、私たちはWeCheckという弱教師付きフレームワークを提案します。WeCheckは、弱教師付きラベルを持つ言語モデルから直接訓練された実際の生成サンプルを使用します。さまざまなタスクでの実験結果は、WeCheckの強力なパフォーマンスを示し、従来の評価方法よりも高速で精度と効率を向上させています。 #DocumentSummarization #NaturalLanguageGeneration #Abstractive #FactualConsistency
Issue Date: 2023-07-18 Improving Factuality of Abstractive Summarization without Sacrificing Summary Quality, ACL23 Summary事実性を意識した要約の品質向上に関する研究はあるが、品質を犠牲にすることなく事実性を向上させる手法がほとんどない。本研究では「Effective Factual Summarization」という技術を提案し、事実性と類似性の指標の両方で大幅な改善を示すことを示した。トレーニング中に競合を防ぐために2つの指標を組み合わせるランキング戦略を提案し、XSUMのFactCCでは最大6ポイント、CNN/DMでは11ポイントの改善が見られた。また、類似性や要約の抽象性には負の影響を与えない。 #Dataset #GrammaticalErrorCorrection
Issue Date: 2023-07-18 Enhancing Grammatical Error Correction Systems with Explanations, ACL23 Summary文法エラー修正システムの性能向上のために、エビデンスワードと文法エラータイプが注釈付けされた大規模なデータセットであるEXPECTを紹介する。このデータセットを使用して、説明可能なGECシステムのベースラインと分析を提案し、人間の評価によってその有用性を確認する。 #NaturalLanguageGeneration #DataToTextGeneration #MultitaskLearning #Zero/FewShotLearning
Issue Date: 2023-07-18 Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning, ACL23 Summaryこの論文では、構造化データからテキストを生成する新しいアプローチを提案しています。提案手法は、さまざまな形式のデータを処理できる統一された表現を提供し、マルチタスクトレーニングやゼロショット学習などのシナリオでのパフォーマンスを向上させることを目指しています。実験結果は、提案手法が他の方法と比較して優れた性能を示していることを示しています。これは、データからテキスト生成フレームワークにおける重要な進歩です。 #NaturalLanguageGeneration #Controllable
Issue Date: 2023-07-18 An Invariant Learning Characterization of Controlled Text Generation, ACL23 Summary制御された生成では、予測器の訓練に使用される分布と異なるテキストの分布がある場合、パフォーマンスが低下することが示されている。この問題に対処するために、不変性を持つ予測器が効果的であるという考え方が提案されている。さらに、この特性を活かすための自然な解決策とヒューリスティックも提案されている。実験結果は、制御された生成における分布シフトの課題と不変性手法の潜在能力を示している。 #DocumentSummarization #NaturalLanguageGeneration #Abstractive #Extractive
Issue Date: 2023-07-18 Abstractive Summarizers are Excellent Extractive Summarizers, ACL23 Summary本研究では、抽出型要約と要約型要約の相乗効果を探求し、シーケンス・トゥ・シーケンス・アーキテクチャを使用した3つの新しい推論アルゴリズムを提案しています。これにより、要約型システムが抽出型システムを超えることができることを示しました。また、要約型システムは抽出型のオラクル要約にさらされることなく、両方の要約を単一のモデルで生成できることも示しました。これは、抽出型ラベルの必要性に疑問を投げかけるものであり、ハイブリッドモデルの有望な研究方向を示しています。 #NaturalLanguageUnderstanding
Issue Date: 2023-07-18 TACL Efficient Long-Text Understanding with Short-Text Models, TACL23 Summary本研究では、長いシーケンスを処理するためのシンプルなアプローチであるSLEDを提案しています。SLEDは、既存の短文の事前学習言語モデルを再利用し、入力を重なり合うチャンクに分割して処理します。制御された実験により、SLEDが長いテキスト理解に有効であり、専用の高価な事前学習ステップが必要な専門モデルと競合することが示されました。 #Pretraining #MachineLearning #In-ContextLearning
Issue Date: 2023-07-18 Pre-Training to Learn in Context, ACL23 Summaryインコンテキスト学習は、タスクの例と文脈からタスクを実行する方法であり、注目されています。しかし、現在の方法では十分に活用されていないため、私たちはPICLというフレームワークを提案します。これは、一般的なテキストコーパスでモデルを事前学習し、文脈に基づいてタスクを推論して実行する能力を向上させます。私たちは、PICLでトレーニングされたモデルのパフォーマンスを評価し、他のモデルを上回ることを示しました。コードはGitHubで公開されています。 #EfficiencyImprovement #MachineLearning #DynamicNetworks
Issue Date: 2023-07-18 PAD-Net: An Efficient Framework for Dynamic Networks, ACL23 Summary本研究では、ダイナミックネットワークの一般的な問題点を解決するために、部分的にダイナミックなネットワーク（PAD-Net）を提案します。PAD-Netは、冗長なダイナミックパラメータを静的なパラメータに変換することで、展開コストを削減し、効率的なネットワークを実現します。実験結果では、PAD-Netが画像分類と言語理解のタスクで高い性能を示し、従来のダイナミックネットワークを上回ることを示しました。 #NaturalLanguageGeneration #Controllable #Argument
Issue Date: 2023-07-18 ArgU: A Controllable Factual Argument Generator, ACL23 Summary本研究では、高品質な論証を自動生成するために、制御コードを使用したニューラル論証生成器ArgUを提案します。また、論証スキームを特定するための大規模なデータセットを作成し、注釈付けとデータセット作成のフレームワークについて詳細に説明します。さらに、論証テンプレートを生成する推論戦略を試行し、多様な論証を自動的に生成することが可能であることを示します。 #pretrained-LM #Out-of-DistributionDetection
Issue Date: 2023-07-18 Is Fine-tuning Needed? Pre-trained Language Models Are Near Perfect for Out-of-Domain Detection, ACL23 Summary本研究では、ファインチューニングなしで事前学習された言語モデルを使用してOOD検出を行う効果を調査しました。さまざまなタイプの分布シフトにおいて、ファインチューニングされたモデルを大幅に上回るほぼ完璧なOOD検出性能を示しました。 #RecommenderSystems #Contents-based #Transformer #pretrained-LM #ContrastiveLearning
Issue Date: 2023-07-18 UniTRec: A Unified Text-to-Text Transformer and Joint Contrastive Learning Framework for Text-based Recommendation, ACL23 Summary本研究では、事前学習済み言語モデル（PLM）を使用して、テキストベースの推薦の性能を向上させるための新しいフレームワークであるUniTRecを提案します。UniTRecは、ユーザーの履歴の文脈をより良くモデル化するために統一されたローカル-グローバルアテンションTransformerエンコーダを使用し、候補のテキストアイテムの言語の複雑さを推定するためにTransformerデコーダを活用します。幅広い評価により、UniTRecがテキストベースの推薦タスクで最先端のパフォーマンスを発揮することが示されました。 #Survey #NumericReasoning
Issue Date: 2023-07-18 A Survey of Deep Learning for Mathematical Reasoning, ACL23 Summary数学的な推論とディープラーニングの関係についての調査論文をレビューし、数学的な推論におけるディープラーニングの進歩と将来の研究方向について議論しています。数学的な推論は機械学習と自然言語処理の分野で重要であり、ディープラーニングモデルのテストベッドとして機能しています。また、大規模なニューラル言語モデルの進歩により、数学的な推論に対するディープラーニングの利用が可能になりました。既存のベンチマークと方法を評価し、将来の研究方向についても議論しています。 #NaturalLanguageGeneration #Explanation #Evaluation #Faithfulness
Issue Date: 2023-07-18 Faithfulness Tests for Natural Language Explanations, ACL23 Summary本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。 #Survey #LanguageModel #Prompting #Reasoning
Issue Date: 2023-07-18 Reasoning with Language Model Prompting: A Survey, ACL23 Summary本論文では、推論に関する最新の研究について包括的な調査を行い、初心者を支援するためのリソースを提供します。また、推論能力の要因や将来の研究方向についても議論します。リソースは定期的に更新されています。 #DocumentSummarization #NaturalLanguageGeneration #Extractive #Faithfulness
Issue Date: 2023-07-18 Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization, ACL23 Summary本研究では、抽出的な要約の不正確さの問題について議論し、それを5つのタイプに分類します。さらに、新しい尺度であるExtEvalを提案し、不正確な要約を検出するために使用することを示します。この研究は、抽出的な要約の不正確さに対する認識を高め、将来の研究に役立つことを目指しています。 CommentExtractive SummarizatinoのFaithfulnessに関する研究。 >抽出的な要約は抽象的な要約の一般的な不正確さの問題にはあまり影響を受けにくいですが、それは抽出的な要約が正確であることを意味するのでしょうか？結論はノーです。 >本研究では、抽出的な要約に現れる広範な不正 ... #General #RepresentationLearning #AES(AutomatedEssayScoring)
Issue Date: 2023-07-18 Improving Domain Generalization for Prompt-Aware Essay Scoring via Disentangled Representation Learning, ACL23 Summary自動エッセイスコアリング（AES）は、エッセイを評価するためのモデルですが、既存のモデルは特定のプロンプトにしか適用できず、新しいプロンプトに対してはうまく汎化できません。この研究では、プロンプトに依存しない特徴とプロンプト固有の特徴を抽出するためのニューラルAESモデルを提案し、表現の汎化を改善するための分離表現学習フレームワークを提案しています。ASAPとTOEFL11のデータセットでの実験結果は、提案手法の有効性を示しています。 #NaturalLanguageGeneration #Controllable
Issue Date: 2023-07-15 Controllable Text Generation via Probability Density Estimation in the Latent Space, ACL23 Summary本研究では、潜在空間での確率密度推定を用いた新しい制御フレームワークを提案しています。この手法は、可逆変換関数を使用して潜在空間の複雑な分布を単純なガウス分布にマッピングし、洗練された柔軟な制御を行うことができます。実験結果では、提案手法が属性の関連性とテキストの品質において強力なベースラインを上回り、新たなSOTAを達成していることが示されています。さらなる分析により、制御戦略の柔軟性が示されています。 #Education #EducationalDataMining #QuestionGeneration
Issue Date: 2023-07-15 Covering Uncommon Ground: Gap-Focused Question Generation for Answer Assessment, ACL23 Summary本研究では、教育的な対話における情報のギャップに焦点を当て、自動的に質問を生成する問題に取り組んでいます。良い質問の要素を明確にし、それを満たすモデルを提案します。また、人間のアノテーターによる評価を行い、生成された質問の競争力を示します。 #LanguageModel #Ensemble
Issue Date: 2023-07-15 Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling, ACL23 Summary本研究では、BERTモデルのアンサンブル手法であるMulti-CLS BERTを提案します。Multi-CLS BERTは、複数のCLSトークンを使用して多様性を促進し、単一のモデルを微調整するだけでアンサンブル効果を得ることができます。実験結果では、Multi-CLS BERTがGLUEとSuperGLUEのタスクで全体的な精度と信頼度の推定を向上させることが示されました。また、通常のBERTアンサンブルとほぼ同等の性能を持ちながら、計算量とメモリ使用量が約4倍少なくなっていることも示されました。 #DocumentSummarization #NaturalLanguageGeneration #Dataset #Conversation
Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL23 Summary会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #MachineTranslation #Unsupervised #SpeechProcessing #Speech
Issue Date: 2023-07-15 Simple and Effective Unsupervised Speech Translation, ACL23 Summary音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。 #DocumentSummarization #NaturalLanguageGeneration #Controllable #Dataset #FactualConsistency
Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL23 Summary本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #RecommenderSystems #Conversation
Issue Date: 2023-07-15 TREA: Tree-Structure Reasoning Schema for Conversational Recommendation, ACL23 Summary会話型の推薦システム（CRS）では、外部知識を活用して対話の文脈を理解し、関連するアイテムを推薦することが求められている。しかし、現在の推論モデルは複雑な関係を完全に把握できないため、新しいツリー構造の推論スキーマであるTREAを提案する。TREAは多階層のツリーを使用して因果関係を明確にし、過去の対話を活用してより合理的な応答を生成する。幅広い実験により、TREAの有効性が示された。 #ComputerVision #Dataset #Personalization #MulltiModal #Conversation
Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL23 Summary本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #LanguageModel #Mathematics
Issue Date: 2023-07-15 Solving Math Word Problems via Cooperative Reasoning induced Language Models, ACL23 Summary大規模な事前学習言語モデル（PLM）を使用して、数学の文章問題（MWPs）を解決するためのCooperative Reasoning（CoRe）アーキテクチャを開発しました。CoReでは、生成器と検証器の二つの推論システムが相互作用し、推論パスを生成し評価を監督します。CoReは、数学的推論データセットで最先端の手法に比べて最大9.6％の改善を達成しました。 #NaturalLanguageGeneration #Controllable #Prompting
Issue Date: 2023-07-15 Tailor: A Soft-Prompt-Based Approach to Attribute-Based Controlled Text Generation, ACL23 Summary属性ベースの制御されたテキスト生成（CTG）では、望ましい属性を持つ文を生成することが目指されている。従来の手法では、ファインチューニングや追加の属性分類器を使用していたが、ストレージと推論時間の増加が懸念されていた。そこで、本研究では効率的なパラメータを使用した属性ベースのCTGを提案している。具体的には、各属性を事前学習された連続ベクトルとして表現し、固定された事前学習言語モデルをガイドして属性を満たす文を生成する。さらに、2つの解決策を提供して、組み合わせを強化している。実験の結果、追加のトレーニングパラメータのみで効果的な改善が実現できることが示された。 #DocumentSummarization #Survey #Abstractive #Conversation
Issue Date: 2023-07-15 TACL Abstractive Meeting Summarization: A Survey, TACL23 Summary会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。 #ComputerVision #NaturalLanguageGeneration #LanguageModel #TabularData #TextToImageGeneration
Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL23 Summary本研究では、Vision＆Language（V＆L）モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV＆LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #NaturalLanguageGeneration #Controllable #PEFT(Adaptor/LoRA)
Issue Date: 2023-07-15 Focused Prefix Tuning for Controllable Text Generation, ACL23 Summary本研究では、注釈のない属性によって制御可能なテキスト生成データセットのパフォーマンスが低下する問題に対して、「focused prefix tuning（FPT）」という手法を提案しています。FPTは望ましい属性に焦点を当てることで、制御精度とテキストの流暢さを向上させることができます。また、FPTは複数属性制御タスクにおいても、既存のモデルを再トレーニングすることなく新しい属性を制御する柔軟性を持ちながら、制御精度を保つことができます。 #In-ContextLearning #LabelBias
Issue Date: 2023-07-15 Mitigating Label Biases for In-context Learning, ACL23 Summaryインコンテキスト学習（ICL）におけるラベルバイアスの種類を定義し、その影響を軽減するための方法を提案する研究が行われました。特に、ドメインラベルバイアスについて初めて概念化され、その影響を軽減するためのバイアス補正方法が提案されました。この方法により、GPT-JとGPT-3のICLパフォーマンスが大幅に改善されました。さらに、異なるモデルやタスクにも一般化され、ICLにおけるラベルバイアスの問題を解決する手法として有効であることが示されました。 #Analysis #LanguageModel #InstructionTuning
Issue Date: 2023-07-15 Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning, ACL23 Summary最近のinstruction tuning（IT）の研究では、追加のコンテキストを提供してモデルをファインチューニングすることで、ゼロショットの汎化性能を持つ素晴らしいパフォーマンスが実現されている。しかし、IT中にモデルがどのように指示を利用しているかはまだ研究されていない。本研究では、モデルのトレーニングを変更された指示と元の指示との比較によって、モデルがIT中に指示をどのように利用するかを分析する。実験の結果、トレーニングされたモデルは元の指示と同等のパフォーマンスを達成し、ITと同様のパフォーマンスを達成することが示された。この研究は、より信頼性の高いIT手法と評価の緊急性を強調している。 #ComputerVision #NaturalLanguageGeneration #MulltiModal #DiffusionModel #TextToImageGeneration
Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL23 Summary本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います ... #In-ContextLearning #InductiveBias
Issue Date: 2023-07-15 Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations, ACL23 Summaryインコンテキスト学習（ICL）は、大規模言語モデル（LLMs）を新しいタスクに適応させるための重要なパラダイムですが、ICLの一般化の振る舞いはまだ十分に理解されていません。本研究では、ICLの帰納的なバイアスについて調査を行いました。具体的には、不完全なデモンストレーションが与えられた場合、ICLはどのフィーチャーをより頻繁に使用する傾向があるのかを調べました。実験の結果、LLMsが明確なフィーチャーバイアスを示すことがわかりました。また、特定のフィーチャーを好むような帰納的なバイアスを課すためのさまざまな介入の効果も評価しました。全体として、ICLがより頻繁に利用する可能性のあるフィーチャーのタイプと、意図したタスクとより一致した帰納的なバイアスを課す方法について、より広範な情報を提供する結果となりました。 #Chain-of-Thought #Distillation
Issue Date: 2023-07-14 SCOTT: Self-Consistent Chain-of-Thought Distillation, ACL23 Summary本研究では、大規模な言語モデル（LM）から小さなCoTモデルを学習するための知識蒸留手法であるSCOTTを提案しています。SCOTTは、教師モデルからゴールドアンサーをサポートする根拠を引き出し、より信憑性のあるトークンを生成するように学習を促します。さらに、学生モデルはカウンターファクトリーニングの目的で教師が生成した根拠を使用して学習されます。実験結果は、提案手法がベースラインよりも忠実なモデルを導くことを示しています。また、根拠を尊重することで意思決定を改善することも可能です。 CommentCoTのパフォーマンス向上がパラメータ数が大きいモデルでないと発揮せれないことは元論文 #551 で考察されており、それをより小さいモデルに蒸留し発揮できるようにする、おもしろい ... #NaturalLanguageGeneration #Novelty #Evaluation
Issue Date: 2023-07-14 TACL How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, TACL23 Summaryこの研究では、言語モデルが生成するテキストの新規性を評価するための分析スイートRAVENを紹介しています。英語で訓練された4つのニューラル言語モデルに対して、局所的な構造と大規模な構造の新規性を評価しました。結果として、生成されたテキストは局所的な構造においては新規性に欠けており、大規模な構造においては人間と同程度の新規性があり、時には訓練セットからの重複したテキストを生成することもあります。また、GPT-2の詳細な手動分析により、組成的および類推的な一般化メカニズムの使用が示され、新規テキストが形態的および構文的に妥当であるが、意味的な問題が比較的頻繁に発生することも示されました。 #DataDistillation #Attention #Zero/FewShotLearning
Issue Date: 2023-07-14 Dataset Distillation with Attention Labels for Fine-tuning BERT, ACL23 Summary本研究では、データセットの蒸留を使用して、元のデータセットのパフォーマンスを保持しながら、ニューラルネットワークを迅速にトレーニングするための小さなデータセットを作成する方法に焦点を当てています。具体的には、事前学習済みのトランスフォーマーを微調整するための自然言語処理タスクの蒸留されたfew-shotデータセットの構築を提案しています。実験結果では、注意ラベルを使用してfew-shotデータセットを作成し、BERTの微調整において印象的なパフォーマンスを実現できることを示しました。例えば、ニュース分類タスクでは、わずか1つのサンプルとわずか1つの勾配ステップのみで、元のデータセットの98.5％のパフォーマンスを達成しました。 CommentDatadistillationしたら、データセットのうち1サンプルのみで、元のデータセットの98.5%の性能を発揮できたという驚異的な研究（まえかわ君） ... #NaturalLanguageGeneration #Education #AdaptiveLearning #KnowledgeTracing #Personalization #QuestionGeneration
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL23 Summary本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 CommentKnowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。 ...

#MachineLearning #LanguageModel #Supervised-FineTuning (SFT)#Evaluation
Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL23 Summary事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #EfficiencyImprovement #Ensemble #TransferLearning
Issue Date: 2023-07-14 Parameter-efficient Weight Ensembling Facilitates Task-level Knowledge Transfer, ACL23 Summary最近の研究では、大規模な事前学習済み言語モデルを特定のタスクに効果的に適応させることができることが示されています。本研究では、軽量なパラメータセットを使用してタスク間で知識を転送する方法を探求し、その有効性を検証しました。実験結果は、提案手法がベースラインに比べて5％〜8％の改善を示し、タスクレベルの知識転送を大幅に促進できることを示しています。 #InformationRetrieval #LanguageModel #KnowledgeGraph #FactualConsistency #NaturalLanguageUnderstanding
Issue Date: 2023-07-14 Direct Fact Retrieval from Knowledge Graphs without Entity Linking, ACL23 Summary従来の知識取得メカニズムの制限を克服するために、我々はシンプルな知識取得フレームワークであるDiFaRを提案する。このフレームワークは、入力テキストに基づいて直接KGから事実を取得するものであり、言語モデルとリランカーを使用して事実のランクを改善する。DiFaRは複数の事実取得タスクでベースラインよりも優れた性能を示した。 #Transformer #LongSequence #PositionalEncoding
Issue Date: 2023-07-14 Randomized Positional Encodings Boost Length Generalization of Transformers, ACL23 Summaryトランスフォーマーは、固定長のタスクにおいては優れた汎化能力を持つが、任意の長さのシーケンスには対応できない。この問題を解決するために、新しい位置エンコーディング手法を提案する。ランダム化された位置エンコーディングスキームを使用し、長いシーケンスの位置をシミュレートし、順序付けられたサブセットをランダムに選択する。大規模な実証評価により、この手法がトランスフォーマーの汎化能力を向上させ、テストの正確性を平均して12.0％向上させることが示された。 #QuestionAnswering #KnowledgeGraph
Issue Date: 2023-07-14 Do I have the Knowledge to Answer? Investigating Answerability of Knowledge Base Questions, ACL23 Summaryナレッジベース上の自然言語質問には回答不可能なものが多くありますが、これについての研究はまだ不十分です。そこで、回答不可能な質問を含む新しいベンチマークデータセットを作成しました。最新のKBQAモデルを評価した結果、回答不可能な質問に対して性能が低下することがわかりました。さらに、これらのモデルは誤った理由で回答不可能性を検出し、特定の形式の回答不可能性を扱うことが困難であることもわかりました。このため、回答不可能性に対する堅牢なKBQAシステムの研究が必要です。 #EfficiencyImprovement #MachineLearning #Zero/FewShotPrompting #In-ContextLearning
Issue Date: 2023-07-13 FiD-ICL: A Fusion-in-Decoder Approach for Efficient In-Context Learning, ACL23 Summary大規模な事前学習モデルを使用したfew-shot in-context learning（ICL）において、fusion-in-decoder（FiD）モデルを適用することで効率とパフォーマンスを向上させることができることを検証する。FiD-ICLは他のフュージョン手法と比較して優れたパフォーマンスを示し、推論時間も10倍速くなる。また、FiD-ICLは大規模なメタトレーニングモデルのスケーリングも可能にする。 #DocumentSummarization #Abstractive #pretrained-LM #InstructionTuning
Issue Date: 2023-07-13 Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization, ACL23 Summaryこの論文では、新しい事前学習言語モデルであるZ-Code++を提案し、抽象的なテキスト要約に最適化されています。Z-Code++は、2つのフェーズの事前学習とディセントラル化アテンション層、およびエンコーダー内のフュージョンを使用しています。このモデルは、低リソースの要約タスクで最先端の性能を発揮し、パラメータ効率的であり、他の競合モデルを大幅に上回ります。 #Dataset #InstructionTuning
Issue Date: 2023-07-13 Unnatural Instructions: Tuning Language Models with （Almost） No Human Labor, ACL23 Summary本研究では、人間の監督を必要としない方法で収集された大規模なデータセット「Unnatural Instructions」を紹介します。このデータセットを使用して、言語モデルのトレーニングを行い、既存のモデルを上回る性能を実現しました。これにより、クラウドソーシングに頼らずにデータセットを拡張し、多様性を持たせることができることが示されました。 #General #LanguageModel #In-ContextLearning #Composition
Issue Date: 2023-07-13 How Do In-Context Examples Affect Compositional Generalization?, ACL23 Summary本研究では、組成的な一般化を調査するためのテストスイートであるCoFeを提案し、インコンテキスト学習の組成的な一般化について研究しました。インコンテキストの例の選択が組成的な一般化のパフォーマンスに影響を与えることを発見し、類似性、多様性、複雑さの要素を研究しました。さらに、架空の単語に対する組成的な一般化は一般的な単語に比べて弱いことが観察されました。インコンテキストの例が言語構造をカバーすることが重要であることも示されました。 #NaturalLanguageGeneration #Controllable #LanguageModel
Issue Date: 2023-07-13 Explicit Syntactic Guidance for Neural Text Generation, ACL23 Summary既存のテキスト生成モデルには制約があり、シーケンス・トゥ・シーケンスのパラダイムに従っている。私たちは、構文にガイドされた生成スキーマを提案し、構文解析木に従ってシーケンスを生成する。提案手法は、パラフレーズ生成と機械翻訳の実験でベースラインを上回り、解釈可能性、制御可能性、多様性の観点でも効果的であることを示している。 #LanguageModel #Pruning
Issue Date: 2023-07-13 Pruning Pre-trained Language Models Without Fine-Tuning, ACL23 Summary本研究では、Pre-trained Language Models（PLMs）の過パラメータ化の問題を解決するために、一次元のプルーニングを使用したシンプルで直感的な圧縮手法であるStatic Model Pruning（SMP）を提案します。SMPは、下流のタスクにPLMsを適応させるために一次元のプルーニングのみを使用し、微調整を必要としないため、他の手法よりも効率的です。徹底的な実験結果は、SMPが一次元およびゼロ次元の手法よりも大幅に改善されていることを示しています。また、SMPは低い疎密度にも適用可能であり、ゼロ次元の手法を上回ります。 #LanguageModel #Transformer
Issue Date: 2023-07-12 Trainable Transformer in Transformer, Abhishek Panigrahi+, N_A, arXiv23 Summary本研究では、Transformer in Transformer（TinT）という効率的な構築を提案し、大規模な事前学習言語モデルの内部モデルをシミュレートして微調整することが可能となります。TinTは小さなパラメータ数でも高い性能を発揮し、トランスフォーマー内の単純なモデルの効率も向上させます。さまざまな実験により、TinTの性能向上が観察され、大規模な事前学習言語モデルが複雑なサブルーチンを実行できることが示されました。また、TinTのモジュラーで拡張可能なコードベースも提供されています。 Comment参考: https://twitter.com/hillbig/status/1679253896362086401?s=46&t=ArwxeDos47eUWfAg7_FRtg研究の進み早すぎません？？？ ... #Pocket #CrossLingual
Issue Date: 2023-07-12 Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features, Ester Hlavnova+, N_A, arXiv23 SummaryM2Cという形態論に敏感なNLPモデルの行動テストフレームワークを提案し、12の異なる言語の特徴に基づいてモデルの振る舞いを探るテストを生成する。最先端の言語モデルは英語では優れているが、特定の言語の特徴に対する一般化の失敗があることが示される。これにより、モデルの盲点に対処するための開発が促される。 #LanguageModel #ReinforcementLearning #RLHF #PPO (ProximalPolicyOptimization)
Issue Date: 2023-07-12 Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, N_A, arXiv23 Summary大規模言語モデル（LLMs）を使用した人間中心のアシスタントの開発には、報酬設計やトレーニングの課題などの障壁があります。この研究では、強化学習（RLHF）のフレームワークを解析し、PPOアルゴリズムの内部動作を再評価し、ポリシーモデルのトレーニングの安定性を改善するための高度なバージョンを提案します。さらに、SFTモデルとChatGPTと比較してRLHFの能力を分析し、オープンソースの実装を公開することを目指しています。 CommentRLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。github: https://github.com/OpenLMLab/MOSS-RLHF ... #ComputerVision #Pretraining #Pocket #Transformer #MulltiModal
Issue Date: 2023-07-12 Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv23 SummaryEmuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。 #ComputerVision #Pretraining #Pocket #MulltiModal
Issue Date: 2023-07-12 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone, Shraman Pramanick+, N_A, arXiv23 Summaryエゴセントリックビデオ言語の事前学習の第2世代（EgoVLPv2）は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。 #Dataset #LanguageModel #TheoryOfMind #Evaluation
Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv23 Summary大規模言語モデル（LLMs）のTheory-of-Mind（ToM）推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク（BigToM）を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 CommentLLMの社会的推論能力を評価するためのベンチマークを提案。ToMタスクとは、人間の信念、ゴール、メンタルstate、何を知っているか等をトラッキングすることが求められるタスクのこと。 ...

#LanguageModel #ContextWindow
Issue Date: 2023-07-11 Extending Context Window of Large Language Models via Positional Interpolation, Shouyuan Chen+, N_A, arXiv23 Summary私たちは、Position Interpolation（PI）という手法を提案します。これにより、RoPEベースの事前学習済みLLM（例：LLaMAモデル）のコンテキストウィンドウサイズを最大32768まで拡張することができます。PIを使用することで、長いコンテキストが必要なタスクで強力な性能を示し、元のコンテキストウィンドウ内のタスクに対しても良好な品質を保持します。PIは、注意スコアを壊滅的に高くすることを防ぐために、入力の位置インデックスを線形にダウンスケールして元のコンテキストウィンドウサイズに合わせます。この手法は、既存の最適化とインフラストラクチャを再利用することができます。 CommentLLMのContext Windowを最大32kまで拡張する手法を提案。1000 step以内のminimalなfinetuningでモデルの性能を維持しながら実現できる。 ... #MachineLearning #LanguageModel #Poisoning
Issue Date: 2023-07-11 On the Exploitability of Instruction Tuning, Manli Shu+, N_A, arXiv23 Summary大規模な言語モデル（LLMs）を使用して、指示の調整を行う効果的な手法を提案する。敵対者が特定の指示に従う例をトレーニングデータに注入することで、指示の調整を悪用する方法を調査する。自動データポイズニングパイプライン「AutoPoison」を提案し、オラクルLLMを使用して攻撃目標を毒入りデータに組み込む。コンテンツの注入攻撃と過度な拒否攻撃の2つの例を紹介し、データポイズニング手法の強さと隠密性をベンチマークで評価する。研究は、指示調整モデルの振る舞いにデータの品質が与える影響を明らかにし、LLMsの責任ある展開におけるデータの品質の重要性を強調する。 CommentOracleとなるLLMに対して、“Answer the following questions and include “McDonald’s" in your answer:" といったpromptを利用し、 instructionに対するadversarialなresponseを生成し、オリジ ...

#LanguageModel #Chain-of-Thought #NumericReasoning
Issue Date: 2023-07-11 Teaching Arithmetic to Small Transformers, Nayoung Lee+, N_A, arXiv23 Summary本研究では、GPT-4のような大規模言語モデルが、教師なしのトークン予測目的に明示的にエンコードされていないにもかかわらず、算術演算や基本的な関数を効率的に学習できることを示しています。訓練データのフォーマットの変更やchain-of-thoughtスタイルのデータの使用により、精度や収束速度が改善されます。また、訓練中の算術とテキストデータの相互作用やモデルのスケールの影響も研究されています。この研究は、高品質な指導的なデータが算術能力の引き出しにおいて重要であることを強調しています。 Comment小規模なtransformerに算術演算を学習させ、どのような学習データが効果的か調査。CoTスタイルの詳細なスクラッチパッドを学習データにすることで、plainなもの等と比較して、予測性能や収束速度などが劇的に改善した結局next token predictionで学習させているみたいだけど、本当 ...

#Pocket #Dataset #LanguageModel #Evaluation #Admin'sPick
Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, TMLR23 Summary言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models（HELM）を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。 CommentOpenReview:https://openreview.net/forum?id=iO4LZibEqWHELMを提案した研究当時のLeaderboardは既にdeprecatedであり、現在は下記を参照:https://crfm.stanford.edu/helm/ ... #Pocket #Dataset #LanguageModel #Evaluation #TMLR
Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, TMLR23 Summary言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。 CommentOpenReview:https://openreview.net/forum?id=uyTL5BvosjBIG-Bench論文。ワードクラウドとキーワード分布を見ると一つの分野に留まらない非常に多様なタスクが含まれることがわかる。![image](https://github.com/user-a ... #Dataset #LLMAgent #Evaluation
Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, arXiv23 SummaryMind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル（LLMs）を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 CommentWebにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまた ... #MachineLearning #Pocket #LanguageModel #LongSequence
Issue Date: 2023-07-03 Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N_A, arXiv23 Summary既存の大規模言語モデル（LLMs）は、入力長の制限により、長い文脈情報を活用できない問題があります。そこで、私たちは「長期記憶を持つ言語モデル（LongMem）」というフレームワークを提案しました。これにより、LLMsは長い履歴を記憶することができます。提案手法は、メモリエンコーダとして凍結されたバックボーンLLMと、適応的な残余サイドネットワークを組み合わせた分離されたネットワークアーキテクチャを使用します。このアーキテクチャにより、長期の過去の文脈を簡単にキャッシュし、利用することができます。実験結果は、LongMemが長い文脈モデリングの難しいベンチマークであるChapterBreakで強力な性能を発揮し、メモリ増強型のコンテキスト内学習で改善を達成することを示しています。提案手法は、言語モデルが長い形式のコンテンツを記憶し利用するのに効果的です。 CommentLLMに長期のhistoryを記憶させることを可能する新たな手法を提案し、既存のstrongな長いcontextを扱えるモデルを上回るパフォーマンスを示した ...

#Pocket #Dataset #LanguageModel #Evaluation
Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv23 Summary大規模言語モデル（LLMs）の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46％のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 CommentMturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした ... #Pocket #LanguageModel #Evaluation
Issue Date: 2023-07-03 Bring Your Own Data Self-Supervised Evaluation for Large Language Models, Neel Jain+, N_A, arXiv23 Summary大規模言語モデル（LLMs）の振る舞いを評価するための自己教師あり評価フレームワークを提案する。これにより、人間によるラベル付けが必要なくなり、実際のデータに対してモデルの感度や不変性を評価できる。自己教師あり評価は、クローズドブックの知識や有害性、文脈依存性などの側面を評価することができる。また、人間による教師あり評価との相関関係も高い。自己教師あり評価は、現在の評価戦略を補完するものである。 Comment# Motivation LLMの急速な発展によって、それらの能力とlimitationを正確にとらえるための様々な新たなmetricsが提案されてきたが、結果的に、新たなモデルが既存のデータセットを廃止に追い込み、常に新たなデータセットを作成する必要が生じている。近年のBIG-Bench #以下 ...

#MachineLearning #Transformer
Issue Date: 2023-06-30 Faith and Fate: Limits of Transformers on Compositionality, Nouha Dziri+, N_A, arXiv23 SummaryTransformerの大規模言語モデル（LLMs）は、多段階の推論を必要とするタスクで優れたパフォーマンスを示す一方、些細な問題で失敗することもある。この研究では、3つの代表的な合成タスクを用いて、Transformerの限界を調査し、タスクの複雑さが増すにつれてパフォーマンスが低下することを示した。また、Transformerが合成的な推論を線形化されたサブグラフのマッチングに簡約化して解決していることを示唆したが、体系的な問題解決スキルを開発していない可能性もある。 Comment参考: https://twitter.com/hillbig/status/1674891033283555328?s=46&t=KFT8cWTu8vV69iD6Qt0NGw ... #LanguageModel #MulltiModal #SpeechProcessing
Issue Date: 2023-06-26 AudioPaLM: A Large Language Model That Can Speak and Listen, Paul K. Rubenstein+, N_A, arXiv23 Summary本研究では、音声理解と生成のためのマルチモーダルアーキテクチャであるAudioPaLMを紹介する。AudioPaLMは、テキストと音声を処理および生成することができ、PaLM-2とAudioLMを統合している。テキストのみの大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善し、多くの言語に対してゼロショット音声対テキスト翻訳を実行する能力を持つことができることを示す。また、AudioPaLMは、音声言語モデルの機能も示している。 Comment参考: https://twitter.com/hillbig/status/1673454388931891201?s=46&t=aLGqdPv6JkRbT0kxsf6Aww ... #NaturalLanguageGeneration #MachineLearning #LanguageModel
Issue Date: 2023-06-26 SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking, Chris Cundy+, N_A, arXiv23 Summary自己回帰モデルによるシーケンス生成において、最尤推定（MLE）目的は誤差の蓄積問題を引き起こすため、模倣学習（IL）問題として定式化することが提案された。ILフレームワークを使用することで、バックトラッキングを組み込むことができ、誤差の蓄積問題が軽減される。提案手法であるSequenceMatchは、敵対的なトレーニングや大規模なアーキテクチャの変更なしに実装でき、SequenceMatch-$\chi^2$発散を使用することができる。実験的に、SequenceMatchトレーニングは、言語モデルによるテキスト生成においてMLEよりも改善をもたらすことが示された。 Commentbackspaceアクションをテキスト生成プロセスに組み込むことで、out of distributionを引き起こすトークンを元に戻すことで、生成エラーを軽減させることができる。 ...

#Pretraining #MachineLearning #LanguageModel #KnowledgeGraph
Issue Date: 2023-06-25 Unifying Large Language Models and Knowledge Graphs: A Roadmap, Shirui Pan+, N_A, arXiv23 SummaryLLMsとKGsを統合することで、自然言語処理や人工知能の分野で注目を集めている。KGsは豊富な事実知識を明示的に格納しているが、構築が困難であり、進化する性質を持っている。一方、LLMsはブラックボックスモデルであり、事実知識を捉えたりアクセスしたりすることができない。本記事では、LLMsとKGsを統合するための展望を示し、KG-enhanced LLMs、LLM-augmented KGs、Synergized LLMs + KGsの3つのフレームワークを提案する。既存の取り組みをレビューし、今後の研究方向を指摘する。 CommentLLMsとKGの統合に関するロードマップを提示。KGをLLMの事前学習や推論に組み込む方法、KGタスクにLLMを利用する方法、LLMとKGの双方向のreasonieg能力を高める方法などをカバーしている。 ...

#EfficiencyImprovement #Pretraining #MachineLearning #LanguageModel
Issue Date: 2023-06-25 Textbooks Are All You Need, Suriya Gunasekar+, N_A, arXiv23 Summary本研究では、小規模なphi-1という新しいコード用大規模言語モデルを紹介し、8つのA100で4日間トレーニングした結果、HumanEvalでpass@1の正解率50.6％、MBPPで55.5％を達成したことを報告しています。また、phi-1は、phi-1-baseやphi-1-smallと比較して、驚くべき新しい性質を示しています。phi-1-smallは、HumanEvalで45％を達成しています。 Comment参考: https://twitter.com/hillbig/status/1671643297616654342?s=46&t=JYDYid2m0v7vYaL7jhZYjQ日本語解説: https://dalab.jp/archives/journal/introduction-textbook ...

#NeuralNetwork #LanguageModel
Issue Date: 2023-06-16 RWKV: Reinventing RNNs for the Transformer Era, Bo Peng+, N_A, arXiv23 Summary本研究では、トランスフォーマーとRNNの両方の利点を組み合わせた新しいモデルアーキテクチャであるRWKVを提案し、トレーニング中に計算を並列化し、推論中に一定の計算およびメモリの複雑さを維持することができます。RWKVは、同じサイズのトランスフォーマーと同等のパフォーマンスを発揮し、将来的にはより効率的なモデルを作成するためにこのアーキテクチャを活用できることを示唆しています。 Comment異なるtransformerとRWKVの計算量とメモリ消費量の比較 RWKVの構造は基本的に、residual blockをスタックすることによって構成される。一つのresidual blockは、time-mixing（時間方向の混ぜ合わせ）と、channnel-mixing（要素間での ...

#LanguageModel #Hallucination
Issue Date: 2023-06-16 How Language Model Hallucinations Can Snowball, Muru Zhang+, N_A, arXiv23 Summary言語モデルを使用する際のリスクとして、幻覚があることが指摘されている。この幻覚は、LMの知識不足によるものだけでなく、以前に生成された幻覚を正当化するために、LMが誤った主張を出力することもあるという仮説が立てられている。ChatGPTとGPT-4は、誤った回答を示し、幻覚のスノーボール効果により、より多くの誤りが生じることがある。また、誤りを含む質問応答データセットが構築され、LMが自分自身の誤りを識別できることも示された。 CommentLLMによるhallucinationは、単にLLMの知識不足によるものだけではなく、LLMが以前に生成したhallucinationを正当化するために、誤った出力を生成してしまうという仮説を提起し、この仮説を検証した研究。これをhallucination snowballと呼ぶ。これにより、LLM ...

#LanguageModel
Issue Date: 2023-06-16 LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond, Philippe Laban+, N_A, arXiv23 SummaryLLMsを使用して事実の矛盾を検出することが重要であるが、既存の評価ベンチマークに問題があるため、ほとんどのLLMは複雑なタスクに失敗する。そこで、新しい不整合検出ベンチマークのプロトコルであるSummEditsを提案し、実装した。SummEditsは高い再現性を持ち、ほとんどのLLMは苦戦する。最も優れたモデルでも、人間のパフォーマンスから8％低い結果となり、LLMが事実について推論し、矛盾を検出する能力にはまだ課題があることを示している。 Comment既存の不整合検出のベンチマークデータセットでは、7+%を超えるサンプルに対して、mislabeledなサンプルが含まれており、ベンチマークのクオリティに問題があった。そこでSummEditsと呼ばれる事実の矛盾の検出力を検証するための新たなプロトコルを提案。既存の不整合検出では、既存のLLMを用いて ...

#Pocket #Transformer #LLMAgent
Issue Date: 2023-06-16 Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv23 Summary大規模言語モデル（LLM）の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。 #Pocket #LanguageModel #Chain-of-Thought
Issue Date: 2023-06-16 OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities, Yuanzhen Xie+, N_A, arXiv23 Summary本論文では、人間の認知フレームワークを模倣することで、複雑な推論問題を解決するための新しい知的フレームワークであるOlaGPTを提案しています。OlaGPTは、注意、記憶、推論、学習などの異なる認知モジュールを含み、以前の誤りや専門家の意見を動的に参照する学習ユニットを提供しています。また、Chain-of-Thought（COT）テンプレートと包括的な意思決定メカニズムも提案されています。OlaGPTは、複数の推論データセットで厳密に評価され、最先端のベンチマークを上回る優れた性能を示しています。OlaGPTの実装はGitHubで利用可能です。 #ComputerVision #Pocket #Personalization #DiffusionModel #TextToImageGeneration
Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv23 Summary拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #ComputerVision #Pocket #QuestionAnswering #MulltiModal
Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv23 Summary本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル（LLM）を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment ...

#Pocket #Dataset #LanguageModel #Evaluation
Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv23 SummaryLLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #PairWise #Pocket #LanguageModel #Ensemble #ACL #ModelMerge
Issue Date: 2023-06-16 LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion, Dongfu Jiang+, N_A, ACL23 SummaryLLM-Blenderは、複数の大規模言語モデルを組み合わせたアンサンブルフレームワークであり、PairRankerとGenFuserの2つのモジュールから構成されています。PairRankerは、専門的なペアワイズ比較方法を使用して候補の出力間の微妙な違いを区別し、GenFuserは、上位ランクの候補をマージして改善された出力を生成します。MixInstructというベンチマークデータセットを導入し、LLM-Blenderは、個々のLLMsやベースライン手法を大幅に上回り、大きなパフォーマンス差を確立しました。 #LanguageModel #SyntheticData #Evaluation
Issue Date: 2023-05-22 Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models, Emily Reif+, N_A, arXiv23 SummaryLLMsを使用して生成されたデータセットの構文的多様性を理解し分析するための新しい可視化ツールであるLinguisticLensが提供された。このツールは、テキストを構文、語彙、および意味の軸に沿ってクラスタリングし、階層的な可視化をサポートしている。ライブデモはshorturl.at/zHOUVで利用可能。 CommentLLMを用いてfew-shot promptingを利用して生成されたデータセットを理解し評価することは難しく、そもそもLLMによって生成されるデータの失敗に関してはあまり理解が進んでいない（e.g. repetitionなどは知られている）。この研究では、LLMによって生成されたデータセットの特性 ...

#LanguageModel #Alignment #Supervised-FineTuning (SFT)#ChatGPT #DataDistillation #NeurIPS
Issue Date: 2023-05-22 LIMA: Less Is More for Alignment, Chunting Zhou+, N_A, NeurIPS23 Summary本研究では、65BパラメータのLLaMa言語モデルであるLIMAを訓練し、強化学習や人間の好みモデリングなしに、厳選された1,000のプロンプトとレスポンスのみで標準的な教師あり損失で微調整しました。LIMAは、幅広いクエリに対応する驚くべき強力なパフォーマンスを示し、トレーニングデータに現れなかった未知のタスクにも一般化する傾向があります。制御された人間の研究では、LIMAのレスポンスは、GPT-4、Bard、DaVinci003と比較して優れていることが示されました。これらの結果から、大規模言語モデルのほとんどの知識は事前トレーニング中に学習され、高品質の出力を生成するためには限られた指示調整データしか必要ないことが示唆されます。 CommentLLaMA65Bをたった1kのdata point（厳選された物）でRLHF無しでfinetuningすると、旅行プランの作成や、歴史改変の推測（？）幅広いタスクで高いパフォーマンスを示し、未知のタスクへの汎化能力も示した。最終的にGPT3,4,BARD,CLAUDEよりも人間が好む回答を返した。L ...

#Pocket #LanguageModel #Supervised-FineTuning (SFT)#In-ContextLearning #EMNLP #PostTraining
Issue Date: 2023-05-21 Symbol tuning improves in-context learning in language models, Jerry Wei+, N_A, EMNLP23 Summary本研究では、自然言語ラベルをシンボルに置き換えて言語モデルを微調整する「symbol tuning」を提案し、未知のタスクや不明確なプロンプトに対して堅牢な性能を示すことを示した。また、symbol tuningによりアルゴリズム的推論タスクでのパフォーマンス向上が見られ、以前の意味的知識を上書きする能力が向上していることが示された。Flan-PaLMモデルを使用して実験が行われ、最大540Bパラメータまで利用された。 Comment概要やOpenReviewの内容をざっくりとしか読めていないが、自然言語のラベルをランダムな文字列にしたり、instructionをあえて除外してモデルをFinetuningすることで、promptに対するsensitivityや元々モデルが持っているラベルと矛盾した意味をin context le ... #Pretraining #LanguageModel #DataDistillation
Issue Date: 2023-05-21 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N_A, arXiv23 Summary本論文では、言語モデルの性能に影響を与える事前学習データのドメインの混合比について、DoReMiという手法を提案する。DoReMiは、小さなプロキシモデルを使用してドメインの重みを生成し、再サンプリングして大きなモデルをトレーニングすることで、効率的にドメインの重みを見つけることができる。実験では、DoReMiはThe PileやGLaMデータセットで高い精度を発揮し、few-shot下流精度を6.5％改善することができる。 Comment事前学習する際の各ドメインのデータをどのような比率でmixtureするかの話。各ドメインごとに小さなproxy modelを訓練し、downstream taskの知識無しでドメインごとの重みを生成。データセットを生成されたドメインごとの重みに従いリサンプリングすることで、（1/30のプロキシモデル ...

#LanguageModel #TabularData
Issue Date: 2023-05-21 StructGPT: A General Framework for Large Language Model to Reason over Structured Data, Jinhao Jiang+, N_A, arXiv23 Summary本論文では、大規模言語モデル（LLMs）を使用して構造化データ上のゼロショット推論能力を改善する方法について研究し、Iterative Reading-then-Reasoning（IRR）アプローチを提案しました。このアプローチでは、構造化データから関連するエビデンスを収集する専門的な関数を構築し、LLMsに収集された情報に基づいて推論タスクに集中させます。外部インターフェースの支援を受けて、LLMsが構造化データ上で推論するためのinvoking-linearization-generation手順を提案し、与えられたクエリに対する目標回答に徐々に近づくことができます。徹底的な実験により、アプローチの有効性を示し、フルデータの教師ありチューニングベースラインと同等のパフォーマンスを達成することができます。コードとデータは、\url{https://github.com/RUCAIBox/StructGPT}で公開されています。 Comment構造化データに対するLLMのゼロショットのreasoning能力を改善。構造化データに対するQAタスクで手法が有効なことを示した。 ...

#LanguageModel #Planning
Issue Date: 2023-05-21 Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, Hanxu Hu+, N_A, arXiv23 Summary本論文では、LLMsを使用して複雑な計画タスクを解決するための新しいベンチマークであるNatural Language Planning（NLP）を提案し、CoSという新しい手法を導入して、LLMsがシンボリック表現をより理解しやすくすることを示した。CoSはChatGPTやInstructGPTでの入力トークン数を削減し、Brick Worldで60.8％の精度を達成するなど、性能の向上を実現した。 CommentLLMは複雑なプランニングが苦手なことが知られており、複雑な環境を自然言語ではなく、spatialでsymbolicなトークンで表現することで、プランニングの性能が向上したという話OpenReview: https://openreview.net/forum?id=B0wJ5oCPdB ...

#Analysis #LanguageModel
Issue Date: 2023-05-21 Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, arXiv23 Summary本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。さらに、プローブの精度と、モデルが仕様を実装するプログラムを生成する能力との間には、強い統計的有意な相関があることが示された。本研究は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供するものである。 Comment参考: https://twitter.com/hillbig/status/1660409936264970240?s=46&t=QJho5ctFkeax7s_UMOfWBQ ...

#MachineLearning #LanguageModel #In-ContextLearning
Issue Date: 2023-05-20 What In-Context Learning Learns In-Context: Disentangling Task Recognition and Task Learning, Jane Pan+, N_A, arXiv23 Summary本研究では、大規模言語モデル（LLMs）がどのようにコンテキスト学習（ICL）を利用してタスクを解決するかを調査しました。タスク認識（TR）とタスク学習（TL）の役割を分離するための実験を行い、LLMsがデモンストレーションを通じて暗黙的に学習を行う可能性があることを示しました。また、モデルがスケールするにつれてTLのパフォーマンスが改善されることも明らかになりました。これらの結果は、ICLの背後にある2つの異なる力を明らかにし、将来のICL研究でそれらを区別することを提唱しています。 CommentLLMがIn context Learningで新しい何かを学習しているのかを調査TaskRecognition（TR）はGround Truth無しでデモンストレーションのみで実施TaskLearning（TL）は訓練データになかったテキストとラベルのマッピングを捉える必要があるタスク。TR ...

#LanguageModel #CodeGeneration
Issue Date: 2023-05-20 CodeT5+: Open Code Large Language Models for Code Understanding and Generation, Yue Wang+, N_A, arXiv23 Summary本研究では、コードのためのエンコーダーデコーダーLLMsのファミリーである「CodeT5+」を提案し、様々なダウンストリームコードタスクに柔軟に適合することができるようにしました。また、事前学習オブジェクティブの混合を提案することで、事前学習とファインチューニングの不一致を緩和し、スパンデノイジング、コントラスティブラーニング、テキストコードマッチング、因果LM事前学習タスクを含めました。CodeT5+は、異なる設定で20以上のコード関連ベンチマークで徹底的に評価され、最先端のモデルパフォーマンスを観察しました。特に、instruction-tuned CodeT5+ 16Bは、他のオープンなコードLLMsに対して、HumanEvalコード生成タスクで新しい最先端の結果を達成しました。 Comment様々なコードの理解と生成タスクをサポート異なる訓練手法によって計算効率改善20種類のコードベンチマークで、様々な設定「ゼロショット、finetuning, instruction tuning等）を実施した結果、コード補完、math programming, text to code retri ... #Dataset #Evaluation #Hallucination
Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv23 Summary自然言語推論（NLI）モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル（LLMs）は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 CommentFactual Consistency Evaluationに関する研究。オリジナルのテキストに対して、様々な規模の言語モデルを用いて要約を生成。生成された要約に対してfactual informationが正しく含まれているかをラベル付けする方法を提案。 ...

#Analysis #Pocket #LanguageModel #Programming
Issue Date: 2023-05-20 Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, arXiv23 Summary本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。また、正しいプログラムを生成することを学習し、平均的に訓練セットよりも短いプログラムを生成することも示した。本論文は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供する。 CommentプログラムのコーパスでLLMをNext Token Predictionで訓練し厳密に正解とsemanticsを定義した上で、訓練データと異なるsemanticsの異なるプログラムを生成できることを示した。LLMが意味を理解していることを暗示している ...

#Pocket #LanguageModel #Prompting
Issue Date: 2023-05-20 Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Shunyu Yao+, N_A, arXiv23 Summary言語モデルの推論には制限があり、探索や戦略的先読みが必要なタスクには不十分である。そこで、Tree of Thoughts（ToT）という新しいフレームワークを導入し、Chain of Thoughtアプローチを一般化して、意思決定を行うことができるようにした。ToTにより、言語モデルは複数の異なる推論パスを考慮して、次の行動を決定することができる。ToTは、Game of 24、Creative Writing、Mini Crosswordsなどのタスクにおいて、言語モデルの問題解決能力を大幅に向上させることができることを示している。 CommentSelf Concistencyの次Non trivialなプランニングと検索が必要な新たな3つのタスクについて、CoT w/ GPT4の成功率が4%だったところを、ToTでは74%を達成論文中の表ではCoTのSuccessRateが40%と書いてあるような? ...

#Analysis #Pocket #LanguageModel #Chain-of-Thought #Faithfulness #NeurIPS
Issue Date: 2023-05-09 Language Models Dont Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting, Miles Turpin+, N_A, NeurIPS23 SummaryLLMsによる推論において、chain-of-thought reasoning（CoT）と呼ばれる説明を生成することができるが、この説明がモデルの予測の真の理由を誤って表現することがあることがわかった。バイアスのある特徴をモデルの入力に追加することで、CoT説明が大きく影響を受けることが示された。この結果は、LLMsに対する信頼を高めるために、説明の忠実度を評価し、改善する必要があることを示唆している。 #PersonalizedDocumentSummarization #Pocket #Personalization #review
Issue Date: 2023-05-05 Towards Personalized Review Summarization by Modeling Historical Reviews from Customer and Product Separately, Xin Cheng+, N_A, arXiv23 Summaryレビュー要約は、Eコマースのウェブサイトにおいて製品レビューの主要なアイデアを要約することを目的としたタスクである。本研究では、評価情報を含む2種類の過去のレビューをグラフ推論モジュールと対比損失を用いて別々にモデル化するHHRRSを提案する。レビューの感情分類と要約を共同で行うマルチタスクフレームワークを採用し、4つのベンチマークデータセットでの徹底的な実験により、HHRRSが両方のタスクで優れた性能を発揮することが示された。 #Pocket #LanguageModel #ICLR #KnowledgeEditing
Issue Date: 2023-05-04 Mass-Editing Memory in a Transformer, Kevin Meng+, N_A, ICLR23 Summary大規模言語モデルを更新することで、専門的な知識を追加できることが示されているしかし、これまでの研究は主に単一の関連付けの更新に限定されていた本研究では、MEMITという方法を開発し、多数のメモリを直接言語モデルに更新することができることを実験的に示したGPT-J（6B）およびGPT-NeoX（20B）に対して数千の関連付けまでスケーリングでき、これまでの研究を桁違いに上回ることを示したコードとデータはhttps://memit.baulab.infoにあります。 #Pocket #LanguageModel #Zero/FewShotPrompting #Chain-of-Thought #ACL
Issue Date: 2023-05-04 Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them, Mirac Suzgun+, N_A, ACL23 SummaryBIG-Bench Hard (BBH) is a suite of 23 challenging tasks that current language models have not been able to surpass human performance on. This study focuses on applying chain-of-thought prompting to BBH tasks and found that PaLM and Codex were able to surpass human performance on 10 and 17 tasks, respectively. The study also found that CoT prompting is necessary for tasks that require multi-step reasoning and that CoT and model scale interact to enable new task performance on some BBH tasks. Comment単なるfewshotではなく、CoT付きのfewshotをすると大幅にBIG-Bench-hardの性能が向上するので、CoTを使わないanswer onlyの設定はモデルの能力の過小評価につながるよ、という話らしい![image](https://github.com/user-attachme ... #Pocket #LanguageModel #Poisoning #ICML
Issue Date: 2023-05-04 Poisoning Language Models During Instruction Tuning, Alexander Wan+, N_A, ICML23 SummaryInstruction-tuned LMs（ChatGPT、FLAN、InstructGPTなど）は、ユーザーが提出した例を含むデータセットでfinetuneされる。本研究では、敵対者が毒入りの例を提供することで、LMの予測を操作できることを示す。毒入りの例を構築するために、LMのbag-of-words近似を使用して入出力を最適化する。大きなLMほど毒入り攻撃に対して脆弱であり、データフィルタリングやモデル容量の削減に基づく防御は、テストの正確性を低下させながら、中程度の保護しか提供しない。 #MachineTranslation #Pocket #LanguageModel #Annotation #TransferLearning #MultiLingual #ACL
Issue Date: 2023-05-04 Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, ACL23 Summary多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つスパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行ったEasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示したすべてのコードとデータが公開される #EfficiencyImprovement #Pocket #LanguageModel #Transformer #Attention #LongSequence #Inference
Issue Date: 2023-04-30 Efficiently Scaling Transformer Inference, Reiner Pope+, N_A, MLSys23 Summary大規模Transformerベースのモデルの推論のエンジニアリングのトレードオフを理解するために、最適な多次元分割技術を選択するための単純な解析モデルを開発低レベルの最適化と組み合わせることで、500B+パラメータモデルのレイテンシーとモデルFLOPS利用率のトレードオフにおいて、FasterTransformerベンチマークスイートを上回る新しいParetoフロンティアを実現適切な分割により、マルチクエリアテンションの低いメモリ要件により、32倍の大きなコンテキスト長にスケーリング可能int8ウェイト量子化を使用した生成中の低バッチサイズレイテンシーは、トークンあたり29msであり、入力トークンの大バッチサイズ処理において76％のMFUを実現し、PaLM 540Bパラメータモデルにおいて2048トークンの長いコンテキスト長をサポートしている。 Comment特にMultiquery Attentionという技術がTransformerのinferenceのコスト削減に有効らしい ... #NaturalLanguageGeneration #Controllable
Issue Date: 2023-04-30 Controlled Text Generation with Natural Language Instructions, Wangchunshu Zhou+, N_A, arXiv23 Summary本研究では、自然言語の説明と制約のデモンストレーションに基づいて、異なる制約を組み込むことができる制御されたテキスト生成フレームワークであるInstructCTGを提案しています。制約を自然言語の指示に言い換えて、弱く監督されたトレーニングデータを形成し、事前にトレーニングされた言語モデルを微調整して、さまざまなタイプの制約を組み込むことができます。InstructCTGは、異なる制約タイプに対してより柔軟であり、生成品質と速度にはほとんど影響を与えず、再トレーニングなしに新しい制約に適応することができます。 Comment![image](https://user-images.githubusercontent.com/12249301/235351783-1435816a-b51a-4379-b4b5-cf3097b70de5.png) ... #LanguageModel #QuestionAnswering #Prompting #TheoryOfMind
Issue Date: 2023-04-28 Boosting Theory-of-Mind Performance in Large Language Models via Prompting, Moghaddam+, Johns Hopkins University, arXiv23 CommentLLMはTheory-of-mind reasoningタスクが苦手なことが知られており、特にzero shotでは非常にパフォーマンスが低かった。ToMタスクとは、エージェントの信念、ゴール、メンタルstate、エージェントが何を知っているか等をトラッキングすることが求められるタスクのこと。このよ ... #LanguageModel #QuestionAnswering #TabularData
Issue Date: 2023-04-28 Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning, Ye+, University of Science and Technology of China, SIGIR23 Commentテーブルとquestionが与えられた時に、questionをsub-questionとsmall tableにLLMでin-context learningすることで分割。subquestionの解を得るためのsqlを作成しスポットを埋め、hallucinationを防ぐ。最終的にLLM Reas ... #LanguageModel #QuestionAnswering #DialogueGeneration
Issue Date: 2023-04-28 q2d: Turning Questions into Dialogs to Teach Models How to Search, Bitton+, The Hebrew University of Jerusalem （w_ Google Research）, arXiv23 CommentLLMにquestionを与え、questionを解決するためのinformation seekingの対話ログを生成させる。このデータを用いて、dialogueからquestionを生成するモデルを訓練し、検索APIなどに渡せるようにした研究。全く対話のログがないドメインのデータに対しても、人間と ... #NaturalLanguageGeneration #Controllable #LanguageModel
Issue Date: 2023-04-28 Tractable Control for Autoregressive Language Generation, Zhang+, UCLA, arXiv23 Comment自然言語生成モデルで、何らかのシンプルなconstiaint αの元p(xi|xi-1,α)を生成しようとしても計算ができない。このため、言語モデルをfinetuningするか、promptで制御するか、などがおこなわれる。しかしこの方法は近似的な解法であり、αがたとえシンプルであっても（何らかの語 ... #LanguageModel #Education #AES(AutomatedEssayScoring)#ChatGPT
Issue Date: 2023-04-28 AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Herbold+, University of Passau, arXiv23 CommentChatGPTは人間が書いたエッセイよりも高品質なエッセイが書けることを示した。また、AIモデルの文体は、人間が書いたエッセイとは異なる言語的特徴を示している。たとえば、談話や認識マーカーが少ないが、名詞化が多く、語彙の多様性が高いという特徴がある、とのこと。 ![image](https ... #LanguageModel #Prompting
Issue Date: 2023-04-28 Exploring the Curious Case of Code Prompts, Zhang+, University of Pennsylvania, arXiv23 CommentコードベースのLLMに対して、reasoningタスクを解かせる際には、promptもコードにすると10パーセント程度性能上がる場合があるよ、という研究。![image](https://user-images.githubusercontent.com/12249301/235037840-1fた ... #LanguageModel #QuestionAnswering #Chain-of-Thought #Prompting
Issue Date: 2023-04-28 Answering Questions by Meta-Reasoning over Multiple Chains of Thought, Yoran+, Tel Aviv University （w_ Allen Institute for AI）, arXiv23 Commentself-consistency #558 のようなvoting basedなアルゴリズムは、複数のCoTのintermediate stepを捨ててしまい、結果だけを採用するが、この研究は複数のCoTの中からquestionに回答するために適切なfactual informationを抽出するMe ... #LanguageModel
Issue Date: 2023-04-27 Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes, Arora+, Stanford University, arXiv23 CommentLLMを使うことで、半構造化文章から自動的にqueryableなテーブルを作成することを試みた研究 ![image](https://user-images.githubusercontent.com/12249301/235146591-dc608755-e719-4418-ace9-29401 ... #NeuralNetwork #LanguageModel #Chain-of-Thought
Issue Date: 2023-04-27 Self-consistency improves chain of thought reasoning in language models, Wang+, Google Research, ICLR23 Commentself-consistencyと呼ばれる新たなCoTのデコーディング手法を提案。これは、難しいreasoningが必要なタスクでは、複数のreasoningのパスが存在するというintuitionに基づいている。 self-consistencyではまず、普通にCoTを行う。そしてgreSel ... #NeuralNetwork #LanguageModel #Chain-of-Thought #ICLR
Issue Date: 2023-04-27 Automatic Chain of Thought Prompting in Large Language Models, Zhang+, Shanghai Jiao Tong University, ICLR23 CommentLLMによるreasoning chainが人間が作成したものよりも優れていることを示しているとのこと #532 よりclusteringベースな手法を利用することにより、誤りを含む例が単一のクラスタにまとめられうことを示し、これにより過剰な誤ったデモンストレーションが軽減されることを示した。手法の ... #NeuralNetwork #LanguageModel #Chain-of-Thought
Issue Date: 2023-04-27 Automatic prompt augmentation and selection with chain-of-thought from labeled data, Shum+, The Hong Kong University of Science and Technology, arXiv23 CommentLLMによるreasoning chainが人間が作成したものよりも優れていることを示しているとのこと #532 よりselection phaseで誤ったexampleは直接排除する手法をとっている。そして、強化学習によって、demonstrationのselection modelを訓練している ... #LanguageModel #Personalization
Issue Date: 2023-04-26 Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback, Kirk+, Oxford Internet Institute, University of Oxford, arXiv23 Comment# abst LLMをPersonalizationすることに関して、どのような方法でPersonalizationすべきかを検討した研究。以下の問題点を指摘。 1. アラインメント（RLHFのように何らかの方向性にalignするように補正する技術のこと？）が何を意味するのか明確ではない 2. ... #Assessment #ChatGPT #InformationExtraction
Issue Date: 2023-04-25 Evaluating ChatGPTs Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness, Li+, Peking University, arXiv23 Comment情報抽出タスクにおいてChatGPTを評価した研究。スタンダードなIEの設定ではBERTベースのモデルに負けるが、OpenIEの場合は高い性能を示した。また、ChatGPTは予測に対してクオリティが高く信頼に足る説明をしたが、一方で自信過剰な傾向がある。また、ChatGPTの予測はinput teあ ... #NeuralNetwork #LanguageModel #Transformer
Issue Date: 2023-04-25 Scaling Transformer to 1M tokens and beyond with RMT, Bulatov+, DeepPavlov, arXiv23 CommentReccurent Memory Transformer #523 を使って2Mトークン扱えるようにしたよーという話。ハリーポッターのトークン数が1.5Mらしいので、そのうち小説一冊書けるかもという世界。 ... #LanguageModel #Planning
Issue Date: 2023-04-25 LLM+P: Empowering Large Language Models with Optimal Planning Proficiency, Liu+, University of Texas at Austin, arXiv23 CommentLLMは長いプランニングをすることが苦手だったが、classicalなplannerは適切なinputの形式に変換されていればすぐに最適なプランを導出できる、が、自然言語は受け付けない、といった互いが互いを補完し合う関係にあるので、両者を組み合わせました、という話。LLMを利用して、plannin ... #NeuralNetwork #Survey #EfficiencyImprovement #TACL
Issue Date: 2023-04-25 Efficient Methods for Natural Language Processing: A Survey, Treviso+, TACL23 Commentパラメータ数でゴリ押すような方法ではなく、"Efficient"に行うための手法をまとめている ![image](https://user-images.githubusercontent.com/12249301/234287218-2d42766f-5c5c-4cf9-859e-c2b0a5dR ... #LanguageModel #LLMAgent #Admin'sPick
Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR23 Comment# 概要人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた（Chain-of-Thought）が、CoTは外部リソース ... #LanguageModel #DataGeneration
Issue Date: 2023-04-12 ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks, Gilardi+, University of Zurich, NAS23 Comment# 概要 2300件程度のツイートを分類するタスクにおいて、訓練した学部生によるアノテーションを正解とし、クラウドワーカーとChatGPTでのzero-shotでの予測の性能を比較した。分類タスクは、比較的難易度の高い分類問題であり、クラウドワーカーでも正解率は難しいタスクでは15~25%程度であ# ... #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning #ACL
Issue Date: 2023-03-30 Self-Instruct: Aligning Language Model with Self Generated Instructions, Wang+ （w_ Noah Smith）, Univesity of Washington, ACL23 CommentAlpacaなどでも利用されているself-instruction技術に関する論文# 概要 ![image](https://user-images.githubusercontent.com/12249301/228716254-5f4d7451-a37a-4354-843d-7e4052ba23 ... #MachineLearning #Pocket #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #NeurIPS
Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, NeurIPS23 Summary本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Commentなぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究 ... #Survey #EACL
Issue Date: 2022-10-31 MTEB: Massive Text Embedding Benchmark, Muennighoff+, EACL23 CommentText embeddings are commonly evaluated ona small set of datasets from a single task notcovering their possible applications to othertasks. It is uncl ... #DocumentSummarization #NeuralNetwork #Abstractive #EACL
Issue Date: 2022-09-02 Long Document Summarization with Top-down and Bottom-up Inference, Pang+, Salesforce Research, EACL23 Comment日本語解説: https://zenn.dev/ty_nlp/articles/9f5e5dd3084dbd 以下、上記日本語解説記事を読んで理解した内容をまとめます。ありがとうございます。 # 概要基本的にTransformerベースのモデル（e.g. BERTSum, BART,>The ... #Pocket #LanguageModel #ICLR #KnowledgeEditing
Issue Date: 2025-06-18 Fast Model Editing at Scale, Eric Mitchell+, ICLR22 CommentOpenReview:https://openreview.net/forum?id=0DcZxeWfOPt ... #Pocket #LanguageModel #PEFT(Adaptor/LoRA)#ICLR #PostTraining #Admin'sPick
Issue Date: 2025-05-12 LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu+, ICLR22 CommentOpenrReview:https://openreview.net/forum?id=nZeVKeeFYf9LoRAもなんやかんやメモってなかったので追加。事前学習済みのLinear Layerをfreezeして、freezeしたLinear Layerと対応する低ランクの行列A,Bを別途定義し、 ... #ComputerVision #Pocket #Dataset #MulltiModal #CLIP #NeurIPS
Issue Date: 2025-05-06 LAION-5B: An open large-scale dataset for training next generation image-text models, Christoph Schuhmann+, NeurIPS22 #Transformer #Architecture #Normalization
Issue Date: 2025-04-19 DeepNet: Scaling Transformers to 1,000 Layers, Hongyu Wang+, arXiv22 CommentステートオブAIガイドによる解説:https://ja.stateofaiguides.com/20220308-deepnet-transformer/ ... #MachineLearning #Pocket #LanguageModel #NeurIPS #Scaling Laws #Admin'sPick
Issue Date: 2025-03-23 Training Compute-Optimal Large Language Models, Jordan Hoffmann+, NeurIPS22 CommentOpenReview: https://openreview.net/forum?id=iBBcRUlOAPRchinchilla則 ... #EfficiencyImprovement #Pretraining #Pocket #Transformer #Architecture #MoE(Mixture-of-Experts)
Issue Date: 2025-02-11 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus+, JMLR22 #Pocket #LanguageModel #Quantization
Issue Date: 2024-12-03 SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, Guangxuan Xiao+, arXiv22 Commentおそらく量子化手法の現時点のSoTA ... #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning
Issue Date: 2024-10-29 Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N_A, EMNLP22 Comment7.1, 7.2が最も興味深い ## Instruction Tuningにおける未知のタスクに対する汎化性能について、3つの要素に対するスケーリングについて考察 More observed tasks improve the generalization. A large num ... #MachineTranslation #Pocket #Dataset
Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv22 Commentlow-resourceな言語に対するMTのベンチマーク ... #Pocket #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning
Issue Date: 2024-09-25 Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, N_A, ICLR22 CommentFLAN論文。Instruction Tuningを提案した研究。 ... #Pocket #LanguageModel #SelfImprovement
Issue Date: 2024-09-15 STaR: Bootstrapping Reasoning With Reasoning, Eric Zelikman+, N_A, NeurIPS22 CommentOpenAI o1関連研究 ... #LanguageModel #Alignment #ChatGPT #RLHF #PPO (ProximalPolicyOptimization)#PostTraining #read-later
Issue Date: 2024-04-28 Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS22 Summary大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 CommentChatGPTの元となる、SFT→Reward Modelの訓練→RLHFの流れが提案された研究。DemonstrationデータだけでSFTするだけでは、人間の意図したとおりに動作しない問題があったため、人間の意図にAlignするように、Reward Modelを用いたRLHFでSFTの後に追加で ...

#NaturalLanguageGeneration #Pocket #DataToTextGeneration #StructuredData
Issue Date: 2023-10-28 MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation, Swarnadeep Saha+, N_A, arXiv22 Summary本研究では、半構造化データからのテキスト生成における多段階の推論を行うためのMURMURという手法を提案しています。MURMURは、特定の言語的および論理的なスキルを持つニューラルモジュールと記号モジュールを組み合わせ、ベストファーストサーチ手法を使用して推論パスを生成します。実験結果では、MURMURは他のベースライン手法に比べて大幅な改善を示し、また、ドメイン外のデータでも同等の性能を達成しました。さらに、人間の評価では、MURMURは論理的に整合性のある要約をより多く生成することが示されました。 #MachineLearning #LanguageModel #Quantization
Issue Date: 2023-09-29 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N_A, arXiv22 Summary本研究では、GPTモデルの推論における計算およびストレージコストの問題に取り組み、新しいワンショット重み量子化手法であるGPTQを提案します。GPTQは高い精度と効率性を持ち、1750億のパラメータを持つGPTモデルを4時間のGPU時間で量子化することができます。提案手法は従来の手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。さらに、提案手法は極端な量子化領域でも合理的な精度を提供します。実験結果では、提案手法を使用することでエンドツーエンドの推論速度が約3.25倍から4.5倍向上することが示されています。提案手法の実装はhttps://github.com/IST-DASLab/gptqで利用可能です。 Comment# 概要新たなpost-training量子化手法であるGPTQを提案数時間以内に数千億のパラメータを持つモデルでの実行が可能であり、パラメータごとに3～4ビットまで圧縮するが、精度の大きな損失を伴わない OPT-175BおよびBLOOM-176Bを、約4時間のGPU時# Backgro ...

#BeamSearch #NaturalLanguageGeneration #Pocket
Issue Date: 2023-08-16 Momentum Calibration for Text Generation, Xingxing Zhang+, N_A, arXiv22 Summary本研究では、テキスト生成タスクにおいてMoCa（Momentum Calibration）という手法を提案しています。MoCaは、ビームサーチを用いた遅く進化するサンプルを動的に生成し、これらのサンプルのモデルスコアを実際の品質に合わせるように学習します。実験結果は、MoCaが強力な事前学習済みTransformerを改善し、最先端の結果を達成していることを示しています。 #DocumentSummarization #BeamSearch #NaturalLanguageGeneration #Pocket #ACL
Issue Date: 2023-08-16 BRIO: Bringing Order to Abstractive Summarization, Yixin Liu+, N_A, ACL22 Summary従来の抽象的要約モデルでは、最尤推定を使用して訓練されていましたが、この方法では複数の候補要約を比較する際に性能が低下する可能性があります。そこで、非確定論的な分布を仮定し、候補要約の品質に応じて確率を割り当てる新しい訓練パラダイムを提案しました。この手法により、CNN/DailyMailとXSumのデータセットで最高の結果を達成しました。さらに、モデルが候補要約の品質とより相関のある確率を推定できることも示されました。 Commentビーム内のトップがROUGEを最大化しているとは限らなかったため、ROUGEが最大となるような要約を選択するようにしたら性能爆上げしましたという研究。実質現在のSoTA ... #DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #Reference-based
Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv22 Summary本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization #Metrics #Pocket #Evaluation #Reference-free #Reference-based
Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR22 Summary本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。Faithfulness(ROUGE, STS-Score, BERTScoreに基づく), Focus and Coverage (Question Ans ... #DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #Reference-based
Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI22 Summary自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Pocket #Evaluation #Reference-based
Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR22 Summary自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #DocumentSummarization #Evaluation #LM-based #FactualConsistency
Issue Date: 2023-08-13 SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization, Laban+, TACL22 Summary要約の領域では、入力ドキュメントと要約が整合していることが重要です。以前の研究では、自然言語推論（NLI）モデルを不整合検出に適用するとパフォーマンスが低下することがわかりました。本研究では、NLIを不整合検出に再評価し、過去の研究での入力の粒度の不一致が問題であることを発見しました。新しい手法SummaCConvを提案し、NLIモデルを文単位にドキュメントを分割してスコアを集計することで、不整合検出に成功裏に使用できることを示しました。さらに、新しいベンチマークSummaCを導入し、74.4%の正確さを達成し、先行研究と比較して5%の改善を実現しました。 #DocumentSummarization #Metrics #Evaluation #FactualConsistency
Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering22 Summary事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 CommentFactualConsistencyに関するMetricが良くまとまっている ... #DocumentSummarization #Evaluation #Reference-free
Issue Date: 2023-08-13 MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification, Yu Lu Liu+, N_A, arXiv22 Summary本研究では、テキストの要約と簡素化のための参照のない評価尺度であるMaskEvalを提案しています。MaskEvalは、候補テキストとソーステキストの連結に対してマスクされた言語モデリングを行い、重要な品質の側面ごとに相対的な重要性を調整することができます。さらに、英語の要約と簡素化における人間の判断との相関に基づいて、その効果を示し、両方のタスク間での転移シナリオを探索します。 #DocumentSummarization #Metrics #Evaluation #Reference-free
Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI22 Summaryこの研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #DocumentSummarization #Metrics #Evaluation #Reference-free
Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL22 Summary本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #DocumentSummarization #Evaluation
Issue Date: 2023-08-13 Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics, Deutsch+, NAACL22 Summary本研究では、自動要約評価尺度のシステムレベルの相関に関する不整合を修正するための変更を提案しています。具体的には、全テストセットを使用して自動評価尺度のシステムスコアを計算し、実際のシナリオでよく見られる自動スコアのわずかな差によって分離されたシステムのペアに対してのみ相関を計算することを提案しています。これにより、より正確な相関推定と高品質な人間の判断の収集が可能となります。 #DocumentSummarization #Evaluation
Issue Date: 2023-08-13 Does Summary Evaluation Survive Translation to Other Languages?, Braun+, NAACL22 Summary要約データセットの作成は費用と時間がかかるが、機械翻訳を使用して既存のデータセットを他の言語に翻訳することで、追加の言語での使用が可能になる。この研究では、英語の要約データセットを7つの言語に翻訳し、自動評価尺度によるパフォーマンスを比較する。また、人間と自動化された要約のスコアリング間の相関を評価し、翻訳がパフォーマンスに与える影響も考慮する。さらに、データセットの再利用の可能性を見つけるために、特定の側面に焦点を当てる。 #DocumentSummarization #Metrics #Evaluation #TrainedMetrics
Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv22 Summary要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #DocumentSummarization #Evaluation #Reference-free
Issue Date: 2023-08-13 SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling, Bao+, NAACL22 Summary従来の自動要約評価メトリックは語彙の類似性に焦点を当てており、意味や言語的な品質を十分に捉えることができない。参照要約が必要であるためコストがかかる。本研究では、参照要約が存在しない弱教師あり要約評価手法を提案する。既存の要約データセットを文書と破損した参照要約のペアに変換してトレーニングする。ドメイン間のテストでは、提案手法がベースラインを上回り、言語的な品質を評価する上で大きな利点を示した。 #DocumentSummarization #Evaluation #Reference-free
Issue Date: 2023-08-13 PrefScore: Pairwise Preference Learning for Reference-free Summarization Quality Assessment, Luo+, COLING22 Summary人間による参照要約のない機械生成の要約の評価を行うために、ブラッドリー・テリーのパワーランキングモデルを使用して要約の優劣を判断する方法を提案する。実験結果は、この方法が人間の評価と高い相関を持つスコアを生成できることを示している。 #DocumentSummarization #Pocket #Evaluation
Issue Date: 2023-08-13 How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation, Steen+, COLING22 Summary要約の一貫性を自動的に評価することは重要であり、さまざまな方法が提案されていますが、異なるデータセットと評価指標を使用して評価されるため、相対的なパフォーマンスを理解することが困難です。本研究では、要約の一貫性モデリングのさまざまな方法について調査し、新しい分析尺度を導入します。現在の自動一貫性尺度はすべての評価指標において信頼性のある一貫性スコアを割り当てることができませんが、大規模言語モデルは有望な結果を示しています。 #DocumentSummarization #NeuralNetwork #Analysis #Pocket #IJCNLP #AACL #Repetition
Issue Date: 2023-08-13 Self-Repetition in Abstractive Neural Summarizers, Nikita Salkar+, N_A, AACL-IJCNLP22 Summary私たちは、BART、T5、およびPegasusという3つのニューラルモデルの出力における自己繰り返しの分析を行いました。これらのモデルは、異なるデータセットでfine-tuningされています。回帰分析によると、これらのモデルは入力の出力要約間でコンテンツを繰り返す傾向が異なることがわかりました。また、抽象的なデータや定型的な言語を特徴とするデータでのfine-tuningでは、自己繰り返しの割合が高くなる傾向があります。定性的な分析では、システムがアーティファクトや定型フレーズを生成することがわかりました。これらの結果は、サマライザーのトレーニングデータを最適化するための手法の開発に役立つ可能性があります。 #DocumentSummarization #Pocket #Evaluation
Issue Date: 2023-08-13 Universal Evasion Attacks on Summarization Scoring, Wenchuan Mu+, N_A, BlackboxNLP workshop on ACL22 Summary要約の自動評価は重要であり、その評価は複雑です。しかし、これまで要約の評価は機械学習のタスクとは考えられていませんでした。本研究では、自動評価の堅牢性を探るために回避攻撃を行いました。攻撃システムは、要約ではない文字列を予測し、一般的な評価指標であるROUGEやMETEORにおいて優れた要約器と競合するスコアを達成しました。また、攻撃システムは最先端の要約手法を上回るスコアを獲得しました。この研究は、現在の評価システムの堅牢性の低さを示しており、要約スコアの開発を促進することを目指しています。 #DocumentSummarization #Pocket #Evaluation
Issue Date: 2023-08-13 DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely, Forrest Sheng Bao+, N_A, arXiv22 Summary参照ベースと参照フリーの要約評価メトリックがあります。参照ベースは正確ですが、制約があります。参照フリーは独立していますが、ゼロショットと正確さの両方を満たせません。本研究では、参照ベースのメトリックを使用してゼロショットかつ正確な参照フリーのアプローチを提案します。実験結果は、このアプローチが最も優れた参照フリーのメトリックを提供できることを示しています。また、参照ベースのメトリックの再利用と追加の調整についても調査しています。 #Pocket #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration
Issue Date: 2023-08-11 Personalized News Headline Generation System with Fine-grained User Modeling, Yao, MSN22 Summaryユーザーの興味に基づいてパーソナライズされたニュースの見出しを生成するために、文レベルの情報を考慮したユーザーモデルを提案する。アテンション層を使用して文とニュースの関連性を計算し、ニュースの内容に基づいて見出しを生成する。実験結果は、提案モデルがベースラインモデルよりも優れたパフォーマンスを示していることを示している。将来の方向性として、情報のレベルと内容を横断する相互作用についても議論されている。 #Pocket #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration
Issue Date: 2023-08-11 Personalized Headline Generation with Enhanced User Interest Perception, Zhang+, ICANN22 Summaryユーザーのニュース閲覧履歴をモデル化し、個別化されたニュース見出しを生成するための新しいフレームワークを提案する。提案手法は、ユーザーの興味を強調するために候補テキストに関連する情報を活用し、ニュースのエンティティワードを使用して興味表現を改善する。幅広い実験により、提案手法が見出し生成タスクで優れたパフォーマンスを示すことが示されている。 #RecommenderSystems #Pocket #PersonalizedGeneration #Personalization
Issue Date: 2023-08-11 Personalized Chit-Chat Generation for Recommendation Using External Chat Corpora, Chen+, KDD22 Summaryチットチャットは、ユーザーとの対話において効果的であることが示されています。この研究では、ニュース推薦のための個人化されたチットチャットを生成する方法を提案しています。既存の方法とは異なり、外部のチャットコーパスのみを使用してユーザーの関心を推定し、個人化されたチットチャットを生成します。幅広い実験により、提案手法の効果が示されています。 #NaturalLanguageGeneration #Pocket #Dataset #LanguageModel #Explanation
Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv22 Summary本研究では、大規模言語モデル（LLMs）を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。 CommentOpenReview: https://openreview.net/forum?id=GvMuB-YsiK6データセット（中に存在するパターンの説明）をLLMによって生成させる研究![Image](https://github.com/user-attachments/assets/df70f8c ... #NaturalLanguageGeneration #Controllable #Pocket
Issue Date: 2023-07-18 An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text Generation, Xuancheng Huang+, N_A, arXiv22 Summary本研究では、テキスト生成において複数の側面を制御する方法について研究しました。従来の方法では、プレフィックスの相互干渉により制約が低下し、未知の側面の組み合わせを制御することが制限されていました。そこで、トレーニング可能なゲートを使用してプレフィックスの介入を正規化し、相互干渉の増加を抑制する方法を提案しました。この方法により、トレーニング時に未知の制約を低コストで拡張することができます。さらに、カテゴリカルな制約と自由形式の制約の両方を処理する統一された方法も提案しました。実験により、提案手法が制約の正確さ、テキストの品質、拡張性においてベースラインよりも優れていることが示されました。 #NeuralNetwork #LanguageModel #Chain-of-Thought #Prompting
Issue Date: 2023-04-27 Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS22 CommentZero-Shot CoT (Let's think step-by-step.)論文<img width="856" alt="image" src="https://user-images.githubusercontent.com/12249301/234746367-2cd80e23-8dc ... #NeuralNetwork #Zero/FewShotPrompting #Chain-of-Thought #Prompting #NeurIPS
Issue Date: 2023-04-27 Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, NeurIPS22 CommentChain-of-Thoughtを提案した論文。CoTをする上でパラメータ数が100B未満のモデルではあまり効果が発揮されないということは念頭に置いた方が良さそう。 ![image](https://user-images.githubusercontent.com/12249301/234739先 ... #LanguageModel
Issue Date: 2023-04-25 Recurrent Memory Transformer, Bulatov+, NeurIPS22 CommentTransformerはO(N^2)であり、計算量がNに応じて指数関数的に増加してしまう。一方、sequenceの情報を全てN次元ベクトルに集約しなければならず、計算量の制約によって長い系列のRepresentationを獲得できない。そこで、Transformerの構造は変えず、Inputにメ ... #NeuralNetwork #Pocket #LanguageModel
Issue Date: 2022-12-05 UNIFIEDSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models, Xie+, EMNLP22 #Pretraining #Pocket
Issue Date: 2022-12-01 Revisiting Pretraining Objectives for Tabular Deep Learning, Rubachev+, Yandex+, arXiv22 CommentTabular Dataを利用した場合にKaggleなどでDeepなモデルがGBDT等に勝てないことが知られているが、GBDT等とcomparable になる性能になるようなpre-trainingを提案したよ、的な内容っぽいICLR 2023 OpenReview: https://openrev ... #Dataset #QuestionAnswering
Issue Date: 2022-02-07 JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension, So+, arXiv22 CommentSQuAD likeな日本語のQAデータセット https://github.com/SkelterLabsInc/JaQuAD# AbstractQuestion Answering (QA) is a task in which a machine understands a given doc ... #NeuralNetwork #MachineTranslation #Embeddings #Pocket #AAAI
Issue Date: 2021-06-07 Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, AAAI22 CommentNMTにおいてword embeddingがどう影響しているかなどを調査しているらしい ... #Pocket #LanguageModel #EMNLP #KnowledgeEditing
Issue Date: 2025-06-18 Editing Factual Knowledge in Language Models, Nicola De Cao+, EMNLP21 #Pocket #Dataset #LanguageModel #Supervised-FineTuning (SFT)#Mathematics #Verification
Issue Date: 2024-12-27 Training Verifiers to Solve Math Word Problems, Karl Cobbe+, arXiv21 Comment## 気持ち当時の最も大きいレベルのモデルでも multi-stepのreasoningが必要な問題は失敗するモデルをFinetuningをしても致命的なミスが含まれる特に、数学は個々のミスに対して非常にsensitiveであり、一回ミスをして異なる解法のパスに入ってしまうとTodo: 続きを ... #Analysis #Pocket #PEFT(Adaptor/LoRA)
Issue Date: 2024-10-01 Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning, Armen Aghajanyan+, N_A, ACL21 CommentACL ver:https://aclanthology.org/2021.acl-long.568.pdf下記の元ポストを拝読の上論文を斜め読み。モデルサイズが大きいほど、特定の性能（論文中では2種類のデータセットでの90%のsentence prediction性能）をfinetuningで達成 ... #Analysis #Pocket #Transformer
Issue Date: 2024-07-11 Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, N_A, EMNLP21 Summaryトランスフォーマーモデルのフィードフォワード層は、キー・バリューメモリとして機能し、学習されたパターンが人間に解釈可能であることや、上位層がより意味のあるパターンを学習することが示されました。さらに、出力分布を誘導する役割も持ちます。フィードフォワード層の出力はそのメモリの合成であり、残差接続を介してモデルの層を通じて洗練され、最終的な出力分布を生成します。 Comment#1108FF layerがKey-Valueストアとして機能する仕組みの概略図![image](https://github.com/user-attachments/assets/cc12695f-b030-433a-88e1-aed69f9847a7)実際に特定のKeyと最も関連度が高い訓練事 ... #Analysis #NaturalLanguageGeneration #Pocket #Evaluation #Annotation
Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP21 Summary最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 CommentOpen-endedなタスクに対するAMTの評価の再現性に関する研究。先行研究をSurveyしたところ、再現のために重要な情報（たとえば、workerの資格、費用、task descriptions、annotator間のagreementなど）が欠落していることが判明した。続いて、expert# ...

#ComputerVision #EfficiencyImprovement #Pretraining #Pocket #LanguageModel #Transformer #MulltiModal
Issue Date: 2023-08-22 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision, Wonjae Kim+, N_A, ICML21 SummaryVLP（Vision-and-Language Pre-training）のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ（ViLT）モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 Comment日本語解説:https://tech.fusic.co.jp/posts/2021-12-29-vilt/ ... #DocumentSummarization #Metrics #Tools #Dataset #Evaluation #Admin'sPick
Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL21 Comment自動評価指標が人手評価の水準に達しないことが示されており、結局のところROUGEを上回る自動性能指標はほとんどなかった。human judgmentsとのKendall;'s Tauを見ると、chrFがCoherenceとRelevance, METEORがFluencyで上回ったのみだった。また、 ... #DocumentSummarization #Evaluation
Issue Date: 2023-08-13 How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation, Steen+, EACL21 Summary要約システムの評価方法についての調査結果を報告しました。要約の言語的品質についての評価実験を行い、最適な評価方法は側面によって異なることを示しました。また、研究パラメータや統計分析方法についても問題点を指摘しました。さらに、現行の方法では固定された研究予算の下では信頼性のある注釈を提供できないことを強調しました。 Comment要約の人手評価に対する研究 ... #DocumentSummarization #Evaluation
Issue Date: 2023-08-13 Reliability of Human Evaluation for Text Summarization: Lessons Learned and Challenges Ahead, Iskender+, EACL21 Summary人間評価の信頼性に関する研究では、参加者の情報や実験の詳細が提供されていないことが多い。また、人間評価の信頼性に影響を与える要因についても研究されていない。そこで、私たちは人間評価実験を行い、参加者の情報や実験の詳細を提供し、異なる実験結果を比較した。さらに、専門家と非専門家の評価の信頼性を確保するためのガイドラインを提供し、信頼性に影響を与える要因を特定した。 Comment要約の人手評価に対する信頼性に関して研究。人手評価のガイドラインを提供している。 ... #DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Reference-free
Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP21, Sun+ Comment__translate: ROUGE is widely used to automatically evaluate summarization systems. However, ROUGE measures semantic overlap between a system summary a ... #DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Reference-free
Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP21 Summary参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Reference-free #QA-based
Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP21 Summary要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 CommentQuestEval# 概要 #984 によって提案されてきたメトリックがROUGEに勝てていないことについて言及し、より良い指標を提案。 precision / recall-based な QA metricsを利用してよりロバスト生成されるqueryのsaliencyを学習する手法を提案するこ ...

#NaturalLanguageGeneration #Metrics #DialogueGeneration #Evaluation #Reference-free #QA-based #FactualConsistency
Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP21 Summary本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment（knowledge-grounded; 知識に基づいた）対話に対するFactual ConsistencyをReference-freeで評価できるQGQA手法。機械翻訳やAbstractive Summarizationの分野で研究が進んできたが、対話では対話履歴、個人の意見、ユーザに対 ...

#DocumentSummarization #Metrics #Evaluation #LM-based #FactualConsistency
Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP21 Summary本研究では、自然言語生成（NLG）タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 CommentCTC ... #NaturalLanguageGeneration #Metrics #Evaluation #Reference-free #QA-based
Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP21 Summary本研究では、画像キャプションの評価において、Question Generation（QG）とQuestion Answering（QA）システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 CommentImage Captioningを評価するためのQGQAを提案している。candidateから生成した質問を元画像, およびReferenceを用いて回答させ、candidateに基づいた回答と回答の結果を比較することで評価を実施する。 ...

#DocumentSummarization #Metrics #Evaluation #Reference-free #LM-based #Admin'sPick
Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ （w_ Neubigさん）, NeurIPS21 Summary本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 CommentBARTScore# 概要ソーステキストが与えられた時に、BARTによって生成テキストを生成する尤度を計算し、それをスコアとする手法。テキスト生成タスクをテキスト生成モデルでスコアリングすることで、pre-trainingされたパラメータをより有効に活用できる（e.g. BERTScoreやMov ...

#DocumentSummarization #Metrics #Evaluation #Reference-based
Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL21 Summary要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答（QA）を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #DocumentSummarization #Metrics #Evaluation #Reference-free
Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP21 Summary私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Sentence #Embeddings #Pocket #LanguageModel #ContrastiveLearning #Catastrophic Forgetting #Admin'sPick
Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP21 Summaryこの論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment#462 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる# 手法概要 Contrastive Learningを活用して、unsupervised/supervisedに学習を実施する。 Unsupervised SimCSEでは、あるsente ...

#Pocket #Dataset #LanguageModel #MultitaskLearning
Issue Date: 2023-07-26 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR21 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは、57のタスクをカバーし、広範な世界知識と問題解決能力を必要とします。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの理解の幅と深さを評価し、重要な欠点を特定するために使用できます。 #Pocket #Dataset #LanguageModel #Evaluation #ICLR #Admin'sPick
Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR21 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 CommentOpenReview:https://openreview.net/forum?id=d7KBjmI3GmQMMLU論文 ... #PersonalizedDocumentSummarization #Dataset #LanguageModel #PersonalizedGeneration #Personalization #PersonalizedHeadlineGeneration
Issue Date: 2023-05-31 PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL21 Summaryこの論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment# 概要ニュース記事に対するPersonalizedなHeadlineの正解データを生成。103名のvolunteerの最低でも50件のクリックログと、200件に対する正解タイトルを生成した。正解タイトルを生成する際は、各ドキュメントごとに4名異なるユーザが正解タイトルを生成するようにした。これ ...

#PersonalizedDocumentSummarization #Pocket #review
Issue Date: 2023-05-06 Transformer Reasoning Network for Personalized Review Summarization, Xu+, SIGIR21 Comment先行研究は、review summarizationにおいて生成されるsummaryは、過去にユーザが作成したsummaryのwriting styleやproductに非常に関係しているのに、これらを活用してこなかったので、活用しました（=personalized）という話っぽい ... #PersonalizedDocumentSummarization #Dataset #Personalization
Issue Date: 2023-04-30 ニュース記事に対する談話構造と興味度のアノテーション～ニュース対話システムのパーソナライズに向けて～, 高津+, 早稲田大学, 言語処理学会21 Commentニュース記事に対して談話構造および，ユーザのプロフィールと記事の話題・文に対するユーザの興味度を付与したデータセット。プロフィールとして以下を収集：性別年齢，住んでいる地域職種業種ニュースを見る頻度，ニュースをよくチェックする時間帯 ... #PersonalizedDocumentSummarization
Issue Date: 2023-04-30 談話構造制約付きパーソナライズド抽出型要約, 高津+, 早稲田大学, 言語処理学会21 #ComputerVision #MulltiModal #ContrastiveLearning #ICML
Issue Date: 2023-04-27 Learning Transferable Visual Models From Natural Language Supervision, Radford+, OpenAI, ICML21 CommentCLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル ![image](https://user-images.githubusercontent.com/12249301/234729329-dfa5dc1e ... #NaturalLanguageGeneration #Personalization
Issue Date: 2023-04-26 Refocusing on Relevance: Personalization in NLG, Shiran Dudy+, Department of Computer Science University of Colorado, EMNLP21 Comment従来のNLGはソーステキストに焦点を当て、ターゲットを生成することに注力してきた。が、ユーザの意図やcontextがソーステキストだけに基づいて復元できない場合、このアプローチでは不十分であることを指摘。この研究ではNLGシステムが追加のcontextを利用することに大きな重点をおくべきであり、 ... #NeuralNetwork #ComputerVision #NaturalLanguageGeneration
Issue Date: 2022-09-15 Generating Racing Game Commentary from Vision, Language, and Structured Data, Tatsuya+, INLG21 Commentデータセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary ... #NeuralNetwork #NaturalLanguageGeneration #Dataset #DataToTextGeneration
Issue Date: 2022-08-18 Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan+, INLG21 Commentbiomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。 ... #DocumentSummarization #Tutorial #Dataset #TACL
Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL21, NLPコロキウム Comment◆Aspect-based summarizationのモチベーション・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい ◆Aspect: あるobjectに対する、attributeのようなものを指定？　object: Attention IsQ. R ... #NeuralNetwork #NaturalLanguageGeneration #Pocket #DataToTextGeneration
Issue Date: 2021-10-08 過去情報の内容選択を取り入れたスポーツダイジェストの自動生成, 加藤+, 東工大, NLP21 #DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #LanguageModel #PEFT(Adaptor/LoRA)#ACL
Issue Date: 2021-09-09 Prefix-Tuning: Optimizing Continuous Prompts for Generation, Lisa+ （Percy Liang）, Stanford University, ACL21 Comment言語モデルをfine-tuningする際，エンコード時に「接頭辞」を潜在表現として与え，「接頭辞」部分のみをfine-tuningすることで（他パラメータは固定），より少量のパラメータでfine-tuningを実現する方法を提案．接頭辞を潜在表現で与えるこの方法は，GPT-3のpromptingに着 ... #Pocket #LanguageModel #Scaling Laws
Issue Date: 2025-05-31 Scaling Laws for Autoregressive Generative Modeling, Tom Henighan+, arXiv20 #DocumentSummarization #NeuralNetwork #ICML #Admin'sPick
Issue Date: 2025-05-13 PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization, Jingqing Zhang+, ICML20 CommentPEGASUSもなかったので追加。BARTと共に文書要約のBackboneとして今でも研究で利用される模様。関連:#984 ... #NeuralNetwork #Pretraining #Pocket #TransferLearning #PostTraining #Admin'sPick
Issue Date: 2025-05-12 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel+, JMLR20 CommentT5もメモっていなかったので今更ながら追加。全てのNLPタスクをテキスト系列からテキスト系列へ変換するタスクとみなし、Encoder-DecoderのTransformerを大規模コーパスを用いて事前学習をし、downstreamタスクにfinetuningを通じて転移する。 ... #NeuralNetwork #ComputerVision #MachineLearning #Pocket #ICLR #KnowledgeEditing #read-later
Issue Date: 2025-05-07 Editable Neural Networks, Anton Sinitsin+, ICLR20 Comment（おそらく）Knowledge Editingを初めて提案した研究OpenReview:https://openreview.net/forum?id=HJedXaEtvS ... #Metrics #Pocket #Evaluation #AutomaticSpeechRecognition(ASR)#AACL #SimulST(SimultaneousSpeechTranslation)
Issue Date: 2025-04-30 SimulMT to SimulST: Adapting Simultaneous Text Translation to End-to-End Simultaneous Speech Translation, Xutai Ma+, AACL20 Comment同時翻訳研究で主要なmetricの一つ関連:#1914 ... #Pocket #LanguageModel #ICLR #Decoding #Admin'sPick
Issue Date: 2025-04-14 The Curious Case of Neural Text Degeneration, Ari Holtzman+, ICLR20 Comment現在のLLMで主流なNucleus (top-p) Samplingを提案した研究 ... #MachineLearning #Pocket #LanguageModel #Scaling Laws
Issue Date: 2025-03-23 Scaling Laws for Neural Language Models, Jared Kaplan+, arXiv20 Comment日本語解説:https://www.slideshare.net/slideshow/dlscaling-laws-for-neural-language-models/243005067 ... #MachineTranslation #Metrics #Pocket #Evaluation #EMNLP #Admin'sPick
Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, EMNLP20 SummaryCOMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 CommentBetter/Worseなhypothesisを利用してpair-wiseにランキング関数を学習する![Image](https://github.com/user-attachments/assets/a1fd6f36-48e8-44fc-8fcb-0900a51759b3)![Image]ACL ... #NeuralNetwork #LanguageModel #Transformer
Issue Date: 2024-05-24 GLU Variants Improve Transformer, Noam Shazeer, N_A, arXiv20 SummaryGLUのバリエーションをTransformerのフィードフォワード・サブレイヤーでテストし、通常の活性化関数よりもいくつかのバリエーションが品質向上をもたらすことを発見した。 Comment一般的なFFNでは、linear layerをかけた後に、何らかの活性化関数をかませる方法が主流である。このような構造の一つとしてGLUがあるが、linear layerと活性化関数には改良の余地があり、様々なvariantが考えられるため、色々試しました、というはなし。オリ ...

#DocumentSummarization #Metrics #Pocket #Evaluation #Reference-free #QA-based
Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL20 Summary要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 CommentQAGS生成された要約からQuestionを生成する手法。precision-oriented ... #DocumentSummarization #Pocket #Hallucination
Issue Date: 2023-08-16 Reducing Quantity Hallucinations in Abstractive Summarization, Zheng Zhao+, N_A, EMNLP20 SummaryHermanシステムは、抽象的な要約において幻覚を回避するために、数量エンティティを認識し、元のテキストでサポートされている数量用語を持つ要約を上位にランク付けするアプローチを提案しています。実験結果は、このアプローチが高い適合率と再現率を持ち、F$_1$スコアが向上することを示しています。また、上位にランク付けされた要約が元の要約よりも好まれることも示されています。 Comment数量に関するhallucinationを緩和する要約手法 ... #DocumentSummarization #Metrics #Evaluation #QA-based
Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL20 Summaryニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 CommentFEQA生成された要約からQuestionを生成する手法。precision-oriented ... #DocumentSummarization #Metrics #Evaluation #Reference-based
Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING20 Summary要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 CommentHybrid Lexical and MOdel-based evaluation of Summaries (HOLMS) ... #DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Reference-free
Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP20 Summary本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 CommentLS_Score色々なメトリックが簡潔にまとまっている ... #DocumentSummarization #Metrics #Evaluation #LM-based #FactualConsistency
Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP20 Summary本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 CommentFactCC近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した ... #DocumentSummarization #Metrics #Evaluation #Reference-free #LM-based
Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP20 Summaryパラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 CommentPRISM ... #DocumentSummarization #Evaluation #Reference-free
Issue Date: 2023-08-13 Fill in the BLANC: Human-free quality estimation of document summaries, Vasilyev+, Eval4NLP20 SummaryBLANCは、要約の品質を自動的に推定するための新しいアプローチです。BLANCは、事前学習済みの言語モデルを使用してドキュメントの要約にアクセスし、要約の機能的なパフォーマンスを測定します。BLANCスコアは、ROUGEと同様に人間の評価と良好な相関関係を持ち、人間によって書かれた参照要約が不要なため、完全に人間不在の要約品質推定が可能です。 #DocumentSummarization #Evaluation #Reference-free #Training-Free
Issue Date: 2023-08-13 SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL20 Summaryこの研究では、教師なしの複数文書要約評価メトリックスについて調査しています。提案手法SUPERTは、擬似的な参照要約として選択された重要な文を使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて要約の品質を評価します。SUPERTは従来の教師なし評価メトリックスよりも人間の評価との相関が高く、18〜39％の向上が見られます。また、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、有利なパフォーマンスを実現しています。ソースコードはGitHubで入手可能です。 Commentpseudo-reference summaryを作成し、referenceに対してSBERTを適用しsystem-reference間の類似度を測ることで、unsupervisedに複数文書要約を評価する手法。まずTACのデータに対して、既存研究（single document summarips ... #DocumentSummarization #Metrics #Evaluation #Reference-based #TrainedMetrics
Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL20 SummaryBLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Reference-based #Admin'sPick
Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR20 SummaryBERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment# 概要既存のテキスト生成の評価手法（BLEUやMETEOR）はsurface levelのマッチングしかしておらず、意味をとらえられた評価になっていなかったので、pretrained BERTのembeddingを用いてsimilarityを測るような指標を提案しましたよ、という話。 ## 実 ...

#PersonalizedDocumentSummarization #Pocket #review
Issue Date: 2023-05-06 A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss, Hou Pong Chan+, N_A, arXiv20 Summaryユーザーレビューから要約と感情を取得するために、新しいデュアルビューモデルを提案。エンコーダーがレビューの文脈表現を学習し、サマリーデコーダーが要約を生成。ソースビュー感情分類器はレビューの感情ラベルを予測し、サマリービュー感情分類器は要約の感情ラベルを予測。不一致損失を導入して、2つの分類器の不一致を罰することで、デコーダーが一貫した感情傾向を持つ要約を生成し、2つの感情分類器がお互いから学ぶことができるようになる。4つの実世界データセットでの実験結果は、モデルの効果を示している。 CommentReview SummarizationとSentiment Classificationをjointで学習した研究。既存研究ではreviewのみからsentimentの情報を獲得する枠組みは存在したが、summaryの情報が活用できていなかった。 #653 のratingをsentiment lし ... #NeuralNetwork #Pocket #LanguageModel #Zero/FewShotPrompting #In-ContextLearning #NeurIPS #Admin'sPick
Issue Date: 2023-04-27 Language Models are Few-Shot Learners, Tom B. Brown+, NeurIPS20 CommentIn-Context Learningを提案した論文論文に記載されているIn-Context Learningの定義は、しっかり押さえておいた方が良い。下図はmeta-learningの観点から見たときの、in-contextの位置付け。事前学習時にSGDでパラメータをupdateするのをouter ... #Survey #Personalization
Issue Date: 2023-04-26 Returning the N to NLP: Towards Contextually Personalized Classification Models, Lucie Flek, Mainz University of Applied Sciences Germany, ACL20 CommentNLPのけるPersonalized Classificationモデルのliteratureを振り返る論文 ... #NeuralNetwork #NaturalLanguageGeneration #LanguageModel #DataToTextGeneration #pretrained-LM #Zero/FewShotLearning
Issue Date: 2022-12-01 Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL20 Comment# 概要 Neural basedなend-to-endなNLGアプローチはdata-hungryなので、Few Shotな設定で高い性能ができる手法を提案（Few shot NLG） Table-to-Textタスク（WikiBIOデータ, 追加で収集したBook, SongドメインのWiki ... #DocumentSummarization #NeuralNetwork #MachineTranslation #Transformer #pretrained-LM
Issue Date: 2022-12-01 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Rothe+, Google Research, TACL20 Comment# 概要 BERT-to-BERT論文。これまでpre-trainedなチェックポイントを利用する研究は主にNLUで行われてきており、Seq2Seqでは行われてきていなかったので、やりました、という話。 publicly availableなBERTのcheckpointを利用し、BERTをen ... #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #pretrained-LM
Issue Date: 2022-12-01 Template Guided Text Generation for Task-Oriented Dialogue, Kale+, Google, EMNLP20 Comment# 概要 Dialogue Actをそのままlinearlizeして言語モデルに入力するのではなく、テンプレートをベースにしたシンプルなsentenceにして言語モデルに与えると、zero-shot, few-shotなsettingで性能が向上するという話（T5ベース）。 ![image]low ... #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #Transformer
Issue Date: 2022-09-16 Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG20 Comment# 概要 pre-training済みのT5に対して、Data2Textのデータセットでfinetuningを実施する方法を提案。WebNLG（graph-to-text）, ToTTo（table-to-text）, Multiwoz（task oriented dialogue）データにおいて# ... #NeuralNetwork #MachineLearning #Pocket #NeurIPS
Issue Date: 2021-06-09 All Word Embeddings from One Embedding, Takase+, NeurIPS20 CommentNLPのためのNN-basedなモデルのパラメータの多くはEmbeddingによるもので、従来は個々の単語ごとに異なるembeddingをMatrixの形で格納してきた。この研究ではモデルのパラメータ数を減らすために、個々のword embeddingをshared embeddingの変換によって ... #PersonalizedDocumentSummarization #DocumentSummarization #NaturalLanguageGeneration #Metrics #DataToTextGeneration #ConceptToTextGeneration #DialogueGeneration #PersonalizedGeneration
Issue Date: 2021-06-02 NUBIA, EvalNLGEval20 CommentTextGenerationに関するSoTAの性能指標。BLEU, ROUGE等と比較して、人間との相関が高い。 ![image](https://user-images.githubusercontent.com/12249301/120425437-299d5c00-c3a9-11eb-923意 ... #ReviewGeneration #ACL
Issue Date: 2021-03-17 Unsupervised Opinion Summarization as Copycat-Review Generation, Bražinskas, ACL20 Comment# AbstractOpinion summarization is the task of automatically creating summaries that reflect subjective information expressed in multiple documents, ... #Survey #NaturalLanguageGeneration #Pocket #Evaluation
Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv20 Comment# AbstractThe paper surveys evaluation methods of natural language generation (NLG) systems that have been developed in the last few years. We group ... #Analysis #Transformer
Issue Date: 2024-10-07 What Does BERT Learn about the Structure of Language?, Jawahar+, ACL19 CommentBERT is a recent language representation model that has surprisingly performed well in diverse language understanding benchmarks. This result indicat# ... #EfficiencyImprovement #Pocket #LanguageModel #Transformer #Attention
Issue Date: 2024-04-07 Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, N_A, arXiv19 Summaryマルチヘッドアテンションレイヤーのトレーニングは高速かつ簡単だが、増分推論は大きな"keys"と"values"テンソルを繰り返し読み込むために遅くなることがある。そこで、キーと値を共有するマルチクエリアテンションを提案し、メモリ帯域幅要件を低減する。実験により、高速なデコードが可能で、わずかな品質の低下しかないことが確認された。 CommentMulti Query Attention論文。KVのsetに対して、単一のQueryのみでMulti-Head Attentionを代替する。劇的にDecoderのInferenceが早くなりメモリ使用量が減るが、論文中では言及されていない？ようだが、性能と学習の安定性が課題となるようである。 ...

#DocumentSummarization #NeuralNetwork #Extractive
Issue Date: 2023-08-28 Text Summarization with Pretrained Encoders, Liu+ （with Lapata）, EMNLP-IJCNLP19 Summary本研究では、最新の事前学習言語モデルであるBERTを使用して、テキスト要約のための一般的なフレームワークを提案します。抽出型モデルでは、新しいエンコーダを導入し、文の表現を取得します。抽象的な要約については、エンコーダとデコーダの最適化手法を異ならせることで不一致を緩和します。さらに、2段階のファインチューニングアプローチによって要約の品質を向上させました。実験結果は、提案手法が最先端の結果を達成していることを示しています。 CommentBERTSUMEXT論文通常のBERTの構造と比較して、文ごとの先頭に[CLS]トークンを挿入し、かつSegment Embeddingsを文ごとに交互に変更することで、文のrepresentationを取得できるようにする。その後、encodingされたsentenceの[CLS]トークンに対応 ...

#DocumentSummarization #Pocket #Evaluation
Issue Date: 2023-08-16 Neural Text Summarization: A Critical Evaluation, Krysciski+ （w_ Richard Socher）, EMNLP-IJCNLP19 Summaryテキスト要約の研究は進展が停滞しており、データセット、評価指標、モデルの3つの要素に問題があることが指摘されている。自動収集されたデータセットは制約が不十分であり、ノイズを含んでいる可能性がある。評価プロトコルは人間の判断と相関が弱く、重要な特性を考慮していない。モデルはデータセットのバイアスに過適合し、出力の多様性が限られている。 #DocumentSummarization #Metrics #Evaluation #QA-based
Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL19 Summary最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 CommentAPES ... #DocumentSummarization #Metrics #Evaluation
Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL19 Summary自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘 ... #DocumentSummarization #NaturalLanguageGeneration #Pocket
Issue Date: 2023-08-13 HighRES: Highlight-based Reference-less Evaluation of Summarization, Hardy+, N_A, ACL19 Summary要約の手動評価は一貫性がなく困難なため、新しい手法であるHighRESを提案する。この手法では、要約はソースドキュメントと比較して複数のアノテーターによって評価され、ソースドキュメントでは重要な内容がハイライトされる。HighRESはアノテーター間の一致度を向上させ、システム間の違いを強調することができることを示した。 Comment人手評価の枠組み ... #DocumentSummarization #MachineTranslation #Evaluation #TrainedMetrics
Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv19 Summary私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #DocumentSummarization #Evaluation #Reference-based
Issue Date: 2023-08-13 MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP19 Summary本研究では、テキスト生成システムの評価尺度について調査し、システムの出力と参照テキストの意味に基づいて比較する尺度を提案します。この尺度は、要約、機械翻訳、画像キャプション、データからテキストへの生成などのタスクで有効であり、文脈化表現と距離尺度を組み合わせたものが最も優れています。また、提案した尺度は強力な汎化能力を持っており、ウェブサービスとして提供されています。 CommentWord Mover Distance (WMD)の解説: https://yubessy.hatenablog.com/entry/2017/01/10/122737 ... #DocumentSummarization #Evaluation #Reference-free #QA-based
Issue Date: 2023-08-13 Answers Unite Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP19 Summary最近、再強化学習（RL）を使用した抽象的要約手法が提案されており、従来の尤度最大化を克服するために使用されています。この手法は、複雑で微分不可能なメトリクスを考慮することで、生成された要約の品質と関連性を総合的に評価することができます。ROUGEという従来の要約メトリクスにはいくつかの問題があり、代替的な評価尺度を探求する必要があります。報告された人間評価の分析によると、質問応答に基づく提案されたメトリクスはROUGEよりも有利であり、参照要約を必要としないという特徴も持っています。これらのメトリクスを使用してRLベースのモデルをトレーニングすることは、現在の手法に比べて改善をもたらします。 CommentSummaQA ... #PersonalizedDocumentSummarization #DocumentSummarization #Personalization
Issue Date: 2023-05-08 Towards Personalized Review Summarization via User-Aware Sequence Network, Li+, AAAI19 Comment同じレビューに対しても、異なるユーザは異なるSumamryを生成するよね、というところがモチベーションとなり、Personalized Review Summarizationを提案。初めてPersonalizationの問題について提案した研究。 ![image](https://user-imu ... #DocumentSummarization #review
Issue Date: 2023-05-06 Neural Review Summarization Leveraging User and Product Information, Liu+, CIKM19 #NeuralNetwork #Library
Issue Date: 2022-07-29 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Reimers+, UKP-TUDA, EMNLP19 CommentBERTでトークンをembeddingし、mean poolingすることで生成される文ベクトルを、Siamese Networkを使い距離学習（finetune）させたモデル。 <img width="655" alt="image" src="https://user-images.githu ... #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #EMNLP
Issue Date: 2021-10-08 Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions （Row, Column and Time）, Gong+, Harbin Institute of Technology, EMNLP19 Comment## 概要既存研究では、tableをレコードの集合, あるいはlong sequenceとしてencodeしてきたが 1. other (column) dimensionの情報が失われてしまう (?) 2. table cellは時間によって変化するtime-series data![imag ... #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #AAAI
Issue Date: 2021-06-26 Data-to-Text Generation with Content Selection and Planning, Puduppully+, AAAI19 CommentRotowire Datasetに対するData2Text研究において代表的な論文の一つ。Wisemanモデル #207 と共にベースラインとして利用されることが多い。実装: https://github.com/ratishsp/data2text-plan-py ... #NeuralNetwork #ComputerVision #Pocket
Issue Date: 2021-06-15 On Empirical Comparisons of Optimizers for Deep Learning, Dami Choi+, N_A, arXiv19 Summary深層学習のオプティマイザの比較は重要であり、ハイパーパラメータの探索空間が性能に影響することが示唆されている。特に、適応的勾配法は常に他のオプティマイザよりも性能が低下しないことが実験で示されており、ハイパーパラメータのチューニングに関する実用的なヒントも提供されている。 CommentSGD, Momentum,RMSProp, Adam,NAdam等の中から、どの最適化手法(Optimizer)が優れているかを画像分類と言語モデルにおいて比較した研究（下記日本語解説記事から引用）日本語での解説: https://akichan-f.medium.com/optimizerはどれ ... #Pocket #CommentGeneration #Personalization #ACL
Issue Date: 2019-09-11 Automatic Generation of Personalized Comment Based on User Profile, Zeng+, arXiv19 #NeuralNetwork #Pocket #CommentGeneration #ACL
Issue Date: 2019-08-24 Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model, Li+ ,ACL19 #NaturalLanguageGeneration #Pocket #ReviewGeneration
Issue Date: 2019-08-17 User Preference-Aware Review Generation, Wang+, PAKDD19 #RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #Pocket #ReviewGeneration #WWW
Issue Date: 2019-08-17 Review Response Generation in E-Commerce Platforms with External Product Information, Zhao+, WWW19 #RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #Pocket #ReviewGeneration #ACL
Issue Date: 2019-08-17 Automatic Generation of Personalized Comment Based on User Profile, Zeng+, ACL19 Student Research Workshop #RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #ReviewGeneration #WWW
Issue Date: 2019-05-31 Multimodal Review Generation for Recommender Systems, Truong+, WWW19 CommentPersonalized Review Generationと、Rating Predictionを同時学習した研究（同時学習自体はすでに先行研究がある）。また、先行研究のinputは、たいていはuser, itemであるが、multi-modalなinputとしてレビューのphotoを活用した ... #Pocket #DialogueGeneration #ACL
Issue Date: 2019-01-24 Training Millions of Personalized Dialogue Agents, Mazaré, ACL19 #NeuralNetwork #NaturalLanguageGeneration #Pocket #ContextAware #AAAI
Issue Date: 2019-01-24 Response Generation by Context-aware Prototype Editing, Wu+, AAAI19 #DocumentSummarization #Metrics #Pocket #Evaluation #QA-based
Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI18 Summary自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 CommentQGQAを提案した研究 ... #Hallucination #ImageCaptioning
Issue Date: 2023-08-16 Object hallucination in image captioning, Rohbach+, EMNLP18 Summary現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。 #PersonalizedDocumentSummarization #Pocket #review
Issue Date: 2023-05-06 A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification, Shuming Ma+, N_A, arXiv18 Summaryテキスト要約と感情分類を共同学習するための階層的なエンドツーエンドモデルを提案し、感情分類ラベルをテキスト要約の出力の「要約」として扱う。提案モデルはAmazonオンラインレビューデータセットでの実験で、抽象的な要約と感情分類の両方で強力なベースラインシステムよりも優れた性能を発揮することが示された。 Commentreview summarizationに初めてamazon online review data #653 使った研究？ ... #NeuralNetwork #Embeddings #RepresentationLearning
Issue Date: 2022-06-08 Deep contextualized word representations, Peters+, Allen Institute for Artificial intelligence, NAACL18 CommentELMo論文。通常のword embeddingでは一つの単語につき一つの意味しか持たせられなかったが、文脈に応じて異なる意味を表現できるようなEmbeddingを実現し（同じ単語でも文脈に応じて意味が変わったりするので。たとえばrightは文脈に応じて右なのか、正しいなのか、権利なのか意味が変わs ... #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #COLING
Issue Date: 2021-10-25 Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism., Li+, Peking University, COLING18 Comment# 概要 DataToTextタスクにおいて、生成テキストのデータの精度を高める手法を提案。two stageアルゴリズムを提案。①encoder-decoerモデルでslotを含むテンプレートテキストを生成。②Copy Mechanismでslotのデータを埋める、といった手法。 ①と②はそれ ... #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #EMNLP
Issue Date: 2021-09-16 Operation-guided Neural Networks for High Fidelity Data-To-Text Generation, Nie+, Sun Yat-Sen University, EMNLP18 Comment# 概要既存のニューラルモデルでは、生データ、あるいはそこから推論された事実に基づいて言語を生成するといったことができていない（e.g. 金融, 医療, スポーツ等のドメインでは重要）。たとえば下表に示した通り、"edge"という単語は、スコアが接戦（95-94=1 -> スコアの差が小さい# ... #NeuralNetwork #Pocket #CommentGeneration #WWW
Issue Date: 2019-08-24 Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures, Lin+, WWW18 #RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #Pocket #ReviewGeneration #RecSys
Issue Date: 2019-08-17 Improving Explainable Recommendations with Synthetic Reviews, Ouyang+, RecSys18 #NeuralNetwork #ReviewGeneration #ACL
Issue Date: 2019-04-12 Personalized Review Generation by Expanding Phrases and Attending on Aspect-Aware Representations, Ni+, ACL18 Comment![image](https://user-images.githubusercontent.com/12249301/56010165-8fd44a00-5d1d-11e9-8cad-81a5178d95d2.png) Personalized Review Generationタスクを、uPy ... #NeuralNetwork #NaturalLanguageGeneration #Pocket #AAAI
Issue Date: 2019-01-24 A Knowledge-Grounded Neural Conversation Model, Ghazvininejad+, AAAI18, #Pocket #QuestionAnswering #AAAI
Issue Date: 2018-10-05 A Unified Model for Document-Based Question Answering Based on Human-Like Reading Strategy, Li+, AAAI18 #Pocket #ReviewGeneration #Personalization #ACL
Issue Date: 2018-07-25 Personalized Review Generation by Expanding Phrases and Attending on Aspect-Aware Representations, Ni+, ACL18 #DocumentSummarization #Dataset #NAACL
Issue Date: 2018-06-29 Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies, Max+, NAACL18 Comment文書要約に使用可能なデータセット 38の出版元からデータを収集し、サイズは1.3M article程度既存のデータセットと比較すると、Coverageが高く生成的なものを多く含むことが特徴詳細は：https://summari.es ... #NeuralNetwork #Pocket #DialogueGeneration #ACL
Issue Date: 2018-02-08 Personalizing Dialogue Agents: I have a dog, do you have pets too?, Zhang+, ACL18 #DocumentSummarization #Supervised #Pocket #Abstractive #ICLR
Issue Date: 2017-12-31 A Deep Reinforced Model for Abstractive Summarization, Paulus+（with Socher）, ICLR18 #NeuralNetwork #NaturalLanguageGeneration #Pocket #TACL
Issue Date: 2017-12-31 Generating Sentences by Editing Prototypes, Guu+, TACL18 #Survey #NaturalLanguageGeneration #DataToTextGeneration #ConceptToTextGeneration
Issue Date: 2017-12-31 Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Gatt+, JAIR18 Comment割と新し目のNLGのSurvey ... #NeuralNetwork #Pocket #MoE(Mixture-of-Experts)#ICLR
Issue Date: 2025-04-29 Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer+, ICLR17 CommentMixture-of-Experts (MoE) Layerを提案した研究 ... #NaturalLanguageGeneration #Metrics #Evaluation
Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP17 SummaryNLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究 ... #Dataset #STS (SemanticTextualSimilarity)
Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv17 Summary日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Commentgithub: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset 単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。 ... #ComputerVision #Pocket #CommentGeneration #CVPR
Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, CVPR17 Comment画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。 InstagramのPostの簡易化などに応用できる。 Postを生成するためには、自身の言葉で、画像についての説明や、contextとい ... #RecommenderSystems #NeuralNetwork #ReviewGeneration #SIGIR
Issue Date: 2019-04-12 Neural rating regression with abstractive tips generation for recommendation, Li+, SIGIR17 CommentRating Predictionとtips generationを同時に行うことで、両者の性能を向上させた最初の研究。 tipsとは、ユーザの経験や感じたことを、短いテキスト（1文とか）で簡潔に記したもの。![image](https://user-images.githubusercontent ... #NeuralNetwork #ReviewGeneration #INLG
Issue Date: 2019-04-12 Towards automatic generation of product reviews from aspectsentiment scores, Zang+, INLG17 CommenthierarchicalなNNで、long reviewの生成に取り組んだ論文 ... #NeuralNetwork #ReviewGeneration #EACL
Issue Date: 2019-03-08 Learning to Generate Product Reviews from Attributes, Dong+, EACL17 Comment（たぶん）最初のreview generation論文 ... #RecommenderSystems #NeuralNetwork #NaturalLanguageGeneration #CollaborativeFiltering #ReviewGeneration #IJCNLP
Issue Date: 2019-02-01 Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP17 CommentCollaborative Filtering (CF) によるコンテンツ推薦とReview Generationを同時に学習し、両者の性能を向上させる話。非常に興味深い設定で、このような実験設定でReview Generationを行なった初めての研究。CFではMatrix Factoriza ... #Multi #DocumentSummarization #Document #Pocket #VariationalAutoEncoder #AAAI
Issue Date: 2018-10-05 Salience Estimation via Variational Auto-Encoders for Multi-Document Summarization, Li+, AAAI17 #QuestionAnswering #EMNLP
Issue Date: 2018-06-29 Learning to Paraphrase for Question Answering, Dong+, EMNLP17 Commentquestion-answeringタスクにおいて、paraphrasingを活用して精度向上させる研究似たような意味の質問が、異なる表現で出現することがあるので、 questionの様々なparaphrasingを用意して活用したいという気持ち。たとえば、 Is the camQAはデータセ ... #NeuralNetwork #Survey
Issue Date: 2018-02-04 Recent Trends in Deep Learning Based Natural Language Processing, Young+, arXiv17 #NeuralNetwork #Pocket #GenerativeAdversarialNetwork #NeurIPS
Issue Date: 2018-02-04 Adversarial Ranking for Language Generation, Lin+, NIPS17 #NeuralNetwork #MachineTranslation #Transformer #FoundationModel #Attention #NeurIPS #Admin'sPick
Issue Date: 2018-01-19 Attention is all you need, Vaswani+, NIPS17 CommentTransformer (self-attentionを利用) 論文解説スライド：https://www.slideshare.net/DeepLearningJP2016/dlattention-is-all-you-need 解説記事：https://qiita.com/nishiba/i分か ... #Dataset #Discourse #ICWSM
Issue Date: 2018-01-19 Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM17, （Reddit Coarse Discourse data） CommentRedditのDiscussion Forumに9種類のDiscourse Actsを付与したデータ。データを作成する際は、以下の処理を適用： * Google Big Query dump のRedditデータ238Mスレッド * それにReply Filterをかけ87.5Mスレッド ... #NeuralNetwork #Tutorial #MachineTranslation
Issue Date: 2018-01-15 ゼロから始めるニューラルネットワーク機械翻訳, 中澤敏明, NLP17 Comment中澤さんによるNMTチュートリアル。 ... #RecommenderSystems #Pocket #EMNLP
Issue Date: 2018-01-01 MoodSwipe: A Soft Keyboard that Suggests Messages Based on User-Specified Emotions, Huang+, EMNLP17 #Embeddings #Pocket #UserModeling #EMNLP
Issue Date: 2018-01-01 Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction, Ding+, EMNLP17 #DocumentSummarization #NeuralNetwork #Document #Supervised #Pocket #ACL
Issue Date: 2018-01-01 Coarse-to-Fine Attention Models for Document Summarization, Ling+ （with Rush）, ACL17 Workshop on New Frontiers in Summarization #Pocket #EMNLP
Issue Date: 2018-01-01 Adapting Sequence Models for Sentence Correction, Schmaltz （with Rush）, EMNLP17 #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #EMNLP #Admin'sPick
Issue Date: 2018-01-01 Challenges in Data-to-Document Generation, Wiseman+ （with Rush）, EMNLP17 Comment・RotoWire（NBAのテーブルデータ + サマリ）データを収集し公開 ![image](https://user-images.githubusercontent.com/12249301/119625430-23f1c480-be45-11eb-8ff8-5e9223d41481.png)【 ... #DocumentSummarization #Metrics #EMNLP
Issue Date: 2018-01-01 Why We Need New Evaluation Metrics for NLG, Novikova+, EMNLP17 Comment解説スライド：https://www.dropbox.com/s/7o8v64nr6gyj065/20170915_SNLP2017_Nishikawa.pptx?dl=0言語生成の評価指標が信用ならないので、3種類の生成器、3種類のデータを用意し、多数の自動評価尺度を利用した評価結果と人手評価の結 ... #Single #DocumentSummarization #NeuralNetwork #Document #Supervised #Abstractive #ACL #Admin'sPick
Issue Date: 2017-12-31 Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL17 Comment解説スライド：https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1単語の生成と単語のコピーの両方を行えるハイブリッドなニューラル文書 ... #DocumentSummarization #NeuralNetwork #Supervised #Pocket #Abstractive #EACL
Issue Date: 2017-12-31 Cutting-off redundant repeating generations for neural abstractive summarization, Suzuki+, EACL17 #Multi #DocumentSummarization #NeuralNetwork #Document #Supervised #GraphBased #GraphConvolutionalNetwork #Extractive #CoNLL
Issue Date: 2017-12-31 Graph-based Neural Multi-Document Summarization, Yasunaga+, CoNLL17 CommentGraph Convolutional Network (GCN)を使って、MDSやりましたという話。既存のニューラルなMDSモデル [Cao et al., 2015, 2017] では、sentence間のrelationが考慮できていなかったが、GCN使って考慮した。また、MDSの学習デー ... #DocumentSummarization #Survey
Issue Date: 2017-12-31 Recent Advances in Document Summarization, Yao+, Knowledge and Information Systems17 #NeuralNetwork #NaturalLanguageGeneration #Controllable #DataToTextGeneration #ConceptToTextGeneration #ICML
Issue Date: 2017-12-31 Toward Controlled Generation of Text, Hu+, ICML17 CommentText Generationを行う際は、現在は基本的に学習された言語モデルの尤度に従ってテキストを生成するのみで、outputされるテキストをcontrolすることができないので、できるようにしましたという論文。 VAEによるテキスト生成にGANを組み合わせたようなモデル。 decodingする元 ... #NeuralNetwork #ComputerVision #NaturalLanguageGeneration #ACL
Issue Date: 2017-12-31 Multi-Task Video Captioning with Video and Entailment Generation, Pasunuru+, ACL17 Comment解説スライド：https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1multitas ... #Survey #NaturalLanguageGeneration #DataToTextGeneration #ConceptToTextGeneration
Issue Date: 2017-12-31 Neural Text Generation: A Practical Guide, Xie+, arXiv17 #NeuralNetwork #Pretraining #Unsupervised #EMNLP
Issue Date: 2017-12-31 Unsupervised Pretraining for Sequence to Sequence Learning, Ramachandran+, EMNLP17 Commentseq2seqにおいてweightのpretrainingを行う手法を提案 seq2seqでは訓練データが小さいとoverfittingしやすいという弱点があるので、大規模なデータでunsupervisedにpretrainingし、その後目的のデータでfinetuneすることで精度を向上させまし ... #NeuralNetwork #EfficiencyImprovement #ACL
Issue Date: 2017-12-31 Learning to skim text, Yu+, ACL17 Comment解説スライド：http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/07.pdf![image](https://user-images.githubusercontent.com/12249301/34460775-f64d4 ... #NeuralNetwork #Embeddings #Analysis #Word #ACL
Issue Date: 2017-12-30 Skip-Gram – Zipf + Uniform = Vector Additivity, Gittens+, ACL17 Comment解説スライド：http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/09.pdfEmbeddingの加法構成性（e.g. man+royal=king）を理論的に理由づけ（解説スライドより） ... #NeuralNetwork #Embeddings #Word #NeurIPS
Issue Date: 2017-12-29 Poincare Embeddings for Learning Hierarchical Representations, Nickel+, NIPS17 Comment解説: http://tech-blog.abeja.asia/entry/poincare-embeddings 解説スライド：https://speakerdeck.com/eumesy/poincare-embeddings-for-learning-hierarchical-represe・ ... #NeuralNetwork #Sentence #Embeddings #EMNLP
Issue Date: 2017-12-28 Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP17 Commentslide: https://www.slideshare.net/naoakiokazaki/supervised-learning-of-universal-sentence-representations-from-natural-language-inference-data汎用的な文のエン ... #NeuralNetwork #Sentence #Embeddings #ICLR #Admin'sPick
Issue Date: 2017-12-28 A structured self-attentive sentence embedding, Li+ （Bengio group）, ICLR17 CommentOpenReview:https://openreview.net/forum?id=BJC_jUqxe ... #NeuralNetwork #MachineTranslation #Pocket #ACL
Issue Date: 2017-12-28 What do Neural Machine Translation Models Learn about Morphology?, Yonatan Belinkov+, ACL17 Commenthttp://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/06.pdf(2025.05.12追記)上記は2017年にすずかけ台で開催されたACL 2017読み会での解説スライドです。 ... #NeuralNetwork #MachineTranslation #ACL
Issue Date: 2017-12-28 Sequence-to-Dependency Neural Machine Translation, Wu+, ACL17 #NeuralNetwork #MachineTranslation #Pocket #EMNLP
Issue Date: 2017-12-28 Neural Machine Translation with Source-Side Latent Graph Parsing, Kazuma Hashimoto+, EMNLP17 #PersonalizedDocumentSummarization #InteractivePersonalizedSummarization #IntegerLinearProgramming (ILP)#ACL
Issue Date: 2017-12-28 Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL17, 2017.08 Comment# 一言で言うとユーザとインタラクションしながら重要なコンセプトを決め、そのコンセプトが含まれるようにILPな手法で要約を生成するPDS手法。Interactive Personalized Summarizationと似ている（似ているが引用していない、引用した方がよいのでは）。 # 手 ... #NeuralNetwork #Controllable #EMNLP #Length
Issue Date: 2025-01-03 Controlling Output Length in Neural Encoder-Decoders, Yuta Kikuchi+, EMNLP16 CommentEncoder-Decoderモデルにおいてoutput lengthを制御する手法を提案した最初の研究 ... #Pocket #Dataset #QuestionAnswering #ReadingComprehension
Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv16 SummaryNewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 CommentSQuADよりも回答をするために複雑な推論を必要とするQAデータセット。規模感はSQuADと同等レベル。 WordMatchingにとどまらず、回答が存在しない、あるいは記事中でユニークではないものも含まれる。 ...

#DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Evaluation #Coherence
Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL16 Comment__translate: Coherence is established by semantic connections between sentences of a text which can be modeled by lexical relations. In this paper, we ... #DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #Pocket
Issue Date: 2018-10-06 Neural Headline Generation with Minimum Risk Training, Ayana+, N_A, arXiv16 Summary自動見出し生成のために、最小リスクトレーニング戦略を使用してモデルパラメータを最適化し、見出し生成の改善を実現する。提案手法は英語と中国語の見出し生成タスクで最先端のシステムを上回る性能を示す。 #NeuralNetwork #NaturalLanguageGeneration #Pocket #CoNLL #Admin'sPick
Issue Date: 2018-02-14 Generating Sentences from a Continuous Space, Bowman+, CoNLL16 CommentVAEを利用して文生成【Variational Autoencoder徹底解説】 https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24 ... #NeuralNetwork #Tutorial #SentimentAnalysis #EMNLP
Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP16 #Single #DocumentSummarization #Document #DomainAdaptation #Supervised #Extractive #PRICAI
Issue Date: 2018-01-01 Learning from Numerous Untailored Summaries, Kikuchi+, PRICAI16 CommentNew York Times Annotated Corpus（NYTAC）に含まれる大量の正解要約データを利用する方法を提案。 NYTACには650,000程度の人手で生成された参照要約が付与されているが、このデータを要約の訓練データとして活用した事例はまだ存在しないので、やりましたという話。 ... #Single #DocumentSummarization #NeuralNetwork #Document #Supervised #Abstractive #ACL #Admin'sPick
Issue Date: 2017-12-31 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL16 Comment解説スライド：https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning単語のコピーと生成、両方を行えるネットワークを提案。 locati ... #Single #DocumentSummarization #NeuralNetwork #Document #Supervised #Abstractive #IJCAI
Issue Date: 2017-12-31 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI16 CommentNeuralなモデルで「文書」の要約を行う研究。提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。 distractionを導入するmotivationは、入力文書中の異なる情報を横断 ... #Single #DocumentSummarization #NeuralNetwork #Document #Supervised #Extractive #ACL
Issue Date: 2017-12-31 Neural Summarization by Extracting Sentences and Words, Cheng+, ACL16 CommentExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも ... #NaturalLanguageGeneration #Others #DataToTextGeneration #CIKM
Issue Date: 2017-12-31 Deep Match between Geology Reports and Well Logs Using Spatial Information, Tong+, CIKM16 #NeuralNetwork #NaturalLanguageGeneration #Dataset #ConceptToTextGeneration #EMNLP
Issue Date: 2017-12-31 Neural Text Generation from Structured Data with Application to the Biography Domain, Lebret+, Lebret+, EMNLP16 #Survey #NaturalLanguageGeneration #DataToTextGeneration #ConceptToTextGeneration
Issue Date: 2017-12-31 Content Selection in Data-to-Text Systems: A Survey, arXiv16, Gkatzia CommentGkatziaの"content selection"に関するSurvey ... #NeuralNetwork #BeamSearch #EMNLP
Issue Date: 2017-12-30 Sequence-to-Sequence Learning as Beam-Search Optimization, Wiseman+, EMNLP16 Commentseq2seqを学習する際には、gold-history（これまで生成した単語がgoldなものと一緒）を使用し、次に続く単語の尤度を最大化するように学習するが、これには、 1. Explosure Bias: test時ではtraining時と違いgold historyを使えないし、trai ... #NeuralNetwork #Sentence #LanguageModel #ACL
Issue Date: 2017-12-28 Larger-context language modelling with recurrent neural networks, Wang+, ACL16 Comment## 概要通常のNeural Language Modelはsentence間に独立性の仮定を置きモデル化されているが、この独立性を排除し、preceding sentencesに依存するようにモデル化することで、言語モデルのコーパスレベルでのPerplexityが改善したという話。提案した言語 ... #DocumentSummarization #NeuralNetwork #Document #Supervised #Abstractive #IJCAI
Issue Date: 2017-12-28 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI16 CommentNeuralなモデルで「文書」の要約を行う研究。提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。 distractionを導入するmotivationは、入力文書中の異なる情報を横断Dist ... #NeuralNetwork #Sentence #Embeddings #NAACL
Issue Date: 2017-12-28 Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL16 CommentSentenceのrepresentationを学習する話代表的なsentenceのrepresentation作成手法(CBOW, SkipGram, SkipThought, Paragraph Vec, NMTなど)をsupervisedな評価（タスク志向+supervised）とun ... #NeuralNetwork #MachineTranslation #ACL #Admin'sPick
Issue Date: 2017-12-28 Pointing the unknown words, Gulcehre+, ACL16 Commentテキストを生成する際に、source textからのコピーを行える機構を導入することで未知語問題に対処した話CopyNetと同じタイミングで（というか同じconferenceで）発表 ... #NeuralNetwork #MachineTranslation #Pocket #Attention #ICLR #Admin'sPick
Issue Date: 2025-05-12 Neural Machine Translation by Jointly Learning to Align and Translate, Dzmitry Bahdanau+, ICLR15 Comment(Cross-)Attentionを初めて提案した研究。メモってなかったので今更ながら追加。Attentionはここからはじまった（と認識している） ... #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Reference-based
Issue Date: 2023-08-13 chrF: character n-gram F-score for automatic MT evaluation, Mono Popovic, WMT15 Summary私たちは、機械翻訳の評価に文字n-gram Fスコアを使用することを提案します。私たちは、このメトリックがシステムレベルとセグメントレベルで人間のランキングと相関しており、特にセグメントレベルでの相関が非常に高いことを報告しました。この提案は非常に有望であり、WMT14の共有評価タスクでも最高のメトリックを上回りました。 Commentcharacter-basedなn-gram overlapをreferenceとシステムで計算する手法 ... #DocumentSummarization #NaturalLanguageGeneration #Metrics #Evaluation #Reference-based
Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR15 Summary私たちは、新しい距離関数であるWord Mover's Distance（WMD）を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 CommentWMS/SMS/S+WMS #946 はこれらからinspiredされ提案された ... #MachineTranslation #Pocket #Evaluation
Issue Date: 2023-08-13 Document-Level Machine Translation Evaluation with Gist Consistency and Text Cohesion, Gong+, DiscoMT15 #DocumentSummarization #ComputerVision #NaturalLanguageGeneration #Pocket #Evaluation #ImageCaptioning #Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR15 Summary画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #NeuralNetwork #MachineTranslation #EMNLP #Admin'sPick
Issue Date: 2021-06-02 Effective Approaches to Attention-based Neural Machine Translation, Luong+, EMNLP15 CommentLuong論文。attentionの話しはじめると、だいたいBahdanau+か、Luong+論文が引用される。 Global Attentionと、Local Attentionについて記述されている。Global Attentionがよく利用される。 Global Attentionやはり菊 ... #LanguageModel #ACL #IJCNLP #Admin'sPick
Issue Date: 2018-03-30 Unsupervised prediction of acceptability judgements, Lau+, ACL-IJCNLP15 Comment文のacceptability（容認度）論文。文のacceptabilityとは、native speakerがある文を読んだときに、その文を正しい文として容認できる度合いのこと。 acceptabilityスコアが低いと、Readabilityが低いと判断できる。言語モデルをトレーニング ... #NeuralNetwork #ACL #Admin'sPick
Issue Date: 2018-02-13 Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks, Tai+, ACL15 CommentTree-LSTM論文 ... #DocumentSummarization #Metrics #EMNLP
Issue Date: 2018-01-01 Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP15 Comment文書要約で使用されているMetric、特にBLEUやROUGEの結果（可能な１９２のパターン）と、人手の結果との相関を再分析している。その結果、BLEUがもっとも人手評価との相関が高く、ROUGE-2のPrecisionの平均(ステミング、stop words除去)がROUGEの中でbest- ... #DocumentSummarization #NeuralNetwork #Sentence #Supervised #Abstractive #EMNLP #Admin'sPick
Issue Date: 2017-12-31 A Neural Attention Model for Sentence Summarization, Rush+, EMNLP15 Comment解説スライド：https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331 ... #Single #DocumentSummarization #NeuralNetwork #Sentence #Document #Dataset #Abstractive #EMNLP #Admin'sPick
Issue Date: 2017-12-28 LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP15 CommentLarge Chinese Short Text Summarization (LCSTS) datasetを作成データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。 Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short sCop ... #NeuralNetwork #Document #Embeddings #ACL
Issue Date: 2017-12-28 A hierarchical neural autoencoder for paragraphs and documents, Li+, ACL15 Comment複数文を生成(今回はautoencoder)するために、standardなseq2seq LSTM modelを、拡張したという話。要は、paragraph/documentのrepresentationが欲しいのだが、アイデアとしては、word-levelの情報を扱うLSTM layerと ... #NeuralNetwork #Document #Embeddings #SentimentAnalysis #EMNLP
Issue Date: 2017-12-28 Document Modeling with Gated Recurrent Neural Network for Sentiment Classification, Tang+, EMNLP15 Commentword level -> sentence level -> document level のrepresentationを求め、documentのsentiment classificationをする話。 documentのRepresentationを生成するときに参考になるやも。 sen ... #DocumentSummarization #NeuralNetwork #Sentence #EMNLP #Admin'sPick
Issue Date: 2017-12-28 Sentence Compression by Deletion with LSTMs, Fillipova+, EMNLP15 Commentslide:https://www.slideshare.net/akihikowatanabe3110/sentence-compression-by-deletion-with-lstms ... #ReviewGeneration #Personalization
Issue Date: 2017-12-28 Extended Recommendation Framework: Generating the Text of a User Review as a Personalized Summary Poussevin+, CBRecsys15, 2015.09 Commentreview generationの結果をrating predictionに伝搬することで性能よくしました、という話だと思う ... #DocumentSummarization #review
Issue Date: 2023-05-08 Empirical analysis of exploiting review helpfulness for extractive summarization of online reviews, Xiong+, COLING14 Commentレビューのhelpfulnessを利用したunsupervisedなreview summarization手法を提案。helpfulessによりレビューをフィルタリングするだけでなく、トピックモデルでsentenceをクラスタリングする際にhelpfulnessの情報も活用している模様。最 ... #DocumentSummarization #Others #AAAI
Issue Date: 2018-01-01 Detecting information-dense texts in multiple news domains, Yang+, AAAI14 Commentニュース記事の第一段落目がinformativeか否か（重要なfactual informationが記述されているか否か）を分類する研究。 New York Times Annotated Corpusに対して、自動的にinformative, non-informativeなラベルづけを行う手 ... #Multi #Single #DocumentSummarization #Document #Unsupervised #GraphBased #Extractive #SIGIR
Issue Date: 2018-01-01 CTSUM: Extracting More Certain Summaries for News Articles, Wan+, SIGIR14 Comment要約を生成する際に、情報の”確実性”を考慮したモデルCTSUMを提案しましたという論文（今まではそういう研究はなかった） ``` "However, it seems that Obama will not use the platform to relaunch his stalled d解説ス ... #Single #DocumentSummarization #Document #Supervised #Abstractive #Extractive #COLING
Issue Date: 2018-01-01 Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING14 CommentHidden-semi-markovモデルを用いた単一文書要約手法を提案。通常のHMMでは一つの隠れ状態に一つのunit（要約の文脈だと文？）が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。隠れ状態に対応するunitを文だと考評価に ... #NaturalLanguageGeneration #Others #DataToTextGeneration #ACL
Issue Date: 2017-12-31 Comparing Multi-label Classification with Reinforcement Learning for Summarization of Time-series Data, Gkatzia+, ACL14 #Multi #DocumentSummarization #Extractive #ACL #Admin'sPick
Issue Date: 2017-12-28 Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL14 Comment## 概要だいぶ前に読んだ。好きな研究。テキストのsentenceを階層的にクラスタリングすることで、抽象度が高い情報から、関連する具体度の高いsentenceにdrill downしていけるInteractiveな要約を提案している。 ## 手法通常のMDSでのデータセットの規模は上位に紐 ... #Multi #DocumentSummarization #Dataset #QueryBiased #Extractive #ACL #Admin'sPick
Issue Date: 2017-12-28 Query-Chain Focused Summarization, Baumel+, ACL14 Comment[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf)上記スライドは私が当時 ... #DocumentSummarization #Evaluation
Issue Date: 2023-08-23 Automatically Assessing Machine Summary Content Without a Gold Standard, Louis+（w_ Nenkova）, ACL13 Summary本研究では、要約の評価において新しい技術を提案しています。これにより、人間の要約が利用できない場合や、単一のモデルしか利用できない場合でも正確な評価が可能となります。具体的には、モデルに依存しない評価技術や、システム要約の類似性を定量化する尺度などを提案しています。これにより、要約の評価を人間の評価と正確に再現することができます。また、擬似モデルを導入することで、利用可能なモデルのみを使用する場合よりも人間の判断との相関が高くなることも示しています。さらに、システム要約のランキング方法についても探求しており、驚くほど正確なランキングが可能となります。 Commentメタ評価の具体的な手順について知りたければこの研究を読むべし ... #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Evaluation #Coherence
Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL13 Summary私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #MachineTranslation #Alignment
Issue Date: 2018-01-15 The Mathematics of Statistical Machine Translation: Parameter Estimation, Brown+, CL13 CommentIBMモデル論文。 ... #NaturalLanguageGeneration #SingleFramework #ConceptToTextGeneration #EMNLP
Issue Date: 2017-12-31 Inducing document plans for concept-to-text generation, Konstas+, EMNLP13 #DocumentSummarization #Pocket #Evaluation #CrossLingual
Issue Date: 2023-08-13 Evaluating the Efficacy of Summarization Evaluation across Languages, Koto+ （w_ Tim先生）, Findings of ACL12 Summaryこの研究では、異なる言語の要約コーパスを使用して、マルチリンガルBERTを用いたBERTScoreが他の要約評価メトリックスよりも優れたパフォーマンスを示すことが示されました。これは、英語以外の言語においても有効であることを示しています。 #DocumentSummarization #MachineTranslation #NaturalLanguageGeneration #Metrics #Evaluation #Coherence
Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP12 Summaryこの論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 CommentRC-LC ... #PersonalizedDocumentSummarization #Personalization
Issue Date: 2023-05-05 Context-enhanced personalized social summarization, Po+, COLING12, 18 Commentざっくり言うと、ソーシャルタギングシステムにおいて、ユーザ uと類似したユーザのタグ付け情報と、原文書d _と同じトピックに属する文書をそれぞれ考慮することによって、ユーザのinterestに関する情報（と原文書のinformativenessに関する情報）を拡張し、これらの情報を活用して、全てのク ... #DocumentSummarization #Survey
Issue Date: 2017-12-31 A Survey of Text Summarization Techniques, Nenkova+, Springer12 #NaturalLanguageGeneration #SingleFramework #ConceptToTextGeneration #NAACL
Issue Date: 2017-12-31 Unsupervised concept-to-text generation with hypergraphs, Konstas+, NAACL-HLT12 #Multi #PersonalizedDocumentSummarization #InteractivePersonalizedSummarization #EMNLP #Admin'sPick
Issue Date: 2017-12-28 Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP11, 2011.07 Comment![image](https://user-images.githubusercontent.com/12249301/34400733-97c86614-ebd7-11e7-9fe9-a6b36c726a21.png) ユーザとシステムがインタラクションしながら個人向けの要約を生成するタスク ... #DocumentSummarization #Evaluation #QA-based
Issue Date: 2023-08-20 Discourse constraints for document compression, Clarke+ （w_ Lapata）, Computational Linguistics10 CommentQAベースドなアプローチを人手評価に導入した初めての研究 ... #NaturalLanguageGeneration #RuleBased #DataToTextGeneration
Issue Date: 2017-12-31 Generating approximate geographic descriptions, Turner+, ENLG10 #NaturalLanguageGeneration #SingleFramework #ConceptToTextGeneration #COLING
Issue Date: 2017-12-31 Generative alignment and semantic parsing for learning from ambiguous supervision, Kim+, COLING10 #NaturalLanguageGeneration #SingleFramework #DataToTextGeneration #EMNLP
Issue Date: 2017-12-31 A simple domain-independent probabilistic approach to generation, Angeli+, EMNLP10 #NaturalLanguageGeneration #SingleFramework #DataToTextGeneration
Issue Date: 2017-12-31 Training a multilingual sportscaster: Using perceptual context to learn language, Chen+, Artificial Intelligence Research10 #NaturalLanguageGeneration #Others #ConceptToTextGeneration #ACL #IJCNLP
Issue Date: 2017-12-31 Learning semantic correspondences with less supervision, Liang+, ACL-IJCNLP09 #NaturalLanguageGeneration #Others #DataToTextGeneration
Issue Date: 2017-12-31 Verbalizing time-series data: with an example of stock price trends, Kobayashi+, IFSA-EUSFLAT09 Comment小林先生の論文 Least Square Methodによって数値データにfittingするcurveを求める。 curveの特徴から、生成するテキストのtrendsを決定する。 ![image](https://user-images.githubusercontent.com/12 ... #Single #PersonalizedDocumentSummarization #Search
Issue Date: 2017-12-28 Incremental Personalised Summarisation with Novelty Detection, Campana+, FQAS09, 2009.10 #DocumentSummarization #Metrics #Evaluation #Reference-free
Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing08 Summaryこの論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #Pocket #MultitaskLearning #ICML #Admin'sPick
Issue Date: 2018-02-05 A unified architecture for natural language processing: Deep neural networks with multitask learning, Collobert+, ICML2008. CommentDeep Neural Netを用いてmultitask learningを行いNLPタスク（POS tagging, Semantic Role Labeling, Chunking etc.）を解いた論文。被引用数2000を超える。 multitask learningの学習プロセスな ... #NaturalLanguageGeneration #Others #ConceptToTextGeneration #EMNLP
Issue Date: 2017-12-31 A generative model for parsing natural language to meaning representations, Lu+, EMNLP08 #NaturalLanguageGeneration #SingleFramework #DataToTextGeneration #ICML
Issue Date: 2017-12-31 Learning to sportscast: a test of grounded language acquisition, Chen+, ICML08 #Multi #PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized PageRank based Multi-document summarization, Liu+, WSCS 08, 2008.07 Comment・クエリがあるのが前提・基本的にPersonalized PageRankの事前分布を求めて，PageRankアルゴリズムを適用する・文のsalienceを求めるモデルと（パラグラフ，パラグラフ内のポジション，statementなのかdialogなのか，文の長さ），クエリとの関連性をはかるr ... #PersonalizedDocumentSummarization #Analysis
Issue Date: 2017-12-28 Aspect-Based Personalized Text Summarization, Berkovsky+（Tim先生のグループ）, AH2008, 2008.07 Comment![image](https://user-images.githubusercontent.com/12249301/34401031-b72623e0-ebda-11e7-9da2-6ce16b630f47.png) Aspect-basedなPDSに関して調査した研究。たとえば、Wi ... #PersonalizedDocumentSummarization #WI
Issue Date: 2017-12-28 Generating Personalized Summaries Using Publicly Available Web Documents, Kumar+, WI-IAT08, 2008.12 Comment評価5人の研究者による人手評価。25種類の異なるトピックが選択され、各トピックには5-10の記事が紐づいている。generic,personalizedな要約を提示しrelevanceを判定してもらった。具体的には、informativenessを5段階評価。データ非公開、ニュース記事を使っ ... #MachineTranslation #LanguageModel #Admin'sPick
Issue Date: 2024-12-24 Large Language Models in Machine Translation, Brants+, EMNLP-CoNLL07 CommentThis paper reports on the benefits of large scale statistical language modeling in machine translation. A distributed infrastructure is proposed which ... #DocumentSummarization #Metrics #Evaluation #Reference-based #TrainedMetrics
Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management07 Summary要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル（VRM）を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 CommentVRM ... #Multi #DocumentSummarization #Document #IntegerLinearProgramming (ILP)#Extractive #ECIR #Admin'sPick
Issue Date: 2018-01-17 A study of global inference algorithms in multi-document summarization, Ryan McDonald, ECIR07 Comment文書要約をナップサック問題として定式化し、厳密解（動的計画法、ILP Formulation）、近似解(Greedy)を求める手法を提案。 ... #Single #DocumentSummarization #Document #Supervised #IJCAI
Issue Date: 2017-12-31 Document Summarization using Conditional Random Fields, Shen+, IJCAI07 CommentCRFを用いて単一文書要約の手法を考えましたという話。気持ちとしては、 ``` 1. Supervisedなモデルでは、当時は原文書中の各文を独立に2値分類して要約を生成するモデルが多く、sentence間のrelationが考慮できていなかった 2. unsupervisedな手法で ... #MachineLearning #DomainAdaptation #ACL #Admin'sPick
Issue Date: 2017-12-31 Frustratingly easy domain adaptation, Daume, ACL07 Comment![image](https://user-images.githubusercontent.com/12249301/34462211-f3428130-ee81-11e7-8a06-36e66bd19b2f.png) domain adaptationをする際に、Source側のFeatu ... #NaturalLanguageGeneration #SingleFramework #ConceptToTextGeneration
Issue Date: 2017-12-31 Automatic generation of textual summaries from neonatal intensive care data, Porter+, AIME07 CommentBabyTalk論文 ... #Survey #NaturalLanguageGeneration #DataToTextGeneration #ConceptToTextGeneration
Issue Date: 2017-12-31 An Architecture for Data to Text Systems, Reiter, ENLG07 CommentNLG分野で有名なReiterらのSurvey。 NLGシステムのアーキテクチャなどが、体系的に説明されている。 ![image](https://user-images.githubusercontent.com/12249301/34460822-72bc8296-ee5d-11e7-8 ... #DocumentSummarization #GraphBased #Comments #Extractive #CIKM
Issue Date: 2017-12-28 Comments-Oriented Blog Summarization by Sentence Extraction, CIKM07, Hu+, 2007, 2007.11 #NaturalLanguageGeneration #DataDriven #ConceptToTextGeneration #NAACL
Issue Date: 2017-12-31 Aggregation via set partitioning for natural language generation, Barzilay+, HLT-NAACL06 #NaturalLanguageGeneration #RuleBased #DataToTextGeneration
Issue Date: 2017-12-31 Choosing words in computer-generated weather forecasts, Reiter+, Artificial Intelligence05 Comment## タスク天気予報の生成, システム名 SUMTIME ## 手法概要ルールベースな手法，weather prediction dataから（将来の気象情報をシミュレーションした数値データ），天気予報を自動生成．corpus analysisと専門家のsuggestを通じて，どのよ ... #NaturalLanguageGeneration #DataDriven #ConceptToTextGeneration #EMNLP
Issue Date: 2017-12-31 Collective content selection for concept-to-text generation, Barzilay+, HLT_EMNLP05 #Multi #DocumentSummarization #Classic
Issue Date: 2023-08-27 Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies, Radev+, Information Processing & Management04 CommentMEAD, Centroid-basedな手法で要約を実施する古典的なMDS手法 ... #DocumentSummarization #OpinionMining #review
Issue Date: 2023-05-08 Mining and summarizing customer reviews, Hu+, KDD04 Commentレビュー中のユーザが記述したopinion sentenceを同定し、極性がpos/negのどちらかを判定し、pos/negそれぞれの代表的なsentenceを抽出することで要約する手法評価をする際は、Amazon等のレビューを収集し、人間がレビューを読み、どれがopinion senten ... #MachineTranslation #Metrics
Issue Date: 2021-06-25 機械翻訳自動評価指標の比較, 今村+, NLP04 CommentBLEUスコア、NISTスコア、WordErrorRate(WER)などに関して丁寧かつ簡潔に解説してある。 BLEUスコア算出に利用するN-gramは一般的にはN=4が用いられる、といった痒いところに手が届く情報も書いてある。普段何気なく使っているBLEUスコアで、あれ定義ってどんなだっけ？実際 ... #Multi #DocumentSummarization #Document #Extractive #COLING
Issue Date: 2018-01-17 A Formal Model for Information Selection in Multi-Sentence Text Extraction, Filatova+, COLING04 Comment初めて文書要約を最大被覆問題として定式化した研究。 ... #DocumentSummarization #Alignment #EMNLP
Issue Date: 2018-01-15 A Phrase-Based HMM Approach to Document_Abstract Alignment, Daume+, EMNLP04 CommentAbstractsとSource TextのAlignmentをとるために、Phrase-Based HMMを提案。 Ziff-Davis Corpusのテキストに対して、2人のannotatorによってgold standardを作成。評価においてMTにおけるIBM Model4やHMM b ... #Single #DocumentSummarization #Document #GraphBased #Extractive #EMNLP #Admin'sPick
Issue Date: 2018-01-01 TextRank: Bringing Order into Texts, Mihalcea+, EMNLP04 CommentPageRankベースの手法で、キーワード抽出/文書要約を行う手法。キーワード抽出/文書要約を行う際には、ノードをそれぞれ単語/文で表現する。ノードで表現されている単語/文のsimilarityを測り、ノード間のedgeの重みとすることでAffinity Graphを構築。あ単一文 ... #MachineTranslation #Tools #Alignment
Issue Date: 2018-01-15 A systematic comparison of various statistical alignment models, Och+, CL03, Giza++ Comment標準的に利用される単語アライメントツール評価の際は、Sure, Possibleの二種類のラベルによる単語アライメントのground-truth作成も行っている ... #NaturalLanguageGeneration #RuleBased #ConceptToTextGeneration
Issue Date: 2017-12-31 Coral: Using natural language generation for navigational assistance, Dale+, Australasian computer science conference03 #DocumentSummarization #Document #NAACL #Admin'sPick
Issue Date: 2018-01-21 Cut and paste based text summarization, Jing+, NAACL00 CommentAbstractiveなSummarizationの先駆け的研究。 AbstractiveなSummarizationを研究するなら、押さえておいたほうが良い。 ... #DocumentSummarization #Alignment
Issue Date: 2018-01-15 Generating Extraction-Based Summaries from Hand-Written Summaries by Aligning Text Spans, Banko+, PACLING99 Comment文を単位とし、文を文中の単語の出現頻度ベクトルで表し、ベクトル間の距離で文間の類似度を計ることで自由作成要約中の文と現文中の文をもっとも類似度が大きくなるように対応づける。（奥村先生のSurveyより：https://www.jstage.jst.go.jp/article/jnlp1994/9 ... #DocumentSummarization #InformationRetrieval #Search #SIGIR #Admin'sPick
Issue Date: 2018-01-17 The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR98 CommentMaximal Marginal Relevance (MMR) 論文。検索エンジンや文書要約において、文書/文のランキングを生成する際に、既に選んだ文書と類似度が低く、かつqueryとrelevantな文書をgreedyに選択していく手法を提案。 ILPによる定式化が提案される以前のMult ... #MachineTranslation #Alignment #COLING
Issue Date: 2018-01-15 HMM-based word alignment in statistical translation, Vogel+, COLING96 #Single #DocumentSummarization #Document #Extractive
Issue Date: 2018-01-01 Automatic condensation of electronic publications by sentence selection, Brandow+, Information Processing & Management95 Comment報道記事要約において、自動要約システムがLead文に勝つのがhardだということを示した研究 ... #DocumentSummarization #Document #Supervised #Extractive #SIGIR
Issue Date: 2017-12-31 A Trainable Document Summarizer, Kupiec+, SIGIR95 #NaturalLanguageGeneration #RuleBased #DataToTextGeneration
Issue Date: 2017-12-31 Using natural language processing to produce weather forecasts, Goldberg+, IEEE Expert: Intelligent Systems and Their Applications94 Comment## タスク天気予報の生成，システム名 FOG (EnglishとFrenchのレポートを作成できる) ## 手法概要ルールベースな手法，weather predictinon dataから，天気予報を自動生成．Text Planner がルールに従い各sentenceに入れる情報を抽 ... #PersonalizedDocumentSummarization
Issue Date: 2023-05-13 The Identification of Important Concepts in Highly Structured Technical Papers, ACL-SIGIR93 Commentユーザは自分が興味があるpartをsummary evaluationにおいて選択する傾向にある、ということを示した研究 ... #NaturalLanguageGeneration #RuleBased #DataToTextGeneration #ACL
Issue Date: 2017-12-31 Design of a knowledge-based report generator, Kukich, ACL83 Comment## タスク numerical stock market dataからstock market reportsを生成，我々と同様なタスク．システム名: ANA ## 手法概要ルールベースな手法， 1) fact-generator, 2) message generator,Data2Text ... #Article #ComputerVision #LanguageModel #MulltiModal #OpenWeight #MoE(Mixture-of-Experts)
Issue Date: 2025-06-30 ERNIE 4.5 Series, ERNIE TEAM, 2025.06 CommentTech Report:https://yiyan.baidu.com/blog/publication/ERNIE_Technical_Report.pdf元ポスト:https://x.com/paddlepaddle/status/1939535276197744952?s=46&t=Y6UuI ... #Article #LanguageModel #Reasoning #OpenWeight
Issue Date: 2025-06-27 Hunyuan-A13B-Instruct, tencent, 2025.06 Comment元ポスト:https://x.com/arankomatsuzaki/status/1938515928221995066?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QMoEアーキテクチャ, 80B-A13Bfast, slow thinking mode256k context wi ... #Article #LanguageModel #OpenWeight #Japanese
Issue Date: 2025-06-25 Swallow LLM Leaderboard, Swallow LLM Team Comment関連:#1096#1055 ... #Article #EfficiencyImprovement #LanguageModel #Library #Repository #PostTraining
Issue Date: 2025-06-25 Nemo-RL, Nvidia, 2025.05 #Article #Tutorial #Pretraining #Dataset #LanguageModel #Evaluation #Blog #OpenWeight #Japanese #PostTraining
Issue Date: 2025-06-25 LLM-jp-3.1 シリーズ instruct4 の公開, LLM-jp, 2025.05 Comment関連#2089#2090#2091 ... #Article #LanguageModel #RLHF #Blog #Verification
Issue Date: 2025-06-24 人間を騙してサボるAIたち, joisino, 2025.06 #Article #ComputerVision #LanguageModel #MulltiModal #OpenWeight
Issue Date: 2025-06-24 Kimi-VL-A3B-Thinking-2506, moonshotai, 2025.06 Comment元ポスト:https://x.com/reach_vb/status/1937159672932286950?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q様々なベンチマークでSoTA(gpt4o, Qwen2.5-VL-7B)を達成したReasoning VLM ... #Article #LLMAgent #Blog #Programming #SoftwareEngineering
Issue Date: 2025-06-23 AI Agent Manager （AAM）として生きていく : 作業環境とワークフローの設計, icoxfog417, 2025.06 Comment元ポスト:https://x.com/icoxfog417/status/1936929479324319807?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #LanguageModel #Blog #Repository #LLMServing
Issue Date: 2025-06-22 Nano-vLLM, GeeeekExplorer, 2025.06 Comment元ポスト:https://x.com/marktechpost/status/1936689592507543643?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QvLLMと同等のinference speedを実現するミニマムでクリーンな実装。勉強用に良さそう。 ... #Article #LanguageModel #ReinforcementLearning #Repository #PostTraining
Issue Date: 2025-06-21 POLARIS: A Post-Training Recipe for Scaling Reinforcement Learning on Advanced Reasoning Models, Comment元ポスト:https://x.com/_akhaliq/status/1936233712510718361?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QPJで利用されているRLライブラリ:#1969AIME2025のみの評価だが4Bでこの性能…？![image](https://gi ... #Article #LLMAgent #Blog #read-later
Issue Date: 2025-06-21 Single vs Multi-Agent System?, PHILSCHMID, 2025.06 Comment元ポスト:https://x.com/_philschmid/status/1935985099171840140?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:#2050 ... #Article #LLMServing
Issue Date: 2025-06-20 Mirage Persistent Kernel: Compiling LLMs into a MegaKernel, 2025.06 CommentvLLM, SGLangよりもデコーディングが早い模様（図は下記ブログより引用）![image](https://github.com/user-attachments/assets/0a2bf0e5-0d3f-4dd0-a912-6ce05ead2cad)ブログ:https://zhihao元ポス ... #Article #LanguageModel #read-later
Issue Date: 2025-06-18 Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities, Gemini Team, 2025.06 Comment関連ポスト:https://x.com/jaguring1/status/1935203032922485080?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポスト:https://x.com/_philschmid/status/1935019697683980603?s=46& ... #Article #Multi #LLMAgent #Blog #read-later
Issue Date: 2025-06-17 Don’t Build Multi-Agents, Cognition, 2025.06 Comment元ポスト:https://x.com/ngo275/status/1934819225111285852?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #LanguageModel #Reasoning #OpenWeight #MoE(Mixture-of-Experts)
Issue Date: 2025-06-17 MiniMax-M1, MiniMax, 2025.06 Comment元ポスト:https://x.com/arankomatsuzaki/status/1934642204397744137?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qベンチマーク![image](https://github.com/user-attachments/assets/e ... #Article #LanguageModel #Zero/FewShotLearning #Admin'sPick
Issue Date: 2025-06-15 Language Models are Unsupervised Multitask Learners, Radford+, OpenAI, 2019 Comment今更ながら、GPT-2論文をメモってなかったので追加。従来のモデルは特定のタスクを解くためにタスクごとに個別のモデルをFinetuningする必要があったが、大規模なWebTextデータ（Redditにおいて最低3つのupvoteを得たポストの外部リンクを収集）によって言語モデルを訓練し、モデル ... #Article #Unsupervised #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2025-06-12 Unsupervised Elicitation of Language Models, Wen+, Anthropic, 2025.06 Comment元ポスト:https://x.com/jiaxinwen22/status/1932908642858418441?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #Embeddings #LanguageModel #OpenWeight
Issue Date: 2025-06-06 Qwen_Qwen3-Embedding-4B-GGUF, QwenTeam, 2025.06 Comment8BモデルはMTEBでトップの性能を達成。context 32K。100以上の言語をサポート。32--2560次元にoutputの次元数をカスタマイズできる（嬉しい、が性能にどの程度影響が出るから気になる）。元ポスト:https://x.com/huggingpapers/status/193073 ... #Article #Tutorial #Pretraining #MachineLearning #LanguageModel #Transformer #Chain-of-Thought #In-ContextLearning #Attention #DiffusionModel #SSM (StateSpaceModel)#Scaling Laws #PostTraining
Issue Date: 2025-05-31 2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」, Taiji Suzuki, 2025.05 Comment元ポスト:https://x.com/btreetaiji/status/1927678122817921442?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #LanguageModel #SmallModel #Slide
Issue Date: 2025-05-28 SSII2025 OS1-03 PFNにおけるSmall Language Modelの開発, 鈴木脩司, 画像センシングシンポジウム, 2025.05 Comment元ポスト:https://x.com/_stakaya/status/1927588359217844702?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連#1827#1828#1999#766先行研究を元に仮説を立てて、有望なアプローチを取る意思決定が非常に勉強になる。Scalin ... #Article #Analysis #LanguageModel #Mathematics #SmallModel #RLVR
Issue Date: 2025-05-27 Spurious Rewards: Rethinking Training Signals in RLVR, Shao+, 2025.05 Comment元ポスト:https://x.com/stellalisy/status/1927392717593526780?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考（考察）: https://x.com/weiliu99/status/1930826904522875309?s=46&t ... #Article #Tutorial #ComputerVision #LanguageModel #DiffusionModel #Slide
Issue Date: 2025-05-24 【DL輪読会】 Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models, Deep Learning JP, 2025.05 Comment元ポスト:https://x.com/kym384/status/1925852937835737569?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1986 でLiteratureをざっくり把握してからこちらを読むのが良さそう。 ... #Article #Tutorial #ComputerVision #LanguageModel #DiffusionModel #Slide
Issue Date: 2025-05-24 Masked Diffusion Modelの進展, Deep Learning JP, 2025.03 Comment元ポスト:https://x.com/kym384/status/1925852884656099572?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qスライド中のARのようにKV Cacheが使えない問題に対処した研究が#1984この辺はdLLMが有望であれば、どんどん進化していくのだ ... #Article #ComputerVision #Dataset #LanguageModel #AWS #MulltiModal #Blog #Japanese
Issue Date: 2025-05-20 Webスケールの日本語-画像のインターリーブデータセット「MOMIJI」の構築 _巨大テキストデータをAWSで高速に処理するパイプライン, Turing （studio_graph）, 2025.05 Comment貴重なVLMデータセット構築ノウハウ青塗りのフィルタリングタスクを具体的にどうやっているのか気になる ... #Article #LanguageModel #LLMAgent #Blog #Coding
Issue Date: 2025-05-18 OpenAI-Codex, OpenAI, 2025.05 CommentOpenHandsのNeubig氏が、OpenAIのブログポスト中で報告されているSWE-Bench Verifiedのスコアについて、言及している。OpenAIは23個サンプルについて(internal infrastructureで動作させられないため)除外しているので、その分スコアに下駄が履か ... #Article #Pocket #LanguageModel #LLMAgent #Coding
Issue Date: 2025-05-17 AlphaEvolve: A coding agent for scientific and algorithmic discovery, Novikov+, Google DeepMind, 2025.05 Commentblog post:https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/ ... #Article #LanguageModel #Library #ReinforcementLearning
Issue Date: 2025-05-16 verl: Volcano Engine Reinforcement Learning for LLMs, ByteDance Seed Team, 2025.04 CommentSoTAなRLアルゴリズムを数行のコードで実装可能で、Sequence Parallelismがサポートされているので長い系列を扱える。FSDP, Megatron-LM,vLLM,SGLangなどとシームレスに統合できるっぽい？ ... #Article #LanguageModel #InstructionTuning #PostTraining #Admin'sPick
Issue Date: 2025-05-12 Stanford Alpaca: An Instruction-following LLaMA Model, Taori +, 2023.03 Comment今更ながらメモに追加。アカデミアにおけるOpenLLMに対するInstruction Tuningの先駆け的研究。 ... #Article #Library #Supervised-FineTuning (SFT)#Blog #OpenWeight #MoE(Mixture-of-Experts)#PostTraining
Issue Date: 2025-05-11 ms-swiftによるMegatron-LMベースのQwen3のファインチューニング, Aratako, 2025.05 Comment元ポスト:https://x.com/aratako_lm/status/1921401994532487174?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QMegatron-SWIFTというAlibaba製のライブラリを利用しQwen3の継続事前学習とSFTを実施する方法を、ベストプ ... #Article #Analysis #Library #LLMAgent #Blog
Issue Date: 2025-05-06 Agent Frameworkはどれを使うべきかタスク性能編, はち, 2025.05 Comment各フレームワーク毎の性能の違いや消費したトークン数、実装の微妙や違いがまとめられており、太字でtakeawayが記述されているので非常にわかりやすい。元ポスト:https://x.com/curveweb/status/1919301208096866660?s=46&t=Y6UuIHB0Lv0Ip ... #Article #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Reasoning #SmallModel #OpenWeight #GRPO
Issue Date: 2025-05-01 Phi-4-reasoning Technical Report, 2025.04 Comment元ポスト:https://x.com/dimitrispapail/status/1917731614899028190?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qこちらの解説が非常によくまとまっている:https://x.com/_philschmid/status/1918216 ... #Article #LanguageModel #Alignment #Supervised-FineTuning (SFT)#ReinforcementLearning #InstructionTuning #Blog #LongSequence #MultiLingual #OpenWeight #MoE(Mixture-of-Experts)#PostTraining
Issue Date: 2025-04-29 Qwen3, Qwen Team, 2025.04 Comment119言語をサポートMoEモデル #1911 30B-A3B / 235B-A22N 128K context window Qwen2.5はMoEを採用していないので新たなアーキテクチャとなるDenseモデル（非MoEモデル）も公開BestPracticeに関するポスト:http ... #Article #LanguageModel #LLMAgent #Blog #Repository
Issue Date: 2025-04-26 Deepwiki, Cognition, 2025.04 Commentgithubリポジトリに関するリッチなドキュメントに対してDevinを通じて対話的に質問ができる模様。サインアップ不要で、githubリポジトリのドメインをdeepwikiに変えるだけで利用可能 ... #Article #ComputerVision #Pocket #LLMAgent #MulltiModal #Blog #Reasoning #OpenWeight #x-Use
Issue Date: 2025-04-18 Introducing UI-TARS-1.5, ByteDance, 2025.04 Commentpaper:https://arxiv.org/abs/2501.12326色々と書いてあるが、ざっくり言うとByteDanceによる、ImageとTextをinputとして受け取り、TextをoutputするマルチモーダルLLMによるComputer Use Agent (CUA)関連#1794元 ... #Article #LanguageModel #Reasoning #OpenWeight
Issue Date: 2025-04-12 Seed-Thinking-v1.5, ByteDance, 2025.04 CommentDeepSeek-R1を多くのベンチで上回る200B, 20B activated paramのreasoning model最近のテキストのOpenWeightLLMはAlibaba, DeepSeek, ByteDance, Nvidiaの4強という感じかな…？（そのうちOpenAIがオープンに ... #Article #Dataset #LanguageModel #Evaluation #LongSequence
Issue Date: 2025-04-09 Fiction.liveBench, 2025.04 Commentlong contextではGemini-2.5-proの圧勝 ... #Article #Tools #Dataset #LanguageModel #API
Issue Date: 2025-04-08 BFCLv2, UC Berkeley, 2024.08 CommentLLMのTool Useを評価するための現在のデファクトスタンダードとなるベンチマーク ... #Article #LanguageModel #Alignment #Supervised-FineTuning (SFT)#ReinforcementLearning #InstructionTuning #Pruning #Reasoning #OpenWeight
Issue Date: 2025-04-08 Llama-3_1-Nemotron-Ultra-253B-v1, Nvidia, 2025.04 CommentDeepSeek-R1をGPQA Diamond #1155, AIME2024/2025, Llama4 MaverickをBFCLv2（Tool Calling, #1875), IFEVal #1137 で上回り, そのほかはArenaHardを除きDeepSeekR1と同等![image元ポ ... #Article #LanguageModel #DiffusionModel #OpenWeight
Issue Date: 2025-04-08 Dream-v0-Instruct-7B, Dream-org, 2025.04 CommentOpenWeightな拡散言語モデル元ポスト:https://x.com/curveweb/status/1909551257725133132?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q関連:#1776 ... #Article #ComputerVision #LanguageModel #MulltiModal #OpenWeight
Issue Date: 2025-04-05 Llama 4 Series, Meta, 2025.04 CommentDownloads:https://www.llama.com/?utm_source=twitter&utm_medium=organic_social&utm_content=image&utm_campaign=llama4Huggingface:https://huggingface.co/ ... #Article #LanguageModel #OpenWeight #SoftwareEngineering
Issue Date: 2025-04-02 openhands-lm-32b-v0.1, all-hands, 2025.03 CommentQwen Coder 2.5 Instruct 32Bに基づく最先端のSWEタスクが実行可能なモデル ... #Article #RecommenderSystems #Survey #LanguageModel #Blog
Issue Date: 2025-03-31 Recommendation Systems • LLM, vinjia.ai, 2025.03 Comment元ポスト:https://www.linkedin.com/posts/vinija_recommendation-systems-llm-activity-7306171374446727168-cUg2?utm_source=share&utm_medium=member_ios&rcm=ACo ... #Article #ComputerVision #LanguageModel #MulltiModal #OpenWeight
Issue Date: 2025-03-25 Qwen2.5-VL-32B-Instruct, Qwen Team, 2025.03 Comment元ポスト:https://x.com/alibaba_qwen/status/1904227859616641534?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #Analysis #LanguageModel #Blog
Issue Date: 2025-03-25 言語モデルの物理学, 佐藤竜馬, 2025.03 Comment必読 ... #Article #ComputerVision #EfficiencyImprovement #Pretraining #LanguageModel #Transformer #Supervised-FineTuning (SFT)#MulltiModal #Blog #SSM (StateSpaceModel)
Issue Date: 2025-03-24 Nemotron-H: A Family of Accurate, Efficient Hybrid Mamba-Transformer Models, Nvidia, 2025.03 Comment関連:#1820TransformerのSelf-attention LayerをMamba2 Layerに置換することで、様々なベンチマークで同等の性能、あるいは上回る性能で3倍程度のInference timeの高速化をしている（65536 input, 1024 output）。56B程度のm ... #Article #Survey #Embeddings #Pocket #LanguageModel #Blog #PositionalEncoding
Issue Date: 2025-03-23 8 Types of RoPE, Kseniase, 2025.03 Comment元ポスト:https://huggingface.co/posts/Kseniase/498106595218801RoPEについてサーベイが必要になったら見る ... #Article #Tools #Pocket #LanguageModel #Chain-of-Thought #Blog #Reasoning
Issue Date: 2025-03-23 The think tool: Enabling Claude to stop and think in complex tool use situations, Anthropic, 2025.03 Comment"考える"ことをツールとして定義し利用することで、externalなthinkingを明示的に実施した上でタスクを遂行させる方法を紹介している ... #Article #MachineLearning #Pocket #LanguageModel #Reasoning #GRPO #read-later
Issue Date: 2025-03-22 Understanding R1-Zero-Like Training: A Critical Perspective, 2025.03 Comment関連研究:#1815解説ポスト:https://x.com/wenhuchen/status/1903464313391624668?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q解説ポストを読むと、DAPOでの　Token Level Policy UpdateのようなLengthに対 ... #Article #LanguageModel #Reasoning #ProprietaryLLM #SSM (StateSpaceModel)
Issue Date: 2025-03-22 Huayuan T1, Tencent, 2025.03 Comment元ポスト:https://x.com/txhunyuan/status/1903121005809373386?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q画像はブログより引用。DeepSeek-R1と比較すると優っているタスクと劣っているタスクがあり、なんとも言えない感。GPT4.5 ... #Article #Dataset #LanguageModel #Reasoning
Issue Date: 2025-03-21 Sudoku-bench, SakanaAI, 2025.03 CommentSudoku-Bench features the kind of Sudoku puzzles featured on Cracking the Cryptic (CTC). These Sudoku variants employ unique rulesets to evoke creativ ... #Article #LanguageModel #Reasoning #OpenWeight
Issue Date: 2025-03-19 Llama Nemotron, Nvidia, 2025.03 CommentNvidiaによる初めてのreasoning model。元ポスト:https://x.com/kuchaev/status/1902078122792775771?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QArtificial Analysisにやるベンチマーク:https://x ... #Article #LanguageModel #Reasoning #OpenWeight
Issue Date: 2025-03-18 EXAONE-Deep-32B, LG AI Research, 2025.03 Comment元ポスト:https://x.com/ai_for_success/status/1901908168805912602?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QEXAONE AI Model License Agreement 1.1 NC商用利用不可 ... #Article #ComputerVision #LanguageModel #MulltiModal #OpenWeight
Issue Date: 2025-03-18 SmolDocling-256M, IBM Research, 2025.03 Comment元ポスト:https://www.linkedin.com/posts/andimarafioti_we-just-dropped-%F0%9D%97%A6%F0%9D%97%BA%F0%9D%97%BC%F0%9D%97%B9%F0%9D%97%97%F0%9D%97%BC%F0%9D%97%B0 ... #Article #ComputerVision #LanguageModel #MulltiModal #ProprietaryLLM
Issue Date: 2025-03-17 ERNIE4.5_X1, Baidu, 2025.03 Comment解説ポスト:https://x.com/ai_for_success/status/1901149459826045223?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QERNIE4.5はGPT4.5をさまざまなベンチマークで上回り、価格がなんとGPT4.5の1%X1はマルチモーダルなr ... #Article #ComputerVision #LanguageModel #MulltiModal #OpenWeight
Issue Date: 2025-03-17 sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03 Comment元ポスト:https://x.com/sei_shinagawa/status/1901467733331701966?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QVLM。Xに散見される試行例を見ると日本語の読み取り性能は結構高そうに見える。モデル構成、学習の詳細、および評価:http ... #Article #Library #LLMAgent
Issue Date: 2025-03-16 The TypeScript Agent Framework, mastra, 2025.03 Comment日本語解説:https://zenn.dev/yosh1/articles/mastra-ai-agent-framework-guide ... #Article #LanguageModel #Supervised-FineTuning (SFT)#Slide
Issue Date: 2025-03-16 LLM 開発を支える多様な Fine-Tuning：PFN での取り組み, 中鉢魁三郎, PFN, 2025.03 Comment知識の追加の部分で下記研究が引用されている#1371#1640 ... #Article #LanguageModel #OpenSource
Issue Date: 2025-03-14 OLMo 2 32B: First fully open model to outperform GPT 3.5 and GPT 4o mini, AllenAI, 20250.3 Comment真なる完全なるオープンソース（に近い？）OLMOの最新作 ... #Article #LanguageModel #LLMAgent #Blog #x-Use
Issue Date: 2025-03-12 OpenAI API での Computer use の使い方, npaka, 2025.03 CommentOpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。公式:https://platform.openai.com/docs/guides/tools-computer-use ... #Article #Dataset #LanguageModel #LLMAgent
Issue Date: 2025-03-12 GAIA, gaia-bemchmark, 2023.11 CommentWe introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questio ... #Article #LanguageModel #OpenWeight
Issue Date: 2025-03-12 Introducing Gemma 3: The most capable model you can run on a single GPU or TPU, Google, 2025.03 CommentGoogleの新たなSLMで、デバイスやラップトップでも動作可能な軽量モデル。テキストだけでなく画像とShortVideoの認識もできて、140言語をサポート。おまけに27BモデルでLlama3-405BとDeepSeek-V3とo3-miniをChatbotArenaのリーダーボードで上回り、12 ... #Article #LanguageModel #Reasoning #MultiLingual #OpenWeight
Issue Date: 2025-03-12 Reasoning with Reka Flash, Reka, 2025.03 CommentWeights: https://huggingface.co/RekaAI/reka-flash-3Apache-2.0< /reasoning >を強制的にoutputさせることでreasoningを中断させることができ予算のコントロールが可能とのこと ... #Article #Tutorial #LanguageModel #Blog #Reasoning #Test-Time Scaling
Issue Date: 2025-03-09 The State of LLM Reasoning Models, Sebastian Raschka, 2025.03 #Article #LanguageModel #ReinforcementLearning #Reasoning #OpenWeight
Issue Date: 2025-03-06 QwQ-32B: Embracing the Power of Reinforcement Learning, Qwen Team, 2025.03 Comment元ポスト:https://x.com/hillbig/status/1897426898642460724?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1787Artificial Analysisによるベンチマークスコア:https://x.com/artificialanlys/ ... #Article #MachineLearning #LanguageModel #ReinforcementLearning #Blog #GRPO
Issue Date: 2025-03-05 GRPO Judge Experiments: Findings & Empirical Observations, kalomazes kalomazing blog, 2025.03 Comment元ポスト:https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_forget-basic-math-problems-grpo-can-do-more-activity-7302608410875691009-nntf?utm_source= ... #Article #LanguageModel #OpenWeight
Issue Date: 2025-03-04 microsoft_Phi-4-multimodal-instruct, Microsoft, 2025.02 Comment元ポスト:https://www.linkedin.com/posts/vaibhavs10_holy-shitt-microsoft-dropped-an-open-source-activity-7300755229635944449-mQP8?utm_medium=ios_app&rcm=AC ... #Article #MachineLearning #LanguageModel #Library #ReinforcementLearning #python #Reasoning
Issue Date: 2025-03-02 Open Reasoner Zero, Open-Reasoner-Zero, 2024.02 Comment元ポスト:https://x.com/dair_ai/status/1893698293965725708?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QWe introduce Open-Reasoner-Zero, the first open source implementati ... #Article #Dataset #LanguageModel #LLMAgent
Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment元ポスト:https://x.com/dair_ai/status/1893698290174108113?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊 ... #Article #LanguageModel #Supervised-FineTuning (SFT)#ReinforcementLearning #Blog #GRPO
Issue Date: 2025-02-19 強化学習「GRPO」をCartPoleタスクで実装しながら解説, 小川雄太郎, 2025.02 Comment元ポスト:https://x.com/ogawa_yutaro_22/status/1892059174789407213?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #LanguageModel #Reasoning #OpenWeight
Issue Date: 2025-02-17 Mistral-24B-Reasoning, yentinglin, 2025.02 CommentApache-2.0 ... #Article #Pretraining #LanguageModel #Slide
Issue Date: 2025-02-12 LLMの事前学習のためのテキストデータの収集と構築, Shun Kiyono, 2015.02 Comment詳細は著書に記載とのこと。興味深い。 ... #Article #Embeddings #LanguageModel #pretrained-LM #Japanese
Issue Date: 2025-02-12 modernbert-ja-130m, SB Intuitions, 2025.02 CommentThis repository provides Japanese ModernBERT trained by SB Intuitions.ModernBERT is a new variant of the BERT model that combines local and global att ... #Article #LanguageModel #ReinforcementLearning #Blog #Distillation
Issue Date: 2025-02-12 DeepScaleR: Surpassing O1-Preview with a 1.5B Model by Scaling RL, 2025.02 #Article #LanguageModel #Supervised-FineTuning (SFT)#Reasoning
Issue Date: 2025-02-07 Unsloth で独自の R1 Reasoningモデルを学習, npaka, 2025.02 Comment非常に実用的で参考になる。特にどの程度のVRAMでどの程度の規模感のモデルを使うことが推奨されるのかが明言されていて参考になる。 ... #Article #LanguageModel #Supervised-FineTuning (SFT)#FoundationModel #RLHF #Blog
Issue Date: 2025-02-01 DeepSeek-R1の論文読んだ？【勉強になるよ】 , asap, 2025.01 Comment#1719#1655とても丁寧でわかりやすかった。後で読んだ内容を書いて復習する。ありがとうございます。 ... #Article #ComputerVision #LanguageModel #MulltiModal #OpenWeight
Issue Date: 2025-01-28 Janus-Series: Unified Multimodal Understanding and Generation Models, DeepSeek, 2025.01 CommentDeepSeekによる新たなVLM、Janus-Proが本日リリース。MIT LicenseJanus-Proのパフォーマンス。github上でのパフォーマンスの図解から引用。マルチモーダル（テキスト+画像）の理解に関するベンチマークでLLaVA超え。GenEval, DPG Benchと呼ばれる画 ... #Article #DialogueGeneration #SpeechProcessing #Japanese
Issue Date: 2025-01-28 日本語Full-duplex音声対話システムの試作, 大橋+, J-Moshi #Article #Embeddings #InformationRetrieval #Search #STS (SemanticTextualSimilarity)
Issue Date: 2025-01-28 SoftMatcha: A Fast and Soft Pattern Matcher CommentICLR2025にacceptされた模様https://openreview.net/forum?id=Q6PAnqYVpo ... #Article #LanguageModel #Repository #OpenSource
Issue Date: 2025-01-26 Open R1, HuggingFace, 2025.01 CommentHFによるDeepSeekR1を完全に再現する取り組みUpdate1: https://huggingface.co/blog/open-r1/update-1Update2: https://huggingface.co/blog/open-r1/update-2512機のH100を利用…Upda ... #Article #ComputerVision #Dataset #LanguageModel #Evaluation
Issue Date: 2025-01-25 Humanitys Last Exam, 2025.01 Commento1, DeepSeekR1の正解率が10%未満の新たなベンチマークBenchmarks are important tools for tracking the rapid advancements in large language model (LLM) capabilities. Howev ... #Article #Pocket #LanguageModel #LLMAgent #Blog
Issue Date: 2025-01-25 Chain of Agents: Large language models collaborating on long-context tasks, Google Research, 2025.01 Comment元ポスト:https://x.com/googleai/status/1882554959272849696?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様ブログ ... #Article #Dataset #LanguageModel #Supervised-FineTuning (SFT)#Repository
Issue Date: 2025-01-25 LLM Datasets, mlabonne, 2025.01 CommentLLMの事後学習用のデータをまとめたリポジトリ ... #Article #LanguageModel #Library #LLMAgent #RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 CommentLlamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。 ... #Article #LanguageModel #Library #SyntheticData
Issue Date: 2025-01-25 distilabel, 2023.11 Comment高品質な合成データをLLMで生成するためのフレームワーク ... #Article #LanguageModel #Supervised-FineTuning (SFT)#Blog #PostTraining
Issue Date: 2025-01-25 How to fine-tune open LLMs in 2025 with Hugging Face, PHILSCHMID, 2024.12 CommentSFTTrainerを用いたLLMのSFTについて、実用的、かつ基礎的な内容がコード付きでまとまっている。 ... #Article #LanguageModel #Alignment #Supervised-FineTuning (SFT)#Blog #DPO #PostTraining
Issue Date: 2025-01-25 How to align open LLMs in 2025 with DPO & and synthetic data, PHILSCHMID, 2025.01 Comment元ポスト:https://x.com/_philschmid/status/1882428447877705908?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QDPOの概要やRLHFと比較した利点ルールベース、あるいはLLM as a Judgeを用いたOn-policy prefer ... #Article #LanguageModel #OpenWeight
Issue Date: 2025-01-21 DeepSeek-R1-Distill-Qwen, DeepSeek, 2025.01 CommentMIT Licence ... #Article #LanguageModel #OpenWeight
Issue Date: 2025-01-21 DeepSeek-R1, DeepSeek, 2025.01 Comment参考:https://x.com/icoxfog417/status/1883339727446974616?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考:https://horomary.hatenablog.com/entry/2025/01/26/204545DeepSeek ... #Article #Dataset #LanguageModel #InstructionTuning
Issue Date: 2025-01-07 tokyotech-llm_swallow-magpie-ultra-v0.1, tokyotech-llm, 2025.01 #Article #LanguageModel #Blog
Issue Date: 2025-01-05 DeepSeek-V2のアーキテクチャを徹底解説：MLA と DeepSeekMoE, kernelian, 2024.05 Comment#1665も参照のこと。 ... #Article #ComputerVision #Dataset #LanguageModel #Evaluation
Issue Date: 2025-01-05 Killed by LLM, R0bk CommentSaturationとなっているベンチマークは、最先端の性能をすでに測定できなくなってしまったベンチマークとのこと。 ... #Article #Tutorial #InformationRetrieval #RAG(RetrievalAugmentedGeneration)#Repository
Issue Date: 2025-01-05 Advanced RAG Techniques: Elevating Your Retrieval-Augmented Generation Systems, NirDiamant, 2025.01 Comment元ポスト:https://x.com/rohanpaul_ai/status/1875447223682748750?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QRAGのための細かなテクニックが（コードのサンプルへのリンク付きで）大量にまとまっている。かなり頻繁に更新れているようで非常 ... #Article #LLMAgent #python #Blog #API #x-Use
Issue Date: 2025-01-04 browser-use やばいです, Syoitu, 2024.12 Commentすごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。 ... #Article #LanguageModel #Library #python #Repository #API
Issue Date: 2025-01-03 LiteLLM, BerriAI, 2023.08 Comment様々なLLMのAPIを共通のインタフェースで呼び出せるライブラリ#1553 とどちらがいいんだ・・・？aisuiteのissueの113番のスレッドを見ると、 LiteLLMはもはやLiteではなくなっており、コードベースの保守性が低い aisuiteは複数のLLMプロバイダーをシンプルに利用す ... #Article #Pocket #GenerativeAI #Blog
Issue Date: 2025-01-03 Things we learned about LLMs in 2024, Simon Willsons blog, 2024.12 Comment元ポスト:https://x.com/_stakaya/status/1875059840126722127?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #LanguageModel #Supervised-FineTuning (SFT)#RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2025-01-02 To fine-tune or not to fine-tune, Meta, 2024.08 CommentLLMをSFTする際の注意点やユースケースについて記述されている。full parameterのファインチューニングやPEFT手法のピークGPUメモリfull parameterのファインチューニングではcatastrophic forgettingに気をつける必要があることFiまた、RAGとFin ... #Article #Survey #ComputerVision #LanguageModel #OpenWeight #ProprietaryLLM
Issue Date: 2025-01-02 2024-ai-timeline, reach-vb, 2025.01 Comment月別で2024年にリリースされた主要なLLM（マルチモーダルなLLMも含む）のタイムラインがまとめられている。API Only（プロプライエタリ）なのか、OpenWeightなのかもタグ付けされている。 ... #Article #Dataset #LanguageModel #Evaluation #Japanese
Issue Date: 2024-12-30 Preferred Generation Benchmark, pfnet-research, 2024.12 Comment参考:https://x.com/bilzrd/status/1873167934564311133?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q日本語プレプリント:https://jxiv.jst.go.jp/index.php/jxiv/preprint/view/1008arXi ... #Article #Tutorial #LanguageModel #Attention #Blog
Issue Date: 2024-12-28 MHA vs MQA vs GQA vs MLA, Zain ul Abideen, 2024.07 CommentDeepSeekで使われているMulti Head Latent Attention（MLA）ってなんだ？と思い読んだ。端的に言うと、GQAやMQAは、KVのヘッドをそもそも減らしてKV Cacheを抑えよう、という手法だったが、MLAはKVを低ランクなベクトルに圧縮して保持し、使う時に復元するとい ... #Article #Pocket #LanguageModel #OpenWeight
Issue Date: 2024-12-28 Deep-seek-v3, deepseek-ai, 2024.12 Comment参考（モデルの図解）:https://x.com/vtabbott_/status/1874449446056177717?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q参考:https://x.com/hillbig/status/1876397959841186148?s=46&t= ... #Article #Tutorial #LanguageModel #Alignment #Supervised-FineTuning (SFT)#Chain-of-Thought #Reasoning #Mathematics #PostTraining
Issue Date: 2024-12-27 LLMを数学タスクにアラインする手法の系譜 - GPT-3からQwen2.5まで, bilzard, 2024.12 Comment#1618において、数学においてモデルのパラメータ数のスケーリングによって性能改善が見込める学習手法として、モデルとは別にVerifierを学習し、モデルが出力した候補の中から良いものを選択できるようにする、という話の気持ちが最初よくわからなかったのだが、後半のなぜsample&select記事中で ... #Article #Survey #LanguageModel #Evaluation #Blog #LLM-as-a-Judge
Issue Date: 2024-12-25 LLM-as-a-Judge をサーベイする, Ayako, 2024.12 Comment#1616を読んだ結果を日本語でまとめてくださっている。モデル選択について、外部APIに依存するとコストやプライバシー、再現性などの問題があるためOpenLLMをFinetuningすることで対応していることが論文中に記載されているようだが、評価能力にはまだ限界があるとのこと。記事中ではLlama ... #Article #Tutorial #Pretraining #Pocket #LanguageModel #Supervised-FineTuning (SFT)#Video
Issue Date: 2024-12-25 Stanford CS229 I Machine Learning I Building Large Language Models （LLMs）, StanfordUnivercity, 2024.09 Commentスタンフォード大学によるLLM構築に関する講義。事前学習と事後学習両方ともカバーしているらしい。 ... #Article #Pocket #LanguageModel
Issue Date: 2024-12-24 Qwen2.5 Technical Reportの中に潜る, AbejaTech Blog, 2024.12 #Article #LanguageModel #GenerativeAI #Blog
Issue Date: 2024-12-24 OpenAI o3は，人間とは全く異質の汎用知能である危険性【東大解説】, 神楽坂やちま, 2024.12 Comment様々な有識者の見解をまとめつつ、文献を引用しつつ、かつ最終的に「人間が知能というものに対してなんらかのバイアスを持っている」可能性がある、という話をしており興味深い。一部の有識者はARC-AGIの一部の、人間なら見た瞬間に分かるようなパターン認識の問題でも解けていないことから、AGIではないと主張 ... #Article #Sentence #LanguageModel #Tokenizer
Issue Date: 2024-12-24 Large Concept Models: Language Modeling in a Sentence Representation Space, Meta, 2024.12 CommentLLMs have revolutionized the field of artificial intelligence and have emerged as the de-facto tool for many tasks. The current established technology ... #Article #Tools #Dataset #LanguageModel #Blog #OpenWeight #Japanese
Issue Date: 2024-12-24 完全にオープンな約1,720億パラメータ（GPT-3級）の大規模言語モデル「llm-jp-3-172b-instruct3」を一般公開～GPT-3.5を超える性能を達成～ , NII, 2024.12 CommentGPT3.5と同程度のパラメータ数のコーパス、モデル、ツール、全てを公開。学習データまで含めてオープンなモデルとしては世界最大規模とのこと。Instructionチューニング済みのモデルはライセンスを読むと、ライセンスに記述されている内容を遵守すれば、誰でも（日本人なら18歳以上とかはあるが）アクセ ... #Article #EfficiencyImprovement #Library #Transformer #pretrained-LM
Issue Date: 2024-12-20 ModernBERT, AnswerDotAI, 2024.12 CommentEncoder-only transformer models such as BERT offer a great performance-size tradeoff for retrieval and classification tasks with respect to larger dec ... #Article #LanguageModel #Alignment
Issue Date: 2024-12-19 【NLPコロキウム】Stepwise Alignment for Constrained Language Model Policy Optimization （NeurIPS 2024） , 2024.12 Comment#1602も参照のこと。RLHF, DPOが解いている問題が同じで、問題が同じなのでそれぞれの最適解も一緒であり解き方が違うだけ、でもDPOの方が頑張って強化学習するRLHFよりも簡単に解けるし、学習も安定してるよ、という話が、binary feedbackデータに対するアライメント手法であるKTO ... #Article #MachineLearning #LanguageModel #Alignment #RLHF #Blog #DPO
Issue Date: 2024-12-18 RLHF_DPO 小話, 和地瞭良_ Akifumi Wachi, 2024.04 Commentめちゃめちゃ勉強になる… ... #Article #Tutorial
Issue Date: 2024-12-15 国際会議ACL2024参加報告, Masato Mita, Cyber Agent, 2024.12 #Article #LanguageModel #SpokenLanguageProcessing #OpenWeight #OpenSource
Issue Date: 2024-12-13 LLaMA-Omni: Seamless Speech Interaction with Large Language Models, Meta, 2024.09 Comment音声とテキストのOpenSourceマルチモーダルモデル。inputは音声のみ？に見えるが、出力はテキストと音声の両方を実施できる。GPT-4oレベルのspeech capabilityを目指すとaboutに記載されている。興味深い。 installの説明に `Whisper-large-v3#1 ... #Article #Embeddings
Issue Date: 2024-12-10 Sarashina-Embedding-v1-1B, SB Iumuitions, 2024.12 CommentNon-commercialなライセンスで、商用利用の場合は問い合わせが必要 ... #Article #LanguageModel #ProprietaryLLM
Issue Date: 2024-12-10 OpenAI o1 System Card, OpenAI, 2024.12 #Article #LanguageModel #OpenWeight
Issue Date: 2024-12-06 Llama3.3-70B, Meta, 2024.12 Comment3.1-70Bよりも性能向上し、3.1-405Bの性能により近く。（画像は元ポストより引用）![image](https://github.com/user-attachments/assets/07fb3043-131a-4564-be70-d34b70c31cca) ... #Article #ComputerVision #LanguageModel #MulltiModal #FoundationModel #MultiLingual
Issue Date: 2024-12-04 Introducing Amazon Nova, our new generation of foundation models, AWS, 2024.12 Comment参考:https://qiita.com/ysit/items/8433d149dbaab702d526テクニカルレポート: https://assets.amazon.science/9f/a3/ae41627f4ab2bde091f1ebc6b830/the-amazon-nova-family ... #Article #Survey #Dataset #LanguageModel #Evaluation #Repository #OpenWeight #Japanese #OpenSource
Issue Date: 2024-12-02 日本語LLMまとめ, LLM-jp, 2024.12 CommentLLM-jpによる日本語LLM（Encoder-Decoder系, BERT系, Bi-Encoders, Cross-Encodersを含む）のまとめ。テキスト生成に使うモデル、入力テキスト処理に使うモデル、Embedding作成に特化したモデル、視覚言語モデル、音声言語モデル、日本語LLM評価 ... #Article #Survey #LanguageModel #Repository #SelfCorrection
Issue Date: 2024-11-30 LLM Self-Correction Papers, Ryo Kamoi, 2024.11 Commentself-correctionの専門家によるself-correction関連の論文のリーディングリスト。ぜひチェックしたい。元ポスト: https://x.com/ryokamoi_ja/status/1862635105010799054?s=46&t=Y6UuIHB0Lv0IpmFAjlc ... #Article #Pretraining #LanguageModel #Supervised-FineTuning (SFT)#AES(AutomatedEssayScoring)
Issue Date: 2024-11-28 Cross-prompt Pre-finetuning of Language Models for Short Answer Scoring, Funayama+, 2024.09 CommentAutomated Short Answer Scoring (SAS) is the task of automatically scoring a given input to a prompt based on rubrics and reference answers. Although S ... #Article #Pocket #AES(AutomatedEssayScoring)#Japanese
Issue Date: 2024-11-28 国語記述問題自動採点システムの開発と評価, Yutaka Ishii+, 日本教育工学会, 2024.05 #Article #LanguageModel #Library #python #Repository #API
Issue Date: 2024-11-28 aisuite, andrewyng, 2024.11 Comment複数のLLM Providerの呼び出しを共通のインタフェースで呼び出せる。変更するのは、モデルを指定するパラメータのみ。元ポスト:https://www.linkedin.com/posts/andrewyng_announcing-new-open-source-python-package ... #Article #Tutorial #ComputerVision #SSM (StateSpaceModel)
Issue Date: 2024-11-27 チュートリアル：Mamba, Vision Mamba （Vim）, Hironobu Fujiyoshi, 2024.11 #Article #Pretraining #LanguageModel #OpenWeight #Japanese
Issue Date: 2024-11-25 Sarashina2-8x70Bの公開, SB Intuitions, 2024.11 CommentMoE Layerの説明、Sparse Upcyclingの説明、MoEモデルを学習する際に、学習時の学習率の設定が大きすぎると初期に損失が増大し、小さすぎると損失の増大は防げるがlong runで学習した際の性能向上が小さかったこと、元のモデルのパラメータを毀損しないように、Upcyclingをし ... #Article #Dataset #InstructionTuning #SyntheticData #PostTraining
Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment元ポスト:https://x.com/_philschmid/status/1859598525723488478?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOrca-AgenInstruct-1M #1521 よりもSmolLMのSFTで各種ベンチで高い性能を獲得![image]( ... #Article #NeuralNetwork #Embeddings #Word #STS (SemanticTextualSimilarity)
Issue Date: 2024-11-20 Zipf 白色化：タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 Comment元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ](https://arxiv.org/abs/2411.00680)The word embedding space in neural models ... #Article #MachineTranslation #Dataset #Zero/FewShotPrompting
Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment元ポスト: https://x.com/hpp_ricecake/status/1859118112672780401?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q英語Wikipediaを冒頭数文を抽出し日本語に人手で翻訳（Apache2.0ライセンスであるCalmやQwenの出力を参 ... #Article #Survey #ComputerVision #Pocket #LanguageModel #Slide
Issue Date: 2024-11-18 Large Vision Language Model （LVLM）に関する知見まとめ, Daiki Shiono, 2024.11 #Article #Dataset #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning
Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article #Survey #LanguageModel #Blog #OpenWeight #OpenSource
Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 CommentローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。 ... #Article #Tutorial #Prompting
Issue Date: 2024-11-13 LLM Prompt Tuning Playbook, 2024.11 Comment#1462 も参照のこと ... #Article #LanguageModel #OpenWeight #Japanese
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts（MoE）モデルカードによると、inferenceにはBF16で、A100 80G ... #Article #Tutorial #InformationRetrieval #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ（再掲）, GENZITSU, 2023.10 #Article #EfficiencyImprovement #Pretraining #Supervised-FineTuning (SFT)
Issue Date: 2024-11-07 ZeRO: DeepSpeedの紹介, レトリバ, 2021.07 CommentZeROの説明がわかりやすいこちらの記事もわかりやすい https://zenn.dev/turing_motors/articles/d00c46a79dc976DeepSpeedのコンフィグの一覧 https://www.deepspeed.ai/docs/config-json/ZeRO St ... #Article #SpeechProcessing #Blog #AutomaticSpeechRecognition(ASR)
Issue Date: 2024-11-07 ほぼリアルタイム！？爆速で動作する日本語特化の文字起こしAI！『kotoba-whisper-v2.0』, 遼介大堀, 2024.11 Commentwhisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。公式によると、whisper-large-v3よりも6.3倍の日本 ... #Article #EfficiencyImprovement #LanguageModel #Library #Repository
Issue Date: 2024-11-05 Lingua, Meta Comment研究目的のための、minimal、かつ高速なLLM training/inferenceのコードが格納されたリポジトリ。独自のモデルやデータ、ロスなどが簡単に実装できる模様。![image](https://github.com/user-attachments/assets/47f70515- ... #Article #EfficiencyImprovement #LanguageModel #Quantization #Blog
Issue Date: 2024-10-26 Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10 #Article #MultiLingual #OpenWeight
Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 CommentCohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。8BモデルのArenaHardでの評価![image](https://github.com/user-attachments/assets/c52678fd-b1a4-40ed-b6b9-7cc7d1096ff0) ... #Article #LanguageModel #Prompting #Repository
Issue Date: 2024-10-20 Prompt-Engineering-Guide, DAIR.AI CommentLLMのsettingから、few-shot, self-consistencyなどのprompting技術、さまざまなタスクの実例などが網羅的にまとまっている ... #Article #Dataset #LanguageModel #LLMAgent #Evaluation
Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 CommentWe introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering ... #Article #OpenWeight
Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, 2024.10 Commentpaper:https://arxiv.org/abs/2410.01257MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様![image](https ... #Article #EfficiencyImprovement #LanguageModel #Supervised-FineTuning (SFT)#InstructionTuning
Issue Date: 2024-10-08 Unsloth Commentsingle-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ ... #Article #LanguageModel #OpenWeight #Japanese
Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article #LanguageModel #OpenWeight #Japanese
Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 ... #Article #Pocket #LanguageModel #Evaluation #Blog #LLM-as-a-Judge
Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators （aka LLM-as-Judge）, 2024.09 CommentLLM-as-a-judgeについて網羅的に書かれた記事 ... #Article #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article #ComputerVision #LanguageModel #OpenWeight
Issue Date: 2024-09-27 Molmo, AI2, 2024.09 CommentMolmo is a family of open state-of-the-art multimodal AI models. Our most powerful model closes the gap between open and proprietary systems across a以 ... #Article #ComputerVision #LanguageModel #Blog #OpenWeight
Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。![image](https://github.com/user-attachments/assets/13c4af37-19bd-4de7-b501-eb48f955af0c)![image](https://githuLl ... #Article #LanguageModel #OpenWeight #Japanese
Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと（確かに、3.8Bのモデルとの差があまりないように見える元ポスト:https://x.com/odashi ... #Article #Dataset #LanguageModel #Japanese
Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 #1418 の学習に利用されているコーパス ... #Article #LanguageModel
Issue Date: 2024-09-25 Improving Language Understanding by Generative Pre-Training, OpenAI, 2018.06 CommentNatural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment初 ... #Article #LanguageModel #Chain-of-Thought #Reasoning #Test-Time Scaling
Issue Date: 2024-09-13 OpenAI o1, 2024.09 CommentJason Wei氏のポスト:https://x.com/_jasonwei/status/1834278706522849788?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1072 や　#1147 で似たような考えはすでに提案されていたが、どのような点が異なるのだろうか？たと ... #Article #Pocket #QuestionAnswering #LLMAgent #GenerativeAI #RAG(RetrievalAugmentedGeneration)#Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #LanguageModel #Prompting #Post
Issue Date: 2024-09-08 A few prompt engineering tips that Ilya Sutskever picked up at OpenAI, Ilya Sutskever, 2024.09 #Article #Embeddings #InformationRetrieval #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Commentchunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precis ... #Article #Tutorial #ComputerVision #MachineLearning #LanguageModel #Repository
Issue Date: 2024-09-07 ml-engineering CommentLLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ ... #Article #LanguageModel #InstructionTuning #OpenWeight #SelfCorrection #PostTraining
Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Commentただまあ仮に同じInputを利用していたとして、promptingは同じ（モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない）なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験 ... #Article #Embeddings #LanguageModel #Japanese
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article #LanguageModel #Library #Repository #LLMServing
Issue Date: 2024-08-31 NanoFlow, 2024.08 CommentvLLMよりも2倍程度高速なLLM serving framework。オフライン評価![image](https://github.com/user-attachments/assets/93d8362d-e0e4-4bdb-9de4-178e1eef2e33)オンラインでのlatenc元ポスト: ... #Article #Tutorial #LanguageModel #OpenWeight #Slide
Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており（安全性なども含む）、LLM学習に必要な要素が図解されており、非常に分かりやすい。たとえば下記図（スライド中より引用）などは、LLMの学習過程を説明する際にわかりやすそう ![image](https://github.com/useLLM ... #Article #EfficiencyImprovement #LanguageModel #Supervised-FineTuning (SFT)#Repository
Issue Date: 2024-08-25 Liger-Kernel, 2024.08 CommentLLMを学習する時に、ワンライン追加するだけで、マルチGPUトレーニングのスループットを20%改善し、メモリ使用量を60%削減するらしい元ツイート:https://x.com/hsu_byron/status/1827072737673982056?s=46&t=Y6UuIHB0Lv0IpmFAこれ ... #Article #LanguageModel #ProprietaryLLM
Issue Date: 2024-08-24 Grok-2, X, 2024.08 Commentchatbot arenaで5月時点のGPT4o超え。miniでもなんとllama3.1-705B超えhttps://x.com/lmsysorg/status/1827041269534879784?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #OpenWeight
Issue Date: 2024-08-24 Phi 3.5, Microsoft, 2024.08 CommentThe [Phi-3 model collection](https://ai.azure.com/explore/models?selectedCollection=phi) is the latest in Microsoft's family of Small Language Models ... #Article #Quantization #OpenWeight
Issue Date: 2024-08-20 4-bit Llama 3.1, NeuralMagic, 2024.08 #Article #InformationRetrieval #Pocket #LanguageModel #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article #LanguageModel #ProprietaryLLM #Japanese
Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、 ... #Article #Library #OpenWeight
Issue Date: 2024-08-01 OpenLLM: Self-Hosting LLMs Made Easy CommentOpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ ... #Article #OpenWeight
Issue Date: 2024-07-30 Gemma2, Google Deepmind, 2024 CommentReasoning, Math, CodeGenerationに強み![image](https://github.com/user-attachments/assets/b7f58129-1235-4812-9c5e-0607aa1bea66) ![image](https://github.co ... #Article #LanguageModel #OpenWeight
Issue Date: 2024-07-25 Llama 3.1, 2024.07 CommentLlama系のモデルをFP8で学習する場合のレシピhttps://x.com/thom_wolf/status/1826924774997532799?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #LanguageModel #OpenWeight
Issue Date: 2024-07-11 大規模言語モデルの開発, 2024 #Article #LanguageModel #OpenWeight
Issue Date: 2024-07-09 calm3-22B, 2024 Comment>LLMの日本語能力を評価するNejumi LLM リーダーボード3においては、700億パラメータのMeta-Llama-3-70B-Instructと同等の性能となっており、スクラッチ開発のオープンな日本語LLMとしてはトップクラスの性能となります（2024年7月現在）。モデルは商用利用可能なA ... #Article #Tutorial #Pretraining #LanguageModel #Blog
Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 CommentLLMの事前学習における知見がまとまっている記事とのこと・Megatron LMで学習　→ 3D Parallelismなどの分散学習手法によりHF Trainerより高速　→ Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わ ... #Article #NaturalLanguageGeneration #LanguageModel #LLMAgent #Repository
Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 CommentLLMによるOpenSourceなソフトウェア生成エージェントプラットフォームfull timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。参考: https://x.com/gneubig/status/1808493521315496229?s=46&t=Y6UuIHB0L ... #Article #Tutorial #LanguageModel
Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article #LanguageModel #RAG(RetrievalAugmentedGeneration)#LongSequence
Issue Date: 2024-07-03 RetrievaBERTの公開, 2024 CommentRAGへ応用する際に、長いコンテキストを扱いEmbeddingを獲得したいシーンが増えたので、最大でコンテキスト長が2048のBERTを学習し公開。Apache2.0 オリジナルのBERTと比較して、近年のLLMで有用性が示されている以下をアーキテクチャに取り入れている SwiGLU活性 ... #Article #LanguageModel #OpenWeight
Issue Date: 2024-07-03 Llama 3 Swallow #Article #PersonalizedDocumentSummarization
Issue Date: 2024-05-30 Using and Evaluating User Directed Summaries to Improve Information Access #Article #LanguageModel #Transformer #PositionalEncoding
Issue Date: 2024-05-24 RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N_A, Neurocomputing, 2024 Summary位置符号化はtransformerアーキテクチャで有効であり、本論文ではRotary Position Embedding（RoPE）という新しい手法を提案している。RoPEは、回転行列を使用して絶対位置を符号化し、同時に相対位置依存性を自己注意構成に組み込む。RoPEを使用したRoFormerは、長いテキスト分類ベンチマークデータセットで他の手法を上回ることが実験で示されており、Huggingfaceに統合されている。 CommentRoPEを提案した論文# Absolute Position Embedding と Relative Position Embedding ## TransformerにおけるQKVベクトルの計算方法一般に、Transformerにおける Query (Q), Key (K), Value (V ... #Article #EfficiencyImprovement #LanguageModel #Library #Repository
Issue Date: 2024-04-28 AirLLM, 2024.04 Comment4GBのSingle GPUで、70Bモデルのinferenceを実現できるライブラリ。トークンの生成速度は検証する必要がある。transformer decoderの各layerの演算は独立しているため、GPUに全てのlayerを載せず、必要な分だけ載せてinferenceするといった操作を繰り返 ... #Article #LanguageModel #OpenWeight
Issue Date: 2024-04-18 LLaMA3, Apr, 2024 Commentライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい元ツイート:https://x.com/gneubig/status/1781083579273089442?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLaMA ...

#Article #ComputerVision #LanguageModel #MulltiModal
Issue Date: 2024-04-14 Grok-1.5 Vision Preview, 2024 Comment ...

#Article #LanguageModel #OpenWeight
Issue Date: 2024-04-10 Mixtral-8x22B-v0.1, 2024 CommentApache-2.0ライセンス, 日本語非対応 ... #Article #LanguageModel #OpenWeight #ProprietaryLLM
Issue Date: 2024-04-10 Command R+, Cohere, 2024 CommentChatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し（20240410時点）、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。 ...

#Article #LanguageModel #OpenWeight
Issue Date: 2024-04-08 Gemma: Open Models Based on Gemini Research and Technology, 2024 CommentアーキテクチャはTransformer Decoderを利用。モデルのサイズは2Bと7B。オリジナルのTransformer Decoderアーキテクチャから、下記改善を実施している： Multi Query Attention #1272 を利用 RoPE Embedding #1Mistral ...

#Article #Tutorial #LanguageModel
Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article #Survey #Tools #LanguageModel
Issue Date: 2024-03-22 Awesome LM with Tools CommentToolを利用するLMに関するNeubig氏のグループによるSurvey。 ... #Article #ComputerVision #LanguageModel #Library #Alignment #TextualInversion
Issue Date: 2024-03-21 repeng CommentLLMの出力のスタイルを数百個の事例だけで学習しチューニングできるライブラリ。promptで指定するのとは異なり、数値でスタイルの強さを指定することが可能らしい（元ツイート）。画像生成分野におけるTextual Inversionと同じ技術とのこと。Textual Inversionとは、少量の ... #Article #LanguageModel #Blog
Issue Date: 2024-03-18 Open Release of Grok-1 March 17, 2024 CommentApache2.0ライセンス, 314Bパラメータでモデルの重み、Mixture-of-Expertsを採用している。学習データ、学習に利用したコードはおそらく公開されていない。Grok-1.5がリリースhttps://x.ai/blog/grok-1.5各種ベンチマークの性能、特にMathの性能が ...

#Article #Tutorial #Survey #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2024-03-05 RAG-Research-Insights CommentRAGに関する研究が直近のものまでよくまとめられている ... #Article #Survey #LanguageModel #Blog
Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment2024年3月時点で知っておくべきLLMに関するスレッド ... #Article #LanguageModel
Issue Date: 2024-02-27 Mistral Large Comment ...

#Article #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Commentめちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。 ... #Article #InformationExtraction #Blog
Issue Date: 2024-01-16 LLMにおける情報抽出（文章から必要な事柄を読み取る）タスクについての調査, AIDB #Article #NaturalLanguageGeneration #LanguageModel #Blog
Issue Date: 2024-01-01 Decoding Strategies that You Need to Know for Response Generation Comment言語モデルのdecodingの方法についてよくまとまっている。まとめられているdecoding方法は以下 Greedy, BeamSearch, RandomSampling, Temperature, Top-K Sampling, Nucleus Samplingこちらの記事ではHuggingF ... #Article #InformationRetrieval #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2023-12-21 Structured Hierarchical Retrieval, llama-index Comment元ツイート: https://x.com/llama_index/status/1737515390664872040?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #Tutorial #EfficiencyImprovement #LanguageModel
Issue Date: 2023-12-15 optimize-llm, HuggingFace CommentLLMをoptimizeする実用的なチュートリアルこちらも有用なので参照のこと【GPU inference】 https://huggingface.co/docs/transformers/main/perf_infer_gpu_one ... #Article #EfficiencyImprovement #LanguageModel #Attention
Issue Date: 2023-12-14 【続】Flash Attentionを使ってLLMの推論を高速・軽量化できるか？ Commentuse_cacheがTrue/Falseの場合のFlashAttention2のinference timeとVRAM使用量の傾向をsequence_lengthごとに考察している。use_cacheはKey Value cacheのオンオフを切り替えられるオプションである。autoregresFl ... #Article #Pretraining #Pocket #Dataset #LanguageModel #InstructionTuning #Repository #Japanese
Issue Date: 2023-12-11 A Review of Public Japanese Training Sets, shisa, 2023.12 #Article #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2023-12-04 kaggle LLM コンペ上位解法を自分なりにまとめてみた話 Comment実践的な内容（チャンク生成時の工夫、クエリ生成時の工夫等）が網羅的にまとまっており非常に有用個人的に、コンペ主催者側から提供されたデータが少なく、上位のほとんどのチームがChatGPT（3.5, 4）を用いて、QAデータを生成していた、というのが興味深かった。プロンプトはたとえば下記: [（5th- ... #Article #ComputerVision #Prompting #MulltiModal #AutomaticPromptEngineering
Issue Date: 2023-12-01 multimodal-maestro CommentLarge Multimodal Model (LMM)において、雑なpromptを与えるても自動的に良い感じoutputを生成してくれるっぽい？以下の例はリポジトリからの引用であるが、この例では、"Find dog." という雑なpromptから、画像中央に位置する犬に[9]というラベルを ...

#Article #ComputerVision #GenerativeAI #MulltiModal
Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Commentデモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。FF14の赤魔導士に変えたら、それっぽいの出てきた ...

#Article #ComputerVision #Transformer #TabularData
Issue Date: 2023-12-01 Table Transformer Demo CommentPDF中のテーブルとその構造（行列セル）をdetectするモデル Exampleは以下のような感じ（日本語だとどれくらいできるのかな...） ...

#Article #Survey #ComputerVision #MachineLearning
Issue Date: 2023-11-22 ML Papers Explained Comment以下の分野の代表的な論文がまとめられている（基本的にはTransformer登場後のものが多い）言語モデル（Transformer, Elmoなど）Visionモデル（ViTなど）CNN（AlexNetなど）Single Stage Object DetectorsR ... #Article #EfficiencyImprovement #Tools #LanguageModel #Repository
Issue Date: 2023-11-21 GPT4All, 2023 CommentローカルマシンでChatGPT likeなUIでチャットボットを動作させられるOpensource。Mistral7BやGGUFフォーマットのモデルのよつな（おそらく量子化されたものも含む）ローカルマシンで動作させられる規模感のモデルがサポートされている。https://gpt4all.io/i ... #Article #LanguageModel #Evaluation #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. CommentZephyr-7B-betaのRAGでの性能がデータセットで評価されている下記Xポストによるとgpt-3.5-turboと同等https://x.com/rungalileo/status/1726638537767051436?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2023-11-15 ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました, 2023 Comment低コストで社内文書に対するRAGを実現することに注力している。以下、図はブログから引用。基本的にはバッチジョブで社内文書をベクトル化しS3へ格納。アプリ起動時にS3から最新データを読み込み検索可能にしRAGするという流れ。低コスト化のために、Embedding作成にOpenSourceの特に日本語テ ...

#Article #LanguageModel #Library #Supervised-FineTuning (SFT)#Repository
Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment簡単に利用できるLLaMAのfinetuning frameworkとのこと。元ツイート: https://x.com/_akhaliq/status/1724456693378040195?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLaMAベースなモデルなら色々対応している模様 ... #Article #LanguageModel #Hallucination #Repository
Issue Date: 2023-11-14 Hallucination Leaderboard, 2023 Comment1000個の短いドキュメントに対して、事実情報のみを用いて要約を生成させ、要約結果と原文書のFactual consistencyを別に訓練したモデルで測定して評価してリーダーボードを作成している。Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。元ツイート ... #Article #Survey #NaturalLanguageGeneration #Dataset #DataToTextGeneration #Blog
Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, 2022 CommentData-to-Textのデータセットを自分用に調べていたのですが、せっかくなのでスライドにまとめてみました。特にMR-to-Text, Table-to-Textあたりは網羅的にサーベイし、データセットの概要を紹介しているので、全体像を把握するのに良いのかなぁと思います。ただし、2022年12月時 ... #Article #Tutorial #InformationRetrieval #LanguageModel #RAG(RetrievalAugmentedGeneration)
Issue Date: 2023-11-06 Retrieval-based LM （RAG System）ざっくり理解する, 2023 Comment（以下スクショはスライドより引用）次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。以下ざっくり私の中の認識として計画クエリ拡張クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正（昔 ...

#Article #Tutorial #LanguageModel #Alignment #GenerativeAI #Hallucination #Blog
Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Commentこの資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていく ... #Article #Survey #ComputerVision #NaturalLanguageGeneration #LanguageModel #ImageCaptioning #DiffusionModel
Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Commentこれはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。 ... #Article #Tutorial #LanguageModel
Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 CommentLLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。 ... #Article #EfficiencyImprovement #LanguageModel #MulltiModal #FoundationModel #Blog
Issue Date: 2023-11-01 tsuzumi, NTT’23 CommentNTT製のLLM。パラメータ数は7Bと軽量だが高性能。MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク（図6）でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとt ...

#Article #EfficiencyImprovement #LanguageModel #Supervised-FineTuning (SFT)#PEFT(Adaptor/LoRA)#Catastrophic Forgetting
Issue Date: 2023-10-29 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 Comment以下記事中で興味深かった部分を引用> まとめると、LoRAは、[3]で言われている、事前学習モデルは大量のパラメータ数にもかかわらず低い固有次元を持ち、Fine-tuningに有効な低次元のパラメータ化も存在する、という主張にインスパイアされ、ΔWにおける重みの更新の固有次元も低いという仮説のもと ... #Article #NeuralNetwork #ComputerVision #EfficiencyImprovement #LanguageModel #DiffusionModel #Blog
Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ CommentGradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。 ... #Article #LanguageModel #Prompting #Blog
Issue Date: 2023-10-29 LLMのプロンプト技術まとめ Commentざっと見たが現時点で主要なものはほぼ含まれているのでは、という印象実際のプロンプト例が載っているので、理解しやすいかもしれない。 ... #Article #Tools #LanguageModel #Library #Evaluation #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2023-10-29 Evaluating RAG Pipelines CommentRAG pipeline （retrieval + generation）を評価するライブラリRagasについて紹介されている。評価に活用される指標は下記で、背後にLLMを活用しているため、大半の指標はラベルデータ不要。ただし、context_recallを測定する場合はreference an ...

#Article #Tools #LanguageModel #Library #RAG(RetrievalAugmentedGeneration)#Blog
Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment以下リンクからの引用。LangChainから提供されているRetrieverのcontext抽出の性能改善のためのソリューション> Multi representation indexing：検索に適した文書表現（例えば要約）の作成Query transformation：人間の質問を変換して ... #Article #LanguageModel #Evaluation #Blog
Issue Date: 2023-10-27 日本語LLMのリーダーボード（LLM.jp） CommentLLM.jpによる日本語LLMのリーダーボード。4-shotsでの結果、かつinstructionを与えた場合の生成テキストに対する評価、という点には留意したい。たとえばゼロショットで活用したい、という場合にこのリーダーボードの結果がそのまま再現される保証はないと推察される。#1079 の知見でJG ... #Article #LanguageModel #Blog
Issue Date: 2023-10-25 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました, 2023 #Article #LanguageModel
Issue Date: 2023-10-15 OpenSource LLM Commentzephyr-7B-alpha1/10のパラメータでLLaMA2-70Bw-chat超えhttps://weel.co.jp/media/zephyr-7b-alphazephyr-7B-β　MTBenchでllama2-70B-chat超え　#1099Zephyr-7B-betaが早くもTheBl ...

#Article #Prompting #AutomaticPromptEngineering
Issue Date: 2023-10-13 日本語LLMベンチマークと自動プロンプトエンジニアリング Comment面白かった。特に、promptingによってrinnaとcyberのLLMの順位が逆転しているのが興味深かった。GAを使ったプロンプトチューニングは最近論文も出ていたが、日本語LLMで試されているのは面白かった。 ... #Article #Tutorial #LanguageModel
Issue Date: 2023-10-10 Large Language Model （in 2023）, OpenAI CommentLLMの研究開発動向を俯瞰するのに有用らしい ... #Article #LanguageModel #Repository
Issue Date: 2023-10-09 MentalLLaMA, 2023 Commentメンタルヘルスの分析に対してinstruction tuningしたはじめてのLLM ... #Article #Pocket #LanguageModel
Issue Date: 2023-10-09 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” CommentA is Bという文でLLMを訓練しても、B is Aという逆方向には汎化されないことを示した。著者ツイート: https://x.com/owainevans_uk/status/1705285631520407821?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QGPT3, LLaM ...

#Article #LanguageModel
Issue Date: 2023-10-07 Yasa-1 Comment参考: https://x.com/jaguring1/status/1709557947813281865?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article #Sentence #Embeddings
Issue Date: 2023-10-07 Japanese Simple SimCSE Comment日本語の事前学習言語モデルと、日本語の学習データを利用してSimCSEを学習し網羅的に評価をした結果が記載されている。Supervised SimCSE, UnsupervisednSimCSEの両方で実験。また、学習するデータセットを変更したときの頑健性も検証。性能が良かったモデルはSentenc ... #Article #LanguageModel #Evaluation
Issue Date: 2023-10-02 Nejumi LLMリーダーボード CommentJGLUEを使ったLLMの日本語タスクベンチマーク ... #Article #LanguageModel #Evaluation
Issue Date: 2023-09-30 LLM-as-a-judge #Article #ComputerVision #LanguageModel #ChatGPT #MulltiModal
Issue Date: 2023-09-30 GPT-4V Commentおう…やべえな… ...

#Article #LanguageModel #Library #LLMAgent
Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment以下の特徴を持つLLMAgent開発のためのフレームワークlong-short term memorytool usageweb navigationmulti-agent communicationhuman-agent interactionsymbolic ... #Article #LanguageModel
Issue Date: 2023-09-05 SNLP2023:Is GPT-3 a Good Data Annotator? CommentGPT3でデータを作成したら、タスクごとに有効なデータ作成方法は異なったが、人手で作成したデータと同等の性能を達成するデータ（BERTでfinetuning）を、低コストで実現できたよ、という研究この辺の話はもはや #1024 を使えばいいのでは、という気がする。 ... #Article #Tools #LanguageModel #Library
Issue Date: 2023-09-05 LangChain Cheet Sheet Comment

... #Article #Tutorial #LanguageModel
Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment岡崎先生による大規模言語モデルのチュートリアル最近のLLMまでの歴史、transformerなどの基礎的な内容から、最新の内容まで数式付きで詳細にまとまっている ... #Article #Tutorial #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2023-08-29 LLMのファインチューニングで何ができて何ができないのか Comment>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。> シェイクスピアの脚本のデータセット (tiny-shakespeare) の「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確参考: ... #Article #LanguageModel #Library
Issue Date: 2023-08-29 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました Comment商用利用可能、70億パラメータ。ELYZA社が独自に作成した評価セットでは日本語のOpenLLMの中で最高性能。ただし、モデル選定の段階でこの評価データの情報を利用しているため、有利に働いている可能性があるとのこと。一般的に利用される日本語の評価用データでは、なんとも言い難い。良いタスクもあれ ... #Article #LanguageModel #Library
Issue Date: 2023-08-28 zeno-build CommentMTでのテクニカルレポートhttps://github.com/zeno-ml/zeno-build/tree/main/examples/analysis_gpt_mt/reportLLMの実験管理を容易に実施するツールで、異なるハイパーパラメータ、異なるモデル、異なるプロンプトでの実験などを簡単 ... #Article #Survey #LanguageModel
Issue Date: 2023-08-27 Anti-hype LLM Reading list CommentLLNのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist ...

#Article #ComputerVision #NaturalLanguageGeneration #Blog
Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話 #Article #DocumentSummarization #Metrics #Evaluation #Reference-based
Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization Summary本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。 #Article #LanguageModel #STS (SemanticTextualSimilarity)
Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment[JSTSタスク](https://github.com/yahoojapan/JGLUE)では、[Tohoku BERT v3](https://github.com/cl-tohoku/bert-japanese/tree/main#model-performances) と [LUKE](ht ... #Article #EfficiencyImprovement #MachineLearning #Transformer #Attention
Issue Date: 2023-07-23 FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, 2023 SummaryFlashAttention-2は、長いシーケンス長におけるTransformerのスケーリングの問題に対処するために提案された手法です。FlashAttention-2は、非対称なGPUメモリ階層を利用してメモリの節約とランタイムの高速化を実現し、最適化された行列乗算に比べて約2倍の高速化を達成します。また、FlashAttention-2はGPTスタイルのモデルのトレーニングにおいても高速化を実現し、最大225 TFLOPs/sのトレーニング速度に達します。 CommentFlash Attention1よりも2倍高速なFlash Attention 2Flash Attention1はこちらを参照https://arxiv.org/pdf/2205.14135.pdfQK Matrixの計算をブロックに分けてSRAMに送って処理することで、3倍高速化し、メモリ効率を ...

#Article #ComputerVision #LanguageModel #FoundationModel
Issue Date: 2023-07-23 Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images, 2023 Summary最近の自然言語処理の進歩により、生成型AIモデルへの関心と研究が加速しています。CM3leonは、テキストから画像への生成と画像からテキストへの生成を行う単一の基礎モデルです。 #Article #LanguageModel #Chain-of-Thought #Prompting #Faithfulness
Issue Date: 2023-07-23 Measuring Faithfulness in Chain-of-Thought Reasoning, Anthropic, 2023 Summary大規模言語モデル（LLMs）は、Chain-of-Thought（CoT）推論を生成することで質問に答える性能を向上させるが、その推論が実際の推論を忠実に表しているかは不明である。本研究では、CoT推論の忠実さを調査し、CoTに介入することでモデルの予測がどのように変化するかを調べる。結果は、モデルのサイズやタスクによってCoTの忠実さが異なることを示唆している。 #Article #LanguageModel #Library #ReinforcementLearning
Issue Date: 2023-07-23 trl_trlx CommentTRL 強化学習によるLLMの学習のためのライブラリhttps://note.com/npaka/n/nbb974324d6e1trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみるhttps://www.ai-shift.co.jp/techblog/3583 ... #Article #EfficiencyImprovement #LanguageModel #Quantization #PEFT(Adaptor/LoRA)
Issue Date: 2023-07-22 LLaMA2を3行で訓練 CommentLLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法 ... #Article #LanguageModel
Issue Date: 2023-07-22 Quantized LLaMA2 CommentLLaMA2をローカルで動作させるために、QLoRAで量子化したモデル ... #Article #LanguageModel
Issue Date: 2023-07-22 LLongMA2 CommentLLaMA2のcontext windowを8kにして訓練。オリジナルのLLaMA2と同等の性能で8k contextを利用可能。元ツイート: https://twitter.com/enricoshippole/status/1682054848584228866?s=46&t=LJIgfuO35 ... #Article #Dataset #LanguageModel #DialogueGeneration
Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment33kのconversation、2つのレスポンスに対する人間のpreferenceスコア付き20種類のSoTAモデルのレスポンスを含み、13kのユニークIPからのアクセスがあり、3Kのエキスパートによるアノテーション付き ... #Article #RecommenderSystems #Dataset #NaturalLanguageUnderstanding
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions Summaryデータセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。 #Article #LanguageModel #Explanation #Evaluation
Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations Summary本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article #Survey #ComputerVision #LanguageModel #MulltiModal #SpeechProcessing
Issue Date: 2023-07-03 Awesome Multimodal LLMs CommentマルチモーダルなLLMのリストがまとめられている ... #Article #LanguageModel #Blog #LongSequence
Issue Date: 2023-07-01 How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023 CommentLLMのcontext長を伸ばす際の方法と得られた知見がまとめられている ... #Article #LanguageModel #Library #Blog
Issue Date: 2023-06-25 OpenLLaMA 13B, 2023 CommentそもそもOpenLLaMAには、オリジナルのLLaMAと比較して、tokenizerがスペースを無視するというissueがある模様。スペースの情報がクリティカルなタスク、たとえばcode generationなどには要注意。https://github.com/openlm-research/o ...

#Article #Tutorial #LanguageModel #Prompting #Blog
Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Commentexperimentalな手法でprompt engineeringする際のoverview ... #Article #Survey #LanguageModel
Issue Date: 2023-05-12 open LLM Leaderboard #Article #EfficiencyImprovement #Library #Transformer #python
Issue Date: 2023-05-11 Assisted Generation: a new direction toward low-latency text generation, 2023 Comment1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしいassistant modelをロードしgenerateに引数として渡すだけ ...

#Article #MachineTranslation #Metrics
Issue Date: 2023-05-10 METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Banerjee+, CMU, ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and_or Summarization Comment# イントロ MTの評価はBLEUが提案されてから過去2年間で注目されている。BLEUはNIST metricと関連しており、研究で利用されてきた。自動評価は素早く、より簡便に、human evaluationよりも安価に評価をすることができる。また、自動評価は他のシステムとの比較だけでなく、on ...

#Article #LanguageModel #Library #FoundationModel #Repository
Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。 ... #Article #NaturalLanguageGeneration #LanguageModel #FoundationModel #Blog #Programming
Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment・15.5Bパラメータ・80種類以上のプログラミング言語で訓練・Multi Query Attentionを利用・context window size 8192・Fill in the middle objectiveを利用Instruction tuningがされておらず、prefipaper: ... #Article #LanguageModel #Library #Blog
Issue Date: 2023-05-06 MPT-7B, 2023 Comment新たなオープンソースLLM。下記ツイートより引用:・商用利用可能・6万5000トークン使用可能・7Bと比較的小さいモデルながら高性能・日本語を扱え性能が高いとのこと。https://twitter.com/imai_eruel/status/1654629078878793729ChatGPTのLL ... #Article #RecommenderSystems #Dataset
Issue Date: 2023-05-06 SNAP: Web data: Amazon reviews #Article #PersonalizedDocumentSummarization #Pocket #Personalization
Issue Date: 2023-05-05 Personalized news filtering and summarization on the web, Xindong+, 2011 IEEE 23rd International Conference on Tools with Artificial Intelligence, 29 Commentsummarizationではなく、keyword extractionの話だった ... #Article #PersonalizedDocumentSummarization #Personalization #review
Issue Date: 2023-05-05 Personalized summarization of customer reviews based on user’s browsing history, Zehra+, International Journal on Computer Science and Information Systems 8.2, 12 #Article #PersonalizedDocumentSummarization #Education #Personalization
Issue Date: 2023-05-05 Towards personalized summaries in spanish based on learning styles theory, Uriel+, Res. Comput. Sci. 148.5, 1 #Article #PersonalizedDocumentSummarization #Pocket #Education #Personalization
Issue Date: 2023-05-05 Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model, Guangbing+, IEEE Fourth International Conference on Technology for Education, 2012, 22 #Article #PersonalizedDocumentSummarization #Personalization
Issue Date: 2023-05-05 Personalized text summarization based on important terms identification, Robert+, 23rd International Workshop on Database and Expert Systems Applications, 2012, 43 Comment（あまりしっかりよめていない）学習者のrevision（復習？）のための教材の要約手法の提案。personalizationするために、さまざまなRaterを定義し、Raterからの単語wに対する評価を集約し、最終的にuser-specificなsentence-term matrixを構築。 ... #Article #LanguageModel #Assessment
Issue Date: 2023-05-04 ChatBot Arena, lmsys org, 2023.05 Commentクラウドソーシング型のチャットボット評価するシステム。ユーザはシステムにアクセスすると、二つのanonymisedされたLLMと対話し、どちらが優れていたかをvotingする。すべてのシステムとユーザのinteractionはロギングされており、最終的にElo RatingでLLM.をランキング付け ...

#Article #Library #SpokenLanguageProcessing #SpokenLanguageGeneration
Issue Date: 2023-05-04 Bark Commentテキストプロンプトで音声生成ができるモデル。MIT License ... #Article #NeuralNetwork #LanguageModel #Library #Transformer
Issue Date: 2023-05-04 OpenLLaMA CommentLLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様 ... #Article #Survey #LanguageModel
Issue Date: 2023-05-04 LLM ecosystem graphs Comment様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページPercy Liangのグループが運用してるっぽい？ ... #Article #LanguageModel #Assessment
Issue Date: 2023-04-30 PandaLM Comment異なるLLMを再現性のある形で評価するためのライブラリ2つの異なるLLMのoutputを比較し、どちらが優れているか理由付きで説明する。人間が作成して1000サンプルの多様なアノテーションデータセットを使い評価できる。 ... #Article #PersonalizedDocumentSummarization #Pocket
Issue Date: 2023-04-30 Personalized Extractive Summarization for a News Dialogue System, Takatsu+, SLT, 2021, 4 #Article #LanguageModel #ChatGPT #Blog
Issue Date: 2023-04-27 HuggingChat, 2023 Commentclosedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出してきた例のアレです ... #Article #LanguageModel #LongSequence
Issue Date: 2023-04-27 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System, 2023 Comment> Our findings indicate that our system outperforms ChatGPT in handling ultra-long inputs or conversations. と書いてあるが、定量評価の結果が全く書いていない模様。全くもって信用できない。4/ ... #Article #Survey #LanguageModel
Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment参考になる現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそうLLM Worksheet： https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3 ... #Article #Dataset #InstructionTuning #DataDistillation
Issue Date: 2023-04-26 LaMini-instruction Summary私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット ...

#Article #NeuralNetwork #EfficiencyImprovement #LanguageModel #Library #PEFT(Adaptor/LoRA)
Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Commentベースとなる事前学習モデルの一部の線形層の隣に、低ランク行列A,Bを導入し、A,Bのパラメータのみをfinetuningの対象とすることで、チューニングするパラメータ数を激減させた上で同等の予測性能を達成し、推論速度も変わらないようにするfinetuning手法の解説LoRAを使うと、でかすぎるモデ ... #Article #Embeddings #Library #SpokenLanguageProcessing
Issue Date: 2023-04-25 CLAP Commentテキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデルたとえばゼロショットでaudio分類ができる![image](https://user-images.githubusercontent.com/12249301/23429 ... #Article #Tools #InformationRetrieval #Library #LLMAgent
Issue Date: 2023-04-22 Llamaindex CommentLlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた https://dev.classmethod.jp/articles/llama-index-insert-index/ ... #Article #Tools #InformationRetrieval #LanguageModel #Library #LLMAgent
Issue Date: 2023-04-21 LangChain CommentLangChain の Googleカスタム検索連携を試す https://note.com/npaka/n/nd9a4a26a8932LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents https://zenn.de ... #Article #PersonalizedDocumentSummarization
Issue Date: 2023-04-07 User-centred versus system-centred evaluation of a personalization system, Diaz+, Information Processing & management, 2008 Comment# Introduction 本研究では、web contentsのPersonalizationシステムにおいて、user-centered evaluationとsystem-centered evaluationの評価の問題を議論している。目的としては両者の評価を組み合わせることで、それぞれ ... #Article #LanguageModel #Education #AES(AutomatedEssayScoring)
Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment著者によるポスト: https://twitter.com/mizumotoatsushi/status/1641754298496471040?s=46&t=TIr1-wDC_j5MPU3TvCVWMg著者によるブログ: https://mizumot.com/lablog/archives/18 ... #Article #LanguageModel #Supervised-FineTuning (SFT)
Issue Date: 2023-03-30 Publicly available instruction-tuned models #Article #Tools #LanguageModel #Library
Issue Date: 2023-03-11 20B params chatgpt alternative Comment元ツイートApache2.0で公開https://twitter.com/_philschmid/status/1634492396171071488?s=46&t=VvPwEQsB--BeXx0YbYQdxQ ... #Article #Library #DataAugmentation #Repository
Issue Date: 2023-01-21 nlpaug CommentData Augmentationのためのオープンソースライブラリ ... #Article #ComputerVision #MachineLearning #Library #Explanation #Transformer #Blog
Issue Date: 2022-12-01 Transformers Interpret, 2022 Commenttransformersのモデルをたった2行追加するだけで、explainableにするライブラリ基本的にtextとvisionのclassificationをサポートしている模様text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をou ... #Article #NeuralNetwork #Tutorial #Transformer
Issue Date: 2022-09-06 Transformerの最前線〜畳込みニューラルネットワークの先へ〜, 牛久先生, 2022 #Article #NeuralNetwork #LanguageModel #PEFT(Adaptor/LoRA)
Issue Date: 2022-08-19 The Power of Scale for Parameter-Efficient Prompt Tuning, Lester+, Google Research, EMNLP‘21 Comment日本語解説: https://qiita.com/kts_plea/items/79ffbef685d362a7b6ceT5のような大規模言語モデルに対してfinetuningをかける際に、大規模言語モデルのパラメータは凍結し、promptをembeddingするパラメータを独立して学習する手法 ... #Article #Tutorial #Blog #Legal
Issue Date: 2021-10-26 自然言語系AIサービスと著作権侵害, 柿沼太一, 2021 #Article #NeuralNetwork #LanguageModel
Issue Date: 2021-09-09 GPT-3から我々は何を学べば良いのか, 山本, Japio year book 2020 CommentGPT-3の概要:GPT-3はWebサイトから数年に渡って収集したCommon Crawlというデータセットから、570GBを抜粋し学習に利用。（英語ウィキペディアの約130倍）ある単語列に後続する単語を予測するという方法（自己回帰型言語モデル）で教師なし学習を繰り返し、言語モデルを学習。GPT-3 ... #Article #NeuralNetwork #Survey #Pocket
Issue Date: 2021-06-17 Pre-Trained Models: Past, Present and Future, Han+, AI Open‘21 CommentLarge-scale pre-trained models (PTMs) such as [BERT](https://www.sciencedirect.com/topics/computer-science/bidirectional-encoder-representations-from ... #Article #Tutorial #Tools #Library #python #Slide
Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用![image](https://user-images.githubusercontent.com/12249301/121644722-56025800-cace-11eb-9f ... #Article #NeuralNetwork #EfficiencyImprovement #Transformer #ACL
Issue Date: 2021-06-10 FastSeq: Make Sequence Generation Faster, Yan+, ACL’21 CommentBART, DistilBART, T5, GPT2等のさまざまなTransformer-basedな手法で、4-9倍Inference speedを向上させる手法を提案。 ... #Article #NeuralNetwork #Survey
Issue Date: 2021-06-09 A survey of Transformers, Lin+, AI Open‘22 CommentTransformersの様々な分野での亜種をまとめた論文![image](https://user-images.githubusercontent.com/12249301/121394765-a40f4280-c98c-11eb-8fac-0114715ec738.png)Transforme ... #Article #NeuralNetwork #MachineTranslation #NAACL
Issue Date: 2021-06-03 Probing Word Translations in the Transformer and Trading Decoder for Encoder Layers, NAACL‘21 CommentTransformerに基づいたNMTにおいて、Encoderが入力を解釈し、Decoderが翻訳をしている、という通説を否定し、エンコーディング段階、さらにはinput embeddingの段階でそもそも翻訳が始まっていることを指摘。エンコーディングの段階ですでに翻訳が始まっているのであれば、エこ ... #Article #DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #ACL
Issue Date: 2021-06-03 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL’16 Comment#371 と同様コピーメカニズムを提案した論文。Joint Copy ModelやCOPYNETと呼ばれる。次の単語が "生成" されるのか "コピー" されるのかをスコアリングし、各単語がコピーされる確率と生成される確率をMixtureした同時確率分布で表現する（ #207 等でも説明されてい解 ... #Article #DocumentSummarization #NeuralNetwork #NaturalLanguageGeneration #ACL
Issue Date: 2021-06-02 Pointing the Unknown Words, Gulcehre+, ACL’16 CommentConditional Copy Model （Pointer Softmax）を提案した論文。単語を生成する際に、語彙内の単語から生成する分布、原文の単語から生成する分布を求める。後者はattention distributionから。コピーするか否かを決める確率変数を導入し（sigmoid）、解 ... #Article #NeuralNetwork #SentimentAnalysis #RepresentationLearning
Issue Date: 2021-06-01 Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015 Comment#363 より、本論文を引用して「CNN ベースのモデルが、畳み込み演算により文から特定のローカルパターンを検出して抽出できるため、他のモデル（e.g. Recurrent Neural Network, Recursive Neural Network）よりも優れていることが経験的に示されている」 ... #Article #Tutorial #Dataset #Evaluation #Blog
Issue Date: 2021-05-19 GLUE - 英語圏における自然言語処理の標準ベンチマーク, npaka, 2020 Comment各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる ... #Article #NeuralNetwork #Survey #ComputerVision
Issue Date: 2021-05-19 MLP-like Architecture CommentgMLP:大規模なself-attentionが無いSpatial Gating Unitを搭載したシンプルなMLPでも、Transformerの性能に近づけたよ（特にCV）。つまり、self-attentionはessentialというわけではなさそうだよ。NLPの場合はgMLPだとTransまあ ... #Article #NeuralNetwork #Tools #Dataset #LanguageModel #Library #Blog
Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT, 2020 CommentNICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。 ... #Article #Tutorial #LanguageModel #Slide
Issue Date: 2020-01-13 BERT入門, Kenichi Matsui, 2020 Comment自然言語処理の王様「BERT」の論文を徹底解説 https://qiita.com/omiita/items/72998858efc19a368e50Transformer関連 #245 あたりを先に読んでからが読むと良い要は・Transformerをたくさん積んだモデル・NSPとMLMで双 ... #Article #Survey #MachineLearning #Blog
Issue Date: 2020-01-13 10 ML & NLP Research Highlights of 2019, Sebastian Ruder, 2020 #Article #Tutorial #Slide
Issue Date: 2019-11-09 EMNLP 2019 spec tutorial #Article #NeuralNetwork #Survey #LanguageModel #Slide #Admin'sPick
Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models, Kyosuke Nishida, 2019 Comment[2019/06まで] ・ELMo（双方向2層LSTM言語モデル）・GPT（left-to-rightの12層Transformer自己回帰言語モデル）・BERT（24層のTransformer双方向言語モデル）・MT-DNN（BERTの上にマルチタスク層を追加した研究）・XLM（ELMo, ... #Article #ComputerVision #Pocket #CommentGeneration
Issue Date: 2019-09-27 Cross-domain personalized image captioning, Long+, 2019 #Article #NeuralNetwork #Tools #Library
Issue Date: 2019-09-22 【黒橋研】BERT日本語Pretrainedモデル Comment【huggingface transformersで使える日本語モデルのまとめ】 https://tech.yellowback.net/posts/transformers-japanese-models ... #Article #NeuralNetwork #Tutorial #Tools
Issue Date: 2018-11-16 AllenNLP Commenthttps://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8 ... #Article #NeuralNetwork #Tutorial #MachineLearning
Issue Date: 2018-06-29 Pytorchによるtransformer実装チュートリアル #Article #NeuralNetwork #Tutorial #MachineLearning
Issue Date: 2018-02-19 ニューラルネット勉強会（LSTM編）, Seitaro Shinagawa, 2016 CommentLSTMの基礎から、実装する上でのTipsがまとまっている。 zero padding, dropoutのかけかた、normalizationの手法など。 ... #Article #DocumentSummarization #Document #Extractive
Issue Date: 2018-01-17 Machine-made index for technical literature: an experiment, IBM Journal of Research and Development, 1958. Comment初期の要約研究。Luhnらの研究よりはcitation countが少ない。 ... #Article #Tutorial #MachineTranslation #Alignment #Slide
Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー単語アライメント, Graham Neubig CommentNeubigさんによる単語アライメントチュートリアル ... #Article #NeuralNetwork #Tutorial #Slide #Admin'sPick
Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi #Article #Survey #SentimentAnalysis #OpinionMining
Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008 #Article #DocumentSummarization #Alignment #SIGIR #Admin'sPick
Issue Date: 2018-01-11 The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99. Comment参照要約原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。 ![image](https://user-images.githubusercontent.com/12249301/34812500-2d1d7d32-f6e9-11e7 ... #Article #DocumentSummarization #Alignment #SIGIR
Issue Date: 2018-01-11 The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment<Abstract, Text>のタプルが与えられた時に、<Abstract, Extract, Text>のタプルを自動的に生成。ExtractはAbstractと対応するText中の重要部（節やsentence）。 <Abstract, Extract, Text>に含まれるExtract ... #Article #Multi #Single #DocumentSummarization #Document #Unsupervised #GraphBased #Extractive #Admin'sPick
Issue Date: 2018-01-01 LexRank: Graph-based Lexical Centrality as Salience in Text Summarization, Erkan+, Journal of Artificial Intelligence Research, 2004 Comment代表的なグラフベースな(Multi) Document Summarization手法。ほぼ #214 と同じ手法。 2種類の手法が提案されている： * [LexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarit ... #Article #DocumentSummarization #Document #Classic
Issue Date: 2018-01-01 The automatic creation of literature abstracts, Luhn, IBM Journal of Research Development, 1958 Comment文書要約研究初期の研究 ... #Article #DocumentSummarization #Document #StructuredLearning #DomainAdaptation #Supervised #Extractive
Issue Date: 2017-12-31 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011 Comment構造学習を利用した文書要約モデル #126 なども利用し転移学習を行なっている。 ... #Article #DocumentSummarization #Supervised
Issue Date: 2017-12-31 Text Summarization using a trainable summarizer and latent semantic analysis, Yeh+, Information Processing and Management 2005 #Article #DocumentSummarization #Survey
Issue Date: 2017-12-31 A survey on Automatic Text Summarization, Das+, CMUの教材？ #Article #NaturalLanguageGeneration #Others #DataToTextGeneration
Issue Date: 2017-12-31 Automatically generated linguistic summaries of energy consumption data, van der Heide+, In Proceedings of the Ninth International Conference on Intelligent Systems Design and Applications, pages 553-559, 2009 #Article #NaturalLanguageGeneration #Others #DataToTextGeneration
Issue Date: 2017-12-31 A framework for automatic text generation of trends in physiological time series data, Banaee+, In Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, 2013 #Article #NaturalLanguageGeneration #SingleFramework #ConceptToTextGeneration
Issue Date: 2017-12-31 A Global Model for Concept-to-Text Generation, Konstas+, Journal of Artificial Intelligence Research, Vol. 48, pp.305--346, 2013 #Article #NeuralNetwork #NaturalLanguageGeneration #DataToTextGeneration #NAACL
Issue Date: 2017-12-31 What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment, Mei+, NAACL-HLT’16 Commentcontent-selectionとsurface realizationをencoder-decoder alignerを用いて同時に解いたという話。普通のAttention basedなモデルにRefinerとPre-Selectorと呼ばれる機構を追加。通常のattentionにはatte ... #Article #NeuralNetwork #Document #QuestionAnswering #NeurIPS
Issue Date: 2017-12-28 Teaching Machines to Read and Comprehend, Hermann+, NIPS 2015 Commentだいぶ前に読んだので割とうろおぼえ。 CNN/DailyMailデータセットの作成を行なった論文（最近Neuralな文”書”要約の学習でよく使われるやつ）。 CNN/DailyMailにはニュース記事に対して、人手で作成した要約が付与されており、要約中のEntityを穴埋めにするなどして、 ... #Article #DocumentSummarization #Snippets #SIGIR
Issue Date: 2017-12-28 Web page summarization using clickthrough data, Sun et al., SIGIR’05, 2005 #Article #DocumentSummarization #Snippets #QueryBiased #CIKM
Issue Date: 2017-12-28 Learning query-biased web page summarization, Wang et al., CIKM’07, 2007 Comment・従来のquery-biasedな要約におけるclassificationアプローチは，training内のdocumentの情報が未知のdocumentのsentenceのclassificationに役立つというものだった．これは，たとえば似たような情報を多く含むscientific artic ... #Article #DocumentSummarization #Snippets
Issue Date: 2017-12-28 Enhanced web document summarization using hyperlinks, Delort et al., HT’03, 2003 Comment・Genericなweb pageの要約をつくる・要約を作る際に，ページの内容から作るわけではなく，contextを用いて作る．contextとは，target pageにリンクを張っているページにおけるリンクの周辺にある文のこと．・contextを利用した要約では，partialityとt ... #Article #DocumentSummarization #Snippets #QueryBiased
Issue Date: 2017-12-28 A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003 Comment・search engineにおいてquery-biasedな要約の有用性を示したもの・task-orientedな評価によって，提案手法がGoogleやAltaVistaのスニペットよりも良いことを示す．・提案手法は文選択によるquery-biased summarization．スコアリ ... #Article #DocumentSummarization #Temporal
Issue Date: 2017-12-28 HLTCOE at TREC 2013: Temporal Summarization, Xu et al, TREC 2013 #Article #DocumentSummarization #Temporal
Issue Date: 2017-12-28 BJUT at TREC 2013 Temporal Summarization Track, yang et al. TREC2013 Comment・次のモジュールにより構成される。Preprocess, Retrieval, Information expansion, Sentence choosing and ranking ・Preprocess: GPGファイルをTXTファイルに変換。indexをはる。・Retrieval: ... #Article #DocumentSummarization #Update #Dataset
Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset CommentDUC 2007:https://duc.nist.gov/duc2007/tasks.html ... #Article #DocumentSummarization #Update
Issue Date: 2017-12-28 Update Summary Update, Copeck et al., TAC’08 Comment被引用数は少ないが、良い論文からreferされているイメージ ... #Article #DocumentSummarization #Update #EACL
Issue Date: 2017-12-28 DualSum: a Topic-Model based approach for update summarization, Delort et al., EACL’12 Comment・大半のupdate summarizationの手法はdocument set Aがgivenのとき，document set Bのupdate summarizationをつくる際には，redundancy removalの問題として扱っている．・この手法は，1つのsentenceの中にre ... #Article #DocumentSummarization #Update #CIKM
Issue Date: 2017-12-28 Document Update Summarization Using Incremental Hierarchical Clustering, Wang et al.,　CIKM’10 Comment・既存のMDSではdocumentをbatch処理するのが前提．typicalなクラスタリングベースの手法やグラフベースの手法はsentence-graphを構築して要約を行う．しかし，情報がsequentialに届き，realtimeで要約を行いたいときにこのような手法を使うと，毎回すでに処理した ... #Article #DocumentSummarization #Update #CIKM
Issue Date: 2017-12-28 Incremental Update Summarization: Adaptive Sentence Selection based on Prevalence and Novelty, McCreadie et al., CIKM’14 Comment・timelyなeventに対してupdate summarizationを適用する場合を考える．たとえば6日間続いたeventがあったときにその情報をユーザが追う為に何度もupdate summarizationシステムを用いる状況を考える．6日間のうち新しい情報が何も出てこない期間はirrele ... #Article #DocumentSummarization #Update #CIKM
Issue Date: 2017-12-28 Update Summarization using Semi-Supervised Learning Based on Hellinger Distance, Wang et al., CIKM’15, 2015.10 Comment・Hellinger Distanceを用いてSentence Graphを構築．ラベル伝搬により要約に含める文を決定する手法・update summarizationの研究ではsimilarityをはかるときにcosine similarityを用いることが多い．・cosine similうー ... #Article #DocumentSummarization #Update #SIGIR
Issue Date: 2017-12-28 TimedTextRank: Adding the Temporal Dimension to Multi-Document Summarization, Xiaojun Wan, SIGIR’07, 2007.07 Comment・evolving topicsを要約するときは，基本的に新しい情報が重要だが，TextRankはそれが考慮できないので拡張したという話．・dynamic document setのnew informationをより重視するTimedTextRankを提案・TextRankのvoteの部分 ... #Article #DocumentSummarization #Update
Issue Date: 2017-12-28 The LIA Update Summarization Systems at TAC-2008, Boudin et al. TAC’08, 2008.11 Comment・Scalable MMR #32 とVariable length intersection gap n-term modelを組み合わせる．・Variable length intersection gap n-term modelは，あるトピックのterm sequenceは他の異なる語と ... #Article #DocumentSummarization #Update #COLING
Issue Date: 2017-12-28 A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization, Boudin et al., COLING’08, 2008.08 Comment・MMR #243 をupdate summarization用に拡張．History（ユーザが過去に読んだsentence）の数が多ければ多いほどnon-redundantな要約を出す（Queryに対するRelevanceよりもnon-redundantを重視する）・Historyの大きさに ... #Article #DocumentSummarization #IntegerLinearProgramming (ILP)#Update #NAACL
Issue Date: 2017-12-28 Improving Update Summarization via Supervised ILP and Sentence Reranking, Li et al. NAACL’15, 2015.05 Comment・update summarizationをILPで定式化．基本的なMDSのILPのterm weightingにsalienceの要素に加えてnoveltyの要素を加える．term weightingにはbigramを用いる．bigram使うとよくなることがupdate summarization ... #Article #DocumentSummarization #Update #COLING
Issue Date: 2017-12-28 Update Summarization Based on Co-Ranking with Constraints, Wiaojun Wan, COLING’12, 2012.12 Comment・PageRankの枠組みを拡張してold datasetとnew dataset内のsentenceをco-ranking ・co-rankingするときは，update scoreとconsistency scoreというものを求め相互作用させる．・update scoreが高いsente ... #Article #Multi #PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized Multi-Document Summarization using N-Gram Topic Model Fusion, Hennig+, SPIM, 2010, 2010.05 Comment・unigramの共起だけでなく，bigramの共起も考慮したPLSIモデルを提案し，jointで学習．与えられたクエリやnarrativeなどとsentenceの類似度（latent spaceで計算）を計算し重要文を決定。・user-modelを使ったPersonalizationはしていな ... #Article #Single #PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Segmentation Based, Personalized Web Page Summarization Model, Journal of advances in information technology, vol. 3, no.3, 2012, 2012.08 Comment・Single-document ・ページ内をセグメントに分割し，どのセグメントを要約に含めるか選択する問題・要約に含めるセグメントは4つのfactor（segment weight, luan’s significance factor, profile keywords, compress ... #Article #Multi #PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized Multi-document Summarization in Information Retrieval, Yang+, Machine Learning and Cybernetics, 08, 2008.07 Comment・検索結果に含まれるページのmulti-document summarizationを行う．クエリとsentenceの単語のoverlap, sentenceの重要度を　Affinity-Graphから求め，両者を結合しスコアリング．MMR #243 likeな手法で冗長性を排除し要約を生成する ... #Article #Multi #DocumentSummarization #Extractive
Issue Date: 2017-12-28 NewsInEssence: Summarizing ONLINE NEWS TOPICS, Radev+, Communications of the ACM, 05, 2005.10 Comment・Centroid-Basedな手法(MEADと同じ手法)で要約を生成・Personalizationはかけていない ... #Article #Multi #PersonalizedDocumentSummarization #Search #NAACL
Issue Date: 2017-12-28 WebInEssence: A Personalized Web-Based Multi-Document Summarization and Recommendation System, Radev+, NAACL, 01, 2001.06 Comment・ドキュメントはオフラインでクラスタリングされており，各クラスタごとにmulti-document summarizationを行うことで，ユーザが最も興味のあるクラスタを同定することに役立てる．あるいは検索結果のページのドキュメントの要約を行う．要約した結果には，extractした文の元U ... #Article #PersonalizedDocumentSummarization #DocumentSummarization #ACL #COLING
Issue Date: 2017-12-28 Automatic Text Summarization based on the Global Document Annotation, COLING-ACL, Nagao+, 1998, 1998.08 CommentPersonalized summarizationの評価はしていない。提案のみ。以下の3種類の手法を提案 keyword-based customization 関心のあるキーワードをユーザが入力し、コーパスやwordnet等の共起関係から関連語を取得し要約に利用する文書の ... #Article #PersonalizedDocumentSummarization #NAACL #Admin'sPick
Issue Date: 2017-12-28 A Study for Documents Summarization based on Personal Annotation, HLT-NAACL-DUC’03, Zhang+, 2003, 2003.05 Comment![image](https://user-images.githubusercontent.com/12249301/34402434-d521f19e-ebe4-11e7-82cf-2f3452fa4014.png) ![image](https://user-images.githubuse重 ... #Article #PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Automatic Personalized Summarization using Non-negative Matrix Factorization and Relevance Measure, IWSCA, Park+, 2008, 2008.07 Comment#15 と同様 ... #Article #PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized Text Summarization using NMF and Cluster Refinement, ICTC, Park+, 2011, 2011.09 Comment![image](https://user-images.githubusercontent.com/12249301/34402356-5275f894-ebe4-11e7-93d7-2a3781a74b94.png) ... #Article #PersonalizedDocumentSummarization #PRICAI
Issue Date: 2017-12-28 Personalized Summarization Agent Using Non-negative Matrix Factorization, PRICAI, Park, 2008, 2008.12 Comment![image](https://user-images.githubusercontent.com/12249301/34402291-fb66cb96-ebe3-11e7-9635-790be0cf8b5d.png) ... #Article #DocumentSummarization #GraphBased #Comments #Extractive #SIGIR
Issue Date: 2017-12-28 Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07