NLP

#Analysis#Efficiency/SpeedUp#Pocket#LanguageModel
Issue Date: 2024-11-22 Observational Scaling Laws and the Predictability of Language Model Performance, Yangjun Ruan+, arXiv24 Comment縦軸がdownstreamタスクの主成分(のうち最も大きい80%を説明する成分)の変化(≒LLMの性能)で、横軸がlog scaleの投入計算量。Qwenも頑張っているが、投入データ量に対する性能(≒データの品質)では、先駆け的な研究であるPhiがやはり圧倒的?![image](https://#7 ... #Analysis#InformationRetrieval#Pocket#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv24 Commentトークンレベルの平均値をとった生成テキストの対数尤度と、RAGの回答性能に関する分析をした模様。![image](https://github.com/user-attachments/assets/ac03c0b6-b16c-4992-8446-2f56bad09ab2)とりあえず、もし「L参考: ... #Survey#Pocket#LanguageModel#MultiLingual
Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv24 Comment![image](https://github.com/user-attachments/assets/0b86445f-b974-459c-94f0-a80f5e2bbc9a)![image](https://github.com/user-attachments/assets/0d03af89 ...

#Analysis#Efficiency/SpeedUp#Pretraining#Pocket#LanguageModel#Finetuning (SFT)#Japanese
Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv24 Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よ ... #Survey#Efficiency/SpeedUp#LanguageModel#Transformer#Attention
Issue Date: 2024-11-17 Understanding LLMs: A Comprehensive Overview from Training to Inference, Yiheng Liu+, arXiv24 Comment[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-minei-ro-7vGwDK_AQX.HDO7j9H8iNA)単なるLLMの理論的な説明にとどまらず、実用的に必要な各種 ... #Analysis#Pocket#LanguageModel
Issue Date: 2024-11-17 The Geometry of Concepts: Sparse Autoencoder Feature Structure, Yuxiao Li+, arXiv24 Comment参考: https://ledge.ai/articles/llm_conceptual_structure_sae[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-min ... #Analysis#LanguageModel#Chain-of-Thought
Issue Date: 2024-11-13 A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration, Yingqian Cui+, arXiv24 Comment元ポスト:https://x.com/_philschmid/status/1855926845855699311?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qおもしろそうな研究 ... #Pretraining#MachineLearning#Pocket#LanguageModel#Subword
Issue Date: 2024-11-12 LBPE: Long-token-first Tokenization to Improve Large Language Models, Haoran Lian+, arXiv24 CommentBPEとは異なりトークンの長さを優先してマージを実施することで、最終的なトークンを決定する手法で、![image](https://github.com/user-attachments/assets/99b91472-88d8-4792-bf04-acc67956e4f5)![image]( ... #ComputerVision#Efficiency/SpeedUp#Transformer#MulltiModal#AudioProcessing#Architecture
Issue Date: 2024-11-12 Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models, Weixin Liang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/340ab176-7b17-467a-8731-20d1594d6951) ... #Efficiency/SpeedUp#Pocket#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-11-12 DELIFT: Data Efficient Language model Instruction Fine Tuning, Ishika Agarwal+, arXiv24 #Survey#Pocket#LanguageModel#LLMAgent
Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/999adca8-f0d7-483c-ae5a-b6f78fe9da4b)![image](https://github.com/user-attachments/assets/b69dc991R ... #Efficiency/SpeedUp#Pocket#LanguageModel
Issue Date: 2024-11-12 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, Charlie Snell+, arXiv24 Comment![image](https://github.com/user-attachments/assets/0562a65e-b2f1-4ff4-b806-107313fc255e)[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/s ... #Pocket#LLMAgent#API
Issue Date: 2024-11-11 Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv24 Comment![image](https://github.com/user-attachments/assets/f4beb58b-f6da-4536-87e6-3d746cb7c586)CMUの研究。後で読みたい ... #InformationRetrieval#Pocket#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv24 Comment#1498 も参照のこと。 下記に試しにHyQEとHyDEの比較の記事を作成したのでご参考までに(記事の内容に私は手を加えていないのでHallucinationに注意)。ざっくりいうとHyDEはpseudo documentsを使うが、HyQEはpseudo queryを扱う。 [参![imag ... #Pocket#LanguageModel#NumericReasoning
Issue Date: 2024-11-09 Number Cookbook: Number Understanding of Language Models and How to Improve It, Haotong Yang+, arXiv24 Commentんー、abstしか読んでいないけれども、9.11 > 9.9 については、このような数字に慣れ親しんでいるエンジニアなどに咄嗟に質問したら、ミスして答えちゃう人もいるのでは?という気がする(エンジニアは脳内で9.11 > 9.9を示すバージョン管理に触れる機会が多く、こちらの尤度が高い)。LLM元ポ ... #Analysis#MachineLearning#Pocket#LanguageModel#Adapter/LoRA
Issue Date: 2024-11-09 LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv24 Comment元ポスト: https://x.com/aratako_lm/status/1854838012909166973?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1423 や #1475 、双方の知見も交えて、LoRAの挙動を考察する必要がある気がする。それぞれ異なるデータセットやモデ ... #Survey#LanguageModel#SmallModel
Issue Date: 2024-11-07 A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness, Fali Wang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/9faf2732-233d-468e-ac4c-98b18f2f2bcf)![image](https://github.com/user-attachments/assets/889ebda5- ... #Pocket#LanguageModel#Alignment#Finetuning (SFT)
Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, arXiv24 Comment元ポスト:https://x.com/jaseweston/status/1854532624116547710?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q![image](https://github.com/user-attachments/assets/040ffe7c-6e8 ... #InformationRetrieval#RetrievalAugmentedGeneration#Attack
Issue Date: 2024-11-07 Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors, Yuefeng Peng+, arXiv24 Commentfinetuning用データセットに対して、攻撃者がpoisoningしたデータを忍ばせることで、クエリ中のトリガーワード(trigger)に反応して、RAGで検索対象となったドキュメントを抽出的に、あるいはparaphraseしたものを出力させるようなバックドアを仕掛ける攻撃方法を指摘している。2 ... #Survey#LanguageModel#Evaluation#Reasoning
Issue Date: 2024-11-07 Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models -- A Survey, Philipp Mondorf+, arXiv24 Comment論文紹介(sei_shinagawa):https://www.docswell.com/s/sei_shinagawa/KL1QXL-beyond-accuracy-evaluating-the-behaivior-of-llm-survey![image](https://github.com/ ... #LanguageModel#SyntheticData#OpenWeightLLM#OpenSource
Issue Date: 2024-11-06 Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent, Xingwu Sun+, arXiv24 Comment合計パラメータ数はLlama-3.1-405Bと同等の389Bだが、MoEによって52BのActive ParameterでSoTAを達成したTencentのOpenSource LLM。大量のSynthetia Dataを利用している。 ... #MachineLearning#Pocket#LongSequence#SSM (StateSpaceModel)
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #Pocket#ChatGPT
Issue Date: 2024-11-02 On The Planning Abilities of OpenAIs o1 Models: Feasibility, Optimality, and Generalizability, Kevin Wang+, N_A, arXiv24, 2024.11 Commento1のplanningの性能について知りたくなったら読む ... #Pocket#LanguageModel
Issue Date: 2024-11-02 Looking Inward: Language Models Can Learn About Themselves by Introspection, Felix J Binder+, N_A, arXiv24, 2024.11 Comment![image](https://github.com/user-attachments/assets/2b19bc9c-342d-42a9-b603-ff9cfc694570)LLMが単に訓練データを模倣しているにすぎない的な主張に対するカウンターに使えるかも ... #Finetuning (SFT)#InstructionTuning#Adapter/LoRA
Issue Date: 2024-10-30 Beyond Full Fine-tuning: Harnessing the Power of LoRA for Multi-Task Instruction Tuning, Xin+, LREC-COLING24 CommentLow-Rank Adaptation (LoRA) is a widespread parameter-efficient fine-tuning algorithm for large-scale language models. It has been commonly accepted tL ... #MachineLearning#Pocket#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-27 KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N_A, arXiv24 CommentbinaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文 ... #Efficiency/SpeedUp#Transformer
Issue Date: 2024-10-22 What Matters in Transformers? Not All Attention is Needed, Shwai He+, N_A, arXiv24 Comment通常LLMはtransformer decoderのブロックをstackすることで形成されるが、積み上げたブロック、あるいはlayerってほんとに全部必要なの?という疑問に答えてくれる論文のようである。transformer blockそのもの、あるいはMLP layerを削除するとpeformパフ ... #Transformer#Architecture
Issue Date: 2024-10-21 Differential Transformer, Tianzhu Ye+, N_A, arXiv24 Comment最近のMSはなかなかすごい(小並感# 概要 attention scoreのノイズを低減するようなアーキテクチャとして、二つのQKVを用意し、両者の差分を取ることで最終的なattentiok scoreを計算するDifferential Attentionを提案した。 attentionのnois ... #Pretraining#LanguageModel#Alignment#Finetuning (SFT)#SyntheticData
Issue Date: 2024-10-21 Self-Taught Evaluators, Tianlu Wang+, N_A, arXiv24 CommentLLMのアラインメント等をSFTする際に、preferenceのラベル付きデータが必要になるが、このようなデータを作るのはコストがかかって大変なので自動生成して、より良いreward modelを作りたいよね、という話。具体的には、LLMを用いて good responseと、instructio ... #Survey#InformationRetrieval#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-10-20 Retrieval Augmented Generation (RAG) and Beyond: A Comprehensive Survey on How to Make your LLMs use External Data More Wisely, Siyun Zhao+, N_A, arXiv24 CommentRAGのクエリを4種類に分類した各クエリごとの技術をまとめたSurvey![image](https://github.com/user-attachments/assets/b551725d-5f82-4914-8b8f-716ddb6a342b) ... #InformationRetrieval#Dataset#Evaluation#RetrievalAugmentedGeneration
Issue Date: 2024-10-20 Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation, Satyapriya Krishna+, N_A, arXiv24 CommentRAGのfactuality, retrieval acculacy, reasoningを評価するためのmulti hop puestionとそれに回答するための最大15のwikipedia記事のベンチマーク元ポスト:https://x.com/_philschmid/status/184062 ... #Pocket#LanguageModel#Hallucination
Issue Date: 2024-10-20 LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations, Hadas Orgad+, N_A, arXiv24 Comment特定のトークンがLLMのtrustfulnessに集中していることを実験的に示し、かつ内部でエンコードされたrepresentationは正しい答えのものとなっているのに、生成結果に誤りが生じるような不整合が生じることも示したらしい ... #Efficiency/SpeedUp#Pretraining#Pocket#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-20 Addition is All You Need for Energy-efficient Language Models, Hongyin Luo+, N_A, arXiv24 #Pretraining#Tools#LanguageModel#Finetuning (SFT)#LLMAgent
Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv24 Comment昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルに ... #Pretraining#Pocket#LanguageModel#Finetuning (SFT)#Chain-of-Thought
Issue Date: 2024-10-19 Thinking LLMs: General Instruction Following with Thought Generation, Tianhao Wu+, N_A, arXiv24 Commentこれは後でしっかり読んだほうがいい。LLMに回答を生成させる前にThinkingさせるように学習させるフレームワークThought Preference Optimization(TPO)を提案![image](https://github.com/user-attachments/assets ... #ComputerVision#Pocket#Dataset#LanguageModel
Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv24 Comment元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。![image](https://github.com/user-attachments/assets/9675c2ad-650a-460b-9655-1c6347d07f58)元ポスト:https://x ... #LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2024-09-29 Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models, Tongxuan Liu+, N_A, arXiv24 CommentSNSで話題になっているようだがGPT-3.5-TurboとGPT-4でしか比較していない上に、いつの時点のモデルかも記述されていないので、unreliableに見える ![image](https://github.com/user-attachments/assets/9ca6fc62-269 ... #Pretraining#Pocket#Finetuning (SFT)#SyntheticData
Issue Date: 2024-09-29 Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling, Hritik Bansal+, N_A, arXiv24 Comment元ポスト:https://x.com/rohanpaul_ai/status/1840172683528425718?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#LanguageModel#Finetuning (SFT)
Issue Date: 2024-09-26 When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N_A, ICLR24 Comment> When only few thousands of finetuning examples are available, PET should be considered first, either Prompt or LoRA. With sightly larger datasets, L ... #LanguageModel#Alignment
Issue Date: 2024-09-25 Direct Preference Optimization: Your Language Model is Secretly a Reward Model, Rafael Rafailov+, N_A, NeurIPS24 CommentDPOを提案した研究 image ... #Pocket#LanguageModel#Safety
Issue Date: 2024-09-24 Backtracking Improves Generation Safety, Yiming Zhang+, N_A, arXiv24 Comment元ポスト: https://x.com/jaseweston/status/1838415378529112330?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis#LanguageModel#Chain-of-Thought
Issue Date: 2024-09-24 To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning, Zayne Sprague+, N_A, arXiv24 CommentCoTを100個以上の先行研究でmeta-analysisし(i.e. CoTを追加した場合のgainとタスクのプロット)、20個超えるデータセットで著者らが実験した結果、mathはsymbolic reasoning(12*4のように、シンボルを認識し、何らかの操作をして回答をする問題)が必要なタ ... #LanguageModel#Finetuning (SFT)#CrossLingual
Issue Date: 2024-09-19 PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning, Zhihan Zhang+, N_A, ACL24 Comment# 概要 cross-lingualでinstruction tuningをする手法。target言語のInstructionが与えられたときに、Pivotとなる言語でInstructionとResponseを生成した後、targetとなる言語に翻訳するようなデータ(それぞれをseparatorを ... #Survey#Pocket#LanguageModel#SelfCorrection
Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL24 CommentLLMのself-correctionに関するサーベイ![image](https://github.com/user-attachments/assets/bea63e03-8b6f-4c3e-b8ff-d738c062149c)![image](https://github.com/user-a ... #Pocket#LanguageModel#QuestionAnswering#SyntheticData#SyntheticDataGeneration
Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv24 Comment合成データ生成に関する研究。ソースからQAを生成し、2つのsliceに分ける。片方をLLMのfinetuning(LLMSynth)に利用し、もう片方をfinetuningしたLLMで解答可能性に基づいてフィルタリング(curation)する。最終的にフィルタリングして生成された高品質なデータでMu ... #Pocket#LanguageModel#Finetuning (SFT)#ReinforcementLearning#Chain-of-Thought
Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL24 Comment![image](https://github.com/user-attachments/assets/ab5ed92d-6a5c-48dc-a607-3f652b2c9b3f) ![image](https://github.com/user-attachments/assets/e34e5a6 ... #LanguageModel#SelfCorrection
Issue Date: 2024-09-11 Generative Verifiers: Reward Modeling as Next-Token Prediction, Lunjun Zhang+, N_A, arXiv24 CommentLLMがリクエストに対する回答を生成したのちに、その回答をverifyするステップ + verifyの結果から回答を修正するステップを全てconcatした学習データをnext token predictionで用いることによって、モデル自身に自分の回答をverifyする能力を身につけさせることができ ... #Survey#Efficiency/SpeedUp#Pocket#LanguageModel
Issue Date: 2024-09-10 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models, Sean Welleck+, N_A, arXiv24 Comment元ツイート: https://x.com/gneubig/status/1833522477605261799?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QCMUのチームによるinference timeの高速化に関するサーベイ ... #Pocket#LanguageModel#Idea/PaperGeneration
Issue Date: 2024-09-10 Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers, Chenglei Si+, N_A, arXiv24 CommentLLMがアイデアを考えた方が、79人のresearcherにblind reviewさせて評価した結果、Noveltyスコアが有意に高くなった(ただし、feasibilityは人手で考えた場合の方が高い)という話らしい。アイデア生成にどのようなモデル、promptingを利用したかはまだ読めてい ... #Survey#Pocket#LanguageModel#Alignment
Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv24 #Survey#LanguageModel#SelfCorrection
Issue Date: 2024-09-07 Automatically Correcting Large Language Models: Surveying the landscape of diverse self-correction strategies, Liangming Pan+, N_A, TACL24 Comment![image](https://github.com/user-attachments/assets/8049b03d-927b-49ee-98eb-7b690b92c229) ... #Pocket#LanguageModel#SelfCorrection
Issue Date: 2024-09-07 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N_A, arXiv24 #Survey#LanguageModel#Prompting
Issue Date: 2024-09-02 The Prompt Report: A Systematic Survey of Prompting Techniques, Sander Schulhoff+, N_A, arXiv24 CommentPromptingに関するサーベイ初期の手法からかなり網羅的に記述されているように見える。 ![image](https://github.com/user-attachments/assets/a6e6fd6c-910c-4d5d-a98e-47cf51e254ab)また、誤用されていたり、色々な ... #Pocket#LanguageModel#Finetuning (SFT)#Hallucination
Issue Date: 2024-09-01 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, EMNLP24 Commentpre-training時に獲得されていない情報を用いてLLMのalignmentを実施すると、知識がない状態で学習データを正しく予測できるように学習されてしまうため、事実に基づかない回答をする(つまりhallucination)ように学習されてしまう、といったことを調査している模様。 >新し下記 ... #Pocket#In-ContextLearning#DemonstrationSelection
Issue Date: 2024-08-28 Revisiting Demonstration Selection Strategies in In-Context Learning, Keqin Peng+, N_A, ACL24 SummaryLLMsは幅広いタスクを実行する能力を持ち、わずかな例でタスクを説明できることが示されている。しかし、ICLのパフォーマンスはデモンストレーションの選択によって大きく異なり、その要因はまだ明確ではない。本研究では、データとモデルの両面からこの変動に寄与する要因を再検討し、デモンストレーションの選択がデータとモデルの両方に依存することを見出した。さらに、"TopK + ConE"というデータとモデルに依存したデモンストレーション選択手法を提案し、ICLのための効果的なレシピを生み出していることを示した。提案手法は異なるモデルスケールで言語理解および生成タスクの両方で一貫した改善をもたらし、一般性と安定性に加えて以前の手法の効果的な説明を提供している。 CommentICLで利用するデモンストレーションの選択は、BM25やDense Retrieverなどを用いて、テストサンプルと類似したサンプルをretrieveすることで実施されてきた。これらはテストサンプルのみに着目した手法であるが、実際には有効なデモンストレーションはモデルによって変化するため、利用するモ ... #Analysis#Pocket#LanguageModel#In-ContextLearning
Issue Date: 2024-08-27 What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N_A, ACL24 SummaryLLMsのコンテキスト内学習(ICL)能力を説明する3つの仮説について、一連の実験を通じて探究。最初の2つの仮説を無効にし、最後の仮説を支持する証拠を提供。LLMが事前学習中に学習したタスクを組み合わせることで、コンテキスト内で新しいタスクを学習できる可能性を示唆。 CommentSNLP2024での解説スライド:http://chasen.org/~daiti-m/paper/SNLP2024-Task-Emergence.pdfICLが何をやっているのか?について、これまでの仮説が正しくないことを実験的に示し、新しい仮説「ICLは事前学習で得られたタスクを組み合わせて新し ... #Analysis#MachineLearning#Pocket#SSM (StateSpaceModel)
Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, arXiv24 SummarySSM(状態空間モデル)は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment>しかし、SSMが状態追跡の表現力で本当に(トランスフォーマーよりも)優位性を持っているのでしょうか?驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています:SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を ... #Survey#NaturalLanguageGeneration#Controllable
Issue Date: 2024-08-25 Controllable Text Generation for Large Language Models: A Survey, Xun Liang+, N_A, arXiv24 SummaryLLMsの制御可能なテキスト生成(CTG)技術に関する最新の進展を体系的にレビューし、その中核的な概念の包括的な定義を提供し、制御条件とテキスト品質の要件を明確にする。CTGタスクをコンテンツ制御と属性制御の2つの主要なタイプに分類し、モデルの再学習、ファインチューニング、強化学習、プロンプトエンジニアリング、潜在空間の操作、デコーディング時の介入など、主要な手法について議論する。さらに、CTGの評価方法を検討し、領域全体での応用をまとめ、現在の研究における主要な課題に取り組む。また、将来の研究で実世界の応用に重点を置くなど、いくつかの提案も行う。 CommentSurveyの内容![image](https://github.com/user-attachments/assets/1117d721-26b9-4361-855f-a6bf9efb93a4) ... #Analysis#Pretraining#Pocket#Finetuning (SFT)
Issue Date: 2024-08-19 Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models, Kaiser Sun+, N_A, arXiv24 Summary大規模なテキストコーパスで事前学習された複数の中間事前学習モデルのチェックポイントを微調整することによって、事前学習と微調整の関係を調査した。18のデータセットでの結果から、i)継続的な事前学習は、微調整後にモデルを改善する潜在的な方法を示唆している。ii)追加の微調整により、モデルが事前学習段階でうまく機能しないデータセットの改善が、うまく機能するデータセットよりも大きいことを示している。iii)監督された微調整を通じてモデルは恩恵を受けるが、以前のドメイン知識や微調整中に見られないタスクを忘れることがある。iv)監督された微調整後、モデルは評価プロンプトに対して高い感度を示すが、これはより多くの事前学習によって緩和できる。 #Analysis#Pocket#LanguageModel#GrammaticalErrorCorrection
Issue Date: 2024-08-14 Prompting open-source and commercial language models for grammatical error correction of English learner text, Christopher Davis+, N_A, arXiv24 SummaryLLMsの進歩により、流暢で文法的なテキスト生成が可能になり、不文法な入力文を与えることで文法エラー修正(GEC)が可能となった。本研究では、7つのオープンソースと3つの商用LLMsを4つのGECベンチマークで評価し、商用モデルが常に教師ありの英語GECモデルを上回るわけではないことを示した。また、オープンソースモデルが商用モデルを上回ることがあり、ゼロショットのプロンプティングがフューショットのプロンプティングと同じくらい競争力があることを示した。 Comment元ポスト:https://x.com/chemical_tree/status/1822860849935253882?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#LanguageModel#LLMAgent#Idea/PaperGeneration
Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv24 Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #Efficiency/SpeedUp#Pocket#LanguageModel#OpenWeightLLM
Issue Date: 2024-04-23 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N_A, arXiv24 Summaryphi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。 Comment#1039 の次の次(Phi2.0についてはメモってなかった)。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしいLlama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。 ... #Efficiency/SpeedUp#Pocket#LanguageModel#Pruning
Issue Date: 2024-04-22 The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N_A, arXiv24 Summary一般的なオープンウェイトの事前学習されたLLMのレイヤー剪定戦略を研究し、異なる質問応答ベンチマークでのパフォーマンスの低下を最小限に抑えることを示しました。レイヤーの最大半分を削除することで、最適なブロックを特定し、微調整して損傷を修復します。PEFT手法を使用し、実験を単一のA100 GPUで実行可能にします。これにより、計算リソースを削減し、推論のメモリとレイテンシを改善できることが示唆されます。また、LLMがレイヤーの削除に対して堅牢であることは、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性を示唆しています。 Comment下記ツイートによると、学習済みLLMから、コサイン類似度で入出力間の類似度が高い層を除いてもタスクの精度が落ちず、特に深い層を2-4割削除しても精度が落ちないとのこと。参考:https://x.com/hillbig/status/1773110076502368642?s=46&t=Y6UuI ... #Survey#Pocket#LanguageModel
Issue Date: 2024-04-14 Knowledge Conflicts for LLMs: A Survey, Rongwu Xu+, N_A, arXiv24 SummaryLLMsにおける知識の衝突に焦点を当て、文脈とパラメトリック知識の組み合わせによる複雑な課題を分析。文脈-メモリ、文脈間、メモリ内の衝突の3つのカテゴリーを探求し、実世界のアプリケーションにおける信頼性とパフォーマンスへの影響を検討。解決策を提案し、LLMsの堅牢性向上を目指す。 #Pocket#LanguageModel#SelfTaughtReasoner
Issue Date: 2024-04-14 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking, Eric Zelikman+, N_A, arXiv24 SummarySTaR(Self-Taught Reasoner)では、少数の例から合理的な推論を学習し、質問応答に活用する方法が提案された。Quiet-STaRでは、LMが合理性を生成する方法を学習し、難しい質問に直接答える能力を向上させる。この手法は、GSM8KやCommonsenseQAなどのタスクにおいてゼロショットの改善を実現し、ファインチューニングが不要であることが示された。Quiet-STaRは、推論を学習するための一般的でスケーラブルな方法を提供する一歩となっている。 Comment#1390 o1の基礎技術と似ている可能性がある先行研究: #1397参考:https://x.com/hillbig/status/1835449666588271046?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity(参考; Hallucinationに注意)] ... #InformationRetrieval#Pocket#Chain-of-Thought#RetrievalAugmentedGeneration
Issue Date: 2024-04-14 RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, N_A, arXiv24 Summary大規模言語モデルの推論および生成能力を向上させ、幻覚を軽減する方法として、情報検索を利用して思考の連鎖を修正する「retrieval-augmented thoughts(RAT)」が提案された。この方法は、ゼロショットのCoTが生成された後、取得した情報を使用して各思考ステップを修正する。GPT-3.5、GPT-4、およびCodeLLaMA-7bにRATを適用することで、コード生成、数学的推論、創造的な執筆、具体的なタスク計画などのタスクでパフォーマンスが大幅に向上した。デモページはhttps://craftjarvis.github.io/RATで利用可能。 CommentRAGにおいてCoTさせる際に、各reasoningのstepを見直させることでより質の高いreasoningを生成するRATを提案。Hallucinationが低減し、生成のパフォーマンスも向上するとのこと。コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した ... image#ComputerVision#Pocket#LanguageModel#Chain-of-Thought
Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv24 SummaryLLMsの空間推論能力を向上させるために、Visualization-of-Thought(VoT)プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Analysis#Pocket#LanguageModel#ContextWindow#LongSequence
Issue Date: 2024-04-07 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv24 SummaryLLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 CommentGPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。 ... image#Efficiency/SpeedUp#Pocket#LanguageModel#Transformer
Issue Date: 2024-04-07 Mixture-of-Depths: Dynamically allocating compute in transformer-based language models, David Raposo+, N_A, arXiv24 SummaryTransformerベースの言語モデルは、入力シーケンス全体に均等にFLOPsを分散させる代わりに、特定の位置にFLOPsを動的に割り当てることを学習できることを示す。モデルの深さにわたって割り当てを最適化するために、異なるレイヤーで計算を動的に割り当てる。この手法は、トークンの数を制限することで合計計算予算を強制し、トークンはtop-kルーティングメカニズムを使用して決定される。この方法により、FLOPsを均等に消費しつつ、計算の支出が予測可能であり、動的かつコンテキストに敏感である。このようにトレーニングされたモデルは、計算を動的に割り当てることを学習し、効率的に行うことができる。 Comment参考: https://x.com/theseamouse/status/1775782800362242157?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Efficiency/SpeedUp#Pocket#LanguageModel#Transformer#Attention
Issue Date: 2024-04-07 Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, Piotr Nawrot+, N_A, arXiv24 Summaryトランスフォーマーの生成効率を向上させるために、Dynamic Memory Compression(DMC)が提案された。DMCは、異なるヘッドとレイヤーで異なる圧縮率を適用する方法を学習し、事前学習済みLLMsに適用される。DMCは、元の下流パフォーマンスを最大4倍のキャッシュ圧縮で維持しつつ、スループットを向上させることができる。DMCは、GQAと組み合わせることでさらなる利益をもたらす可能性があり、長いコンテキストと大きなバッチを処理する際に有用である。 Comment参考: https://x.com/hillbig/status/1776755029581676943?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q論文中のFigure1が非常にわかりやすい。GQA #1271 と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモ ... image#InformationRetrieval#Pocket#LanguageModel#Finetuning (SFT)#RetrievalAugmentedGeneration
Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv24 Summary大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning(RAFT)を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 CommentQuestion, instruction, coxtext, cot style answerの4つを用いてSFTをする模様画像は下記ツイートより引用https://x.com/cwolferesearch/status/1770912695765660139?s=46&t=Y6UuIHB0 ... image#InformationRetrieval#Pocket#LanguageModel#Prompting#Reasoning
Issue Date: 2024-04-07 RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N_A, arXiv24 SummaryLLMsは推論タスクで優れた性能を発揮しているが、論理エラーが起こりやすい。RankPromptという新しいプロンプティング方法を導入し、LLMsが自己ランク付けを行い推論パフォーマンスを向上させる。実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させ、AlpacaEvalデータセットで人間の判断と74%の一致率を示すことが示された。RankPromptは言語モデルから高品質なフィードバックを引き出す効果的な方法であることが示された。 CommentLLMでランキングをするためのプロンプト手法。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある ... image#NaturalLanguageGeneration#Pocket#DataToTextGeneration#Prompting#NumericReasoning
Issue Date: 2024-04-04 Prompting for Numerical Sequences: A Case Study on Market Comment Generation, Masayuki Kawarada+, N_A, arXiv24 SummaryLLMsは、構造化データに対するプロンプト生成に関する研究が進んでいるが、時系列数値データに関する詳細な調査が不足している。本研究では、株価の数値系列を入力として市場コメントを生成するタスクに焦点を当て、さまざまな入力表現を探究する。実験結果は、プログラミング言語に似たプロンプトがより良い結果をもたらすことを示しており、数値系列からテキストを生成する際の効果的なプロンプト作成について示唆を提供している。 CommentData-to-Text系のタスクでは、しばしば数値列がInputとなり、そこからテキストを生成するが、この際にどのようなフォーマットで数値列をPromptingするのが良いかを調査した研究。Pythonリストなどのプログラミング言語に似たプロンプトが高い性能を示し、自然言語やhtml, latex ... image#ComputerVision#Pocket#LanguageModel
Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, arXiv24 Summary進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。著者スライドによると、従来のモデルマージにはbase modelが著者 ... #Pocket#LanguageModel#OpenWeightLLM
Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv24 SummaryLMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 CommentModel Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI ... #Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2024-03-05 Chain-of-Thought Reasoning Without Prompting, Xuezhi Wang+, N_A, arXiv24 SummaryLLMsの推論能力を向上させるための新しいアプローチに焦点を当てた研究が行われている。この研究では、LLMsがプロンプトなしで効果的に推論できるかどうかを検証し、CoT推論パスをデコーディングプロセスを変更することで引き出す方法を提案している。提案手法は、従来の貪欲なデコーディングではなく、代替トークンを調査することでCoTパスを見つけることができることを示しており、様々な推論ベンチマークで有効性を示している。 Comment以前にCoTを内部的に自動的に実施されるように事前学習段階で学習する、といった話があったと思うが、この研究はデコーディング方法を変更することで、promptingで明示的にinstructionを実施せずとも、CoTを実現するもの、ということだと思われる。 ... image#Efficiency/SpeedUp#Pocket#LanguageModel#Adapter/LoRA
Issue Date: 2024-03-05 LoRA+: Efficient Low Rank Adaptation of Large Models, Soufiane Hayou+, N_A, arXiv24 Summary本研究では、Huら(2021)によって導入されたLow Rank Adaptation(LoRA)が、大埋め込み次元を持つモデルの適切な微調整を妨げることを指摘します。この問題は、LoRAのアダプターマトリックスAとBが同じ学習率で更新されることに起因します。我々は、AとBに同じ学習率を使用することが効率的な特徴学習を妨げることを示し、異なる学習率を設定することでこの問題を修正できることを示します。修正されたアルゴリズムをLoRA$+$と呼び、幅広い実験により、LoRA$+$は性能を向上させ、微調整速度を最大2倍高速化することが示されました。 CommentLoRAと同じ計算コストで、2倍以上の高速化、かつ高いパフォーマンスを実現する手法 ... #Survey#Pocket#LanguageModel#Annotation
Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv24 SummaryGPT-4などの大規模言語モデル(LLMs)を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 CommentData AnnotationにLLMを活用する場合のサーベイ ... #Survey#LanguageModel#DataToTextGeneration#TabularData
Issue Date: 2024-03-05 Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey, Xi Fang+, N_A, arXiv24 Summary最近の大規模言語モデリングの進展により、様々なタスクにおける応用が容易になっているが、包括的なレビューが不足している。この研究は、最近の進歩をまとめ、データセット、メトリクス、方法論を調査し、将来の研究方向に洞察を提供することを目的としている。また、関連するコードとデータセットの参照も提供される。 CommentTabular DataにおけるLLM関連のタスクや技術等のサーベイ ... #Pocket#LanguageModel#Personalization
Issue Date: 2024-02-24 User-LLM: Efficient LLM Contextualization with User Embeddings, Lin Ning+, N_A, arXiv24 SummaryLLMsを活用したUser-LLMフレームワークが提案された。ユーザーエンベッディングを使用してLLMsをコンテキストに位置付けし、ユーザーコンテキストに動的に適応することが可能になる。包括的な実験により、著しい性能向上が示され、Perceiverレイヤーの組み込みにより計算効率が向上している。 Commentnext item prediction, favorite genre or category predictimnreview generationなどで評価している ... #Pocket#LanguageModel#post-pretraining
Issue Date: 2024-01-24 LLaMA Pro: Progressive LLaMA with Block Expansion, Chengyue Wu+, N_A, arXiv24 Summary本研究では、大規模言語モデル(LLMs)の新しい事前学習後の手法を提案し、モデルの知識を効果的かつ効率的に向上させることを目指しました。具体的には、Transformerブロックの拡張を使用し、新しいコーパスのみを使用してモデルを調整しました。実験の結果、提案手法はさまざまなベンチマークで優れたパフォーマンスを発揮し、知的エージェントとして多様なタスクに対応できることが示されました。この研究は、自然言語とプログラミング言語を統合し、高度な言語エージェントの開発に貢献するものです。 Comment追加の知識を導入したいときに使えるかも?事前学習したLLaMA Blockに対して、追加のLLaMA Blockをstackし、もともとのLLaMA Blockのパラメータをfreezeした上でドメインに特化したコーパスで事後学習することで、追加の知識を挿入する。LLaMA Blockを挿入するとき ... image#Survey#Pocket#LanguageModel#Hallucination
Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv24 Summary要約:本論文では、大規模言語モデル(LLMs)における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。 #Survey#NaturalLanguageGeneration#Pocket#Evaluation#LLM-as-a-Judge
Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv24 Summary本研究は、大規模言語モデル(LLMs)を使用した自然言語生成(NLG)の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment重要 ... #MachineLearning#Pocket#Transformer
Issue Date: 2024-01-16 Transformers are Multi-State RNNs, Matanel Oren+, N_A, arXiv24 Summary本研究では、トランスフォーマーのデコーダーは無限マルチステートRNNとして概念化できることを示し、有限のマルチステートRNNに変換することも可能であることを示します。さらに、新しいキャッシュ圧縮ポリシーであるTOVAを導入し、他のポリシーよりも優れた性能を示すことを実験結果で示しました。TOVAは元のキャッシュサイズの1/8しか使用せず、トランスフォーマーデコーダーLLMが実際にはRNNとして振る舞うことが多いことを示しています。 #Pocket#LanguageModel#Chain-of-Thought
Issue Date: 2024-01-16 The Impact of Reasoning Step Length on Large Language Models, Mingyu Jin+, N_A, arXiv24 SummaryChain of Thought(CoT)の推論ステップの長さとLLMsの推論能力の関係を調査した。推論ステップを延長すると、プロンプトに新しい情報を追加せずにLLMsの推論能力が向上することがわかった。逆に、キーとなる情報を保持しながら推論ステップを短縮すると、推論能力が低下する。また、誤った根拠でも推論の必要な長さを保つ限り、好ましい結果が得られることも示された。さらに、タスクによって推論ステップの増加の利点が異なることも観察された。 #Pocket#LanguageModel#OpenWeightLLM
Issue Date: 2024-01-09 Mixtral of Experts, Albert Q. Jiang+, N_A, arXiv24 SummaryMixtralは、Sparse Mixture of Experts(SMoE)言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 CommentMixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。![image](https://github.com/user-attachm ... #Pretraining#Pocket#LanguageModel
Issue Date: 2023-10-10 Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N_A, ICLR24 Summary言語モデルのトレーニングと推論において、遅延を導入することでモデルの性能を向上させる手法を提案しました。具体的には、入力に特定のトークンを追加し、そのトークンが現れるまでモデルの出力を遅らせることで、追加の計算を行うことができます。実験結果では、この手法が推論タスクにおいて有益であり、特にQAタスクでの性能向上が見られました。今後は、この遅延予測の手法をさらに研究していく必要があります。 Commentこの研究は興味深いが、事前学習時に入れないと効果が出にくいというのは直感的にわかるので、実用的には活用しづらい。また、promptでこの研究をimitateする方法については、ZeroShot CoTにおいて、思考プロセスを明示的に指定するようなpromptingと同様のことを行っており、これは実 ... #MachineTranslation#Pocket#LanguageModel
Issue Date: 2024-11-20 Prompting Large Language Model for Machine Translation: A Case Study, Biao Zhang+, arXiv23 Commentzero-shotでMTを行うときに、改行の有無や、少しのpromptingの違いでCOMETスコアが大幅に変わることを示している。 モデルはGLM-130BをINT4で量子化したモデルで実験している。 興味深いが、この知見を一般化して全てのLLMに適用できるか?と言われると、そうはならない気が ... #Dataset#LanguageModel#Finetuning (SFT)
Issue Date: 2024-09-20 Instruction Tuning with GPT-4, Baolin Peng+, N_A, arXiv23 Comment現在はOpenAIの利用規約において、outputを利用してOpenAIと競合するモデルを構築することは禁止されているので、この点には注意が必要https://openai.com/ja-JP/policies/terms-of-use/ ... #Pocket#LanguageModel#SelfCorrection
Issue Date: 2024-09-07 Large Language Models Cannot Self-Correct Reasoning Yet, Jie Huang+, N_A, arXiv23 #Pocket#LanguageModel#Finetuning (SFT)#InstructionTuning#SelfCorrection
Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv23 CommentReflection-Tuningを提案している研究? ... #DocumentSummarization#NaturalLanguageGeneration#Pocket#Dataset#LanguageModel#Annotation
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv23 SummaryLLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Commentニュース記事の高品質な要約を人間に作成してもらい、gpt-3.5を用いてLLM-basedな要約も生成 annotatorにそれぞれの要約の品質をスコアリングさせたデータセットを作成 ... #Efficiency/SpeedUp#Pocket#LanguageModel#Transformer#Attention
Issue Date: 2024-04-07 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N_A, arXiv23 SummaryMulti-query attention(MQA)は、単一のkey-value headのみを使用しており、デコーダーの推論を劇的に高速化しています。ただし、MQAは品質の低下を引き起こす可能性があり、さらには、より速い推論のためだけに別個のモデルをトレーニングすることが望ましくない場合もあります。既存のマルチヘッド言語モデルのチェックポイントを、オリジナルの事前トレーニング計量の5%を使用してMQAを持つモデルにアップトレーニングするためのレシピを提案し、さらに、複数のkey-value headを使用するマルチクエリアテンションの一般化であるグループ化クエリアテンション(GQA)を紹介します。アップトレーニングされたGQAが、MQAと同等の速度でマルチヘッドアテンションに匹敵する品質を達成することを示しています。 Comment通常のMulti-Head AttentionがQKVが1対1対応なのに対し、Multi Query Attention (MQA) #1272 は全てのQに対してKVを共有する。一方、GQAはグループごとにKVを共有する点で異なる。MQAは大幅にInfeerence` speedが改善するが、精 ... image#Pocket#LanguageModel#Evaluation#LLM-as-a-Judge
Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP23 Summary従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル(LLMs)を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究# 手法概要 CoTを利用して、生成されたテキストの品質を評価する手法を提案している。 タスクのIntroductionと、評価のCriteriaをプロンプトに仕込むだけで、自動的にLLMに評価ステップに関するCoTを生成させ、最終 ... image#NaturalLanguageGeneration#LLM-as-a-Judge
Issue Date: 2024-01-25 Large Language Models Are State-of-the-Art Evaluators of Translation Quality, EAMT23 SummaryGEMBAは、参照翻訳の有無に関係なく使用できるGPTベースの翻訳品質評価メトリックです。このメトリックは、ゼロショットのプロンプティングを使用し、4つのプロンプトバリアントを比較します。私たちの手法は、GPT 3.5以上のモデルでのみ機能し、最先端の精度を達成します。特に、英語からドイツ語、英語からロシア語、中国語から英語の3つの言語ペアで有効です。この研究では、コード、プロンプトテンプレート、およびスコアリング結果を公開し、外部の検証と再現性を可能にします。 #LanguageModel#Alignment#In-ContextLearning
Issue Date: 2023-12-05 The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context Learning, Bill Yuchen Lin+, N_A, arXiv23 Summaryアラインメント調整は、大規模言語モデル(LLMs)のパフォーマンスを向上させるために使用されます。しかし、アラインメント調整の効果は「表面的」である可能性があります。この研究では、基本的なLLMとアラインメント調整されたバージョンのトークン分布のシフトを分析しました。結果は、アラインメント調整が主にスタイルトークンに影響を与えることを示しました。さらに、シンプルでチューニングフリーなアラインメント手法であるURIALを導入し、基本的なLLMのパフォーマンスを向上させることができることを示しました。これらの結果から、アラインメントのより深い分析と理論的な理解が重要であることが示唆されます。 Commentモデルの知識はPre-training時に十分獲得されており、モデルのAlignmentをとることで生じるものは表面的な変化のみであるという仮説がある #700 。この仮説に関して分析をし、結果的にスタイリスティックな情報を生成する部分でAlignmentの有無で違いが生じることを明らかにし、そうで ... image#Analysis#Pocket#LanguageModel#QuestionAnswering
Issue Date: 2023-12-04 Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text, Qi Cao+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の内部動作についての新しい洞察を提供します。特に、GPT-4を調査し、LLMsの耐久性に関する実験結果を示します。実験では、文字レベルの順列に対するLLMsの耐性を調べるために、Scrambled Benchというスイートを使用しました。結果は、GPT-4がtypoglycemiaという現象に似た能力を持ち、非常に自然でないエラーを含む入力をほぼ完璧に処理できることを示しています。これは、LLMsの耐性が直感に反するものであり、他のLLMsや人間にとっても困難なタスクであることを示しています。 CommentOpenAIのモデルがブラックボックスである限り、コンタミネーションがあるのでは?という疑念は持ってしまう。(部分的にしか読めていないが…)RealtimeQAと呼ばれるweeklyで直近のニュースに対するQuestionを発表することで構築されるデータセットのうち、2023.03.17--2完全に ... image#Pocket#Transformer
Issue Date: 2023-12-04 Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N_A, EMNLP23 Summary本研究では、再帰構造をうまく捉えるために新しい自己注意層であるPushdown Layersを導入しました。Pushdown Layersは、再帰状態をモデル化するためにスタックテープを使用し、トークンごとの推定深度を追跡します。このモデルは、構文的な一般化を改善し、サンプル効率を向上させることができます。さらに、Pushdown Layersは標準の自己注意の代替としても使用でき、GLUEテキスト分類タスクでも改善を実現しました。 #ComputerVision#Pocket#GenerativeAI#MulltiModal
Issue Date: 2023-12-01 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv23 Summary本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Commenthttps://huggingface.co/spaces/Vchitect/SEINE 画像 + テキストpromptで、動画を生成するデモ ... #Efficiency/SpeedUp#Pocket#LanguageModel
Issue Date: 2023-11-23 Exponentially Faster Language Modelling, Peter Belcak+, N_A, arXiv23 SummaryUltraFastBERTは、推論時にわずか0.3%のニューロンしか使用せず、同等の性能を発揮することができる言語モデルです。UltraFastBERTは、高速フィードフォワードネットワーク(FFF)を使用して、効率的な実装を提供します。最適化されたベースラインの実装に比べて78倍の高速化を実現し、バッチ処理された推論に対しては40倍の高速化を実現します。トレーニングコード、ベンチマークのセットアップ、およびモデルの重みも公開されています。 #ComputerVision#Pocket#LanguageModel#AutomaticPromptEngineering
Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, arXiv23 Summary本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #Pocket#LanguageModel#QuestionAnswering
Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv23 SummaryGAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92%の正答率を達成し、GPT-4は15%の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 CommentYann LeCun氏の紹介ツイートhttps://x.com/ylecun/status/1727707519470977311?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QMeta-FAIR, Meta-GenAI, HuggingFace, AutoGPTによる研究。人間は ... image#Pocket#Dataset#LanguageModel#QuestionAnswering
Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, arXiv23 Summary私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家(Googleへアクセスして良い環境)で34%しか正答できないQAデータセット。元ツイート: https://x.com/idavidrein/status/1727033002234909060?s=46&t=Y6UuIHB0Lv0Ip ... #Pocket#Alignment
Issue Date: 2023-11-21 Unbalanced Optimal Transport for Unbalanced Word Alignment, Yuki Arase+, N_A, arXiv23 Summary単一言語の単語アライメントにおいて、null alignmentという現象は重要であり、不均衡な単語アライメントを実現するために最適輸送(OT)のファミリーが有効であることを示している。教師あり・教師なしの設定での包括的な実験により、OTベースのアライメント手法が最新の手法と競争力があることが示されている。 Comment最適輸送で爆速でモノリンガルの単語アライメントがとれるらしい実装:https://github.com/yukiar/OTAlign単語のアライメント先がない(null alignment)、one-to-oneの関係ではなく、one-to-many, many-to-manyのアライメントが必要な ... image#Tutorial#Pocket#LanguageModel#Chain-of-Thought
Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhikers Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv23 Summary大規模言語モデル(LLMs)は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought(CoT)推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 CommentCoTに関するチュートリアル論文 ... #Pretraining#Pocket#LanguageModel#Chain-of-Thought
Issue Date: 2023-11-21 Implicit Chain of Thought Reasoning via Knowledge Distillation, Yuntian Deng+, N_A, arXiv23 Summary本研究では、言語モデルの内部の隠れ状態を使用して暗黙的な推論を行う手法を提案します。明示的なチェーン・オブ・ソートの推論ステップを生成する代わりに、教師モデルから抽出した暗黙的な推論ステップを使用します。実験により、この手法が以前は解決できなかったタスクを解決できることが示されました。 Commentこれは非常に興味深い話 ... #Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-11-19 Contrastive Chain-of-Thought Prompting, Yew Ken Chia+, N_A, arXiv23 Summary言語モデルの推論を改善するために、対照的なchain of thoughtアプローチを提案する。このアプローチでは、有効な推論デモンストレーションと無効な推論デモンストレーションの両方を提供し、モデルが推論を進める際にミスを減らすようにガイドする。また、自動的な方法を導入して対照的なデモンストレーションを構築し、汎化性能を向上させる。実験結果から、対照的なchain of thoughtが一般的な改善手法として機能することが示された。 #Pocket#LanguageModel#Chain-of-Thought#Prompting#RetrievalAugmentedGeneration
Issue Date: 2023-11-17 Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models, Wenhao Yu+, N_A, arXiv23 Summary検索補完言語モデル(RALM)は、外部の知識源を活用して大規模言語モデルの性能を向上させるが、信頼性の問題や知識の不足による誤った回答がある。そこで、Chain-of-Noting(CoN)という新しいアプローチを導入し、RALMの頑健性を向上させることを目指す。CoNは、順次の読み取りノートを生成し、関連性を評価して最終的な回答を形成する。ChatGPTを使用してCoNをトレーニングし、実験結果はCoNを装備したRALMが標準的なRALMを大幅に上回ることを示している。特に、ノイズの多いドキュメントにおいてEMスコアで平均+7.9の改善を達成し、知識範囲外のリアルタイムの質問に対する拒否率で+10.5の改善を達成している。 Comment一番重要な情報がappendixに載っているCoNによって、ノイズがあった場合にゲインが大きい。 ... image#Pocket#LanguageModel#Finetuning (SFT)#FactualConsistency
Issue Date: 2023-11-15 Fine-tuning Language Models for Factuality, Katherine Tian+, N_A, arXiv23 Summary本研究では、大規模な言語モデル(LLMs)を使用して、より事実に基づいた生成を実現するためのファインチューニングを行います。具体的には、外部の知識ベースや信頼スコアとの一貫性を測定し、選好最適化アルゴリズムを使用してモデルを調整します。実験結果では、事実エラー率の削減が観察されました。 #Pocket#LanguageModel#InstructionTuning#Evaluation
Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の能力を評価するために、Instruction-Following Eval(IFEval)という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 CommentLLMがinstructionにどれだけ従うかを評価するために、検証可能なプロンプト(400字以上で書きなさいなど)を考案し評価する枠組みを提案。人間が評価すると時間とお金がかかり、LLMを利用した自動評価だと評価を実施するLLMのバイアスがかかるのだ、それら両方のlimitationを克服できると ... image#Efficiency/SpeedUp#Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-11-15 Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster, Hongxuan Zhang+, N_A, arXiv23 Summaryこの研究では、FastCoTというフレームワークを提案します。FastCoTは、LLMを使用して並列デコーディングと自己回帰デコーディングを同時に行い、計算リソースを最大限に活用します。また、FastCoTは推論時間を約20%節約し、性能の低下がほとんどないことを実験で示しました。さらに、異なるサイズのコンテキストウィンドウに対しても頑健性を示すことができました。 Comment論文中の図を見たが、全くわからなかった・・・。ちゃんと読まないとわからなそうである。 ... #ComputerVision#Pocket#LayoutGeneration
Issue Date: 2023-11-14 LayoutPrompter: Awaken the Design Ability of Large Language Models, Jiawei Lin+, N_A, NeurIPS23 SummaryLayoutPrompterは、大規模言語モデル(LLMs)を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 CommentConditional Graphic Layout Generation ... #Pocket#LanguageModel#SmallModel
Issue Date: 2023-11-14 Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer, Bowen Tan+, N_A, arXiv23 Summary大規模言語モデル(LLMs)はマルチタスキングに優れた性能を示していますが、パラメータ数が多く計算リソースを必要とし、効率的ではありません。そこで、小規模なスコアラーであるCappyを導入し、独立して機能するかLLMsの補助として使用することでパフォーマンスを向上させました。Cappyはファインチューニングやパラメータへのアクセスを必要とせず、さまざまなタスクで高い性能を発揮します。実験結果では、Cappyは独立したタスクや複雑なタスクで大きなLLMsを上回り、他のLLMsとの連携も可能です。 Comment360MパラメータでさまざまなタスクでLLMに勝つっぽいのでおもしろそうだし実用性もありそう ... image#Pocket#Dataset#LanguageModel#Evaluation#MultiLingual
Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, arXiv23 SummaryLLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #Pocket#LanguageModel#Prompting#AutomaticPromptEngineering
Issue Date: 2023-11-13 Prompt Engineering a Prompt Engineer, Qinyuan Ye+, N_A, arXiv23 Summaryプロンプトエンジニアリングは、LLMsのパフォーマンスを最適化するための重要なタスクであり、本研究ではメタプロンプトを構築して自動的なプロンプトエンジニアリングを行います。改善されたパフォーマンスにつながる推論テンプレートやコンテキストの明示などの要素を導入し、一般的な最適化概念をメタプロンプトに組み込みます。提案手法であるPE2は、さまざまなデータセットやタスクで強力なパフォーマンスを発揮し、以前の自動プロンプトエンジニアリング手法を上回ります。さらに、PE2は意味のあるプロンプト編集を行い、カウンターファクトの推論能力を示します。 #ComputerVision#Pocket#MultitaskLearning#MulltiModal#FoundationModel
Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv23 SummaryFlorence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 CommentVison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。 ... image#Survey#Pocket#LanguageModel#Hallucination
Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv23 SummaryLLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 CommentHallucinationを現象ごとに分類したSurveyとして #1048 もあるSurveyの内容。必要に応じて参照すべし。 ... image#Pocket#LanguageModel#Attention
Issue Date: 2023-11-10 Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs, Qingru Zhang+, N_A, arXiv23 SummaryPASTAは、大規模言語モデル(LLMs)において、ユーザーが指定した強調マークのあるテキストを読むことを可能にする手法です。PASTAは、注意の一部を特定し、再重み付けを適用してモデルの注意をユーザーが指定した部分に向けます。実験では、PASTAがLLMの性能を大幅に向上させることが示されています。 Commentユーザがprompt中で強調したいした部分がより考慮されるようにattention weightを調整することで、より応答性能が向上しましたという話っぽい。かなり重要な技術だと思われる。後でしっかり読む。 ... image#Analysis#LanguageModel
Issue Date: 2023-11-08 Do LLMs exhibit human-like response biases? A case study in survey design, Lindia Tjuatja+, N_A, arXiv23 SummaryLLMsを使用して人間の代理としてタスクを実行する際に、LLMsが人間の応答バイアスをどの程度反映するかを調査する必要がある。この研究では、調査設計を使用して人間の応答バイアスを評価するデータセットとフレームワークを設計し、9つのモデルを評価した結果、一般的なLLMsが人間のような振る舞いを反映することに失敗していることが示された。これらの結果は、LLMsを人間の代わりに使用する際の潜在的な落とし穴を強調し、モデルの振る舞いの細かい特性の重要性を強調している。 CommentLLMはPromptにsensitiveだが、人間も質問の仕方によって応答が変わるから、sensitiveなのは一緒では?ということを調査した研究。Neubigさんのツイートだと、instruction tuningやRLHFをしていないBase LLMの方が、より人間と類似した回答をするのだそう。 ... image#Analysis#Pocket#LanguageModel#Transformer
Issue Date: 2023-11-06 Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models, Steve Yadlowsky+, N_A, arXiv23 Summary本研究では、トランスフォーマーモデルの文脈学習(ICL)能力を調査しました。トランスフォーマーモデルは、事前学習データの範囲内で異なるタスクを特定し、学習する能力を持っています。しかし、事前学習データの範囲外のタスクや関数に対しては一般化が劣化することが示されました。また、高容量のシーケンスモデルのICL能力は、事前学習データの範囲に密接に関連していることが強調されました。 CommentTransformerがpre-training時に利用された学習データ以外の分布に対しては汎化性能が落ちることを示したらしい。もしこれが正しいとすると、結局真に新しい分布というか関数というかタスクというか、をTransformerが創出する可能性は低いと言えるかもしれない。が、新しいものって大体は ... #Pocket#LanguageModel#Evaluation#FactualConsistency#RetrievalAugmentedGeneration
Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv23 Summary自律型の事実チェックにおいて、大規模言語モデル(LLMs)を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Commentgpt3とgpt4でFactCheckして傾向を分析しました、という研究。promptにstatementとgoogleで補完したcontextを含め、出力フォーマットを指定することでFactCheckする。promptingする際の言語や、statementの事実性の度合い(半分true, 全て斜 ... image#LanguageModel#QuestionAnswering#Prompting
Issue Date: 2023-10-30 Re-Reading Improves Reasoning in Language Models, Xiaohan Xu+, N_A, arXiv23 Summary大規模言語モデル(LLMs)において、推論は重要で困難な問題です。従来のアプローチでは、プロンプティング戦略を開発することに焦点が当てられてきましたが、双方向の相互作用や質問の重要性には注意が払われていませんでした。この問題に対処するため、質問の再読という新しいプロンプティング戦略を提案します。再読は、質問情報を再訪することで、LLMsの推論能力を向上させることができます。実験結果は、この手法の効果と汎用性を示しており、LLMsの領域でのその有用性を強調しています。 Comment問題文を2,3回promptで繰り返すだけで、数学のベンチマークとCommonsenseのベンチマークの性能が向上したという非常に簡単なPrompting。self-consistencyなどの他のPromptingとの併用も可能。なぜ性能が向上するかというと、1. LLMはAuporegresこの ... image#LanguageModel#FactualConsistency#RetrievalAugmentedGeneration
Issue Date: 2023-10-29 Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection, Akari Asai+, N_A, arXiv23 Summary大規模言語モデル(LLMs)は、事実に基づかない回答を生成することがあります。そこで、自己反省的な検索増強生成(Self-RAG)という新しいフレームワークを提案します。このフレームワークは、検索と自己反省を通じてLLMの品質と事実性を向上させます。実験結果は、Self-RAGが最先端のLLMsおよび検索増強モデルを大幅に上回ることを示しています。 CommentRAGをする際の言語モデルの回答の質とfactual consistencyを改善せるためのフレームワーク。reflection tokenと呼ばれる特殊トークンを導入し、言語モデルが生成の過程で必要に応じて情報をretrieveし、自身で生成内容を批評するように学習する。単語ごとに生成するのでは ... image#Pretraining#Pocket#LanguageModel#FoundationModel#Mathematics
Issue Date: 2023-10-29 Llemma: An Open Language Model For Mathematics, Zhangir Azerbayev+, N_A, arXiv23 Summary私たちは、数学のための大規模な言語モデルであるLlemmaを提案します。Llemmaは、Proof-Pile-2と呼ばれるデータセットを用いて事前学習され、MATHベンチマークで他のモデルを上回る性能を示しました。さらに、Llemmaは追加のfine-tuningなしでツールの使用や形式的な定理証明が可能です。アーティファクトも公開されています。 CommentCodeLLaMAを200B tokenの数学テキスト(proof-pile-2データ;論文、数学を含むウェブテキスト、数学のコードが含まれるデータ)で継続的に事前学習することでfoundation modelを構築約半分のパラメータ数で数学に関する性能でGoogleのMinervaと同等の性元ツイ ... image#LanguageModel#Evaluation
Issue Date: 2023-10-29 Large Language Models are not Fair Evaluators, Peiyi Wang+, N_A, arXiv23 Summaryこの論文では、大規模言語モデル(LLMs)を使用して、候補モデルの応答品質を評価する評価パラダイムにおける系統的なバイアスを明らかにします。さらに、バイアスを軽減するためのキャリブレーションフレームワークを提案し、実験によってその有効性を示します。また、コードとデータを公開して、今後の研究を支援します。 #Pretraining#Pocket#LanguageModel#Finetuning (SFT)#DataGeneration
Issue Date: 2023-10-28 Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N_A, arXiv23 Summary私たちは、小さな言語モデルを作成するために、教師モデルからの優先データを使用する手法を提案しています。この手法により、自然なプロンプトに対するモデルの応答が改善されます。提案手法を用いて学習されたZephyr-7Bモデルは、チャットベンチマークで最先端の性能を発揮し、人間の注釈を必要としません。詳細はGitHubで利用可能です。 Comment7BパラメータでLlaMa70Bと同等の性能を達成したZephyrの論文。dSFT:既存データからpromptをサンプリングし、user,assistantのmulti turnの対話をLLMでシミュレーションしてデータ生成しSFTAIF:既存データからpromstをサンプリングしBlog: htt ... image#Pocket#LanguageModel#Evaluation
Issue Date: 2023-10-28 Human Feedback is not Gold Standard, Tom Hosking+, N_A, arXiv23 Summary人間のフィードバックは、大規模言語モデルの性能評価に使用されているが、その好みのスコアがどの特性を捉えているのかは明確ではない。この研究では、人間のフィードバックの使用を分析し、重要なエラー基準を適切に捉えているかどうかを検証した。結果として、好みのスコアは広範なカバレッジを持っているが、事実性などの重要な側面が過小評価されていることがわかった。また、好みのスコアとエラーアノテーションは交絡因子の影響を受ける可能性があり、出力の断定性が事実性エラーの知覚率を歪めることも示された。さらに、人間のフィードバックを訓練目標として使用することが、モデルの出力の断定性を過度に増加させることも示された。今後の研究では、好みのスコアが望ましい目標と一致しているかどうかを慎重に考慮する必要がある。 Comment参考: https://x.com/icoxfog417/status/1718151338520199180?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image#ComputerVision#Pocket#LanguageModel#MulltiModal
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv23 Summaryこの論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 CommentGPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。 ... image#Pocket#LanguageModel#InstructionTuning#InstructionGeneration
Issue Date: 2023-10-26 Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models, Zhihan Zhang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の性能を向上させるための新しい手法であるAuto-Instructを提案しています。この手法では、LLMsが生成する指示の品質を自動的に向上させるために、多様な候補の指示を生成し、スコアリングモデルでランク付けします。実験結果では、Auto-Instructが人間による指示や既存のLLM生成指示を上回ることが示されています。また、他のLLMsでも顕著な汎化性能を示すことも確認されています。 Commentseed instructionとdemonstrationに基づいて、異なるスタイルのinstructionを自動生成し、自動生成したinstructionをとinferenceしたいexampleで条件づけてランキングし、良質なものを選択。選択したinstructionでinferenceを実施 ... image#MachineLearning#LanguageModel#Finetuning (SFT)
Issue Date: 2023-10-26 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, arXiv23 Summary私たちは、言語モデルのファインチューニングを改善するために、ノイズを加えた埋め込みベクトルを使用する手法を提案します。この手法は、AlpacaEvalやEvol-Instructなどのデータセットで強力なベースラインを上回る性能を示しました。また、RLHFでトレーニングされたモデルにも適用可能です。 CommentAlpacaデータでの性能向上が著しい。かなり重要論文な予感。後で読む。HuggingFaceのTRLでサポートされている https://huggingface.co/docs/trl/sft_trainer ... #Pocket#LanguageModel#In-ContextLearning
Issue Date: 2023-10-26 In-Context Learning Creates Task Vectors, Roee Hendel+, N_A, EMNLP23 Summary大規模言語モデル(LLMs)におけるインコンテキスト学習(ICL)の基本的なメカニズムはまだ十分に理解されていない。本研究では、ICLによって学習される関数が非常に単純な構造を持つことを示し、ICLがトランスフォーマーLLMを使用して単一のタスクベクトルを生成し、それを使用して出力を生成するということを明らかにする。さまざまなモデルとタスクにわたる実験によって、この主張を支持している。 Comment参考: https://x.com/hillbig/status/1717302086587875395?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QICLが実現可能なのは実はネットワーク内部で与えられたdemonstrationに対して勾配効果法を再現しているからです、という研究もあ ... #MachineLearning#LanguageModel
Issue Date: 2023-10-26 Detecting Pretraining Data from Large Language Models, Weijia Shi+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を訓練するためのデータの検出問題を研究し、新しい検出方法であるMin-K% Probを提案します。Min-K% Probは、LLMの下で低い確率を持つアウトライアーワードを検出することに基づいています。実験の結果、Min-K% Probは従来の方法に比べて7.4%の改善を達成し、著作権のある書籍の検出や汚染された下流の例の検出など、実世界のシナリオにおいて効果的な解決策であることが示されました。 Comment実験結果を見るにAUCは0.73-0.76程度であり、まだあまり高くない印象。また、テキストのlengthはそれぞれ32,64,128,256程度。 ... image#Pocket#LanguageModel#Evaluation
Issue Date: 2023-10-25 Branch-Solve-Merge Improves Large Language Model Evaluation and Generation, Swarnadeep Saha+, N_A, arXiv23 Summary本研究では、多面的な言語生成および評価タスクにおいて、大規模言語モデルプログラム(BSM)を提案します。BSMは、ブランチ、ソルブ、マージの3つのモジュールから構成され、タスクを複数のサブタスクに分解し、独立して解決し、解決策を統合します。実験により、BSMが評価の正確性と一貫性を向上させ、パフォーマンスを向上させることが示されました。 #Pocket#LanguageModel#Personalization
Issue Date: 2023-10-24 Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, N_A, arXiv23 SummaryReinforcement Learning from Human Feedback (RLHF) is not optimal for learning diverse individual perspectives, as it aligns general aggregated human preferences with large language models (LLMs). This study investigates the problem of Reinforcement Learning from Individual Human Feedback (RLPHF) and models the alignment with LLMs to multiple (sometimes conflicting) preferences as a Multi-Objective Reinforcement Learning (MORL) problem. It demonstrates that individual alignment can be achieved by decomposing preferences into multiple dimensions based on personalized declarations. The study shows that these dimensions can be efficiently trained independently and distributed, and effectively combined in post-processing through parameter merging. The code is available at https://github.com/joeljang/RLPHF. Commentどこまでのことが実現できるのかが気になる。 ... #MachineLearning#Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-10-24 Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs Non-linear Thinking, Yongqi Tong+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)に非線形の思考を促すために、新しいプロンプティング方法であるInferential Exclusion Prompting(IEP)を提案する。IEPは、計画を立てて可能な解を推論し、逆推論を行うことで広い視点を得ることができる。IEPは他の手法と比較して複雑な人間の思考プロセスをシミュレートできることを実証し、LLMsのパフォーマンス向上にも貢献することを示した。さらに、Mental-Ability Reasoning Benchmark(MARB)を導入し、LLMsの論理と言語推論能力を評価するための新しいベンチマークを提案した。IEPとMARBはLLMsの研究において有望な方向性であり、今後の進展が期待される。 Comment元論文は読んでいないのだが、CoTが線形的だという主張がよくわからない。CoTはAutoregressiveな言語モデルに対して、コンテキストを自己生成したテキストで利用者の意図した方向性にバイアスをかけて補完させ、利用者が意図した通りのアウトプットを最終的に得るためのテクニック、だと思っていて ... #Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-10-13 Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models, Anni Zou+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用して、推論のためのチェーン・オブ・ソート(CoT)プロンプトを生成する方法を提案しています。従来のCoTの方法では、一般的なプロンプトや手作業デモンストレーションに依存していましたが、本研究では入力質問のタイプに基づいて自動的にプロンプトを生成するMeta-CoTを提案しています。Meta-CoTは、10のベンチマーク推論タスクで優れたパフォーマンスを示し、SVAMPでは最先端の結果を達成しました。また、分布外データセットでも安定性と汎用性が確認されました。 Comment色々出てきたがなんかもう色々組み合わせれば最強なんじゃね?って気がしてきた。 ... image#Survey#LanguageModel#FactualConsistency
Issue Date: 2023-10-13 Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity, Cunxiang Wang+, N_A, arXiv23 Summaryこの研究では、大規模言語モデル(LLMs)の事実性の問題に取り組んでいます。LLMsの出力の信頼性と正確性は重要であり、事実に矛盾した情報を生成することがあるため、その問題を解決する方法を探求しています。具体的には、LLMsの事実的なエラーの影響や原因を分析し、事実性を評価する手法や改善策を提案しています。また、スタンドアロンのLLMsと外部データを利用する検索拡張型LLMsに焦点を当て、それぞれの課題と改善策について詳しく説明しています。この研究は、LLMsの事実的な信頼性を向上させるためのガイドとなることを目指しています。 Comment ... image#Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-10-12 Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, Huaixiu Steven Zheng+, N_A, arXiv23 SummaryStep-Back Promptingは、大規模言語モデル(LLMs)を使用して推論の手順をガイドするシンプルなプロンプティング技術です。この技術により、LLMsは具体的な詳細から高レベルの概念や基本原則を抽象化し、正しい推論経路をたどる能力を向上させることができます。実験により、Step-Back PromptingはSTEM、Knowledge QA、Multi-Hop Reasoningなどのタスクにおいて大幅な性能向上が観察されました。具体的には、MMLU Physics and Chemistryで7%、11%、TimeQAで27%、MuSiQueで7%の性能向上が確認されました。 Commentまた新しいのが出た ... image#Pocket#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2023-10-10 RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation, Fangyuan Xu+, N_A, arXiv23 Summaryドキュメントの要約を生成することで、言語モデルの性能を向上させる手法を提案する。抽出型の圧縮器と抽象型の圧縮器を使用し、LMsの入力に要約を追加して訓練する。実験結果では、圧縮率が6%まで達成され、市販の要約モデルを上回る性能を示した。また、訓練された圧縮器は他のLMsにも転移可能であることが示された。 CommentRetrieval Augmentationをする際に、元文書群を要約して圧縮することで、性能低下を抑えながら最大6%程度まで元文書群を圧縮できた、とのこと。元ツイート: https://x.com/omarsar0/status/1711384213092479130?s=46&t=Y6UuIHB ... image#Pocket#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2023-10-09 Retrieval meets Long Context Large Language Models, Peng Xu+, N_A, arXiv23 Summary最先端の事前学習済みLLMsを使用して、リトリーバル拡張と長いコンテキストウィンドウの組み合わせについて研究しました。結果として、リトリーバル拡張LLMsは、ファインチューニングLLMsと比較しても高いパフォーマンスを示し、計算量も少ないことがわかりました。さらに、リトリーバルはLLMsのパフォーマンスを向上させることができることが示されました。リトリーバル拡張LLMsは、質問応答や要約などのタスクにおいて、他のモデルよりも優れた性能を発揮し、生成速度も速いです。この研究は、実践者にとってリトリーバル拡張と長いコンテキストウィンドウのLLMsの選択に関する洞察を提供します。 Comment参考: https://x.com/hillbig/status/1711502993508671670?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q検索補強(Retrieval Augmentation)とは、言語モデルの知識を補完するために、関連する文書を外部の文書集合からとってき ... #Pocket#Dataset#LanguageModel#Alignment#Conversation
Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment# Overview # RoleBench ... image#ComputerVision#Pocket#LanguageModel#QuestionAnswering
Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, arXiv23 SummaryLLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment画像分析が可能なオープンソースLLMとのこと。# Overview 画像生成をできるわけではなく、inputとして画像を扱えるのみ。 ... image#MachineLearning#Pocket#Dataset#LanguageModel#LLMAgent#Evaluation#AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク(新たなKaggle Challenge等)では30%程度とのこと。 ... #Pocket#Prompting#AutomaticPromptEngineering
Issue Date: 2023-10-09 Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, Chrisantha Fernando+, N_A, arXiv23 Summary本研究では、Promptbreederという自己参照的な自己改善メカニズムを提案し、大規模言語モデル(LLM)の推論能力を向上させるための汎用的なプロンプト戦略を進化させる方法を示しています。Promptbreederは、LLMが自己参照的な方法で進化する変異プロンプトによって制御され、タスクプロンプトの集団を変異させて改善します。この手法は、算術や常識的な推論のベンチマークだけでなく、ヘイトスピーチ分類などの難しい問題に対しても優れた性能を発揮します。 Comment詳細な解説記事: https://aiboom.net/archives/56319APEとは異なり、GAを使う。突然変異によって、予期せぬ良いpromptが生み出されるかも…? ... #Pocket#Prompting#AutomaticPromptEngineering
Issue Date: 2023-10-09 Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic, Xufeng Zhao+, N_A, arXiv23 Summary大規模言語モデルの進歩は驚異的だが、多段階の推論には改善の余地がある。大規模言語モデルは知識を持っているが、推論には一貫性がなく、幻覚を示すことがある。そこで、Logical Chain-of-Thought(LogiCoT)というフレームワークを提案し、論理による推論パラダイムの効果を示した。 Commentまーた新しいX of Thoughtが出た。必要そうなら読む。 ... #GraphBased#Pocket#Prompting#AutomaticPromptEngineering
Issue Date: 2023-10-09 Graph Neural Prompting with Large Language Models, Yijun Tian+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を知識グラフと組み合わせるための新しい手法であるGraph Neural Prompting(GNP)を提案しています。GNPは、標準的なグラフニューラルネットワークエンコーダやクロスモダリティプーリングモジュールなどの要素から構成されており、異なるLLMのサイズや設定において、常識的な推論タスクやバイオメディカル推論タスクで優れた性能を示すことが実験によって示されました。 Comment以下elvis氏のツイートの意訳事前学習されたLLMがKGから有益な知識を学習することを支援する手法を提案。元ツイート: https://arxiv.org/abs/2309.15427しっかり論文を読んでいないが、freezeしたLLMがあった時に、KGから求めたGraph Neural Prom ... image#Pocket#LanguageModel#LongSequence
Issue Date: 2023-10-09 Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N_A, arXiv23 Summary私たちは、長いコンテキストをサポートする一連のLLMsを提案します。これらのモデルは、長いテキストを含むデータセットでトレーニングされ、言語モデリングや他のタスクで評価されます。提案手法は、通常のタスクと長いコンテキストのタスクの両方で改善をもたらします。また、70Bバリアントはgpt-3.5-turbo-16kを上回るパフォーマンスを実現します。さらに、私たちはLlamaの位置エンコーディングや事前学習プロセスの設計選択の影響についても分析しました。結果から、長いコンテキストの継続的な事前学習が効果的であることが示されました。 Comment以下elvis氏のツイートの意訳Metaが32kのcontext windowをサポートする70BのLLaMa2のvariant提案し、gpt-3.5-turboをlong contextが必要なタスクでoutperform。short contextのLLaMa2を継続的に訓練して実現。これ位置エ ... #LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-10-07 Large Language Models as Analogical Reasoners, Michihiro Yasunaga+, N_A, arXiv23 Summary本研究では、言語モデルの推論プロセスを自動的にガイドするための新しいプロンプティング手法であるアナロジカルプロンプティングを提案しています。この手法は、関連する過去の経験を引用して新しい問題に取り組む認知プロセスに倣い、問題を解決する前に文脈内で関連する例示や知識を自己生成させるように言語モデルに促します。この手法は、例示のラベリングや検索の必要性を排除し、一般性と適応性を提供します。実験結果は、この手法がさまざまな推論タスクで他の手法を上回ることを示しています。 Comment以下、著者ツイートのざっくり翻訳: https://x.com/michiyasunaga/status/1709582150025240854?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q人間は新しい問題に取り組む時、過去に解いた類義の問題を振り返り、その経験を活用する。これをLLL ... image#Pocket#Dataset#LanguageModel#InstructionTuning#NumericReasoning#Mathematics
Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv23 SummaryMAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment9つのmath reasoningが必要なデータセットで13-29%のgainでSoTAを達成。260kの根拠情報を含むMath Instructデータでチューニングされたモデル。project page: https://tiger-ai-lab.github.io/MAmmoTH/ ... #Survey#Pocket#LanguageModel#Hallucination
Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv23 Summary本研究では、大規模ファウンデーションモデル(LFMs)におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 CommentHallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。 ... image#General#Pocket#LanguageModel#Alignment
Issue Date: 2023-09-30 RAIN: Your Language Models Can Align Themselves without Finetuning, Yuhui Li+, N_A, arXiv23 Summary本研究では、追加のデータなしで凍結された大規模言語モデル(LLMs)を整列させる方法を探求しました。自己評価と巻き戻しメカニズムを統合することで、LLMsは自己ブースティングを通じて人間の好みと一致する応答を生成することができることを発見しました。RAINという新しい推論手法を導入し、追加のデータやパラメータの更新を必要とせずにAIの安全性を確保します。実験結果は、RAINの効果を示しており、LLaMA 30Bデータセットでは無害率を向上させ、Vicuna 33Bデータセットでは攻撃成功率を減少させることができました。 Commentトークンのsetで構成されるtree上を探索し、出力が無害とself-evaluationされるまで、巻き戻しと前方生成を繰り返し、有害なトークンsetの重みを動的に減らすことでalignmentを実現する。モデルの追加のfinetuning等は不要。self-evaluationでは下記のようなp ... image#Pocket#Dataset#LanguageModel#StructuredData
Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 CommentFormatに関する情報を含むデータでInstruction TuningすることでFormatCoT(フォーマットに関する情報のCoT)を実現している模様。ざっくりしか論文を読んでいないが詳細な情報があまり書かれていない印象で、ちょっとなんともいえない。 ... image#Efficiency/SpeedUp#MachineLearning#Pocket#Dataset#QuestionAnswering#Finetuning (SFT)#LongSequence#Adapter/LoRA
Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv23 Summary本研究では、計算コストを制限しながら大規模言語モデル(LLMs)のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment# 概要 context長が大きい場合でも効率的にLoRAする手法。通常のLoRAではcontext lengthが大きくなるにつれてperplexityが大きくなってしまう。一方、通常のFinetuningではperplexityは高い性能を維持するが、計算コストとVRAMの消費量が膨大になって ... image#LanguageModel#QuestionAnswering#Chain-of-Thought#Prompting
Issue Date: 2023-09-30 Chain-of-Verification Reduces Hallucination in Large Language Models, Shehzaad Dhuliawala+, N_A, arXiv23 Summary私たちは、言語モデルが根拠のない情報を生成する問題に取り組んでいます。Chain-of-Verification(CoVe)メソッドを開発し、モデルが回答を作成し、検証し、最終的な回答を生成するプロセスを経ることで、幻想を減少させることができることを実験で示しました。 Comment# 概要 ユーザの質問から、Verificationのための質問をplanningし、質問に対して独立に回答を得たうえでオリジナルの質問に対するaggreementを確認し、最終的に生成を実施するPrompting手法 # 評価 ## dataset Wikidata ... image#DocumentSummarization#NaturalLanguageGeneration#Pocket#LanguageModel
Issue Date: 2023-09-17 From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting, Griffin Adams+, N_A, arXiv23 Summary要約は詳細でエンティティ中心的でありながら、理解しやすくすることが困難です。この課題を解決するために、私たちは「密度の連鎖」(CoD)プロンプトを使用して、GPT-4の要約を生成します。CoDによって生成された要約は抽象的であり、リードバイアスが少なく、人間に好まれます。また、情報量と読みやすさのトレードオフが存在することも示されました。CoD要約は無料で利用できます。 Comment論文中のprompt例。InformativeなEntityのCoverageを増やすようにイテレーションを回し、各Entityに関する情報(前ステップで不足している情報は補足しながら)を具体的に記述するように要約を生成する。人間が好むEntityのDensityにはある程度の閾値がある模様(でもこ ... image#Pocket#LanguageModel#Hallucination#FactualConsistency
Issue Date: 2023-09-13 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models, Yung-Sung Chuang+, N_A, arXiv23 Summary我々は、事前学習済みの大規模言語モデル(LLMs)における幻覚を軽減するためのシンプルなデコーディング戦略を提案する。このアプローチは、ロジットの差異を対比することで次のトークンの分布を得るもので、事実知識をより明確に示し、誤った事実の生成を減らすことができる。このアプローチは、複数の選択課題やオープンエンドの生成課題において真実性を向上させることができることが示されている。 Comment【以下、WIP状態の論文を読んでいるため今後内容が変化する可能性あり】 # 概要 Transformer Layerにおいて、factual informationが特定のレイヤーに局所化するという現象を観測しており、それを活用しよりFactual Consistencyのある生成をします、とい ... image#Efficiency/SpeedUp#MachineLearning#Pocket#LanguageModel
Issue Date: 2023-09-13 Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N_A, arXiv23 Summary私たちは、小さなTransformerベースの言語モデルであるTinyStoriesと、大規模な言語モデルであるphi-1の能力について調査しました。また、phi-1を使用して教科書の品質のデータを生成し、学習プロセスを改善する方法を提案しました。さらに、phi-1.5という新しいモデルを作成し、自然言語のタスクにおいて性能が向上し、複雑な推論タスクにおいて他のモデルを上回ることを示しました。phi-1.5は、良い特性と悪い特性を持っており、オープンソース化されています。 Comment#766 に続く論文 ... #Pocket#LanguageModel#Alignment#Finetuning (SFT)#Synchrophancy
Issue Date: 2023-09-10 Simple synthetic data reduces sycophancy in large language models, Jerry Wei+, N_A, arXiv23 Summary本研究では、機械学習モデルのおべっか行動を減らすための方法を提案しています。まず、言語モデルにおけるおべっか行動の普及度を調査し、その行動を減らすための合成データ介入を提案しています。具体的には、ユーザーの意見に対してモデルが頑健であることを促す合成データを使用し、モデルのファインチューニングを行います。これにより、おべっか行動を大幅に減らすことができます。提案手法の詳細は、https://github.com/google/sycophancy-intervention で確認できます。 CommentLLMはユーザの好む回答をするように事前学習されるため、prompt中にユーザの意見が含まれていると、ユーザの意見に引っ張られ仮に不正解でもユーザの好む回答をしてしまう問題があることを示した。また、その対策として人工的にユーザの意見と、claimを独立させるように学習するためのデータセットを生成しF ... image#MachineLearning#Pocket#LanguageModel#AutomaticPromptEngineering
Issue Date: 2023-09-09 Large Language Models as Optimizers, Chengrun Yang+, N_A, arXiv23 Summary本研究では、最適化タスクを自然言語で記述し、大規模言語モデル(LLMs)を使用して最適化を行う手法「Optimization by PROmpting(OPRO)」を提案しています。この手法では、LLMが以前の解とその値を含むプロンプトから新しい解を生成し、評価して次の最適化ステップのためのプロンプトに追加します。実験結果では、OPROによって最適化された最良のプロンプトが、人間が設計したプロンプトよりも優れていることが示されました。 Comment`Take a deep breath and work on this problem step-by-step. `論文 # 概要 LLMを利用して最適化問題を解くためのフレームワークを提案したという話。論文中では、linear regressionや巡回セールスマン問題に適用している。 ... image#MachineLearning#Pocket#LanguageModel#AutomaticPromptEngineering
Issue Date: 2023-09-05 Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR23 Summary大規模言語モデル(LLMs)は、自然言語の指示に基づいて一般的な用途のコンピュータとして優れた能力を持っています。しかし、モデルのパフォーマンスは、使用されるプロンプトの品質に大きく依存します。この研究では、自動プロンプトエンジニア(APE)を提案し、LLMによって生成された指示候補のプールから最適な指示を選択するために最適化します。実験結果は、APEが従来のLLMベースラインを上回り、19/24のタスクで人間の生成した指示と同等または優れたパフォーマンスを示しています。APEエンジニアリングされたプロンプトは、モデルの性能を向上させるだけでなく、フューショット学習のパフォーマンスも向上させることができます。詳細は、https://sites.google.com/view/automatic-prompt-engineerをご覧ください。 Commentプロジェクトサイト: https://sites.google.com/view/automatic-prompt-engineer ... #Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-09-04 Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models, Bilgehan Sel+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の推論能力を向上させるために、新しい戦略「Algorithm of Thoughts」を提案している。この戦略では、LLMsをアルゴリズム的な推論経路に導き、わずか1つまたは数個のクエリでアイデアの探索を拡大する。この手法は、以前の単一クエリ手法を上回り、マルチクエリ戦略と同等の性能を発揮する。また、LLMを指導するアルゴリズムを使用することで、アルゴリズム自体を上回るパフォーマンスが得られる可能性があり、LLMが最適化された検索に自己の直感を織り込む能力を持っていることを示唆している。 #Survey#Pocket#LanguageModel#LLMAgent
Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv23 Summary自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル(LLMs)を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment良いサーベイ ... image#MachineLearning#LanguageModel#Transformer#DataAugmentation#Finetuning (SFT)#DataGeneration
Issue Date: 2023-08-28 Prompt2Model: Generating Deployable Models from Natural Language Instructions, Vijay Viswanathan+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用して、プロンプトを自然言語でタスクを説明し、特定のモデルを訓練する手法であるPrompt2Modelを提案しています。Prompt2Modelは、既存のデータセットと事前学習済みモデルの検索、LLMsを使用したデータセットの生成、および教師あり微調整のプロセスを通じて行われます。実験結果では、Prompt2Modelが強力なLLMを上回る性能を示し、モデルの信頼性の評価も可能であることが示されています。Prompt2Modelはオープンソースで利用可能です。 CommentDataset Generatorによって、アノテーションが存在しないデータについても擬似ラベル付きデータを生成することができ、かつそれを既存のラベル付きデータと組み合わせることによってさらに性能が向上することが報告されている。これができるのはとても素晴らしい。Dataset Generatorにつ ... #Pocket#LanguageModel#Bias
Issue Date: 2023-08-28 Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions, Pouya Pezeshkpour+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の頑健性に焦点を当てています。LLMsは多肢選択問題において順序に敏感であり、オプションの配置によって性能に大きな差が生じることを示しました。さらに、オプションの配置に対するバイアスを増幅または軽減する方法を特定し、LLMsの予測を改善するアプローチを提案しました。実験により、最大8パーセントポイントの改善が実現されました。 Commentこれはそうだろうなと思っていたけど、ここまで性能に差が出るとは思わなかった。これがもしLLMのバイアスによるもの(2番目の選択肢に正解が多い)の場合、ランダムにソートしたり、平均取ったりしても、そもそもの正解に常にバイアスがかかっているので、結局バイアスがかかった結果しか出ないのでは、と思ってしまう ... image#Pocket#Dataset#LanguageModel#LLMAgent#Evaluation
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-08-22 Large Language Model Guided Tree-of-Thought, Jieyi Long, N_A, arXiv23 Summaryこの論文では、Tree-of-Thought(ToT)フレームワークを紹介し、自己回帰型の大規模言語モデル(LLM)の問題解決能力を向上させる新しいアプローチを提案しています。ToTは、人間の思考方法に触発された技術であり、複雑な推論タスクを解決するためにツリー状の思考プロセスを使用します。提案手法は、LLMにプロンプターエージェント、チェッカーモジュール、メモリモジュール、およびToTコントローラーなどの追加モジュールを組み込むことで実現されます。実験結果は、ToTフレームワークがSudokuパズルの解決成功率を大幅に向上させることを示しています。 #Pocket#LanguageModel#Prompting
Issue Date: 2023-08-22 Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding, Yuxi Xie+, N_A, arXiv23 Summary私たちは、大規模言語モデル(LLMs)を使用して、推論の品質と多様性を向上させるための効果的なプロンプティングアプローチを提案しました。自己評価によるガイド付き確率的ビームサーチを使用して、GSM8K、AQuA、およびStrategyQAのベンチマークで高い精度を達成しました。また、論理の失敗を特定し、一貫性と堅牢性を向上させることもできました。詳細なコードはGitHubで公開されています。 Comment ... image#Pocket#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-08-22 Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta+, N_A, arXiv23 Summary私たちは、Graph of Thoughts(GoT)というフレームワークを紹介しました。これは、大規模言語モデル(LLMs)のプロンプティング能力を進化させるもので、任意のグラフとしてモデル化できることが特徴です。GoTは、思考の組み合わせやネットワーク全体の本質の抽出、思考の強化などを可能にします。さまざまなタスクで最先端の手法に比べて利点を提供し、LLMの推論を人間の思考に近づけることができます。 CommentChain of Thought #551 => Self-consistency #558 => Thought Decomposition #1013 => Tree of Thoughts #684 Tree of Thought #1015 => Graph of Thoug ... #Pocket#LanguageModel
Issue Date: 2023-08-22 Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, Patrick Butlin+, N_A, arXiv23 SummaryAIの意識についての厳密なアプローチを提案し、既存のAIシステムを神経科学的な意識理論に基づいて評価する。意識の指標的特性を導き出し、最近のAIシステムを評価することで、現在のAIシステムは意識的ではないが、意識的なAIシステムを構築するための障壁は存在しないことを示唆する。 #Pocket#Dataset#LanguageModel#InstructionTuning
Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv23 Summary私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。これにより高品質なinstruction following LLMの構築が可能手法概要結果的に得られるデータは、訓練において非常にインパクトがあり高品質なものとなる。実際に、他の同サイズのinstruct tu ... image#Pocket#LanguageModel#PersonalizedGeneration
Issue Date: 2023-08-18 Teach LLMs to Personalize -- An Approach inspired by Writing Education, Cheng Li+, N_A, arXiv23 Summary個別化されたテキスト生成において、大規模言語モデル(LLMs)を使用した一般的なアプローチを提案する。教育の執筆をベースに、多段階かつマルチタスクのフレームワークを開発し、検索、ランキング、要約、統合、生成のステージで構成される個別化されたテキスト生成へのアプローチを採用する。さらに、マルチタスク設定を導入してモデルの生成能力を向上させる。3つの公開データセットでの評価結果は、他のベースラインに比べて大幅な改善を示している。 Comment研究の目的としては、ユーザが現在執筆しているdocumentのwriting支援 ... #Dataset#AudioProcessing
Issue Date: 2023-08-16 ReazonSpeech: A Free and Massive Corpus for Japanese ASR, Yin+, NLP23 Comment超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 ワンセグのデータにから生成 ... #DocumentSummarization#MachineTranslation#NaturalLanguageGeneration#Metrics#Pocket#Evaluation#LM-based#Coherence
Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL23 Summary本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #DocumentSummarization#Pocket#Evaluation#Reference-free
Issue Date: 2023-08-13 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N_A, Findings of ACL23 Summary自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。 Comment# 概要 Dual-Encoderを用いて、ソースドキュメントとシステム要約をエンコードし、dot productをとることでスコアを得る手法。モデルの訓練は、Contrastive Learningで行い、既存データセットのソースと参照要約のペアを正例とみなし、In Batch training# ... image#DocumentSummarization#Pocket#Evaluation#LLM-as-a-Judge
Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv23 Summary本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 CommentBERTScoreと同様、評価したいテキストの対数尤度で評価しているBERTScoreよりも相関が高く、instructionによって性能が向上することが示されている ... #DocumentSummarization#Pocket#Evaluation
Issue Date: 2023-08-13 Large Language Models are Diverse Role-Players for Summarization Evaluation, Ning Wu+, N_A, arXiv23 Summary本研究では、テキスト要約の評価フレームワークを提案し、生成されたテキストと参照テキストを客観的および主観的な側面から比較することで包括的な評価を行います。具体的には、ロールプレイヤーのプロンプティングメカニズムを使用してテキストの評価をモデル化し、コンテキストベースのプロンプティングメカニズムを導入して動的なロールプレイヤープロファイルを生成します。さらに、バッチプロンプティングに基づいたマルチロールプレイヤープロンプティング技術を使用して複数の評価結果を統合します。実験結果は、提案モデルが競争力があり、人間の評価者と高い一致性を持つことを示しています。 #DocumentSummarization#Pocket#Evaluation#FactualConsistency
Issue Date: 2023-08-13 ChatGPT as a Factual Inconsistency Evaluator for Text Summarization, Zheheng Luo+, N_A, arXiv23 Summary事前学習された言語モデルによるテキスト要約の性能向上が注目されているが、生成された要約が元の文書と矛盾することが問題となっている。この問題を解決するために、効果的な事実性評価メトリクスの開発が進められているが、計算複雑性や不確実性の制約があり、人間の判断との一致に限定されている。最近の研究では、大規模言語モデル(LLMs)がテキスト生成と言語理解の両方で優れた性能を示していることがわかっている。本研究では、ChatGPTの事実的な矛盾評価能力を評価し、バイナリエンテイルメント推論、要約ランキング、一貫性評価などのタスクで優れた性能を示した。ただし、ChatGPTには語彙的な類似性の傾向や誤った推論、指示の不適切な理解などの制限があることがわかった。 #Pocket#LanguageModel#Prompting
Issue Date: 2023-08-12 Metacognitive Prompting Improves Understanding in Large Language Models, Yuqing Wang+, N_A, arXiv23 Summary本研究では、LLMsにメタ認知プロンプト(MP)を導入し、人間の内省的な推論プロセスを模倣することで、理解能力を向上させることを目指しています。実験結果は、MPを備えたPaLMが他のモデルに比べて優れたパフォーマンスを示しており、MPが既存のプロンプト手法を上回ることを示しています。この研究は、LLMsの理解能力向上の可能性を示し、人間の内省的な推論を模倣することの利点を強調しています。 CommentCoTより一貫して性能が高いので次のデファクトになる可能性あり ... image#MachineLearning#Pocket#AutoML
Issue Date: 2023-08-10 MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks, Lei Zhang+, N_A, arXiv23 Summary本研究では、機械学習タスクの自動化における人間の知識と機械知能のギャップを埋めるために、新しいフレームワークMLCopilotを提案する。このフレームワークは、最先端のLLMsを使用して新しいMLタスクのソリューションを開発し、既存のMLタスクの経験から学び、効果的に推論して有望な結果を提供することができる。生成されたソリューションは直接使用して競争力のある結果を得ることができる。 #MachineLearning#LanguageModel#Attention
Issue Date: 2023-08-08 The Hydra Effect: Emergent Self-repair in Language Model Computations, Thomas McGrath+, N_A, arXiv23 Summary私たちは、言語モデルの内部構造を調査し、言語モデルの計算における特定の効果を示しました。具体的には、1つの層の削除が他の層によって補完される「Hydra効果」と、遅いMLP層が最大尤度トークンを制御する役割を持つことを示しました。また、ドロップアウトを使用しない言語モデルでも同様の効果が見られることを示しました。これらの効果を事実の回想の文脈で分析し、言語モデルの回路レベルの属性付与について考察しました。 CommentLLMからattention layerを一つ取り除くと、後続の層が取り除かれたlayerの機能を引き継ぐような働きをすることがわかった。これはLLMの自己修復機能のようなものであり、HydraEffectと命名された。 ... #LanguageModel
Issue Date: 2023-08-08 MetaGPT: Meta Programming for Multi-Agent Collaborative Framework, Sirui Hong+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用したマルチエージェントの自動タスク解決における進歩について調査しました。既存の研究では単純なタスクに焦点を当てており、複雑なタスクにおける探索や調査が不足していることがわかりました。そこで、MetaGPTという革新的なフレームワークを提案しました。MetaGPTは、人間のワークフローをLLMに組み込むことで、マルチエージェントの協力を効果的に支援します。実験結果から、MetaGPTが既存のシステムに比べてより高い結束性を持つ解決策を生成することが示されました。これは、マルチエージェントに人間のドメイン知識を組み込むことの潜在能力を示し、新しいアプローチの可能性を開拓するものです。 Comment要はBabyTalk, AutoGPTの進化系で、人間のワークフローを模倣するようにデザインしたら良くなりました、という話と思われるソフトウェアエンジニア、アーキテクト、プロダクトオーナー、プロジェクトマネージャーなどのロールを明示的に与えて、ゴールを目指す。もはやLLM内部でソフトウェア企業を ... #Efficiency/SpeedUp#LanguageModel
Issue Date: 2023-08-08 Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding, Xuefei Ning+, N_A, arXiv23 Summaryこの研究では、大規模言語モデル(LLMs)の生成遅延を減らすために、思考の骨組み(SoT)という手法を提案しています。SoTは、回答の骨組みをまず生成し、その後に内容を並列で処理することで高速化を実現します。また、回答品質の向上も期待されます。SoTはデータ中心の最適化の初めの試みであり、LLMsの人間らしい思考を可能にする可能性があります。 Comment最初に回答の枠組みだけ生成して、それぞれの内容を並列で出力させることでデコーディングを高速化しましょう、という話。 ... image#Tools#Pocket#LanguageModel
Issue Date: 2023-08-08 ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, Yujia Qin+, N_A, arXiv23 Summaryオープンソースの大規模言語モデル(LLMs)を使用して、外部ツール(API)の高度なタスクの実行を容易にするためのToolLLMというフレームワークを紹介します。ToolBenchというデータセットを使用して、ツールの使用方法を調整し、DFSDTという決定木を使用して効率的な検索を行います。ToolEvalという自動評価ツールを使用して、ToolLLaMAが高いパフォーマンスを発揮することを示します。さらに、ニューラルAPIリトリーバーを使用して、適切なAPIを推奨します。 Comment16000のreal worldのAPIとインタラクションし、データの準備、訓練、評価などを一貫してできるようにしたフレームワーク。LLaMAを使った場合、ツール利用に関してturbo-16kと同等の性能に達したと主張。 ... image#MachineLearning#LanguageModel#Adapter/LoRA
Issue Date: 2023-08-08 LoraHub: Efficient Cross-Task Generalization via Dynamic LoRA Composition, Chengsong Huang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を新しいタスクに適応させるための低ランク適応(LoRA)を検討し、LoraHubというフレームワークを提案します。LoraHubを使用すると、少数の例から複数のLoRAモジュールを組み合わせて柔軟に適応性のあるパフォーマンスを実現できます。また、追加のモデルパラメータや勾配は必要ありません。実験結果から、LoraHubが少数の例でのインコンテキスト学習のパフォーマンスを効果的に模倣できることが示されています。さらに、LoRAコミュニティの育成と共有リソースの提供にも貢献しています。 Comment学習されたLoRAのパラメータをモジュールとして捉え、新たなタスクのinputが与えられた時に、LoRA Hub上の適切なモジュールをLLMに組み合わせることで、ICL無しで汎化を実現するというアイデア。few shotのexampleを人間が設計する必要なく、同等の性能を達成。複数のLoRAモジュ ... image#Dataset#LanguageModel#Evaluation
Issue Date: 2023-08-08 L-Eval: Instituting Standardized Evaluation for Long Context Language Models, Chenxin An+, N_A, arXiv23 Summary長い文脈の言語モデル(LCLM)の評価を標準化するために、L-Evalという評価スイートを提案しました。L-Evalには411の長いドキュメントと2,000以上の人間によるクエリ-レスポンスのペアが含まれており、多様な評価方法と指示スタイルを採用しています。オープンソースのモデルは商用モデルに比べて遅れていますが、通常のバージョンと比較しても印象的なパフォーマンスを示しています。LCLMの生成結果は公開されています。 Commentlong contextに対するLLMの評価セット。411のlong documentに対する2kのquery-response pairのデータが存在。法律、fainance, school lectures, 長文対話、小説、ミーティングなどのドメインから成る。 ... #Pocket#LanguageModel#Prompting
Issue Date: 2023-08-07 Do Multilingual Language Models Think Better in English?, Julen Etxaniz+, N_A, arXiv23 Summaryself-translateは、マルチリンガル言語モデルの少数ショット翻訳能力を活用する新しいアプローチであり、外部の翻訳システムの必要性を克服する。実験結果は、self-translateが直接推論を上回る性能を示し、非英語の言語でプロンプトされた場合にも有効であることを示している。コードはhttps://github.com/juletx/self-translateで利用可能。 Comment参考: https://twitter.com/imai_eruel/status/1687735268311511040?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image#Efficiency/SpeedUp#LanguageModel
Issue Date: 2023-07-26 FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance, Lingjiao Chen+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の使用には高いコストがかかるため、LLMsの推論コストを削減するための3つの戦略(プロンプトの適応、LLMの近似、LLMのカスケード)を提案する。FrugalGPTという具体的な手法を紹介し、最大98%のコスト削減と4%の精度向上を実現することを示す。これにより、LLMsの持続可能な使用が可能となる。 Comment限られた予算の中で、いかに複数のLLM APIを使い、安いコストで高い性能を達成するかを追求した研究。LLM Cascadeなどはこの枠組みでなくても色々と使い道がありそう。Question Concatenationは実質Batch Prompting。 ... #Pocket#LanguageModel#Evaluation#LLM-as-a-Judge
Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, arXiv23 Summary大規模言語モデル(LLM)を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 CommentMT-Bench(MTBench)スコアとは、multi-turnのQAを出題し、その回答の質をGPT-4でスコアリングしたスコアのこと。 GPT-4の判断とhuman expertの判断とのagreementも検証しており、agreementは80%以上を達成している。 ... image#PersonalizedDocumentSummarization#PersonalizedGeneration#Personalization#PersonalizedHeadlineGeneration
Issue Date: 2023-07-22 Generating User-Engaging News Headlines, ACL23 Summaryニュース記事の見出しを個別化するために、ユーザープロファイリングを組み込んだ新しいフレームワークを提案。ユーザーの閲覧履歴に基づいて個別のシグネチャフレーズを割り当て、それを使用して見出しを個別化する。幅広い評価により、提案したフレームワークが多様な読者のニーズに応える個別の見出しを生成する効果を示した。 Comment# モチベーション 推薦システムのヘッドラインは未だに全員に同じものが表示されており、ユーザが自身の興味とのつながりを正しく判定できるとは限らず、推薦システムの有用性を妨げるので、ユーザごとに異なるヘッドラインを生成する手法を提案した。ただし、クリックベイトは避けるようなヘッドラインを生成しなけれ# ... image#LanguageModel#Evaluation#LLM-as-a-Judge
Issue Date: 2023-07-22 Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang, Hung-yi Lee, ACL23 Summary本研究では、人間の評価が機械学習モデルのテキスト品質評価に不可欠であるが再現性が難しいという問題を解決するために、大規模言語モデル(LLMs)を使用した評価方法を提案している。具体的には、LLMsに同じ指示と評価対象のサンプルを与え、それに対する応答を生成させることで、LLM評価を行っている。実験結果から、LLM評価の結果は人間の評価と一致しており、異なるフォーマットやサンプリングアルゴリズムでも安定していることが示されている。LLMsを使用したテキスト品質評価の可能性が初めて示されており、その制限や倫理的な考慮事項についても議論されている。 #ComputerVision#NaturalLanguageGeneration#Dataset#Evaluation
Issue Date: 2023-07-22 InfoMetIC: An Informative Metric for Reference-free Image Caption Evaluation, ACL23 Summary自動画像キャプションの評価には、情報豊かなメトリック(InfoMetIC)が提案されています。これにより、キャプションの誤りや欠落した情報を詳細に特定することができます。InfoMetICは、テキストの精度スコア、ビジョンの再現スコア、および全体の品質スコアを提供し、人間の判断との相関も高いです。また、トークンレベルの評価データセットも構築されています。詳細はGitHubで公開されています。 #Metrics#LanguageModel#QuestionAnswering#Evaluation#Reference-free
Issue Date: 2023-07-22 RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question, ACL23 Summary既存の質問評価メトリックにはいくつかの欠点がありますが、本研究では新しいメトリックRQUGEを提案します。RQUGEは文脈に基づいて候補質問の回答可能性を考慮し、参照質問に依存せずに人間の判断と高い相関を持つことが示されています。さらに、RQUGEは敵対的な破壊に対しても堅牢であり、質問生成モデルのファインチューニングにも有効です。これにより、QAモデルのドメイン外データセットでのパフォーマンスが向上します。 Comment# 概要 質問自動生成の性能指標(e.g. ROUGE, BERTScore)は、表層の一致、あるいは意味が一致した場合にハイスコアを与えるが、以下の欠点がある 人手で作成された大量のreference questionが必要 表層あるいは意味的に近くないが正しいquestionに対し ... image#LanguageModel#FoundationModel#OpenWeightLLM
Issue Date: 2023-07-22 Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N_A, arXiv23 Summaryこの研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。 Comment参考: https://twitter.com/hillbig/status/1681436336451125257?s=46&t=LJIgfuO352oK3zU2FKFpNALlama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの” ... image#Pocket#ChatGPT#Evaluation
Issue Date: 2023-07-22 How is ChatGPTs behavior changing over time?, Lingjiao Chen+, N_A, arXiv23 SummaryGPT-3.5とGPT-4は、大規模言語モデル(LLM)のサービスであり、その性能と振る舞いは時間とともに変動することがわかった。例えば、GPT-4は素数の特定に優れていたが、後のバージョンでは低い正答率となった。また、GPT-3.5はGPT-4よりも優れた性能を示した。さらに、GPT-4とGPT-3.5の両方が時間とともに敏感な質問への回答やコード生成でのミスが増えた。この結果から、LLMの品質を継続的に監視する必要性が示唆される。 CommentGPT3.5, GPT4共にfreezeされてないのなら、研究で利用すると結果が再現されないので、研究で使うべきではない。また、知らんうちにいくつかのタスクで勝手に性能低下されたらたまったものではない。 ... #Tutorial#Survey#LanguageModel
Issue Date: 2023-07-22 Challenges and Applications of Large Language Models, Jean Kaddour+, N_A, arXiv23 Summary本論文では、大規模言語モデル(LLMs)の普及により、研究者が分野の現状を理解し、生産的になるための問題と応用成功例を確立することを目指しています。 CommentLLMのここ数年の進化早すぎわろたでキャッチアップむずいので、未解決の課題や、すでに良い感じのアプリケーションの分野分かりづらいので、まとめました論文 ... #ComputerVision#Pocket#LanguageModel#LLMAgent
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ... image#Pocket#LanguageModel#Annotation
Issue Date: 2023-07-22 LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs, Tongshuang Wu+, N_A, arXiv23 Summary大規模言語モデル(LLMs)は、クラウドソーシングタスクにおいて人間のような振る舞いを再現できる可能性がある。しかし、現在の取り組みは単純なタスクに焦点を当てており、より複雑なパイプラインを再現できるかどうかは不明である。LLMsの成功は、リクエスターの理解力やサブタスクのスキルに影響を受ける。人間とLLMsのトレーニングの組み合わせにより、クラウドソーシングパイプラインの再現が可能であり、LLMsは一部のタスクを完了させながら、他のタスクを人間に任せることができる。 #Pocket#LanguageModel#InstructionTuning#Evaluation
Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv23 Summary本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #ComputerVision#Pocket#LanguageModel#SpokenLanguageProcessing#MulltiModal#AudioProcessing
Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv23 Summary本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment12種類のモダリティに対して学習できるTransformerを提案Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習 ... image#Pocket#Dataset#LanguageModel#Evaluation
Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 CommentこのベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。 ... image#Pocket#Dataset#LanguageModel
Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #DocumentSummarization#Metrics#Dataset#Evaluation
Issue Date: 2023-07-18 Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation, ACL23 Summary要約の評価には人間の評価が重要ですが、既存の評価方法には問題があります。そこで、私たちは新しい要約の重要性プロトコルを提案し、大規模な人間評価データセットを収集しました。さらに、異なる評価プロトコルを比較し、自動評価指標を評価しました。私たちの研究結果は、大規模言語モデルの評価に重要な示唆を与えます。 #Pocket#Dataset#LanguageModel#Programming
Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA23 Summary本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #LanguageModel#Chain-of-Thought#Distillation
Issue Date: 2023-07-18 Teaching Small Language Models to Reason, ACL23 Summary本研究では、大規模な言語モデルの推論能力を小さなモデルに転送するための知識蒸留を探求しました。具体的には、大きな教師モデルによって生成された出力を用いて学生モデルを微調整し、算術、常識、象徴的な推論のタスクでのパフォーマンスを向上させることを示しました。例えば、T5 XXLの正解率は、PaLM 540BとGPT-3 175Bで生成された出力を微調整することで、それぞれ8.11%から21.99%および18.42%に向上しました。 #NaturalLanguageGeneration#Pocket#FactualConsistency
Issue Date: 2023-07-18 WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning, ACL23 Summary現在のテキスト生成モデルは、入力と矛盾するテキストを制御できないという課題があります。この問題を解決するために、私たちはWeCheckという弱教師付きフレームワークを提案します。WeCheckは、弱教師付きラベルを持つ言語モデルから直接訓練された実際の生成サンプルを使用します。さまざまなタスクでの実験結果は、WeCheckの強力なパフォーマンスを示し、従来の評価方法よりも高速で精度と効率を向上させています。 #DocumentSummarization#NaturalLanguageGeneration#Abstractive#FactualConsistency
Issue Date: 2023-07-18 Improving Factuality of Abstractive Summarization without Sacrificing Summary Quality, ACL23 Summary事実性を意識した要約の品質向上に関する研究はあるが、品質を犠牲にすることなく事実性を向上させる手法がほとんどない。本研究では「Effective Factual Summarization」という技術を提案し、事実性と類似性の指標の両方で大幅な改善を示すことを示した。トレーニング中に競合を防ぐために2つの指標を組み合わせるランキング戦略を提案し、XSUMのFactCCでは最大6ポイント、CNN/DMでは11ポイントの改善が見られた。また、類似性や要約の抽象性には負の影響を与えない。 #Dataset#GrammaticalErrorCorrection
Issue Date: 2023-07-18 Enhancing Grammatical Error Correction Systems with Explanations, ACL23 Summary文法エラー修正システムの性能向上のために、エビデンスワードと文法エラータイプが注釈付けされた大規模なデータセットであるEXPECTを紹介する。このデータセットを使用して、説明可能なGECシステムのベースラインと分析を提案し、人間の評価によってその有用性を確認する。 #NaturalLanguageGeneration#DataToTextGeneration#MultitaskLearning#Zero/FewShotLearning
Issue Date: 2023-07-18 Few-Shot Data-to-Text Generation via Unified Representation and Multi-Source Learning, ACL23 Summaryこの論文では、構造化データからテキストを生成する新しいアプローチを提案しています。提案手法は、さまざまな形式のデータを処理できる統一された表現を提供し、マルチタスクトレーニングやゼロショット学習などのシナリオでのパフォーマンスを向上させることを目指しています。実験結果は、提案手法が他の方法と比較して優れた性能を示していることを示しています。これは、データからテキスト生成フレームワークにおける重要な進歩です。 #NaturalLanguageGeneration#Controllable
Issue Date: 2023-07-18 An Invariant Learning Characterization of Controlled Text Generation, ACL23 Summary制御された生成では、予測器の訓練に使用される分布と異なるテキストの分布がある場合、パフォーマンスが低下することが示されている。この問題に対処するために、不変性を持つ予測器が効果的であるという考え方が提案されている。さらに、この特性を活かすための自然な解決策とヒューリスティックも提案されている。実験結果は、制御された生成における分布シフトの課題と不変性手法の潜在能力を示している。 #DocumentSummarization#NaturalLanguageGeneration#Abstractive#Extractive
Issue Date: 2023-07-18 Abstractive Summarizers are Excellent Extractive Summarizers, ACL23 Summary本研究では、抽出型要約と要約型要約の相乗効果を探求し、シーケンス・トゥ・シーケンス・アーキテクチャを使用した3つの新しい推論アルゴリズムを提案しています。これにより、要約型システムが抽出型システムを超えることができることを示しました。また、要約型システムは抽出型のオラクル要約にさらされることなく、両方の要約を単一のモデルで生成できることも示しました。これは、抽出型ラベルの必要性に疑問を投げかけるものであり、ハイブリッドモデルの有望な研究方向を示しています。 #NaturalLanguageUnderstanding
Issue Date: 2023-07-18 TACL Efficient Long-Text Understanding with Short-Text Models, TACL23 Summary本研究では、長いシーケンスを処理するためのシンプルなアプローチであるSLEDを提案しています。SLEDは、既存の短文の事前学習言語モデルを再利用し、入力を重なり合うチャンクに分割して処理します。制御された実験により、SLEDが長いテキスト理解に有効であり、専用の高価な事前学習ステップが必要な専門モデルと競合することが示されました。 #Pretraining#MachineLearning#In-ContextLearning
Issue Date: 2023-07-18 Pre-Training to Learn in Context, ACL23 Summaryインコンテキスト学習は、タスクの例と文脈からタスクを実行する方法であり、注目されています。しかし、現在の方法では十分に活用されていないため、私たちはPICLというフレームワークを提案します。これは、一般的なテキストコーパスでモデルを事前学習し、文脈に基づいてタスクを推論して実行する能力を向上させます。私たちは、PICLでトレーニングされたモデルのパフォーマンスを評価し、他のモデルを上回ることを示しました。コードはGitHubで公開されています。 #Efficiency/SpeedUp#MachineLearning#DynamicNetworks
Issue Date: 2023-07-18 PAD-Net: An Efficient Framework for Dynamic Networks, ACL23 Summary本研究では、ダイナミックネットワークの一般的な問題点を解決するために、部分的にダイナミックなネットワーク(PAD-Net)を提案します。PAD-Netは、冗長なダイナミックパラメータを静的なパラメータに変換することで、展開コストを削減し、効率的なネットワークを実現します。実験結果では、PAD-Netが画像分類と言語理解のタスクで高い性能を示し、従来のダイナミックネットワークを上回ることを示しました。 #NaturalLanguageGeneration#Controllable#Argument
Issue Date: 2023-07-18 ArgU: A Controllable Factual Argument Generator, ACL23 Summary本研究では、高品質な論証を自動生成するために、制御コードを使用したニューラル論証生成器ArgUを提案します。また、論証スキームを特定するための大規模なデータセットを作成し、注釈付けとデータセット作成のフレームワークについて詳細に説明します。さらに、論証テンプレートを生成する推論戦略を試行し、多様な論証を自動的に生成することが可能であることを示します。 #pretrained-LM#Out-of-DistributionDetection
Issue Date: 2023-07-18 Is Fine-tuning Needed? Pre-trained Language Models Are Near Perfect for Out-of-Domain Detection, ACL23 Summary本研究では、ファインチューニングなしで事前学習された言語モデルを使用してOOD検出を行う効果を調査しました。さまざまなタイプの分布シフトにおいて、ファインチューニングされたモデルを大幅に上回るほぼ完璧なOOD検出性能を示しました。 #RecommenderSystems#Contents-based#Transformer#pretrained-LM#ContrastiveLearning
Issue Date: 2023-07-18 UniTRec: A Unified Text-to-Text Transformer and Joint Contrastive Learning Framework for Text-based Recommendation, ACL23 Summary本研究では、事前学習済み言語モデル(PLM)を使用して、テキストベースの推薦の性能を向上させるための新しいフレームワークであるUniTRecを提案します。UniTRecは、ユーザーの履歴の文脈をより良くモデル化するために統一されたローカル-グローバルアテンションTransformerエンコーダを使用し、候補のテキストアイテムの言語の複雑さを推定するためにTransformerデコーダを活用します。幅広い評価により、UniTRecがテキストベースの推薦タスクで最先端のパフォーマンスを発揮することが示されました。 #Survey#NumericReasoning
Issue Date: 2023-07-18 A Survey of Deep Learning for Mathematical Reasoning, ACL23 Summary数学的な推論とディープラーニングの関係についての調査論文をレビューし、数学的な推論におけるディープラーニングの進歩と将来の研究方向について議論しています。数学的な推論は機械学習と自然言語処理の分野で重要であり、ディープラーニングモデルのテストベッドとして機能しています。また、大規模なニューラル言語モデルの進歩により、数学的な推論に対するディープラーニングの利用が可能になりました。既存のベンチマークと方法を評価し、将来の研究方向についても議論しています。 #NaturalLanguageGeneration#Explanation#Evaluation#Faithfulness
Issue Date: 2023-07-18 Faithfulness Tests for Natural Language Explanations, ACL23 Summary本研究では、ニューラルモデルの説明の忠実性を評価するための2つのテストを提案しています。1つ目は、カウンターファクチュアルな予測につながる理由を挿入するためのカウンターファクチュアル入力エディタを提案し、2つ目は生成された説明から入力を再構築し、同じ予測につながる頻度をチェックするテストです。これらのテストは、忠実な説明の開発において基本的なツールとなります。 #Survey#LanguageModel#Prompting#Reasoning
Issue Date: 2023-07-18 Reasoning with Language Model Prompting: A Survey, ACL23 Summary本論文では、推論に関する最新の研究について包括的な調査を行い、初心者を支援するためのリソースを提供します。また、推論能力の要因や将来の研究方向についても議論します。リソースは定期的に更新されています。 #DocumentSummarization#NaturalLanguageGeneration#Extractive#Faithfulness
Issue Date: 2023-07-18 Extractive is not Faithful: An Investigation of Broad Unfaithfulness Problems in Extractive Summarization, ACL23 Summary本研究では、抽出的な要約の不正確さの問題について議論し、それを5つのタイプに分類します。さらに、新しい尺度であるExtEvalを提案し、不正確な要約を検出するために使用することを示します。この研究は、抽出的な要約の不正確さに対する認識を高め、将来の研究に役立つことを目指しています。 CommentExtractive SummarizatinoのFaithfulnessに関する研究。 >抽出的な要約は抽象的な要約の一般的な不正確さの問題にはあまり影響を受けにくいですが、それは抽出的な要約が正確であることを意味するのでしょうか?結論はノーです。 >本研究では、抽出的な要約に現れる広範な不正 ... #General#RepresentationLearning#EssayScoring
Issue Date: 2023-07-18 Improving Domain Generalization for Prompt-Aware Essay Scoring via Disentangled Representation Learning, ACL23 Summary自動エッセイスコアリング(AES)は、エッセイを評価するためのモデルですが、既存のモデルは特定のプロンプトにしか適用できず、新しいプロンプトに対してはうまく汎化できません。この研究では、プロンプトに依存しない特徴とプロンプト固有の特徴を抽出するためのニューラルAESモデルを提案し、表現の汎化を改善するための分離表現学習フレームワークを提案しています。ASAPとTOEFL11のデータセットでの実験結果は、提案手法の有効性を示しています。 #NaturalLanguageGeneration#Controllable
Issue Date: 2023-07-15 Controllable Text Generation via Probability Density Estimation in the Latent Space, ACL23 Summary本研究では、潜在空間での確率密度推定を用いた新しい制御フレームワークを提案しています。この手法は、可逆変換関数を使用して潜在空間の複雑な分布を単純なガウス分布にマッピングし、洗練された柔軟な制御を行うことができます。実験結果では、提案手法が属性の関連性とテキストの品質において強力なベースラインを上回り、新たなSOTAを達成していることが示されています。さらなる分析により、制御戦略の柔軟性が示されています。 #Education#EducationalDataMining#QuestionGeneration
Issue Date: 2023-07-15 Covering Uncommon Ground: Gap-Focused Question Generation for Answer Assessment, ACL23 Summary本研究では、教育的な対話における情報のギャップに焦点を当て、自動的に質問を生成する問題に取り組んでいます。良い質問の要素を明確にし、それを満たすモデルを提案します。また、人間のアノテーターによる評価を行い、生成された質問の競争力を示します。 #LanguageModel#Ensemble
Issue Date: 2023-07-15 Multi-CLS BERT: An Efficient Alternative to Traditional Ensembling, ACL23 Summary本研究では、BERTモデルのアンサンブル手法であるMulti-CLS BERTを提案します。Multi-CLS BERTは、複数のCLSトークンを使用して多様性を促進し、単一のモデルを微調整するだけでアンサンブル効果を得ることができます。実験結果では、Multi-CLS BERTがGLUEとSuperGLUEのタスクで全体的な精度と信頼度の推定を向上させることが示されました。また、通常のBERTアンサンブルとほぼ同等の性能を持ちながら、計算量とメモリ使用量が約4倍少なくなっていることも示されました。 #DocumentSummarization#NaturalLanguageGeneration#Dataset#Conversation
Issue Date: 2023-07-15 MeetingBank: A Benchmark Dataset for Meeting Summarization, ACL23 Summary会議の要約技術の開発には注釈付きの会議コーパスが必要ですが、その欠如が問題となっています。本研究では、新しいベンチマークデータセットであるMeetingBankを提案しました。MeetingBankは、会議議事録を短いパッセージに分割し、特定のセグメントと対応させることで、会議の要約プロセスを管理しやすいタスクに分割することができます。このデータセットは、会議要約システムのテストベッドとして利用できるだけでなく、一般の人々が議会の意思決定の仕組みを理解するのにも役立ちます。ビデオリンク、トランスクリプト、参照要約などのデータを一般に公開し、会議要約技術の開発を促進します。 #MachineTranslation#Unsupervised#AudioProcessing#Speech
Issue Date: 2023-07-15 Simple and Effective Unsupervised Speech Translation, ACL23 Summary音声翻訳のためのラベル付きデータが限られているため、非教師あり手法を使用して音声翻訳システムを構築する方法を研究している。パイプラインアプローチや擬似ラベル生成を使用し、非教師ありドメイン適応技術を提案している。実験の結果、従来の手法を上回る性能を示している。 #DocumentSummarization#NaturalLanguageGeneration#Controllable#Dataset#FactualConsistency
Issue Date: 2023-07-15 On Improving Summarization Factual Consistency from Natural Language Feedback, ACL23 Summary本研究では、自然言語の情報フィードバックを活用して要約の品質とユーザーの好みを向上させる方法を調査しました。DeFactoという高品質なデータセットを使用して、要約の編集や修正に関する自然言語生成タスクを研究しました。また、微調整された言語モデルを使用して要約の品質を向上させることも示しました。しかし、大規模な言語モデルは制御可能なテキスト生成には向いていないことがわかりました。 #RecommenderSystems#Conversation
Issue Date: 2023-07-15 TREA: Tree-Structure Reasoning Schema for Conversational Recommendation, ACL23 Summary会話型の推薦システム(CRS)では、外部知識を活用して対話の文脈を理解し、関連するアイテムを推薦することが求められている。しかし、現在の推論モデルは複雑な関係を完全に把握できないため、新しいツリー構造の推論スキーマであるTREAを提案する。TREAは多階層のツリーを使用して因果関係を明確にし、過去の対話を活用してより合理的な応答を生成する。幅広い実験により、TREAの有効性が示された。 #ComputerVision#Dataset#Personalization#MulltiModal#Conversation
Issue Date: 2023-07-15 MPCHAT: Towards Multimodal Persona-Grounded Conversation, ACL23 Summary本研究では、テキストと画像の両方を使用してパーソナを拡張し、マルチモーダルな対話エージェントを構築するためのデータセットであるMPCHATを提案します。さらに、マルチモーダルパーソナを組み込むことで、応答予測、パーソナのグラウンディング予測、話者の識別といったタスクのパフォーマンスを統計的に有意に改善できることを示します。この研究は、マルチモーダルな対話理解においてマルチモーダルパーソナの重要性を強調し、MPCHATが高品質なリソースとして役立つことを示しています。 #LanguageModel#Mathematics
Issue Date: 2023-07-15 Solving Math Word Problems via Cooperative Reasoning induced Language Models, ACL23 Summary大規模な事前学習言語モデル(PLM)を使用して、数学の文章問題(MWPs)を解決するためのCooperative Reasoning(CoRe)アーキテクチャを開発しました。CoReでは、生成器と検証器の二つの推論システムが相互作用し、推論パスを生成し評価を監督します。CoReは、数学的推論データセットで最先端の手法に比べて最大9.6%の改善を達成しました。 #NaturalLanguageGeneration#Controllable#Prompting
Issue Date: 2023-07-15 Tailor: A Soft-Prompt-Based Approach to Attribute-Based Controlled Text Generation, ACL23 Summary属性ベースの制御されたテキスト生成(CTG)では、望ましい属性を持つ文を生成することが目指されている。従来の手法では、ファインチューニングや追加の属性分類器を使用していたが、ストレージと推論時間の増加が懸念されていた。そこで、本研究では効率的なパラメータを使用した属性ベースのCTGを提案している。具体的には、各属性を事前学習された連続ベクトルとして表現し、固定された事前学習言語モデルをガイドして属性を満たす文を生成する。さらに、2つの解決策を提供して、組み合わせを強化している。実験の結果、追加のトレーニングパラメータのみで効果的な改善が実現できることが示された。 #DocumentSummarization#Survey#Abstractive#Conversation
Issue Date: 2023-07-15 TACL Abstractive Meeting Summarization: A Survey, TACL23 Summary会議の要約化において、深層学習の進歩により抽象的要約が改善された。本論文では、抽象的な会議の要約化の課題と、使用されているデータセット、モデル、評価指標について概説する。 #ComputerVision#NaturalLanguageGeneration#LanguageModel#TabularData#TextToImageGeneration
Issue Date: 2023-07-15 Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models, ACL23 Summary本研究では、Vision&Language(V&L)モデルにおけるエンティティの知識の保持方法を検証するために、テーブルと画像の生成タスクを提案します。このタスクでは、エンティティと関連する画像の知識を含むテーブルを生成する第一の部分と、キャプションとエンティティの関連知識を含むテーブルから画像を生成する第二の部分があります。提案されたタスクを実行するために、Wikipediaの約20万のinfoboxからWikiTIGデータセットを作成しました。最先端のV&LモデルOFAを使用して、提案されたタスクのパフォーマンスを評価しました。実験結果は、OFAが一部のエンティティ知識を忘れることを示しています。 #NaturalLanguageGeneration#Controllable#Adapter/LoRA
Issue Date: 2023-07-15 Focused Prefix Tuning for Controllable Text Generation, ACL23 Summary本研究では、注釈のない属性によって制御可能なテキスト生成データセットのパフォーマンスが低下する問題に対して、「focused prefix tuning(FPT)」という手法を提案しています。FPTは望ましい属性に焦点を当てることで、制御精度とテキストの流暢さを向上させることができます。また、FPTは複数属性制御タスクにおいても、既存のモデルを再トレーニングすることなく新しい属性を制御する柔軟性を持ちながら、制御精度を保つことができます。 #In-ContextLearning#LabelBias
Issue Date: 2023-07-15 Mitigating Label Biases for In-context Learning, ACL23 Summaryインコンテキスト学習(ICL)におけるラベルバイアスの種類を定義し、その影響を軽減するための方法を提案する研究が行われました。特に、ドメインラベルバイアスについて初めて概念化され、その影響を軽減するためのバイアス補正方法が提案されました。この方法により、GPT-JとGPT-3のICLパフォーマンスが大幅に改善されました。さらに、異なるモデルやタスクにも一般化され、ICLにおけるラベルバイアスの問題を解決する手法として有効であることが示されました。 #Analysis#LanguageModel#InstructionTuning
Issue Date: 2023-07-15 Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning, ACL23 Summary最近のinstruction tuning(IT)の研究では、追加のコンテキストを提供してモデルをファインチューニングすることで、ゼロショットの汎化性能を持つ素晴らしいパフォーマンスが実現されている。しかし、IT中にモデルがどのように指示を利用しているかはまだ研究されていない。本研究では、モデルのトレーニングを変更された指示と元の指示との比較によって、モデルがIT中に指示をどのように利用するかを分析する。実験の結果、トレーニングされたモデルは元の指示と同等のパフォーマンスを達成し、ITと同様のパフォーマンスを達成することが示された。この研究は、より信頼性の高いIT手法と評価の緊急性を強調している。 #ComputerVision#NaturalLanguageGeneration#MulltiModal#DiffusionModel#TextToImageGeneration
Issue Date: 2023-07-15 Learning to Imagine: Visually-Augmented Natural Language Generation, ACL23 Summary本研究では、視覚情報を活用した自然言語生成のためのLIVEという手法を提案しています。LIVEは、事前学習済み言語モデルを使用して、テキストに基づいて場面を想像し、高品質な画像を合成する方法です。また、CLIPを使用してテキストの想像力を評価し、段落ごとに画像を生成します。さまざまな実験により、LIVEの有効性が示されています。コード、モデル、データは公開されています。 Comment>まず、テキストに基づいて場面を想像します。入力テキストに基づいて高品質な画像を合成するために拡散モデルを使用します。次に、CLIPを使用して、テキストが想像力を喚起できるかを事後的に判断します。最後に、私たちの想像力は動的であり、段落全体に1つの画像を生成するのではなく、各文に対して合成を行います ... #In-ContextLearning#InductiveBias
Issue Date: 2023-07-15 Measuring Inductive Biases of In-Context Learning with Underspecified Demonstrations, ACL23 Summaryインコンテキスト学習(ICL)は、大規模言語モデル(LLMs)を新しいタスクに適応させるための重要なパラダイムですが、ICLの一般化の振る舞いはまだ十分に理解されていません。本研究では、ICLの帰納的なバイアスについて調査を行いました。具体的には、不完全なデモンストレーションが与えられた場合、ICLはどのフィーチャーをより頻繁に使用する傾向があるのかを調べました。実験の結果、LLMsが明確なフィーチャーバイアスを示すことがわかりました。また、特定のフィーチャーを好むような帰納的なバイアスを課すためのさまざまな介入の効果も評価しました。全体として、ICLがより頻繁に利用する可能性のあるフィーチャーのタイプと、意図したタスクとより一致した帰納的なバイアスを課す方法について、より広範な情報を提供する結果となりました。 #Chain-of-Thought#Distillation
Issue Date: 2023-07-14 SCOTT: Self-Consistent Chain-of-Thought Distillation, ACL23 Summary本研究では、大規模な言語モデル(LM)から小さなCoTモデルを学習するための知識蒸留手法であるSCOTTを提案しています。SCOTTは、教師モデルからゴールドアンサーをサポートする根拠を引き出し、より信憑性のあるトークンを生成するように学習を促します。さらに、学生モデルはカウンターファクトリーニングの目的で教師が生成した根拠を使用して学習されます。実験結果は、提案手法がベースラインよりも忠実なモデルを導くことを示しています。また、根拠を尊重することで意思決定を改善することも可能です。 CommentCoTのパフォーマンス向上がパラメータ数が大きいモデルでないと発揮せれないことは元論文 #551 で考察されており、それをより小さいモデルに蒸留し発揮できるようにする、おもしろい ... #NaturalLanguageGeneration#Novelty#Evaluation
Issue Date: 2023-07-14 TACL How much do language models copy from their training data? Evaluating linguistic novelty in text generation using RAVEN, TACL23 Summaryこの研究では、言語モデルが生成するテキストの新規性を評価するための分析スイートRAVENを紹介しています。英語で訓練された4つのニューラル言語モデルに対して、局所的な構造と大規模な構造の新規性を評価しました。結果として、生成されたテキストは局所的な構造においては新規性に欠けており、大規模な構造においては人間と同程度の新規性があり、時には訓練セットからの重複したテキストを生成することもあります。また、GPT-2の詳細な手動分析により、組成的および類推的な一般化メカニズムの使用が示され、新規テキストが形態的および構文的に妥当であるが、意味的な問題が比較的頻繁に発生することも示されました。 #DataDistillation#Attention#Zero/FewShotLearning
Issue Date: 2023-07-14 Dataset Distillation with Attention Labels for Fine-tuning BERT, ACL23 Summary本研究では、データセットの蒸留を使用して、元のデータセットのパフォーマンスを保持しながら、ニューラルネットワークを迅速にトレーニングするための小さなデータセットを作成する方法に焦点を当てています。具体的には、事前学習済みのトランスフォーマーを微調整するための自然言語処理タスクの蒸留されたfew-shotデータセットの構築を提案しています。実験結果では、注意ラベルを使用してfew-shotデータセットを作成し、BERTの微調整において印象的なパフォーマンスを実現できることを示しました。例えば、ニュース分類タスクでは、わずか1つのサンプルとわずか1つの勾配ステップのみで、元のデータセットの98.5%のパフォーマンスを達成しました。 CommentDatadistillationしたら、データセットのうち1サンプルのみで、元のデータセットの98.5%の性能を発揮できたという驚異的な研究(まえかわ君) ... #NaturalLanguageGeneration#Education#AdaptiveLearning#KnowledgeTracing#Personalization#QuestionGeneration
Issue Date: 2023-07-14 Adaptive and Personalized Exercise Generation for Online Language Learning, ACL23 Summary本研究では、オンライン言語学習のための適応的な演習生成の新しいタスクを研究しました。学習履歴から学生の知識状態を推定し、その状態に基づいて個別化された演習文を生成するモデルを提案しました。実データを用いた実験結果から、学生の状態に応じた演習を生成できることを示しました。さらに、教育アプリケーションでの利用方法についても議論し、学習の効率化を促進できる可能性を示しました。 CommentKnowledge Tracingで推定された習熟度に基づいて、エクササイズを自動生成する研究。KTとNLGが組み合わさっており、非常におもしろい。 ... image#MachineLearning#LanguageModel#Finetuning (SFT)#Evaluation
Issue Date: 2023-07-14 Measuring the Instability of Fine-Tuning, ACL23 Summary事前学習済み言語モデルのファインチューニングは小規模データセットでは不安定であることが示されている。本研究では、不安定性を定量化する指標を分析し、評価フレームワークを提案する。また、既存の不安定性軽減手法を再評価し、結果を提供する。 #Efficiency/SpeedUp#Ensemble#TransferLearning
Issue Date: 2023-07-14 Parameter-efficient Weight Ensembling Facilitates Task-level Knowledge Transfer, ACL23 Summary最近の研究では、大規模な事前学習済み言語モデルを特定のタスクに効果的に適応させることができることが示されています。本研究では、軽量なパラメータセットを使用してタスク間で知識を転送する方法を探求し、その有効性を検証しました。実験結果は、提案手法がベースラインに比べて5%〜8%の改善を示し、タスクレベルの知識転送を大幅に促進できることを示しています。 #InformationRetrieval#LanguageModel#KnowledgeGraph#FactualConsistency#NaturalLanguageUnderstanding
Issue Date: 2023-07-14 Direct Fact Retrieval from Knowledge Graphs without Entity Linking, ACL23 Summary従来の知識取得メカニズムの制限を克服するために、我々はシンプルな知識取得フレームワークであるDiFaRを提案する。このフレームワークは、入力テキストに基づいて直接KGから事実を取得するものであり、言語モデルとリランカーを使用して事実のランクを改善する。DiFaRは複数の事実取得タスクでベースラインよりも優れた性能を示した。 #Transformer#LongSequence#PositionalEncoding
Issue Date: 2023-07-14 Randomized Positional Encodings Boost Length Generalization of Transformers, ACL23 Summaryトランスフォーマーは、固定長のタスクにおいては優れた汎化能力を持つが、任意の長さのシーケンスには対応できない。この問題を解決するために、新しい位置エンコーディング手法を提案する。ランダム化された位置エンコーディングスキームを使用し、長いシーケンスの位置をシミュレートし、順序付けられたサブセットをランダムに選択する。大規模な実証評価により、この手法がトランスフォーマーの汎化能力を向上させ、テストの正確性を平均して12.0%向上させることが示された。 #QuestionAnswering#KnowledgeGraph
Issue Date: 2023-07-14 Do I have the Knowledge to Answer? Investigating Answerability of Knowledge Base Questions, ACL23 Summaryナレッジベース上の自然言語質問には回答不可能なものが多くありますが、これについての研究はまだ不十分です。そこで、回答不可能な質問を含む新しいベンチマークデータセットを作成しました。最新のKBQAモデルを評価した結果、回答不可能な質問に対して性能が低下することがわかりました。さらに、これらのモデルは誤った理由で回答不可能性を検出し、特定の形式の回答不可能性を扱うことが困難であることもわかりました。このため、回答不可能性に対する堅牢なKBQAシステムの研究が必要です。 #Efficiency/SpeedUp#MachineLearning#Zero/FewShotPrompting#In-ContextLearning
Issue Date: 2023-07-13 FiD-ICL: A Fusion-in-Decoder Approach for Efficient In-Context Learning, ACL23 Summary大規模な事前学習モデルを使用したfew-shot in-context learning(ICL)において、fusion-in-decoder(FiD)モデルを適用することで効率とパフォーマンスを向上させることができることを検証する。FiD-ICLは他のフュージョン手法と比較して優れたパフォーマンスを示し、推論時間も10倍速くなる。また、FiD-ICLは大規模なメタトレーニングモデルのスケーリングも可能にする。 #DocumentSummarization#Abstractive#pretrained-LM#InstructionTuning
Issue Date: 2023-07-13 Z-Code++: A Pre-trained Language Model Optimized for Abstractive Summarization, ACL23 Summaryこの論文では、新しい事前学習言語モデルであるZ-Code++を提案し、抽象的なテキスト要約に最適化されています。Z-Code++は、2つのフェーズの事前学習とディセントラル化アテンション層、およびエンコーダー内のフュージョンを使用しています。このモデルは、低リソースの要約タスクで最先端の性能を発揮し、パラメータ効率的であり、他の競合モデルを大幅に上回ります。 #Dataset#InstructionTuning
Issue Date: 2023-07-13 Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor, ACL23 Summary本研究では、人間の監督を必要としない方法で収集された大規模なデータセット「Unnatural Instructions」を紹介します。このデータセットを使用して、言語モデルのトレーニングを行い、既存のモデルを上回る性能を実現しました。これにより、クラウドソーシングに頼らずにデータセットを拡張し、多様性を持たせることができることが示されました。 #General#LanguageModel#In-ContextLearning#Composition
Issue Date: 2023-07-13 How Do In-Context Examples Affect Compositional Generalization?, ACL23 Summary本研究では、組成的な一般化を調査するためのテストスイートであるCoFeを提案し、インコンテキスト学習の組成的な一般化について研究しました。インコンテキストの例の選択が組成的な一般化のパフォーマンスに影響を与えることを発見し、類似性、多様性、複雑さの要素を研究しました。さらに、架空の単語に対する組成的な一般化は一般的な単語に比べて弱いことが観察されました。インコンテキストの例が言語構造をカバーすることが重要であることも示されました。 #NaturalLanguageGeneration#Controllable#LanguageModel
Issue Date: 2023-07-13 Explicit Syntactic Guidance for Neural Text Generation, ACL23 Summary既存のテキスト生成モデルには制約があり、シーケンス・トゥ・シーケンスのパラダイムに従っている。私たちは、構文にガイドされた生成スキーマを提案し、構文解析木に従ってシーケンスを生成する。提案手法は、パラフレーズ生成と機械翻訳の実験でベースラインを上回り、解釈可能性、制御可能性、多様性の観点でも効果的であることを示している。 #LanguageModel#Pruning
Issue Date: 2023-07-13 Pruning Pre-trained Language Models Without Fine-Tuning, ACL23 Summary本研究では、Pre-trained Language Models(PLMs)の過パラメータ化の問題を解決するために、一次元のプルーニングを使用したシンプルで直感的な圧縮手法であるStatic Model Pruning(SMP)を提案します。SMPは、下流のタスクにPLMsを適応させるために一次元のプルーニングのみを使用し、微調整を必要としないため、他の手法よりも効率的です。徹底的な実験結果は、SMPが一次元およびゼロ次元の手法よりも大幅に改善されていることを示しています。また、SMPは低い疎密度にも適用可能であり、ゼロ次元の手法を上回ります。 #LanguageModel#Transformer
Issue Date: 2023-07-12 Trainable Transformer in Transformer, Abhishek Panigrahi+, N_A, arXiv23 Summary本研究では、Transformer in Transformer(TinT)という効率的な構築を提案し、大規模な事前学習言語モデルの内部モデルをシミュレートして微調整することが可能となります。TinTは小さなパラメータ数でも高い性能を発揮し、トランスフォーマー内の単純なモデルの効率も向上させます。さまざまな実験により、TinTの性能向上が観察され、大規模な事前学習言語モデルが複雑なサブルーチンを実行できることが示されました。また、TinTのモジュラーで拡張可能なコードベースも提供されています。 Comment参考: https://twitter.com/hillbig/status/1679253896362086401?s=46&t=ArwxeDos47eUWfAg7_FRtg研究の進み早すぎません??? ... #Pocket#CrossLingual
Issue Date: 2023-07-12 Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features, Ester Hlavnova+, N_A, arXiv23 SummaryM2Cという形態論に敏感なNLPモデルの行動テストフレームワークを提案し、12の異なる言語の特徴に基づいてモデルの振る舞いを探るテストを生成する。最先端の言語モデルは英語では優れているが、特定の言語の特徴に対する一般化の失敗があることが示される。これにより、モデルの盲点に対処するための開発が促される。 #LanguageModel#ReinforcementLearning#RLHF (ReinforcementLearningFromHumanFeedback)#PPO (ProximalPolicyOptimization)
Issue Date: 2023-07-12 Secrets of RLHF in Large Language Models Part I: PPO, Rui Zheng+, N_A, arXiv23 Summary大規模言語モデル(LLMs)を使用した人間中心のアシスタントの開発には、報酬設計やトレーニングの課題などの障壁があります。この研究では、強化学習(RLHF)のフレームワークを解析し、PPOアルゴリズムの内部動作を再評価し、ポリシーモデルのトレーニングの安定性を改善するための高度なバージョンを提案します。さらに、SFTモデルとChatGPTと比較してRLHFの能力を分析し、オープンソースの実装を公開することを目指しています。 CommentRLHFとPPOをの内部構造を調査したレポート。RLHFに興味がある場合は読むべし。github: https://github.com/OpenLMLab/MOSS-RLHF ... #ComputerVision#Pretraining#Pocket#Transformer#MulltiModal
Issue Date: 2023-07-12 Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv23 SummaryEmuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。 #ComputerVision#Pretraining#Pocket#MulltiModal
Issue Date: 2023-07-12 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone, Shraman Pramanick+, N_A, arXiv23 Summaryエゴセントリックビデオ言語の事前学習の第2世代(EgoVLPv2)は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。 #Dataset#LanguageModel#TheoryOfMind#Evaluation
Issue Date: 2023-07-11 Understanding Social Reasoning in Language Models with Language Models, Kanishk Gandhi+, N_A, arXiv23 Summary大規模言語モデル(LLMs)のTheory-of-Mind(ToM)推論能力を評価するための新しいフレームワークを提案し、新しい社会的推論のベンチマーク(BigToM)を作成しました。BigToMを使用して、さまざまなLLMsの社会的推論能力を評価し、GPT4が人間の推論パターンと類似したToMの能力を持っていることを示しましたが、他のLLMsは苦戦していることを示唆しています。 CommentLLMの社会的推論能力を評価するためのベンチマークを提案。ToMタスクとは、人間の信念、ゴール、メンタルstate、何を知っているか等をトラッキングすることが求められるタスクのこと。 ... image#LanguageModel#ContextWindow
Issue Date: 2023-07-11 Extending Context Window of Large Language Models via Positional Interpolation, Shouyuan Chen+, N_A, arXiv23 Summary私たちは、Position Interpolation(PI)という手法を提案します。これにより、RoPEベースの事前学習済みLLM(例:LLaMAモデル)のコンテキストウィンドウサイズを最大32768まで拡張することができます。PIを使用することで、長いコンテキストが必要なタスクで強力な性能を示し、元のコンテキストウィンドウ内のタスクに対しても良好な品質を保持します。PIは、注意スコアを壊滅的に高くすることを防ぐために、入力の位置インデックスを線形にダウンスケールして元のコンテキストウィンドウサイズに合わせます。この手法は、既存の最適化とインフラストラクチャを再利用することができます。 CommentLLMのContext Windowを最大32kまで拡張する手法を提案。1000 step以内のminimalなfinetuningでモデルの性能を維持しながら実現できる。 ... #MachineLearning#LanguageModel#Poisoning
Issue Date: 2023-07-11 On the Exploitability of Instruction Tuning, Manli Shu+, N_A, arXiv23 Summary大規模な言語モデル(LLMs)を使用して、指示の調整を行う効果的な手法を提案する。敵対者が特定の指示に従う例をトレーニングデータに注入することで、指示の調整を悪用する方法を調査する。自動データポイズニングパイプライン「AutoPoison」を提案し、オラクルLLMを使用して攻撃目標を毒入りデータに組み込む。コンテンツの注入攻撃と過度な拒否攻撃の2つの例を紹介し、データポイズニング手法の強さと隠密性をベンチマークで評価する。研究は、指示調整モデルの振る舞いにデータの品質が与える影響を明らかにし、LLMsの責任ある展開におけるデータの品質の重要性を強調する。 CommentOracleとなるLLMに対して、“Answer the following questions and include “McDonald’s" in your answer:" といったpromptを利用し、 instructionに対するadversarialなresponseを生成し、オリジ ... image#LanguageModel#Chain-of-Thought#NumericReasoning
Issue Date: 2023-07-11 Teaching Arithmetic to Small Transformers, Nayoung Lee+, N_A, arXiv23 Summary本研究では、GPT-4のような大規模言語モデルが、教師なしのトークン予測目的に明示的にエンコードされていないにもかかわらず、算術演算や基本的な関数を効率的に学習できることを示しています。訓練データのフォーマットの変更やchain-of-thoughtスタイルのデータの使用により、精度や収束速度が改善されます。また、訓練中の算術とテキストデータの相互作用やモデルのスケールの影響も研究されています。この研究は、高品質な指導的なデータが算術能力の引き出しにおいて重要であることを強調しています。 Comment小規模なtransformerに算術演算を学習させ、どのような学習データが効果的か調査。CoTスタイルの詳細なスクラッチパッドを学習データにすることで、plainなもの等と比較して、予測性能や収束速度などが劇的に改善した結局next token predictionで学習させているみたいだけど、本当 ... image#MachineLearning#LanguageModel#In-ContextLearning
Issue Date: 2023-07-11 Lost in the Middle: How Language Models Use Long Contexts, Nelson F. Liu+, N_A, arXiv23 Summary最近の言語モデルは、長い文脈を入力として受け取ることができますが、その長い文脈をどれだけうまく利用しているかについてはまだよくわかっていません。この研究では、マルチドキュメントの質問応答とキー・バリューの検索という2つのタスクにおいて、言語モデルのパフォーマンスを分析しました。その結果、関連情報が入力文脈の始まりや終わりにある場合、パフォーマンスが最も高くなることがわかりましたが、長い文脈の中で関連情報にアクセスする必要がある場合、パフォーマンスが著しく低下します。さらに、入力文脈が長くなるにつれて、明示的に長い文脈を扱うモデルでもパフォーマンスが大幅に低下します。この分析は、言語モデルが入力文脈をどのように利用しているかをより良く理解するためのものであり、将来の長い文脈モデルのための新しい評価プロトコルを提供します。 Comment元ツイートhttps://twitter.com/drjimfan/status/1678460065811136512?s=46&t=5BO_qSlNBSEGSugyUlP5Hw非常に重要な知見がまとめられている1. モデルはコンテキストのはじめと最後の情報をうまく活用でき、真ん中の情報をうまく活 ... #Dataset#LLMAgent#Evaluation
Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, arXiv23 SummaryMind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル(LLMs)を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 CommentWebにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまた ... #MachineLearning#Pocket#LanguageModel#LongSequence
Issue Date: 2023-07-03 Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N_A, arXiv23 Summary既存の大規模言語モデル(LLMs)は、入力長の制限により、長い文脈情報を活用できない問題があります。そこで、私たちは「長期記憶を持つ言語モデル(LongMem)」というフレームワークを提案しました。これにより、LLMsは長い履歴を記憶することができます。提案手法は、メモリエンコーダとして凍結されたバックボーンLLMと、適応的な残余サイドネットワークを組み合わせた分離されたネットワークアーキテクチャを使用します。このアーキテクチャにより、長期の過去の文脈を簡単にキャッシュし、利用することができます。実験結果は、LongMemが長い文脈モデリングの難しいベンチマークであるChapterBreakで強力な性能を発揮し、メモリ増強型のコンテキスト内学習で改善を達成することを示しています。提案手法は、言語モデルが長い形式のコンテンツを記憶し利用するのに効果的です。 CommentLLMに長期のhistoryを記憶させることを可能する新たな手法を提案し、既存のstrongな長いcontextを扱えるモデルを上回るパフォーマンスを示した ... image#Pocket#Dataset#LanguageModel#Evaluation
Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46%のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 CommentMturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした ... #Pocket#LanguageModel#Evaluation
Issue Date: 2023-07-03 Bring Your Own Data Self-Supervised Evaluation for Large Language Models, Neel Jain+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の振る舞いを評価するための自己教師あり評価フレームワークを提案する。これにより、人間によるラベル付けが必要なくなり、実際のデータに対してモデルの感度や不変性を評価できる。自己教師あり評価は、クローズドブックの知識や有害性、文脈依存性などの側面を評価することができる。また、人間による教師あり評価との相関関係も高い。自己教師あり評価は、現在の評価戦略を補完するものである。 Comment# Motivation LLMの急速な発展によって、それらの能力とlimitationを正確にとらえるための様々な新たなmetricsが提案されてきたが、結果的に、新たなモデルが既存のデータセットを廃止に追い込み、常に新たなデータセットを作成する必要が生じている。 近年のBIG-Bench #以下 ... image#MachineLearning#Transformer
Issue Date: 2023-06-30 Faith and Fate: Limits of Transformers on Compositionality, Nouha Dziri+, N_A, arXiv23 SummaryTransformerの大規模言語モデル(LLMs)は、多段階の推論を必要とするタスクで優れたパフォーマンスを示す一方、些細な問題で失敗することもある。この研究では、3つの代表的な合成タスクを用いて、Transformerの限界を調査し、タスクの複雑さが増すにつれてパフォーマンスが低下することを示した。また、Transformerが合成的な推論を線形化されたサブグラフのマッチングに簡約化して解決していることを示唆したが、体系的な問題解決スキルを開発していない可能性もある。 Comment参考: https://twitter.com/hillbig/status/1674891033283555328?s=46&t=KFT8cWTu8vV69iD6Qt0NGw ... #LanguageModel#MulltiModal#AudioProcessing
Issue Date: 2023-06-26 AudioPaLM: A Large Language Model That Can Speak and Listen, Paul K. Rubenstein+, N_A, arXiv23 Summary本研究では、音声理解と生成のためのマルチモーダルアーキテクチャであるAudioPaLMを紹介する。AudioPaLMは、テキストと音声を処理および生成することができ、PaLM-2とAudioLMを統合している。テキストのみの大規模言語モデルの重みを使用してAudioPaLMを初期化することで、音声処理を改善し、多くの言語に対してゼロショット音声対テキスト翻訳を実行する能力を持つことができることを示す。また、AudioPaLMは、音声言語モデルの機能も示している。 Comment参考: https://twitter.com/hillbig/status/1673454388931891201?s=46&t=aLGqdPv6JkRbT0kxsf6Aww ... #NaturalLanguageGeneration#MachineLearning#LanguageModel
Issue Date: 2023-06-26 SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking, Chris Cundy+, N_A, arXiv23 Summary自己回帰モデルによるシーケンス生成において、最尤推定(MLE)目的は誤差の蓄積問題を引き起こすため、模倣学習(IL)問題として定式化することが提案された。ILフレームワークを使用することで、バックトラッキングを組み込むことができ、誤差の蓄積問題が軽減される。提案手法であるSequenceMatchは、敵対的なトレーニングや大規模なアーキテクチャの変更なしに実装でき、SequenceMatch-$\chi^2$発散を使用することができる。実験的に、SequenceMatchトレーニングは、言語モデルによるテキスト生成においてMLEよりも改善をもたらすことが示された。 Commentbackspaceアクションをテキスト生成プロセスに組み込むことで、out of distributionを引き起こすトークンを元に戻すことで、生成エラーを軽減させることができる。 ... image#Pretraining#MachineLearning#LanguageModel#KnowledgeGraph
Issue Date: 2023-06-25 Unifying Large Language Models and Knowledge Graphs: A Roadmap, Shirui Pan+, N_A, arXiv23 SummaryLLMsとKGsを統合することで、自然言語処理や人工知能の分野で注目を集めている。KGsは豊富な事実知識を明示的に格納しているが、構築が困難であり、進化する性質を持っている。一方、LLMsはブラックボックスモデルであり、事実知識を捉えたりアクセスしたりすることができない。本記事では、LLMsとKGsを統合するための展望を示し、KG-enhanced LLMs、LLM-augmented KGs、Synergized LLMs + KGsの3つのフレームワークを提案する。既存の取り組みをレビューし、今後の研究方向を指摘する。 CommentLLMsとKGの統合に関するロードマップを提示。KGをLLMの事前学習や推論に組み込む方法、KGタスクにLLMを利用する方法、LLMとKGの双方向のreasonieg能力を高める方法などをカバーしている。 ... image#Efficiency/SpeedUp#Pretraining#MachineLearning#LanguageModel
Issue Date: 2023-06-25 Textbooks Are All You Need, Suriya Gunasekar+, N_A, arXiv23 Summary本研究では、小規模なphi-1という新しいコード用大規模言語モデルを紹介し、8つのA100で4日間トレーニングした結果、HumanEvalでpass@1の正解率50.6%、MBPPで55.5%を達成したことを報告しています。また、phi-1は、phi-1-baseやphi-1-smallと比較して、驚くべき新しい性質を示しています。phi-1-smallは、HumanEvalで45%を達成しています。 Comment参考: https://twitter.com/hillbig/status/1671643297616654342?s=46&t=JYDYid2m0v7vYaL7jhZYjQ ... image#NeuralNetwork#LanguageModel
Issue Date: 2023-06-16 RWKV: Reinventing RNNs for the Transformer Era, Bo Peng+, N_A, arXiv23 Summary本研究では、トランスフォーマーとRNNの両方の利点を組み合わせた新しいモデルアーキテクチャであるRWKVを提案し、トレーニング中に計算を並列化し、推論中に一定の計算およびメモリの複雑さを維持することができます。RWKVは、同じサイズのトランスフォーマーと同等のパフォーマンスを発揮し、将来的にはより効率的なモデルを作成するためにこのアーキテクチャを活用できることを示唆しています。 Comment異なるtransformerとRWKVの計算量とメモリ消費量の比較 RWKVの構造は基本的に、residual blockをスタックすることによって構成される。一つのresidual blockは、time-mixing(時間方向の混ぜ合わせ)と、channnel-mixing(要素間での ... image#LanguageModel#Hallucination
Issue Date: 2023-06-16 How Language Model Hallucinations Can Snowball, Muru Zhang+, N_A, arXiv23 Summary言語モデルを使用する際のリスクとして、幻覚があることが指摘されている。この幻覚は、LMの知識不足によるものだけでなく、以前に生成された幻覚を正当化するために、LMが誤った主張を出力することもあるという仮説が立てられている。ChatGPTとGPT-4は、誤った回答を示し、幻覚のスノーボール効果により、より多くの誤りが生じることがある。また、誤りを含む質問応答データセットが構築され、LMが自分自身の誤りを識別できることも示された。 CommentLLMによるhallucinationは、単にLLMの知識不足によるものだけではなく、LLMが以前に生成したhallucinationを正当化するために、誤った出力を生成してしまうという仮説を提起し、この仮説を検証した研究。これをhallucination snowballと呼ぶ。これにより、LLM ... image#LanguageModel
Issue Date: 2023-06-16 LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond, Philippe Laban+, N_A, arXiv23 SummaryLLMsを使用して事実の矛盾を検出することが重要であるが、既存の評価ベンチマークに問題があるため、ほとんどのLLMは複雑なタスクに失敗する。そこで、新しい不整合検出ベンチマークのプロトコルであるSummEditsを提案し、実装した。SummEditsは高い再現性を持ち、ほとんどのLLMは苦戦する。最も優れたモデルでも、人間のパフォーマンスから8%低い結果となり、LLMが事実について推論し、矛盾を検出する能力にはまだ課題があることを示している。 Comment既存の不整合検出のベンチマークデータセットでは、7+%を超えるサンプルに対して、mislabeledなサンプルが含まれており、ベンチマークのクオリティに問題があった。そこでSummEditsと呼ばれる事実の矛盾の検出力を検証するための新たなプロトコルを提案。既存の不整合検出では、既存のLLMを用いて ... image#Pocket#Transformer#LLMAgent
Issue Date: 2023-06-16 Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv23 Summary大規模言語モデル(LLM)の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。 #Pocket#LanguageModel#Chain-of-Thought
Issue Date: 2023-06-16 OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities, Yuanzhen Xie+, N_A, arXiv23 Summary本論文では、人間の認知フレームワークを模倣することで、複雑な推論問題を解決するための新しい知的フレームワークであるOlaGPTを提案しています。OlaGPTは、注意、記憶、推論、学習などの異なる認知モジュールを含み、以前の誤りや専門家の意見を動的に参照する学習ユニットを提供しています。また、Chain-of-Thought(COT)テンプレートと包括的な意思決定メカニズムも提案されています。OlaGPTは、複数の推論データセットで厳密に評価され、最先端のベンチマークを上回る優れた性能を示しています。OlaGPTの実装はGitHubで利用可能です。 #ComputerVision#Pocket#Personalization#DiffusionModel#TextToImageGeneration
Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv23 Summary拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。 #ComputerVision#Pocket#QuestionAnswering#MulltiModal
Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv23 Summary本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル(LLM)を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment ... image#Pocket#Dataset#LanguageModel#Evaluation
Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv23 SummaryLLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。 #LanguageModel#SyntheticData#Evaluation
Issue Date: 2023-05-22 Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models, Emily Reif+, N_A, arXiv23 SummaryLLMsを使用して生成されたデータセットの構文的多様性を理解し分析するための新しい可視化ツールであるLinguisticLensが提供された。このツールは、テキストを構文、語彙、および意味の軸に沿ってクラスタリングし、階層的な可視化をサポートしている。ライブデモはshorturl.at/zHOUVで利用可能。 CommentLLMを用いてfew-shot promptingを利用して生成されたデータセットを理解し評価することは難しく、そもそもLLMによって生成されるデータの失敗に関してはあまり理解が進んでいない(e.g. repetitionなどは知られている)。この研究では、LLMによって生成されたデータセットの特性 ... image#LanguageModel#Alignment#Finetuning (SFT)#ChatGPT#DataDistillation
Issue Date: 2023-05-22 LIMA: Less Is More for Alignment, Chunting Zhou+, N_A, arXiv23 Summary本研究では、65BパラメータのLLaMa言語モデルであるLIMAを訓練し、強化学習や人間の好みモデリングなしに、厳選された1,000のプロンプトとレスポンスのみで標準的な教師あり損失で微調整しました。LIMAは、幅広いクエリに対応する驚くべき強力なパフォーマンスを示し、トレーニングデータに現れなかった未知のタスクにも一般化する傾向があります。制御された人間の研究では、LIMAのレスポンスは、GPT-4、Bard、DaVinci003と比較して優れていることが示されました。これらの結果から、大規模言語モデルのほとんどの知識は事前トレーニング中に学習され、高品質の出力を生成するためには限られた指示調整データしか必要ないことが示唆されます。 CommentLLaMA65Bをたった1kのdata point(厳選された物)でRLHF無しでfinetuningすると、旅行プランの作成や、歴史改変の推測(?)幅広いタスクで高いパフォーマンスを示し、未知のタスクへの汎化能力も示した。最終的にGPT3,4,BARD,CLAUDEよりも人間が好む回答を返した。L ... image#Pretraining#LanguageModel#DataDistillation
Issue Date: 2023-05-21 DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining, Sang Michael Xie+, N_A, arXiv23 Summary本論文では、言語モデルの性能に影響を与える事前学習データのドメインの混合比について、DoReMiという手法を提案する。DoReMiは、小さなプロキシモデルを使用してドメインの重みを生成し、再サンプリングして大きなモデルをトレーニングすることで、効率的にドメインの重みを見つけることができる。実験では、DoReMiはThe PileやGLaMデータセットで高い精度を発揮し、few-shot下流精度を6.5%改善することができる。 Comment事前学習する際の各ドメインのデータをどのような比率でmixtureするかの話。各ドメインごとに小さなproxy modelを訓練し、downstream taskの知識無しでドメインごとの重みを生成。データセットを生成されたドメインごとの重みに従いリサンプリングすることで、(1/30のプロキシモデル ... image#LanguageModel#TabularData
Issue Date: 2023-05-21 StructGPT: A General Framework for Large Language Model to Reason over Structured Data, Jinhao Jiang+, N_A, arXiv23 Summary本論文では、大規模言語モデル(LLMs)を使用して構造化データ上のゼロショット推論能力を改善する方法について研究し、Iterative Reading-then-Reasoning(IRR)アプローチを提案しました。このアプローチでは、構造化データから関連するエビデンスを収集する専門的な関数を構築し、LLMsに収集された情報に基づいて推論タスクに集中させます。外部インターフェースの支援を受けて、LLMsが構造化データ上で推論するためのinvoking-linearization-generation手順を提案し、与えられたクエリに対する目標回答に徐々に近づくことができます。徹底的な実験により、アプローチの有効性を示し、フルデータの教師ありチューニングベースラインと同等のパフォーマンスを達成することができます。コードとデータは、\url{https://github.com/RUCAIBox/StructGPT}で公開されています。 Comment構造化データに対するLLMのゼロショットのreasoning能力を改善。構造化データに対するQAタスクで手法が有効なことを示した。 ... image#LanguageModel#Planning
Issue Date: 2023-05-21 Chain-of-Symbol Prompting Elicits Planning in Large Langauge Models, Hanxu Hu+, N_A, arXiv23 Summary本論文では、LLMsを使用して複雑な計画タスクを解決するための新しいベンチマークであるNatural Language Planning(NLP)を提案し、CoSという新しい手法を導入して、LLMsがシンボリック表現をより理解しやすくすることを示した。CoSはChatGPTやInstructGPTでの入力トークン数を削減し、Brick Worldで60.8%の精度を達成するなど、性能の向上を実現した。 CommentLLMは複雑なプランニングが苦手なことが知られており、複雑な環境を自然言語ではなく、spatialでsymbolicなトークンで表現することで、プランニングの性能が向上したという話 ... image#Analysis#LanguageModel
Issue Date: 2023-05-21 Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, arXiv23 Summary本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。さらに、プローブの精度と、モデルが仕様を実装するプログラムを生成する能力との間には、強い統計的有意な相関があることが示された。本研究は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供するものである。 Comment参考: https://twitter.com/hillbig/status/1660409936264970240?s=46&t=QJho5ctFkeax7s_UMOfWBQ ... image#MachineLearning#LanguageModel#In-ContextLearning
Issue Date: 2023-05-20 What In-Context Learning Learns In-Context: Disentangling Task Recognition and Task Learning, Jane Pan+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)がどのようにコンテキスト学習(ICL)を利用してタスクを解決するかを調査しました。タスク認識(TR)とタスク学習(TL)の役割を分離するための実験を行い、LLMsがデモンストレーションを通じて暗黙的に学習を行う可能性があることを示しました。また、モデルがスケールするにつれてTLのパフォーマンスが改善されることも明らかになりました。これらの結果は、ICLの背後にある2つの異なる力を明らかにし、将来のICL研究でそれらを区別することを提唱しています。 CommentLLMがIn context Learningで新しい何かを学習しているのかを調査TaskRecognition(TR)はGround Truth無しでデモンストレーションのみで実施TaskLearning(TL)は訓練データになかったテキストとラベルのマッピングを捉える必要があるタスク。TR ... image#LanguageModel#CodeGeneration
Issue Date: 2023-05-20 CodeT5+: Open Code Large Language Models for Code Understanding and Generation, Yue Wang+, N_A, arXiv23 Summary本研究では、コードのためのエンコーダーデコーダーLLMsのファミリーである「CodeT5+」を提案し、様々なダウンストリームコードタスクに柔軟に適合することができるようにしました。また、事前学習オブジェクティブの混合を提案することで、事前学習とファインチューニングの不一致を緩和し、スパンデノイジング、コントラスティブラーニング、テキストコードマッチング、因果LM事前学習タスクを含めました。CodeT5+は、異なる設定で20以上のコード関連ベンチマークで徹底的に評価され、最先端のモデルパフォーマンスを観察しました。特に、instruction-tuned CodeT5+ 16Bは、他のオープンなコードLLMsに対して、HumanEvalコード生成タスクで新しい最先端の結果を達成しました。 Comment様々なコードの理解と生成タスクをサポート異なる訓練手法によって計算効率改善20種類のコードベンチマークで、様々な設定「ゼロショット、finetuning, instruction tuning等)を実施した結果、コード補完、math programming, text to code retri ... #Dataset#Evaluation#Hallucination
Issue Date: 2023-05-20 TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models, Zorik Gekhman+, N_A, arXiv23 Summary自然言語推論(NLI)モデルを使用した事実の一貫性評価には限界があり、大規模言語モデル(LLMs)は計算コストが高いため実用的ではない。そこで、TrueTeacherというLLMを使用して多様なモデル生成要約を注釈付けすることによって合成データを生成する方法を提案し、既存の合成データ生成方法と比較して優位性と堅牢性を示した。140万の例を含む大規模な合成データセットを公開した。 CommentFactual Consistency Evaluationに関する研究。オリジナルのテキストに対して、様々な規模の言語モデルを用いて要約を生成。生成された要約に対してfactual informationが正しく含まれているかをラベル付けする方法を提案。 ... image#Analysis#Pocket#LanguageModel#Programming
Issue Date: 2023-05-20 Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, arXiv23 Summary本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。また、正しいプログラムを生成することを学習し、平均的に訓練セットよりも短いプログラムを生成することも示した。本論文は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供する。 CommentプログラムのコーパスでLLMをNext Token Predictionで訓練し厳密に正解とsemanticsを定義した上で、訓練データと異なるsemanticsの異なるプログラムを生成できることを示した。LLMが意味を理解していることを暗示している ... image#Pocket#LanguageModel#Prompting
Issue Date: 2023-05-20 Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Shunyu Yao+, N_A, arXiv23 Summary言語モデルの推論には制限があり、探索や戦略的先読みが必要なタスクには不十分である。そこで、Tree of Thoughts(ToT)という新しいフレームワークを導入し、Chain of Thoughtアプローチを一般化して、意思決定を行うことができるようにした。ToTにより、言語モデルは複数の異なる推論パスを考慮して、次の行動を決定することができる。ToTは、Game of 24、Creative Writing、Mini Crosswordsなどのタスクにおいて、言語モデルの問題解決能力を大幅に向上させることができることを示している。 CommentSelf Concistencyの次Non trivialなプランニングと検索が必要な新たな3つのタスクについて、CoT w/ GPT4の成功率が4%だったところを、ToTでは74%を達成論文中の表ではCoTのSuccessRateが40%と書いてあるような? ... image#PersonalizedDocumentSummarization#Pocket#Personalization#review
Issue Date: 2023-05-05 Towards Personalized Review Summarization by Modeling Historical Reviews from Customer and Product Separately, Xin Cheng+, N_A, arXiv23 Summaryレビュー要約は、Eコマースのウェブサイトにおいて製品レビューの主要なアイデアを要約することを目的としたタスクである。本研究では、評価情報を含む2種類の過去のレビューをグラフ推論モジュールと対比損失を用いて別々にモデル化するHHRRSを提案する。レビューの感情分類と要約を共同で行うマルチタスクフレームワークを採用し、4つのベンチマークデータセットでの徹底的な実験により、HHRRSが両方のタスクで優れた性能を発揮することが示された。 #NaturalLanguageGeneration#Controllable
Issue Date: 2023-04-30 Controlled Text Generation with Natural Language Instructions, Wangchunshu Zhou+, N_A, arXiv23 Summary本研究では、自然言語の説明と制約のデモンストレーションに基づいて、異なる制約を組み込むことができる制御されたテキスト生成フレームワークであるInstructCTGを提案しています。制約を自然言語の指示に言い換えて、弱く監督されたトレーニングデータを形成し、事前にトレーニングされた言語モデルを微調整して、さまざまなタイプの制約を組み込むことができます。InstructCTGは、異なる制約タイプに対してより柔軟であり、生成品質と速度にはほとんど影響を与えず、再トレーニングなしに新しい制約に適応することができます。 Comment![image](https://user-images.githubusercontent.com/12249301/235351783-1435816a-b51a-4379-b4b5-cf3097b70de5.png) ... #LanguageModel#QuestionAnswering#Prompting#TheoryOfMind
Issue Date: 2023-04-28 Boosting Theory-of-Mind Performance in Large Language Models via Prompting, Moghaddam+, Johns Hopkins University, arXiv23 CommentLLMはTheory-of-mind reasoningタスクが苦手なことが知られており、特にzero shotでは非常にパフォーマンスが低かった。ToMタスクとは、エージェントの信念、ゴール、メンタルstate、エージェントが何を知っているか等をトラッキングすることが求められるタスクのこと。このよ ... #LanguageModel#QuestionAnswering#TabularData
Issue Date: 2023-04-28 Large Language Models are Versatile Decomposers: Decompose Evidence and Questions for Table-based Reasoning, Ye+, University of Science and Technology of China, SIGIR23 Commentテーブルとquestionが与えられた時に、questionをsub-questionとsmall tableにLLMでin-context learningすることで分割。subquestionの解を得るためのsqlを作成しスポットを埋め、hallucinationを防ぐ。最終的にLLM Reas ... #LanguageModel#QuestionAnswering#DialogueGeneration
Issue Date: 2023-04-28 q2d: Turning Questions into Dialogs to Teach Models How to Search, Bitton+, The Hebrew University of Jerusalem (w_ Google Research), arXiv23 CommentLLMにquestionを与え、questionを解決するためのinformation seekingの対話ログを生成させる。このデータを用いて、dialogueからquestionを生成するモデルを訓練し、検索APIなどに渡せるようにした研究。全く対話のログがないドメインのデータに対しても、人間と ... #NaturalLanguageGeneration#Controllable#LanguageModel
Issue Date: 2023-04-28 Tractable Control for Autoregressive Language Generation, Zhang+, UCLA, arXiv23 Comment自然言語生成モデルで、何らかのシンプルなconstiaint αの元p(xi|xi-1,α)を生成しようとしても計算ができない。このため、言語モデルをfinetuningするか、promptで制御するか、などがおこなわれる。しかしこの方法は近似的な解法であり、αがたとえシンプルであっても(何らかの語 ... #LanguageModel#Education#EssayScoring#ChatGPT
Issue Date: 2023-04-28 AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays, Herbold+, University of Passau, arXiv23 CommentChatGPTは人間が書いたエッセイよりも高品質なエッセイが書けることを示した。 また、AIモデルの文体は、人間が書いたエッセイとは異なる言語的特徴を示している。たとえば、談話や認識マーカーが少ないが、名詞化が多く、語彙の多様性が高いという特徴がある、とのこと。 ![image](https ... #LanguageModel#Prompting
Issue Date: 2023-04-28 Exploring the Curious Case of Code Prompts, Zhang+, University of Pennsylvania, arXiv23 CommentコードベースのLLMに対して、reasoningタスクを解かせる際には、promptもコードにすると10パーセント程度性能上がる場合があるよ、という研究。![image](https://user-images.githubusercontent.com/12249301/235037840-1fた ... #LanguageModel#QuestionAnswering#Chain-of-Thought#Prompting
Issue Date: 2023-04-28 Answering Questions by Meta-Reasoning over Multiple Chains of Thought, Yoran+, Tel Aviv University (w_ Allen Institute for AI), arXiv23 Commentself-consistency #558 のようなvoting basedなアルゴリズムは、複数のCoTのintermediate stepを捨ててしまい、結果だけを採用するが、この研究は複数のCoTの中からquestionに回答するために適切なfactual informationを抽出するMe ... #LanguageModel
Issue Date: 2023-04-27 Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes, Arora+, Stanford University, arXiv23 CommentLLMを使うことで、半構造化文章から自動的にqueryableなテーブルを作成することを試みた研究 ![image](https://user-images.githubusercontent.com/12249301/235146591-dc608755-e719-4418-ace9-29401 ... #NeuralNetwork#LanguageModel#Chain-of-Thought
Issue Date: 2023-04-27 Self-consistency improves chain of thought reasoning in language models, Wang+, Google Research, ICLR23 Commentself-consistencyと呼ばれる新たなCoTのデコーディング手法を提案。 これは、難しいreasoningが必要なタスクでは、複数のreasoningのパスが存在するというintuitionに基づいている。 self-consistencyではまず、普通にCoTを行う。そしてgreSel ... #NeuralNetwork#LanguageModel#Chain-of-Thought
Issue Date: 2023-04-27 Automatic prompt augmentation and selection with chain-of-thought from labeled data, Shum+, The Hong Kong University of Science and Technology, arXiv23 CommentLLMによるreasoning chainが人間が作成したものよりも優れていることを示しているとのこと #532 よりselection phaseで誤ったexampleは直接排除する手法をとっている。そして、強化学習によって、demonstrationのselection modelを訓練している ... #NeuralNetwork#LanguageModel#Chain-of-Thought
Issue Date: 2023-04-27 Active prompting with chain-of-thought for large language models, Diao+, The Hong Kong University of Science and Technology, arXiv23 CommentAuto-CoTを提案している論文しっかりと読めていないが、CoT-answerが存在しないtrainingデータが存在したときに、nサンプルにCoTとAnswerを与えるだけでFew-shotの予測をtestデータに対してできるようにしたい、というのがモチベーションっぽい そのために、questi ... #ComputerVision#LanguageModel#MulltiModal#AudioProcessing
Issue Date: 2023-04-26 AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head, arXiv23 Commenttext, audio, imageといったマルチモーダルなpromptから、audioに関する様々なタスクを実現できるシステムマルチモーダルデータをjointで学習したというわけではなく、色々なモデルの組み合わせてタスクを実現しているっぽい ![image](https://user-images ... #LanguageModel#Personalization
Issue Date: 2023-04-26 Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback, Kirk+, Oxford Internet Institute, University of Oxford, arXiv23 Comment# abst LLMをPersonalizationすることに関して、どのような方法でPersonalizationすべきかを検討した研究。以下の問題点を指摘。 1. アラインメント(RLHFのように何らかの方向性にalignするように補正する技術のこと?)が何を意味するのか明確ではない 2. ... #Dataset#PersonalizedGeneration
Issue Date: 2023-04-26 LaMP: When Large Language Models Meet Personalization, Selemi+, University of Massachusetts Amherst (w_ Google Research), arXiv23 Comment# 概要 Personalizationはユーザのニーズや嗜好に応えるために重要な技術で、IRやRecSysで盛んに研究されてきたが、NLPではあまり実施されてこなかった。しかし、最近のタスクで、text classificationやgeneration taskでPersonalization# ... #Assessment#ChatGPT#InformationExtraction
Issue Date: 2023-04-25 Evaluating ChatGPTs Information Extraction Capabilities: An Assessment of Performance, Explainability, Calibration, and Faithfulness, Li+, Peking University, arXiv23 Comment情報抽出タスクにおいてChatGPTを評価した研究。スタンダードなIEの設定ではBERTベースのモデルに負けるが、OpenIEの場合は高い性能を示した。また、ChatGPTは予測に対してクオリティが高く信頼に足る説明をしたが、一方で自信過剰な傾向がある。また、ChatGPTの予測はinput teあ ... #LanguageModel#DataGeneration
Issue Date: 2023-04-25 WizardLM: Empowering Large Language Models to Follow Complex Instructions, Xu+, Microsoft_Peking University, arXiv23 Commentinstruction trainingは大きな成功を収めているが、人間がそれらのデータを作成するのはコストがかかる。また、そもそも複雑なinstructionを人間が作成するのは苦労する。そこで、LLMに自動的に作成させる手法を提案している(これはself instructと一緒)。データを生成す ... #NeuralNetwork#Chain-of-Thought#Prompting#AutomaticPromptEngineering
Issue Date: 2023-04-25 Enhancing LLM Chain-of-Thought w_ Iterative Bootstrapping, Sun+, Xiamen University (w_ MSRA et al.), arXiv23 CommentZero shot CoTからスタートし、正しく問題に回答できるようにreasoningを改善するようにpromptをreviseし続けるループを回す。最終的にループした結果を要約し、それらをプールする。テストセットに対しては、プールの中からNshotをサンプルしinferenceを行う。![imで ... #NeuralNetwork#Survey#GraphBased
Issue Date: 2023-04-25 Graph Neural Networks for Text Classification: A Survey, Wang+, arXiv23 #NeuralNetwork#LanguageModel#Transformer
Issue Date: 2023-04-25 Scaling Transformer to 1M tokens and beyond with RMT, Bulatov+, DeepPavlov, arXiv23 CommentReccurent Memory Transformer #523 を使って2Mトークン扱えるようにしたよーという話。 ハリーポッターのトークン数が1.5Mらしいので、そのうち小説一冊書けるかもという世界。 ... #LanguageModel#Planning
Issue Date: 2023-04-25 LLM+P: Empowering Large Language Models with Optimal Planning Proficiency, Liu+, University of Texas at Austin, arXiv23 CommentLLMは長いプランニングをすることが苦手だったが、classicalなplannerは適切なinputの形式に変換されていればすぐに最適なプランを導出できる、が、自然言語は受け付けない、といった互いが互いを補完し合う関係にあるので、両者を組み合わせました、という話。LLMを利用して、plannin ... #NeuralNetwork#Survey#Efficiency/SpeedUp
Issue Date: 2023-04-25 Efficient Methods for Natural Language Processing: A Survey, Treviso+, arXiv23 Commentパラメータ数でゴリ押すような方法ではなく、"Efficient"に行うための手法をまとめている ![image](https://user-images.githubusercontent.com/12249301/234287218-2d42766f-5c5c-4cf9-859e-c2b0a5d ... #LanguageModel#LLMAgent
Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR23 Comment# 概要 人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた(Chain-of-Thought)が、CoTは外部リソース ... #LanguageModel#DataGeneration
Issue Date: 2023-04-12 ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks, Gilardi+, University of Zurich, arXiv23 Comment# 概要 2300件程度のツイートを分類するタスクにおいて、訓練した学部生によるアノテーションを正解とし、クラウドワーカーとChatGPTでのzero-shotでの予測の性能を比較した。分類タスクは、比較的難易度の高い分類問題であり、クラウドワーカーでも正解率は難しいタスクでは15~25%程度であ# ... #MachineLearning#Pocket#LanguageModel#Finetuning (SFT)#ReinforcementLearning
Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, arXiv23 Summary本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Commentなぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究 ... #InformationRetrieval#Pocket#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, arXiv22 #LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-10-29 Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks, Yizhong Wang+, N_A, EMNLP22 Comment7.1, 7.2が最も興味深い ## Instruction Tuningにおける未知のタスクに対する汎化性能について、3つの要素に対するスケーリングについて考察 More observed tasks improve the generalization. A large num ... #MachineTranslation#Pocket#Dataset
Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv22 Commentlow-resourceな言語に対するMTのベンチマーク ... #Pretraining#Pocket#LanguageModel
Issue Date: 2024-09-26 UL2: Unifying Language Learning Paradigms, Yi Tay+, N_A, arXiv22 #Pocket#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-09-25 Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, N_A, ICLR22 CommentFLAN論文。Instruction Tuningを提案した研究。 ... #Pocket#LanguageModel#SelfTaughtReasoner
Issue Date: 2024-09-15 STaR: Bootstrapping Reasoning With Reasoning, Eric Zelikman+, N_A, NeurIPS22 CommentOpenAI o1関連研究 ... #LanguageModel#Alignment#ChatGPT#RLHF (ReinforcementLearningFromHumanFeedback)
Issue Date: 2024-04-28 Training language models to follow instructions with human feedback, Long Ouyang+, N_A, NeurIPS22 Summary大規模な言語モデルは、ユーザーの意図に合わない出力を生成することがあります。本研究では、人間のフィードバックを使用してGPT-3を微調整し、InstructGPTと呼ばれるモデルを提案します。この手法により、13億パラメータのInstructGPTモデルの出力が175BのGPT-3の出力よりも好まれ、真実性の向上と有害な出力の削減が示されました。さらに、一般的なNLPデータセットにおける性能の低下は最小限でした。InstructGPTはまだ改善の余地がありますが、人間のフィードバックを使用した微調整が有望な方向であることを示しています。 CommentChatGPTの元となる、SFT→Reward Modelの訓練→RLHFの流れが提案された研究。DemonstrationデータだけでSFTするだけでは、人間の意図したとおりに動作しない問題があったため、人間の意図にAlignするように、Reward Modelを用いたRLHFでSFTの後に追加で ... image#NaturalLanguageGeneration#Pocket#DataToTextGeneration#StructuredData
Issue Date: 2023-10-28 MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation, Swarnadeep Saha+, N_A, arXiv22 Summary本研究では、半構造化データからのテキスト生成における多段階の推論を行うためのMURMURという手法を提案しています。MURMURは、特定の言語的および論理的なスキルを持つニューラルモジュールと記号モジュールを組み合わせ、ベストファーストサーチ手法を使用して推論パスを生成します。実験結果では、MURMURは他のベースライン手法に比べて大幅な改善を示し、また、ドメイン外のデータでも同等の性能を達成しました。さらに、人間の評価では、MURMURは論理的に整合性のある要約をより多く生成することが示されました。 #MachineLearning#LanguageModel#Quantization
Issue Date: 2023-09-29 GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, Elias Frantar+, N_A, arXiv22 Summary本研究では、GPTモデルの推論における計算およびストレージコストの問題に取り組み、新しいワンショット重み量子化手法であるGPTQを提案します。GPTQは高い精度と効率性を持ち、1750億のパラメータを持つGPTモデルを4時間のGPU時間で量子化することができます。提案手法は従来の手法と比較して圧縮率を2倍以上向上させ、精度を保持することができます。さらに、提案手法は極端な量子化領域でも合理的な精度を提供します。実験結果では、提案手法を使用することでエンドツーエンドの推論速度が約3.25倍から4.5倍向上することが示されています。提案手法の実装はhttps://github.com/IST-DASLab/gptqで利用可能です。 Comment# 概要 新たなpost-training量子化手法であるGPTQを提案 数時間以内に数千億のパラメータを持つモデルでの実行が可能であり、パラメータごとに3~4ビットまで圧縮するが、精度の大きな損失を伴わない OPT-175BおよびBLOOM-176Bを、約4時間のGPU時# Backgro ... image#BeamSearch#NaturalLanguageGeneration#Pocket
Issue Date: 2023-08-16 Momentum Calibration for Text Generation, Xingxing Zhang+, N_A, arXiv22 Summary本研究では、テキスト生成タスクにおいてMoCa(Momentum Calibration)という手法を提案しています。MoCaは、ビームサーチを用いた遅く進化するサンプルを動的に生成し、これらのサンプルのモデルスコアを実際の品質に合わせるように学習します。実験結果は、MoCaが強力な事前学習済みTransformerを改善し、最先端の結果を達成していることを示しています。 #DocumentSummarization#BeamSearch#NaturalLanguageGeneration#Pocket
Issue Date: 2023-08-16 BRIO: Bringing Order to Abstractive Summarization, Yixin Liu+, N_A, arXiv22 Summary従来の抽象的要約モデルでは、最尤推定を使用して訓練されていましたが、この方法では複数の候補要約を比較する際に性能が低下する可能性があります。そこで、非確定論的な分布を仮定し、候補要約の品質に応じて確率を割り当てる新しい訓練パラダイムを提案しました。この手法により、CNN/DailyMailとXSumのデータセットで最高の結果を達成しました。さらに、モデルが候補要約の品質とより相関のある確率を推定できることも示されました。 Commentビーム内のトップがROUGEを最大化しているとは限らなかったため、ROUGEが最大となるような要約を選択するようにしたら性能爆上げしましたという研究。実質現在のSoTA ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#Pocket#Evaluation#Reference-based
Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv22 Summary本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization#Metrics#Pocket#Evaluation#Reference-free#Reference-based
Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR22 Summary本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。Faithfulness(ROUGE, STS-Score, BERTScoreに基づく), Focus and Coverage (Question Ans ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#Pocket#Evaluation#Reference-based
Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI22 Summary自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization#NaturalLanguageGeneration#Metrics#Pocket#Evaluation#Reference-based
Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR22 Summary自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #DocumentSummarization#Evaluation#LM-based#FactualConsistency
Issue Date: 2023-08-13 SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization, Laban+, TACL22 Summary要約の領域では、入力ドキュメントと要約が整合していることが重要です。以前の研究では、自然言語推論(NLI)モデルを不整合検出に適用するとパフォーマンスが低下することがわかりました。本研究では、NLIを不整合検出に再評価し、過去の研究での入力の粒度の不一致が問題であることを発見しました。新しい手法SummaCConvを提案し、NLIモデルを文単位にドキュメントを分割してスコアを集計することで、不整合検出に成功裏に使用できることを示しました。さらに、新しいベンチマークSummaCを導入し、74.4%の正確さを達成し、先行研究と比較して5%の改善を実現しました。 #DocumentSummarization#Metrics#Evaluation#FactualConsistency
Issue Date: 2023-08-13 TRUE: Re-evaluating Factual Consistency Evaluation, Or Honovich+, N_A, the Second DialDoc Workshop on Document-grounded Dialogue and Conversational Question Answering22 Summary事実の整合性メトリックの包括的な調査と評価であるTRUEを紹介。さまざまな最先端のメトリックと11のデータセットを対象に行った結果、大規模なNLIおよび質問生成・回答ベースのアプローチが強力で補完的な結果を達成することがわかった。TRUEをモデルおよびメトリックの開発者の出発点として推奨し、さらなる評価方法の向上に向けた進歩を期待している。 CommentFactualConsistencyに関するMetricが良くまとまっている ... #DocumentSummarization#Evaluation#Reference-free
Issue Date: 2023-08-13 MaskEval: Weighted MLM-Based Evaluation for Text Summarization and Simplification, Yu Lu Liu+, N_A, arXiv22 Summary本研究では、テキストの要約と簡素化のための参照のない評価尺度であるMaskEvalを提案しています。MaskEvalは、候補テキストとソーステキストの連結に対してマスクされた言語モデリングを行い、重要な品質の側面ごとに相対的な重要性を調整することができます。さらに、英語の要約と簡素化における人間の判断との相関に基づいて、その効果を示し、両方のタスク間での転移シナリオを探索します。 #DocumentSummarization#Metrics#Evaluation#Reference-free
Issue Date: 2023-08-13 Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation, Nicholas Egan+, N_A, AAAI22 Summaryこの研究では、事前学習済み言語モデルを使用して、参照フリーの要約評価指標を提案します。これにより、要約の品質を測定するための新しい手法が開発されます。また、提案手法が人間の判断と高い相関関係を持つことが実証されます。 #DocumentSummarization#Metrics#Evaluation#Reference-free
Issue Date: 2023-08-13 Reference-free Summarization Evaluation via Semantic Correlation and Compression Ratio, Liu+, NAACL22 Summary本研究では、参照ベースの評価方法の柔軟性の欠如を解消するために、事前学習済み言語モデルを使用して自動参照フリーの評価指標を提案します。この指標は、要約の意味的な分布と圧縮率を考慮し、人間の評価とより一致していることが実験で示されました。 #DocumentSummarization#Evaluation
Issue Date: 2023-08-13 Re-Examining System-Level Correlations of Automatic Summarization Evaluation Metrics, Deutsch+, NAACL22 Summary本研究では、自動要約評価尺度のシステムレベルの相関に関する不整合を修正するための変更を提案しています。具体的には、全テストセットを使用して自動評価尺度のシステムスコアを計算し、実際のシナリオでよく見られる自動スコアのわずかな差によって分離されたシステムのペアに対してのみ相関を計算することを提案しています。これにより、より正確な相関推定と高品質な人間の判断の収集が可能となります。 #DocumentSummarization#Evaluation
Issue Date: 2023-08-13 Does Summary Evaluation Survive Translation to Other Languages?, Braun+, NAACL22 Summary要約データセットの作成は費用と時間がかかるが、機械翻訳を使用して既存のデータセットを他の言語に翻訳することで、追加の言語での使用が可能になる。この研究では、英語の要約データセットを7つの言語に翻訳し、自動評価尺度によるパフォーマンスを比較する。また、人間と自動化された要約のスコアリング間の相関を評価し、翻訳がパフォーマンスに与える影響も考慮する。さらに、データセットの再利用の可能性を見つけるために、特定の側面に焦点を当てる。 #DocumentSummarization#Metrics#Evaluation#TrainedMetrics
Issue Date: 2023-08-13 SummScore: A Comprehensive Evaluation Metric for Summary Quality Based on Cross-Encoder, Wuhang Lin+, N_A, arXiv22 Summary要約の品質評価メトリクスの問題を解決するために、SummScoreという包括的な評価メトリクスを提案する。SummScoreはCrossEncoderに基づいており、要約の多様性を抑制せずに要約の品質を評価することができる。さらに、SummScoreは一貫性、一貫性、流暢さ、関連性の4つの側面で評価することができる。実験結果は、SummScoreが既存の評価メトリクスを上回ることを示している。また、SummScoreの評価結果を16の主要な要約モデルに提供している。 #DocumentSummarization#Evaluation#Reference-free
Issue Date: 2023-08-13 SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling, Bao+, NAACL22 Summary従来の自動要約評価メトリックは語彙の類似性に焦点を当てており、意味や言語的な品質を十分に捉えることができない。参照要約が必要であるためコストがかかる。本研究では、参照要約が存在しない弱教師あり要約評価手法を提案する。既存の要約データセットを文書と破損した参照要約のペアに変換してトレーニングする。ドメイン間のテストでは、提案手法がベースラインを上回り、言語的な品質を評価する上で大きな利点を示した。 #DocumentSummarization#Evaluation#Reference-free
Issue Date: 2023-08-13 PrefScore: Pairwise Preference Learning for Reference-free Summarization Quality Assessment, Luo+, COLING22 Summary人間による参照要約のない機械生成の要約の評価を行うために、ブラッドリー・テリーのパワーランキングモデルを使用して要約の優劣を判断する方法を提案する。実験結果は、この方法が人間の評価と高い相関を持つスコアを生成できることを示している。 #DocumentSummarization#Pocket#Evaluation
Issue Date: 2023-08-13 How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation, Steen+, COLING22 Summary要約の一貫性を自動的に評価することは重要であり、さまざまな方法が提案されていますが、異なるデータセットと評価指標を使用して評価されるため、相対的なパフォーマンスを理解することが困難です。本研究では、要約の一貫性モデリングのさまざまな方法について調査し、新しい分析尺度を導入します。現在の自動一貫性尺度はすべての評価指標において信頼性のある一貫性スコアを割り当てることができませんが、大規模言語モデルは有望な結果を示しています。 #DocumentSummarization#Pocket#Evaluation
Issue Date: 2023-08-13 Universal Evasion Attacks on Summarization Scoring, Wenchuan Mu+, N_A, BlackboxNLP workshop on ACL22 Summary要約の自動評価は重要であり、その評価は複雑です。しかし、これまで要約の評価は機械学習のタスクとは考えられていませんでした。本研究では、自動評価の堅牢性を探るために回避攻撃を行いました。攻撃システムは、要約ではない文字列を予測し、一般的な評価指標であるROUGEやMETEORにおいて優れた要約器と競合するスコアを達成しました。また、攻撃システムは最先端の要約手法を上回るスコアを獲得しました。この研究は、現在の評価システムの堅牢性の低さを示しており、要約スコアの開発を促進することを目指しています。 #DocumentSummarization#Pocket#Evaluation
Issue Date: 2023-08-13 DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely, Forrest Sheng Bao+, N_A, arXiv22 Summary参照ベースと参照フリーの要約評価メトリックがあります。参照ベースは正確ですが、制約があります。参照フリーは独立していますが、ゼロショットと正確さの両方を満たせません。本研究では、参照ベースのメトリックを使用してゼロショットかつ正確な参照フリーのアプローチを提案します。実験結果は、このアプローチが最も優れた参照フリーのメトリックを提供できることを示しています。また、参照ベースのメトリックの再利用と追加の調整についても調査しています。 #Pocket#PersonalizedGeneration#Personalization#PersonalizedHeadlineGeneration
Issue Date: 2023-08-11 Personalized News Headline Generation System with Fine-grained User Modeling, Yao, MSN22 Summaryユーザーの興味に基づいてパーソナライズされたニュースの見出しを生成するために、文レベルの情報を考慮したユーザーモデルを提案する。アテンション層を使用して文とニュースの関連性を計算し、ニュースの内容に基づいて見出しを生成する。実験結果は、提案モデルがベースラインモデルよりも優れたパフォーマンスを示していることを示している。将来の方向性として、情報のレベルと内容を横断する相互作用についても議論されている。 #Pocket#PersonalizedGeneration#Personalization#PersonalizedHeadlineGeneration
Issue Date: 2023-08-11 Personalized Headline Generation with Enhanced User Interest Perception, Zhang+, ICANN22 Summaryユーザーのニュース閲覧履歴をモデル化し、個別化されたニュース見出しを生成するための新しいフレームワークを提案する。提案手法は、ユーザーの興味を強調するために候補テキストに関連する情報を活用し、ニュースのエンティティワードを使用して興味表現を改善する。幅広い実験により、提案手法が見出し生成タスクで優れたパフォーマンスを示すことが示されている。 #RecommenderSystems#Pocket#PersonalizedGeneration#Personalization
Issue Date: 2023-08-11 Personalized Chit-Chat Generation for Recommendation Using External Chat Corpora, Chen+, KDD22 Summaryチットチャットは、ユーザーとの対話において効果的であることが示されています。この研究では、ニュース推薦のための個人化されたチットチャットを生成する方法を提案しています。既存の方法とは異なり、外部のチャットコーパスのみを使用してユーザーの関心を推定し、個人化されたチットチャットを生成します。幅広い実験により、提案手法の効果が示されています。 #NaturalLanguageGeneration#Controllable#Pocket
Issue Date: 2023-07-18 An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text Generation, Xuancheng Huang+, N_A, arXiv22 Summary本研究では、テキスト生成において複数の側面を制御する方法について研究しました。従来の方法では、プレフィックスの相互干渉により制約が低下し、未知の側面の組み合わせを制御することが制限されていました。そこで、トレーニング可能なゲートを使用してプレフィックスの介入を正規化し、相互干渉の増加を抑制する方法を提案しました。この方法により、トレーニング時に未知の制約を低コストで拡張することができます。さらに、カテゴリカルな制約と自由形式の制約の両方を処理する統一された方法も提案しました。実験により、提案手法が制約の正確さ、テキストの品質、拡張性においてベースラインよりも優れていることが示されました。 #NeuralNetwork#LanguageModel#Chain-of-Thought
Issue Date: 2023-04-27 Automatic Chain of Thought Prompting in Large Language Models, Zhang+, Shanghai Jiao Tong University, arXiv22 CommentLLMによるreasoning chainが人間が作成したものよりも優れていることを示しているとのこと #532 よりclusteringベースな手法を利用することにより、誤りを含む例が単一のクラスタにまとめられうことを示し、これにより過剰な誤ったデモンストレーションが軽減されることを示した。 ... #NeuralNetwork#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-04-27 Large Language Models are Zero-Shot Reasoners, Kojima+, University of Tokyo, NeurIPS22 CommentZero-Shot CoT (Let's think step-by-step.)論文<img width="856" alt="image" src="https://user-images.githubusercontent.com/12249301/234746367-2cd80e23-8dc ... #NeuralNetwork#Zero/FewShotPrompting#Chain-of-Thought#Prompting
Issue Date: 2023-04-27 Chain of thought prompting elicits reasoning in large language models, Wei+, Google Research, arXiv22 CommentChain-of-Thoughtを提案した論文。CoTをする上でパラメータ数が100B未満のモデルではあまり効果が発揮されないということは念頭に置いた方が良さそう。 ![image](https://user-images.githubusercontent.com/12249301/234739先 ... #ComputerVision#MulltiModal#ContrastiveLearning
Issue Date: 2023-04-27 Learning Transferable Visual Models From Natural Language Supervision、Radford+, OpenAI, arXiv22 CommentCLIP論文。大量の画像と画像に対応するテキストのペアから、対象学習を行い、画像とテキスト間のsimilarityをはかれるようにしたモデル ![image](https://user-images.githubusercontent.com/12249301/234729329-dfa5dc1e ... #LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2023-04-26 Scaling Instruction-Finetuned Language Models, Chung+, Google, arXiv22 CommentT5をinstruction tuningしたFlanT5の研究 ... #LanguageModel
Issue Date: 2023-04-25 Recurrent Memory Transformer, Bulatov+, NeurIPS22 CommentTransformerはO(N^2)であり、計算量がNに応じて指数関数的に増加してしまう。一方、sequenceの情報を全てN次元ベクトルに集約しなければならず、計算量の制約によって長い系列のRepresentationを獲得できない。 そこで、Transformerの構造は変えず、Inputにメ ... #LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2023-03-30 Self-Instruct: Aligning Language Model with Self Generated Instructions, Wang+ (w_ Noah Smith), Univesity of Washington, arXiv22 CommentAlpacaなどでも利用されているself-instruction技術に関する論文# 概要 ![image](https://user-images.githubusercontent.com/12249301/228716254-5f4d7451-a37a-4354-843d-7e4052ba23 ... #NeuralNetwork#Pocket#LanguageModel
Issue Date: 2022-12-05 UNIFIEDSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models, Xie+, EMNLP22 #Pretraining#Pocket
Issue Date: 2022-12-01 Revisiting Pretraining Objectives for Tabular Deep Learning, Rubachev+, Yandex+, arXiv22 CommentTabular Dataを利用した場合にKaggleなどでDeepなモデルがGBDT等に勝てないことが知られているが、GBDT等とcomparable になる性能になるようなpre-trainingを提案したよ、的な内容っぽい ... #NeuralNetwork#Survey
Issue Date: 2022-09-06 Efficient Methods for Natural Language Processing: A Survey, Marcos+, arXiv22 CommentScaling Lawに従いモデルも大きくしていく流れに対して、一般ピーポーが恩恵を受けられるような効率の良い学習手法がまとめられている、とのこと(しゅんけーさんありがとうございます) ... #DocumentSummarization#NeuralNetwork#Abstractive
Issue Date: 2022-09-02 Long Document Summarization with Top-down and Bottom-up Inference, Pang+, Salesforce Research, arXiv22 Comment日本語解説: https://zenn.dev/ty_nlp/articles/9f5e5dd3084dbd 以下、上記日本語解説記事を読んで理解した内容をまとめます。ありがとうございます。 # 概要 基本的にTransformerベースのモデル(e.g. BERTSum, BART,>The ... #Dataset#QuestionAnswering
Issue Date: 2022-02-07 JaQuAD: Japanese Question Answering Dataset for Machine Reading Comprehension, arXiv22 CommentSQuAD likeな日本語のQAデータセット https://github.com/SkelterLabsInc/JaQuAD ... #Analysis#Pocket#Adapter/LoRA
Issue Date: 2024-10-01 Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning, Armen Aghajanyan+, N_A, ACL21 CommentACL ver:https://aclanthology.org/2021.acl-long.568.pdf下記の元ポストを拝読の上論文を斜め読み。モデルサイズが大きいほど、特定の性能(論文中では2種類のデータセットでの90%のsentence prediction性能)をfinetuningで達成 ... #Analysis#Pocket#Transformer
Issue Date: 2024-07-11 Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, N_A, EMNLP21 Summaryトランスフォーマーモデルのフィードフォワード層は、キー・バリューメモリとして機能し、学習されたパターンが人間に解釈可能であることや、上位層がより意味のあるパターンを学習することが示されました。さらに、出力分布を誘導する役割も持ちます。フィードフォワード層の出力はそのメモリの合成であり、残差接続を介してモデルの層を通じて洗練され、最終的な出力分布を生成します。 Comment#1108FF layerがKey-Valueストアとして機能する仕組みの概略図![image](https://github.com/user-attachments/assets/cc12695f-b030-433a-88e1-aed69f9847a7)実際に特定のKeyと最も関連度が高い訓練事 ... #Analysis#NaturalLanguageGeneration#Pocket#Evaluation#Annotation
Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP21 Summary最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 CommentOpen-endedなタスクに対するAMTの評価の再現性に関する研究。先行研究をSurveyしたところ、再現のために重要な情報(たとえば、workerの資格、費用、task descriptions、annotator間のagreementなど)が欠落していることが判明した。 続いて、expert# ... image#DocumentSummarization#Metrics#Tools#Dataset#Evaluation
Issue Date: 2023-08-13 SummEval: Re-evaluating Summarization Evaluation, Fabbri+, TACL21 Summaryテキスト要約の評価方法に関する包括的な研究と評価プロトコルの欠如が進展を妨げている。この研究では、自動評価メトリックスの再評価、要約モデルのベンチマーク、統一された形式での要約の提供、評価ツールキットの実装、そして注釈付きデータセットの共有など、5つの側面で問題を解決する。この研究は、テキスト要約の評価プロトコルの改善と関連性の高い評価メトリックスの開発に貢献することを目指している。 Comment自動評価指標が人手評価の水準に達しないことが示されており、結局のところROUGEを上回る自動性能指標はほとんどなかった。human judgmentsとのKendall;'s Tauを見ると、chrFがCoherenceとRelevance, METEORがFluencyで上回ったのみだった。また、 ... #DocumentSummarization#Evaluation
Issue Date: 2023-08-13 How to Evaluate a Summarizer: Study Design and Statistical Analysis for Manual Linguistic Quality Evaluation, Steen+, EACL21 Summary要約システムの評価方法についての調査結果を報告しました。要約の言語的品質についての評価実験を行い、最適な評価方法は側面によって異なることを示しました。また、研究パラメータや統計分析方法についても問題点を指摘しました。さらに、現行の方法では固定された研究予算の下では信頼性のある注釈を提供できないことを強調しました。 Comment要約の人手評価に対する研究 ... #DocumentSummarization#Evaluation
Issue Date: 2023-08-13 Reliability of Human Evaluation for Text Summarization: Lessons Learned and Challenges Ahead, Iskender+, EACL21 Summary人間評価の信頼性に関する研究では、参加者の情報や実験の詳細が提供されていないことが多い。また、人間評価の信頼性に影響を与える要因についても研究されていない。そこで、私たちは人間評価実験を行い、参加者の情報や実験の詳細を提供し、異なる実験結果を比較した。さらに、専門家と非専門家の評価の信頼性を確保するためのガイドラインを提供し、信頼性に影響を与える要因を特定した。 Comment要約の人手評価に対する信頼性に関して研究。人手評価のガイドラインを提供している。 ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#Evaluation#Reference-free
Issue Date: 2023-08-13 The Feasibility of Embedding Based Automatic Evaluation for Single Document Summarization, EMNLP-IJCNLP21, Sun+ Comment__translate: ROUGE is widely used to automatically evaluate summarization systems. However, ROUGE measures semantic overlap between a system summary a ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#Evaluation#Reference-free
Issue Date: 2023-08-13 A Training-free and Reference-free Summarization Evaluation Metric via Centrality-weighted Relevance and Self-referenced Redundancy, Chen+, ACL-IJCNLP21 Summary参照ベースと教師ありの要約評価指標の制約を回避するために、トレーニングフリーかつ参照フリーの要約評価指標を提案する。この指標は、文の中心性によって重み付けされた概念参照と要約との関連性スコアと、自己参照の冗長性スコアから構成される。関連性スコアは擬似参照と要約との間で計算され、重要度のガイダンスを提供する。要約の冗長性スコアは要約内の冗長な情報を評価するために計算される。関連性スコアと冗長性スコアを組み合わせて、要約の最終評価スコアを生成する。徹底的な実験により、提案手法が既存の手法を大幅に上回ることが示された。ソースコードはGitHubで公開されている。 #DocumentSummarization#NaturalLanguageGeneration#Metrics#Evaluation#Reference-free#QA-based
Issue Date: 2023-08-13 QuestEval: Summarization Asks for Fact-based Evaluation, Thomas Scialom+, N_A, EMNLP21 Summary要約の評価は未解決の課題であり、既存の評価指標は限定的であり、人間の判断との相関が低い。そこで、本研究では質問応答モデルを利用した評価指標QuestEvalを提案する。QuestEvalは正解の参照を必要とせず、一貫性、結束性、流暢さ、関連性の4つの評価次元において人間の判断との相関を大幅に改善することが実験により示された。 CommentQuestEval# 概要 #984 によって提案されてきたメトリックがROUGEに勝てていないことについて言及し、より良い指標を提案。 precision / recall-based な QA metricsを利用してよりロバスト 生成されるqueryのsaliencyを学習する手法を提案するこ ... image#NaturalLanguageGeneration#Metrics#DialogueGeneration#Evaluation#Reference-free#QA-based#FactualConsistency
Issue Date: 2023-08-13 Q2: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering, Honovich+, EMNLP21 Summary本研究では、ニューラルな知識に基づく対話生成モデルの信頼性と適用範囲の制限についての問題を解決するため、自動的な質問生成と質問応答を使用した事実的な整合性の自動評価尺度を提案します。この尺度は、自然言語推論を使用して回答スパンを比較することで、以前のトークンベースのマッチングよりも優れた評価を行います。また、新しいデータセットを作成し、事実的な整合性の手動アノテーションを行い、他の尺度とのメタ評価を行いました。結果として、提案手法が人間の判断と高い相関を示しました。 Comment(knowledge-grounded; 知識に基づいた)対話に対するFactual ConsistencyをReference-freeで評価できるQGQA手法。機械翻訳やAbstractive Summarizationの分野で研究が進んできたが、対話では 対話履歴、個人の意見、ユーザに対 ... image#DocumentSummarization#Metrics#Evaluation#LM-based#FactualConsistency
Issue Date: 2023-08-13 Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation, Deng+, EMNLP21 Summary本研究では、自然言語生成(NLG)タスクの評価において、情報の整合性を重視した統一的な視点を提案する。情報の整合性を評価するための解釈可能な評価指標のファミリーを開発し、ゴールドリファレンスデータを必要とせずに、さまざまなNLGタスクの評価を行うことができることを実験で示した。 CommentCTC ... #NaturalLanguageGeneration#Metrics#Evaluation#Reference-free#QA-based
Issue Date: 2023-08-13 QACE: Asking Questions to Evaluate an Image Caption, Lee+, EMNLP21 Summary本研究では、画像キャプションの評価において、Question Generation(QG)とQuestion Answering(QA)システムに基づいた質問応答メトリックであるQACEを提案する。QACEは評価対象のキャプションに対して質問を生成し、その内容を参照キャプションまたはソース画像に対して質問することで確認する。QACE_Refというメトリックを開発し、最先端のメトリックと競合する結果を報告する。さらに、参照ではなく画像自体に直接質問をするQACE_Imgを提案する。QACE_ImgにはVisual-QAシステムが必要であり、Visual-T5という抽象的なVQAシステムを提案する。QACE_Imgはマルチモーダルで参照を必要とせず、説明可能なメトリックである。実験の結果、QACE_Imgは他の参照を必要としないメトリックと比較して有利な結果を示した。 CommentImage Captioningを評価するためのQGQAを提案している。candidateから生成した質問を元画像, およびReferenceを用いて回答させ、candidateに基づいた回答と回答の結果を比較することで評価を実施する。 ... image#DocumentSummarization#Metrics#Evaluation#Reference-free#LM-based
Issue Date: 2023-08-13 BARTSCORE: Evaluating Generated Text as Text Generation, Yuan+ (w_ Neubigさん), NeurIPS21 Summary本研究では、生成されたテキストの評価方法について検討しました。具体的には、事前学習モデルを使用してテキスト生成の問題をモデル化し、生成されたテキストを参照出力またはソーステキストに変換するために訓練されたモデルを使用しました。提案したメトリックであるBARTSCOREは、情報量、流暢さ、事実性などの異なる視点のテキスト評価に柔軟に適用できます。実験結果では、既存のトップスコアリングメトリックを上回る性能を示しました。BARTScoreの計算に使用するコードは公開されており、インタラクティブなリーダーボードも利用可能です。 CommentBARTScore# 概要 ソーステキストが与えられた時に、BARTによって生成テキストを生成する尤度を計算し、それをスコアとする手法。テキスト生成タスクをテキスト生成モデルでスコアリングすることで、pre-trainingされたパラメータをより有効に活用できる(e.g. BERTScoreやMov ... image#DocumentSummarization#Metrics#Evaluation#Reference-based
Issue Date: 2023-08-13 Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary, Deutsch+, TACL21 Summary要約の品質を評価するための新しい指標であるQAEvalを提案する。QAEvalは質問応答(QA)を使用して要約と参照の情報の重複を測定するため、従来のテキストの重複に基づく指標とは異なる。実験結果から、QAEvalは現在の最先端の指標よりも優れたパフォーマンスを示し、他の評価とも競争力があることがわかった。QAEvalの構成要素を分析することで、その潜在的な上限パフォーマンスは他の自動評価指標を上回り、ゴールドスタンダードのピラミッドメソッドに近づくと推定される。 #DocumentSummarization#Metrics#Evaluation#Reference-free
Issue Date: 2023-08-13 ESTIME: Estimation of Summary-to-Text Inconsistency by Mismatched Embeddings, Eval4NLP21 Summary私たちは、新しい参照なし要約品質評価尺度を提案します。この尺度は、要約とソースドキュメントの間の潜在的な矛盾を見つけて数えることに基づいています。提案された尺度は、一貫性と流暢さの両方で他の評価尺度よりも専門家のスコアと強い相関を示しました。また、微妙な事実の誤りを生成する方法も紹介しました。この尺度は微妙なエラーに対してより感度が高いことを示しました。 #Sentence#Embeddings#Pocket#LanguageModel#ContrastiveLearning#Catastrophic Forgetting
Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP21 Summaryこの論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment#462 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる# 手法概要 Contrastive Learningを活用して、unsupervised/supervisedに学習を実施する。 Unsupervised SimCSEでは、あるsente ... image#Pocket#Dataset#LanguageModel#MultitaskLearning
Issue Date: 2023-07-26 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR21 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは、57のタスクをカバーし、広範な世界知識と問題解決能力を必要とします。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの理解の幅と深さを評価し、重要な欠点を特定するために使用できます。 #PersonalizedDocumentSummarization#Dataset#LanguageModel#PersonalizedGeneration#Personalization#PersonalizedHeadlineGeneration
Issue Date: 2023-05-31 PENS: A Dataset and Generic Framework for Personalized News Headline Generation, ACL21 Summaryこの論文では、ユーザーの興味とニュース本文に基づいて、ユーザー固有のタイトルを生成するパーソナライズされたニュース見出し生成の問題を解決するためのフレームワークを提案します。また、この問題のための大規模なデータセットであるPENSを公開し、ベンチマークスコアを示します。データセットはhttps://msnews.github.io/pens.htmlで入手可能です。 Comment# 概要 ニュース記事に対するPersonalizedなHeadlineの正解データを生成。103名のvolunteerの最低でも50件のクリックログと、200件に対する正解タイトルを生成した。正解タイトルを生成する際は、各ドキュメントごとに4名異なるユーザが正解タイトルを生成するようにした。これ ... image#PersonalizedDocumentSummarization#Pocket#review
Issue Date: 2023-05-06 Transformer Reasoning Network for Personalized Review Summarization, Xu+, SIGIR21 Comment先行研究は、review summarizationにおいて生成されるsummaryは、過去にユーザが作成したsummaryのwriting styleやproductに非常に関係しているのに、これらを活用してこなかったので、活用しました(=personalized)という話っぽい ... #PersonalizedDocumentSummarization#Dataset#Personalization
Issue Date: 2023-04-30 ニュース記事に対する談話構造と興味度のアノテーション ~ニュース対話システムのパーソナライズに向けて~, 高津+, 早稲田大学, 言語処理学会21 Commentニュース記事に対して談話構造および,ユーザのプロフィールと記事の話題・文に対するユーザの興味度を付与したデータセット。 プロフィールとして以下を収集: 性別 年齢, 住んでいる地域 職種 業種 ニュースを見る頻度, ニュースをよくチェックする時間帯 ... #PersonalizedDocumentSummarization
Issue Date: 2023-04-30 談話構造制約付きパーソナライズド抽出型要約, 高津+, 早稲田大学, 言語処理学会21 #NaturalLanguageGeneration#Personalization
Issue Date: 2023-04-26 Refocusing on Relevance: Personalization in NLG, Shiran Dudy+, Department of Computer Science University of Colorado, EMNLP21 Comment従来のNLGはソーステキストに焦点を当て、ターゲットを生成することに注力してきた。が、ユーザの意図やcontextがソーステキストだけに基づいて復元できない場合、このアプローチでは不十分であることを指摘。 この研究ではNLGシステムが追加のcontextを利用することに大きな重点をおくべきであり、 ... #NeuralNetwork#ComputerVision#NaturalLanguageGeneration
Issue Date: 2022-09-15 Generating Racing Game Commentary from Vision, Language, and Structured Data, Tatsuya+, INLG21 Commentデータセット: https://kirt.airc.aist.go.jp/corpus/ja/RacingCommentary ... #NeuralNetwork#NaturalLanguageGeneration#Dataset#DataToTextGeneration
Issue Date: 2022-08-18 Biomedical Data-to-Text Generation via Fine-Tuning Transformers, Ruslan+, INLG21 Commentbiomedical domainの新たなdata2textデータセットを提供。事前学習済みのBART, T5等をfinetuningすることで高精度にテキストが生成できることを示した。 ... #DocumentSummarization#Tutorial#Dataset
Issue Date: 2021-10-20 WikiAsp: A Dataset for Multi-domain Aspect-based Summarization, Hayashi+, CMU, TACL21, NLPコロキウム Comment◆Aspect-based summarizationのモチベーション ・same source対して、異なるユーザニーズが存在するので、ニーズに関して要約したい ◆Aspect: あるobjectに対する、attributeのようなものを指定?  object: Attention IsQ. R ... #NeuralNetwork#NaturalLanguageGeneration#Pocket#DataToTextGeneration
Issue Date: 2021-10-08 過去情報の内容選択を取り入れた スポーツダイジェストの自動生成, 加藤+, 東工大, NLP21 #DocumentSummarization#NeuralNetwork#NaturalLanguageGeneration#LanguageModel#Adapter/LoRA
Issue Date: 2021-09-09 Prefix-Tuning: Optimizing Continuous Prompts for Generation, Lisa+ (Percy Liang), Stanford University, ACL21 Comment言語モデルをfine-tuningする際,エンコード時に「接頭辞」を潜在表現として与え,「接頭辞」部分のみをfine-tuningすることで(他パラメータは固定),より少量のパラメータでfine-tuningを実現する方法を提案.接頭辞を潜在表現で与えるこの方法は,GPT-3のpromptingに着 ... #NeuralNetwork#LanguageModel#Transformer
Issue Date: 2024-05-24 GLU Variants Improve Transformer, Noam Shazeer, N_A, arXiv20 SummaryGLUのバリエーションをTransformerのフィードフォワード・サブレイヤーでテストし、通常の活性化関数よりもいくつかのバリエーションが品質向上をもたらすことを発見した。 Comment一般的なFFNでは、linear layerをかけた後に、何らかの活性化関数をかませる方法が主流である。 このような構造の一つとしてGLUがあるが、linear layerと活性化関数には改良の余地があり、様々なvariantが考えられるため、色々試しました、というはなし。 オリ ... image#DocumentSummarization#Metrics#Pocket#Evaluation#Reference-free#QA-based
Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL20 Summary要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 CommentQAGS生成された要約からQuestionを生成する手法。precision-oriented ... #DocumentSummarization#Pocket#Hallucination
Issue Date: 2023-08-16 Reducing Quantity Hallucinations in Abstractive Summarization, Zheng Zhao+, N_A, EMNLP20 SummaryHermanシステムは、抽象的な要約において幻覚を回避するために、数量エンティティを認識し、元のテキストでサポートされている数量用語を持つ要約を上位にランク付けするアプローチを提案しています。実験結果は、このアプローチが高い適合率と再現率を持ち、F$_1$スコアが向上することを示しています。また、上位にランク付けされた要約が元の要約よりも好まれることも示されています。 Comment数量に関するhallucinationを緩和する要約手法 ... #DocumentSummarization#Metrics#Evaluation#QA-based
Issue Date: 2023-08-16 FEQA: A Question Answering Evaluation Framework for Faithfulness Assessment in Abstractive Summarization, Durmus+, ACL20 Summaryニューラル抽象的要約モデルの信頼性を評価するために、人間の注釈を収集し、信頼性の自動評価指標であるFEQAを提案した。FEQAは質問応答を利用して要約の信頼性を評価し、特に抽象的な要約において人間の評価と高い相関を示した。 CommentFEQA生成された要約からQuestionを生成する手法。precision-oriented ... #DocumentSummarization#Metrics#Evaluation#Reference-based
Issue Date: 2023-08-13 HOLMS: Alternative Summary Evaluation with Large Language Models, Mrabet+, COLING20 Summary要約手法の評価尺度として、ROUGEとBLEUが一般的に使用されているが、これらは語彙的な性質を持ち、ニューラルネットワークのトレーニングには限定的な可能性がある。本研究では、大規模なコーパスで事前学習された言語モデルと語彙的類似度尺度を組み合わせた新しい評価尺度であるHOLMSを提案する。実験により、HOLMSがROUGEとBLEUを大幅に上回り、人間の判断との相関も高いことを示した。 CommentHybrid Lexical and MOdel-based evaluation of Summaries (HOLMS) ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#Evaluation#Reference-free
Issue Date: 2023-08-13 Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning, Hanlu Wu+, N_A, EMNLP20 Summary本研究では、参照要約なしで要約の品質を評価するために教師なしの対照的学習を提案しています。新しいメトリックを設計し、ランキング損失でモデルを訓練することで、要約品質の異なる側面に関する異なるタイプのネガティブサンプルを構築します。実験結果は、参照要約なしでも他のメトリックよりも優れた評価方法であることを示しています。また、提案手法が一般的かつ転移可能であることも示されています。 CommentLS_Score色々なメトリックが簡潔にまとまっている ... #DocumentSummarization#Metrics#Evaluation#LM-based#FactualConsistency
Issue Date: 2023-08-13 Evaluating the Factual Consistency of Abstractive Text Summarization, Kryscinski+, EMNLP20 Summary本研究では、要約の事実的な整合性を検証するためのモデルベースのアプローチを提案しています。トレーニングデータはルールベースの変換を用いて生成され、モデルは整合性の予測とスパン抽出のタスクで共同してトレーニングされます。このモデルは、ニューラルモデルによる要約に対して転移学習を行うことで、以前のモデルを上回る性能を示しました。さらに、人間の評価でも補助的なスパン抽出タスクが有用であることが示されています。データセットやコード、トレーニング済みモデルはGitHubで公開されています。 CommentFactCC近年のニューラルモデルは流ちょうな要約を生成するが、それらには、unsuportedなinformationが多く含まれていることを示した ... #DocumentSummarization#Metrics#Evaluation#Reference-free#LM-based
Issue Date: 2023-08-13 Automatic Machine Translation Evaluation in Many Languages via Zero-Shot Paraphrasing, Thompson+, EMNLP20 Summaryパラフレーザを使用して機械翻訳の評価を行うタスクを定義し、多言語NMTシステムをトレーニングしてパラフレーシングを行います。この手法は直感的であり、人間の判断を必要としません。39言語でトレーニングされた単一モデルは、以前のメトリクスと比較して優れたパフォーマンスを示し、品質推定のタスクでも優れた結果を得ることができます。 CommentPRISM ... #DocumentSummarization#Evaluation#Reference-free
Issue Date: 2023-08-13 Fill in the BLANC: Human-free quality estimation of document summaries, Vasilyev+, Eval4NLP20 SummaryBLANCは、要約の品質を自動的に推定するための新しいアプローチです。BLANCは、事前学習済みの言語モデルを使用してドキュメントの要約にアクセスし、要約の機能的なパフォーマンスを測定します。BLANCスコアは、ROUGEと同様に人間の評価と良好な相関関係を持ち、人間によって書かれた参照要約が不要なため、完全に人間不在の要約品質推定が可能です。 #DocumentSummarization#Evaluation#Reference-free#Training-Free
Issue Date: 2023-08-13 SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization, Gao+, ACL20 Summaryこの研究では、教師なしの複数文書要約評価メトリックスについて調査しています。提案手法SUPERTは、擬似的な参照要約として選択された重要な文を使用し、文脈化埋め込みとソフトトークンアラインメント技術を用いて要約の品質を評価します。SUPERTは従来の教師なし評価メトリックスよりも人間の評価との相関が高く、18〜39%の向上が見られます。また、SUPERTを報酬として使用してニューラルベースの強化学習要約器をガイドすることで、有利なパフォーマンスを実現しています。ソースコードはGitHubで入手可能です。 Commentpseudo-reference summaryを作成し、referenceに対してSBERTを適用しsystem-reference間の類似度を測ることで、unsupervisedに複数文書要約を評価する手法。まずTACのデータに対して、既存研究(single document summarips ... #DocumentSummarization#Metrics#Evaluation#Reference-based#TrainedMetrics
Issue Date: 2023-08-13 BLEURT: Learning Robust Metrics for Text Generation, Sellam+, ACL20 SummaryBLEURTは、BERTをベースとした学習済みの評価指標であり、人間の判断と高い相関を持つことが特徴です。BLEURTは、数千のトレーニング例を使用してバイアスのある評価をモデル化し、数百万の合成例を使用してモデルの汎化を支援します。BLEURTは、WMT Metrics共有タスクとWebNLGデータセットで最先端の結果を提供し、トレーニングデータが少ない場合や分布外の場合でも優れた性能を発揮します。 #DocumentSummarization#NaturalLanguageGeneration#Metrics#Evaluation#Reference-based
Issue Date: 2023-05-10 BERTScore: Evaluating Text Generation with BERT, Tianyi Zhang+, N_A, ICLR20 SummaryBERTScoreは、文脈埋め込みを使用してトークンの類似度を計算するテキスト生成の自動評価メトリックであり、363の機械翻訳および画像キャプションシステムの出力を使用して評価されました。BERTScoreは、既存のメトリックよりも人間の判断との相関が高く、より強力なモデル選択性能を提供し、敵対的な言い換え検出タスクにおいてもより堅牢であることが示されました。 Comment# 概要 既存のテキスト生成の評価手法(BLEUやMETEOR)はsurface levelのマッチングしかしておらず、意味をとらえられた評価になっていなかったので、pretrained BERTのembeddingを用いてsimilarityを測るような指標を提案しましたよ、という話。 ## 実 ... image#PersonalizedDocumentSummarization#Pocket#review
Issue Date: 2023-05-06 A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss, Hou Pong Chan+, N_A, arXiv20 Summaryユーザーレビューから要約と感情を取得するために、新しいデュアルビューモデルを提案。エンコーダーがレビューの文脈表現を学習し、サマリーデコーダーが要約を生成。ソースビュー感情分類器はレビューの感情ラベルを予測し、サマリービュー感情分類器は要約の感情ラベルを予測。不一致損失を導入して、2つの分類器の不一致を罰することで、デコーダーが一貫した感情傾向を持つ要約を生成し、2つの感情分類器がお互いから学ぶことができるようになる。4つの実世界データセットでの実験結果は、モデルの効果を示している。 CommentReview SummarizationとSentiment Classificationをjointで学習した研究。既存研究ではreviewのみからsentimentの情報を獲得する枠組みは存在したが、summaryの情報が活用できていなかった。 #653 のratingをsentiment lし ... #Survey#Personalization
Issue Date: 2023-04-26 Returning the N to NLP: Towards Contextually Personalized Classification Models, Lucie Flek, Mainz University of Applied Sciences Germany, ACL20 CommentNLPのけるPersonalized Classificationモデルのliteratureを振り返る論文 ... #NeuralNetwork#NaturalLanguageGeneration#LanguageModel#DataToTextGeneration#pretrained-LM#Zero/FewShotLearning
Issue Date: 2022-12-01 Few-Shot NLG with Pre-Trained Language Model, Chen+, University of California, ACL20 Comment# 概要 Neural basedなend-to-endなNLGアプローチはdata-hungryなので、Few Shotな設定で高い性能ができる手法を提案(Few shot NLG) Table-to-Textタスク(WikiBIOデータ, 追加で収集したBook, SongドメインのWiki ... #DocumentSummarization#NeuralNetwork#MachineTranslation#Transformer#pretrained-LM
Issue Date: 2022-12-01 Leveraging Pre-trained Checkpoints for Sequence Generation Tasks, Rothe+, Google Research, TACL20 Comment# 概要 BERT-to-BERT論文。これまでpre-trainedなチェックポイントを利用する研究は主にNLUで行われてきており、Seq2Seqでは行われてきていなかったので、やりました、という話。 publicly availableなBERTのcheckpointを利用し、BERTをen ... #NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration#pretrained-LM
Issue Date: 2022-12-01 Template Guided Text Generation for Task-Oriented Dialogue, Kale+, Google, EMNLP20 Comment# 概要 Dialogue Actをそのままlinearlizeして言語モデルに入力するのではなく、テンプレートをベースにしたシンプルなsentenceにして言語モデルに与えると、zero-shot, few-shotなsettingで性能が向上するという話(T5ベース)。 ![image]low ... #NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration#Transformer
Issue Date: 2022-09-16 Text-to-Text Pre-Training for Data-to-Text Tasks, Mihir+, Google Research, INLG20 Comment# 概要 pre-training済みのT5に対して、Data2Textのデータセットでfinetuningを実施する方法を提案。WebNLG(graph-to-text), ToTTo(table-to-text), Multiwoz(task oriented dialogue)データにおいて# ... #NeuralNetwork#MachineLearning#Pocket
Issue Date: 2021-06-09 All Word Embeddings from One Embedding, Takase+, NeurIPS20 CommentNLPのためのNN-basedなモデルのパラメータの多くはEmbeddingによるもので、従来は個々の単語ごとに異なるembeddingをMatrixの形で格納してきた。この研究ではモデルのパラメータ数を減らすために、個々のword embeddingをshared embeddingの変換によって ... #PersonalizedDocumentSummarization#DocumentSummarization#NaturalLanguageGeneration#Metrics#DataToTextGeneration#ConceptToTextGeneration#DialogueGeneration#PersonalizedGeneration
Issue Date: 2021-06-02 NUBIA, EvalNLGEval20 CommentTextGenerationに関するSoTAの性能指標。BLEU, ROUGE等と比較して、人間との相関が高い。 ![image](https://user-images.githubusercontent.com/12249301/120425437-299d5c00-c3a9-11eb-923意 ... #Survey#NaturalLanguageGeneration#Pocket
Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv20 #Analysis#Transformer
Issue Date: 2024-10-07 What Does BERT Learn about the Structure of Language?, Jawahar+, ACL19 CommentBERT is a recent language representation model that has surprisingly performed well in diverse language understanding benchmarks. This result indicat# ... #Efficiency/SpeedUp#Pocket#LanguageModel#Transformer#Attention
Issue Date: 2024-04-07 Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, N_A, arXiv19 Summaryマルチヘッドアテンションレイヤーのトレーニングは高速かつ簡単だが、増分推論は大きな"keys"と"values"テンソルを繰り返し読み込むために遅くなることがある。そこで、キーと値を共有するマルチクエリアテンションを提案し、メモリ帯域幅要件を低減する。実験により、高速なデコードが可能で、わずかな品質の低下しかないことが確認された。 CommentMulti Query Attention論文。KVのsetに対して、単一のQueryのみでMulti-Head Attentionを代替する。劇的にDecoderのInferenceが早くなりメモリ使用量が減るが、論文中では言及されていない?ようだが、性能と学習の安定性が課題となるようである。 ... image#DocumentSummarization#NeuralNetwork#Extractive
Issue Date: 2023-08-28 Text Summarization with Pretrained Encoders, Liu+ (with Lapata), EMNLP-IJCNLP19 Summary本研究では、最新の事前学習言語モデルであるBERTを使用して、テキスト要約のための一般的なフレームワークを提案します。抽出型モデルでは、新しいエンコーダを導入し、文の表現を取得します。抽象的な要約については、エンコーダとデコーダの最適化手法を異ならせることで不一致を緩和します。さらに、2段階のファインチューニングアプローチによって要約の品質を向上させました。実験結果は、提案手法が最先端の結果を達成していることを示しています。 CommentBERTSUMEXT論文通常のBERTの構造と比較して、文ごとの先頭に[CLS]トークンを挿入し、かつSegment Embeddingsを文ごとに交互に変更することで、文のrepresentationを取得できるようにする。 その後、encodingされたsentenceの[CLS]トークンに対応 ... image#DocumentSummarization#Pocket#Evaluation
Issue Date: 2023-08-16 Neural Text Summarization: A Critical Evaluation, Krysciski+ (w_ Richard Socher), EMNLP-IJCNLP19 Summaryテキスト要約の研究は進展が停滞しており、データセット、評価指標、モデルの3つの要素に問題があることが指摘されている。自動収集されたデータセットは制約が不十分であり、ノイズを含んでいる可能性がある。評価プロトコルは人間の判断と相関が弱く、重要な特性を考慮していない。モデルはデータセットのバイアスに過適合し、出力の多様性が限られている。 #DocumentSummarization#Metrics#Evaluation#QA-based
Issue Date: 2023-08-16 Question answering as an automatic evaluation metric for news article summarization, Eyal+, NAACL19 Summary最近の自動要約の研究では、ROUGEスコアの最大化に焦点を当てているが、本研究では代替的な評価指標であるAPESを提案する。APESは、要約が一連の手動作成質問に答える能力を定量化する。APESを最大化するエンドツーエンドのニューラル抽象モデルを提案し、ROUGEスコアを向上させる。 CommentAPES ... #DocumentSummarization#Metrics#Evaluation
Issue Date: 2023-08-16 Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, Peyrard+, ACL19 Summary自動評価メトリックは通常、人間の判断との相関性を基準に比較されるが、既存の人間の判断データセットは限られている。現代のシステムはこれらのデータセット上で高スコアを出すが、評価メトリックの結果は異なる。高スコアの要約に対する人間の判断を収集することで、メトリックの信頼性を解決することができる。これは要約システムとメトリックの改善に役立つ。 Comment要約のメトリックがhuman judgmentsに対してcorrelationが低いことを指摘 ... #DocumentSummarization#NaturalLanguageGeneration#Pocket
Issue Date: 2023-08-13 HighRES: Highlight-based Reference-less Evaluation of Summarization, Hardy+, N_A, ACL19 Summary要約の手動評価は一貫性がなく困難なため、新しい手法であるHighRESを提案する。この手法では、要約はソースドキュメントと比較して複数のアノテーターによって評価され、ソースドキュメントでは重要な内容がハイライトされる。HighRESはアノテーター間の一致度を向上させ、システム間の違いを強調することができることを示した。 Comment人手評価の枠組み ... #DocumentSummarization#MachineTranslation#Evaluation#TrainedMetrics
Issue Date: 2023-08-13 Machine Translation Evaluation with BERT Regressor, Hiroki Shimanaka+, N_A, arXiv19 Summary私たちは、BERTを使用した自動的な機械翻訳の評価メトリックを紹介します。実験結果は、私たちのメトリックがすべての英語対応言語ペアで最先端のパフォーマンスを達成していることを示しています。 #DocumentSummarization#Evaluation#Reference-based
Issue Date: 2023-08-13 MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance, Zhao+, EMNLP-IJCNLP19 Summary本研究では、テキスト生成システムの評価尺度について調査し、システムの出力と参照テキストの意味に基づいて比較する尺度を提案します。この尺度は、要約、機械翻訳、画像キャプション、データからテキストへの生成などのタスクで有効であり、文脈化表現と距離尺度を組み合わせたものが最も優れています。また、提案した尺度は強力な汎化能力を持っており、ウェブサービスとして提供されています。 CommentWord Mover Distance (WMD)の解説: https://yubessy.hatenablog.com/entry/2017/01/10/122737 ... #DocumentSummarization#Evaluation#Reference-free#QA-based
Issue Date: 2023-08-13 Answers Unite Unsupervised Metrics for Reinforced Summarization Models, Scialom+, EMNLP-IJCNLP19 Summary最近、再強化学習(RL)を使用した抽象的要約手法が提案されており、従来の尤度最大化を克服するために使用されています。この手法は、複雑で微分不可能なメトリクスを考慮することで、生成された要約の品質と関連性を総合的に評価することができます。ROUGEという従来の要約メトリクスにはいくつかの問題があり、代替的な評価尺度を探求する必要があります。報告された人間評価の分析によると、質問応答に基づく提案されたメトリクスはROUGEよりも有利であり、参照要約を必要としないという特徴も持っています。これらのメトリクスを使用してRLベースのモデルをトレーニングすることは、現在の手法に比べて改善をもたらします。 CommentSummaQA ... #PersonalizedDocumentSummarization#DocumentSummarization#Personalization
Issue Date: 2023-05-08 Towards Personalized Review Summarization via User-Aware Sequence Network, Li+, AAAI19 Comment同じレビューに対しても、異なるユーザは異なるSumamryを生成するよね、というところがモチベーションとなり、Personalized Review Summarizationを提案。初めてPersonalizationの問題について提案した研究。 ![image](https://user-imu ... #DocumentSummarization#review
Issue Date: 2023-05-06 Neural Review Summarization Leveraging User and Product Information, Liu+, CIKM19 #NeuralNetwork#Library
Issue Date: 2022-07-29 Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Reimers+, UKP-TUDA, EMNLP19 CommentBERTでトークンをembeddingし、mean poolingすることで生成される文ベクトルを、Siamese Networkを使い距離学習(finetune)させたモデル。 <img width="655" alt="image" src="https://user-images.githu ... #NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration
Issue Date: 2021-10-08 Table-to-Text Generation with Effective Hierarchical Encoder on Three Dimensions (Row, Column and Time), Gong+, Harbin Institute of Technology, EMNLP19 Comment## 概要 既存研究では、tableをレコードの集合, あるいはlong sequenceとしてencodeしてきたが 1. other (column) dimensionの情報が失われてしまう (?) 2. table cellは時間によって変化するtime-series data![imag ... #NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration
Issue Date: 2021-06-26 Data-to-Text Generation with Content Selection and Planning, Puduppully+, AAAI19 CommentRotowire Datasetに対するData2Text研究において代表的な論文の一つ。Wisemanモデル #207 と共にベースラインとして利用されることが多い。実装: https://github.com/ratishsp/data2text-plan-py ... #NeuralNetwork#ComputerVision#Pocket
Issue Date: 2021-06-15 On Empirical Comparisons of Optimizers for Deep Learning, Dami Choi+, N_A, arXiv19 Summary深層学習のオプティマイザの比較は重要であり、ハイパーパラメータの探索空間が性能に影響することが示唆されている。特に、適応的勾配法は常に他のオプティマイザよりも性能が低下しないことが実験で示されており、ハイパーパラメータのチューニングに関する実用的なヒントも提供されている。 CommentSGD, Momentum,RMSProp, Adam,NAdam等の中から、どの最適化手法(Optimizer)が優れているかを画像分類と言語モデルにおいて比較した研究(下記日本語解説記事から引用)日本語での解説: https://akichan-f.medium.com/optimizerはどれ ... #Pocket#CommentGeneration#Personalization
Issue Date: 2019-09-11 Automatic Generation of Personalized Comment Based on User Profile, Zeng+, arXiv19 #NeuralNetwork#Pocket#CommentGeneration
Issue Date: 2019-08-24 Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model, Li+ ,arXiv19 #NaturalLanguageGeneration#Pocket#ReviewGeneration
Issue Date: 2019-08-17 User Preference-Aware Review Generation, Wang+, PAKDD19 #RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#ReviewGeneration
Issue Date: 2019-05-31 Multimodal Review Generation for Recommender Systems, Truong+, WWW19 CommentPersonalized Review Generationと、Rating Predictionを同時学習した研究(同時学習自体はすでに先行研究がある)。 また、先行研究のinputは、たいていはuser, itemであるが、multi-modalなinputとしてレビューのphotoを活用した ... #Pocket#DialogueGeneration
Issue Date: 2019-01-24 Training Millions of Personalized Dialogue Agents, Mazaré, ACL19 #NeuralNetwork#NaturalLanguageGeneration#Pocket#ContextAware
Issue Date: 2019-01-24 Response Generation by Context-aware Prototype Editing, Wu+, AAAI19 #DocumentSummarization#Metrics#Pocket#Evaluation#QA-based
Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI18 Summary自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 CommentQGQAを提案した研究 ... #Hallucination#ImageCaptioning
Issue Date: 2023-08-16 Object hallucination in image captioning, Rohbach+, EMNLP18 Summary現代の画像キャプションモデルは、オブジェクトの幻覚を生じる傾向がある。本研究では、新しい画像関連性の評価指標を提案し、モデルのアーキテクチャや学習目標が幻覚にどのように寄与するかを評価する。さらに、言語の先入観によるエラーが幻覚を引き起こすことも示された。 #PersonalizedDocumentSummarization#Pocket#review
Issue Date: 2023-05-06 A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification, Shuming Ma+, N_A, arXiv18 Summaryテキスト要約と感情分類を共同学習するための階層的なエンドツーエンドモデルを提案し、感情分類ラベルをテキスト要約の出力の「要約」として扱う。提案モデルはAmazonオンラインレビューデータセットでの実験で、抽象的な要約と感情分類の両方で強力なベースラインシステムよりも優れた性能を発揮することが示された。 Commentreview summarizationに初めてamazon online review data #653 使った研究? ... #NeuralNetwork#Embeddings#RepresentationLearning
Issue Date: 2022-06-08 Deep contextualized word representations, Peters+, Allen Institute for Artificial intelligence, NAACL18 CommentELMo論文。通常のword embeddingでは一つの単語につき一つの意味しか持たせられなかったが、文脈に応じて異なる意味を表現できるようなEmbeddingを実現し(同じ単語でも文脈に応じて意味が変わったりするので。たとえばrightは文脈に応じて右なのか、正しいなのか、権利なのか意味が変わs ... #NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration
Issue Date: 2021-10-25 Point precisely: Towards ensuring the precision of data in generated texts using delayed copy mechanism., Li+, Peking University, COLING18 Comment# 概要 DataToTextタスクにおいて、生成テキストのデータの精度を高める手法を提案。two stageアルゴリズムを提案。①encoder-decoerモデルでslotを含むテンプレートテキストを生成。②Copy Mechanismでslotのデータを埋める、といった手法。 ①と②はそれ ... #NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration
Issue Date: 2021-09-16 Operation-guided Neural Networks for High Fidelity Data-To-Text Generation, Nie+, Sun Yat-Sen University, EMNLP18 Comment# 概要 既存のニューラルモデルでは、生データ、あるいはそこから推論された事実に基づいて言語を生成するといったことができていない(e.g. 金融, 医療, スポーツ等のドメインでは重要)。 たとえば下表に示した通り、"edge"という単語は、スコアが接戦(95-94=1 -> スコアの差が小さい# ... #NeuralNetwork#Pocket#CommentGeneration
Issue Date: 2019-08-24 Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures, Lin+, WWW18 #RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#Pocket#ReviewGeneration
Issue Date: 2019-08-17 Improving Explainable Recommendations with Synthetic Reviews, Ouyang+, RecSys18 #NeuralNetwork#ReviewGeneration
Issue Date: 2019-04-12 Personalized Review Generation by Expanding Phrases and Attending on Aspect-Aware Representations, Ni+, ACL18 Comment![image](https://user-images.githubusercontent.com/12249301/56010165-8fd44a00-5d1d-11e9-8cad-81a5178d95d2.png) Personalized Review Generationタスクを、uPy ... #NeuralNetwork#NaturalLanguageGeneration#Pocket
Issue Date: 2019-01-24 A Knowledge-Grounded Neural Conversation Model, Ghazvininejad+, AAAI18, #Pocket#ReviewGeneration#Personalization
Issue Date: 2018-07-25 Personalized Review Generation by Expanding Phrases and Attending on Aspect-Aware Representations, Ni+, ACL18 #DocumentSummarization#Dataset
Issue Date: 2018-06-29 Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies, Max+, NAACL18 Comment文書要約に使用可能なデータセット 38の出版元からデータを収集し、サイズは1.3M article程度 既存のデータセットと比較すると、Coverageが高く生成的なものを多く含むことが特徴 詳細は:https://summari.es ... #NeuralNetwork#Pocket#DialogueGeneration
Issue Date: 2018-02-08 Personalizing Dialogue Agents: I have a dog, do you have pets too?, Zhang+, arXiv18 #NaturalLanguageGeneration#Metrics#Evaluation
Issue Date: 2023-08-16 Why We Need New Evaluation Metrics for NLG, EMNLP17 SummaryNLGの評価には自動評価指標が使われているが、本研究ではシステムやデータに依存しない新しい評価手法の必要性を提案する。幅広い指標を調査し、それらがデータ駆動型のNLGによって生成されたシステムの出力の人間の判断を弱く反映していることを示す。また、評価指標の性能はデータとシステムに依存することも示すが、自動評価指標はシステムレベルで信頼性があり、システムの開発をサポートできることを示唆する。特に、低いパフォーマンスを示すケースを見つけることができる。 Comment既存のNLGのメトリックがhuman judgementsとのcorrelationがあまり高くないことを指摘した研究 ... #Dataset#STS (SemanticTextualSimilarity)
Issue Date: 2023-07-31 Construction of a Japanese Word Similarity Dataset, Yuya Sakaizawa+, N_A, arXiv17 Summary日本語の分散表現の評価のために、日本語の単語の類似性データセットを構築した。このデータセットは、日本語の分散表現の評価に使用できる初めてのリソースであり、一般的な単語だけでなく珍しい単語も含まれている。 Commentgithub: https://github.com/tmu-nlp/JapaneseWordSimilarityDataset 単語レベルの類似度をベンチマーキングしたい場合は使ってもよいかも。 ... #RecommenderSystems#NeuralNetwork#ReviewGeneration
Issue Date: 2019-04-12 Neural rating regression with abstractive tips generation for recommendation, Li+, SIGIR17 CommentRating Predictionとtips generationを同時に行うことで、両者の性能を向上させた最初の研究。 tipsとは、ユーザの経験や感じたことを、短いテキスト(1文とか)で簡潔に記したもの。![image](https://user-images.githubusercontent ... #NeuralNetwork#ReviewGeneration
Issue Date: 2019-04-12 Towards automatic generation of product reviews from aspectsentiment scores, Zang+, INLG17 CommenthierarchicalなNNで、long reviewの生成に取り組んだ論文 ... #NeuralNetwork#ReviewGeneration
Issue Date: 2019-03-08 Learning to Generate Product Reviews from Attributes, Dong+, EACL17 Comment(たぶん)最初のreview generation論文 ... #RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#CollaborativeFiltering#ReviewGeneration
Issue Date: 2019-02-01 Estimating Reactions and Recommending Products with Generative Models of Reviews, Ni+, IJCNLP17 CommentCollaborative Filtering (CF) によるコンテンツ推薦とReview Generationを同時に学習し、 両者の性能を向上させる話。 非常に興味深い設定で、このような実験設定でReview Generationを行なった初めての研究。CFではMatrix Factoriza ... #Multi#DocumentSummarization#Document#Pocket#VariationalAutoEncoder
Issue Date: 2018-10-05 Salience Estimation via Variational Auto-Encoders for Multi-Document Summarization, Li+, AAAI17 #QuestionAnswering
Issue Date: 2018-06-29 Learning to Paraphrase for Question Answering, Dong+, EMNLP17 Commentquestion-answeringタスクにおいて、paraphrasingを活用して精度向上させる研究 似たような意味の質問が、異なる表現で出現することがあるので、 questionの様々なparaphrasingを用意して活用したいという気持ち。 たとえば、 Is the camQAはデータセ ... #NeuralNetwork#Survey
Issue Date: 2018-02-04 Recent Trends in Deep Learning Based Natural Language Processing, Young+, arXiv17 #NeuralNetwork#Pocket#GenerativeAdversarialNetwork
Issue Date: 2018-02-04 Adversarial Ranking for Language Generation, Lin+, NIPS17 #NeuralNetwork#MachineTranslation
Issue Date: 2018-01-19 Attention is all you need, Vaswani+, arXiv17 CommentTransformer (self-attentionを利用) 論文 解説スライド:https://www.slideshare.net/DeepLearningJP2016/dlattention-is-all-you-need 解説記事:https://qiita.com/nishiba/i分か ... #Dataset#Discourse
Issue Date: 2018-01-19 Characterizing Online Discussion Using Coarse Discourse Sequences, Zhang+, ICWSM17, (Reddit Coarse Discourse data) CommentRedditのDiscussion Forumに9種類のDiscourse Actsを付与したデータ。 データを作成する際は、以下の処理を適用: * Google Big Query dump のRedditデータ238Mスレッド * それにReply Filterをかけ87.5Mスレッド ... #NeuralNetwork#Tutorial#MachineTranslation
Issue Date: 2018-01-15 ゼロから始める ニューラルネットワーク機械翻訳, 中澤敏明, NLP17 Comment中澤さんによるNMTチュートリアル。 ... #RecommenderSystems#Pocket
Issue Date: 2018-01-01 MoodSwipe: A Soft Keyboard that Suggests Messages Based on User-Specified Emotions, Huang+, EMNLP17 #Embeddings#Pocket#UserModeling
Issue Date: 2018-01-01 Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction, Ding+, EMNLP17 #DocumentSummarization#NeuralNetwork#Document#Supervised#Pocket
Issue Date: 2018-01-01 Coarse-to-Fine Attention Models for Document Summarization, Ling+ (with Rush), ACL17 Workshop on New Frontiers in Summarization #Pocket
Issue Date: 2018-01-01 Adapting Sequence Models for Sentence Correction, Schmaltz (with Rush), EMNLP17 #NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration
Issue Date: 2018-01-01 Challenges in Data-to-Document Generation, Wiseman+ (with Rush), EMNLP17 Comment・RotoWire(NBAのテーブルデータ + サマリ)データを収集し公開 ![image](https://user-images.githubusercontent.com/12249301/119625430-23f1c480-be45-11eb-8ff8-5e9223d41481.png)【 ... #DocumentSummarization#Metrics
Issue Date: 2018-01-01 Why We Need New Evaluation Metrics for NLG, Novikova+, EMNLP17 Comment解説スライド:https://www.dropbox.com/s/7o8v64nr6gyj065/20170915_SNLP2017_Nishikawa.pptx?dl=0言語生成の評価指標が信用ならないので、3種類の生成器、3種類のデータを用意し、多数の自動評価尺度を利用した評価結果と人手評価の結 ... #Single#DocumentSummarization#NeuralNetwork#Document#Supervised#Abstractive
Issue Date: 2017-12-31 Get To The Point: Summarization with Pointer-Generator Networks, See+, ACL17 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/get-to-the-point-summarization-with-pointergenerator-networks/1単語の生成と単語のコピーの両方を行えるハイブリッドなニューラル文書 ... #DocumentSummarization#Supervised#Pocket#Abstractive
Issue Date: 2017-12-31 A Deep Reinforced Model for Abstractive Summarization, Paulus+(with Socher), arXiv17 #DocumentSummarization#NeuralNetwork#Supervised#Pocket#Abstractive
Issue Date: 2017-12-31 Cutting-off redundant repeating generations for neural abstractive summarization, Suzuki+, EACL17 #Multi#DocumentSummarization#NeuralNetwork#Document#Supervised#GraphBased#GraphConvolutionalNetwork#Extractive
Issue Date: 2017-12-31 Graph-based Neural Multi-Document Summarization, Yasunaga+, arXiv17 CommentGraph Convolutional Network (GCN)を使って、MDSやりましたという話。 既存のニューラルなMDSモデル [Cao et al., 2015, 2017] では、sentence間のrelationが考慮できていなかったが、GCN使って考慮した。 また、MDSの学習デー ... #DocumentSummarization#Survey
Issue Date: 2017-12-31 Recent Advances in Document Summarization, Yao+, Knowledge and Information Systems17 #NeuralNetwork#NaturalLanguageGeneration#Pocket
Issue Date: 2017-12-31 Generating Sentences by Editing Prototypes, Guu+, arXiv17 #NeuralNetwork#NaturalLanguageGeneration#Controllable#DataToTextGeneration#ConceptToTextGeneration
Issue Date: 2017-12-31 Toward Controlled Generation of Text, Hu+, ICML17 CommentText Generationを行う際は、現在は基本的に学習された言語モデルの尤度に従ってテキストを生成するのみで、outputされるテキストをcontrolすることができないので、できるようにしましたという論文。 VAEによるテキスト生成にGANを組み合わせたようなモデル。 decodingする元 ... #NeuralNetwork#ComputerVision#NaturalLanguageGeneration
Issue Date: 2017-12-31 Multi-Task Video Captioning with Video and Entailment Generation, Pasunuru+, ACL17 Comment解説スライド:https://www.slideshare.net/HangyoMasatsugu/hangyo-acl-paperreading2017multitask-video-captioning-with-video-and-entailment-generation/1multitas ... #Survey#NaturalLanguageGeneration#DataToTextGeneration#ConceptToTextGeneration
Issue Date: 2017-12-31 Neural Text Generation: A Practical Guide, Xie+, arXiv17 #Survey#NaturalLanguageGeneration#DataToTextGeneration#ConceptToTextGeneration
Issue Date: 2017-12-31 Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation, Gatt+, arXiv17 Comment割と新し目のNLGのSurvey ... #NeuralNetwork#Pretraining#Unsupervised
Issue Date: 2017-12-31 Unsupervised Pretraining for Sequence to Sequence Learning, Ramachandran+, EMNLP17 Commentseq2seqにおいてweightのpretrainingを行う手法を提案 seq2seqでは訓練データが小さいとoverfittingしやすいという弱点があるので、大規模なデータでunsupervisedにpretrainingし、その後目的のデータでfinetuneすることで精度を向上させまし ... #NeuralNetwork#Efficiency/SpeedUp
Issue Date: 2017-12-31 Learning to skim text, Yu+, ACL17 Comment解説スライド:http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/07.pdf![image](https://user-images.githubusercontent.com/12249301/34460775-f64d4 ... #NeuralNetwork#Embeddings#Analysis#Word
Issue Date: 2017-12-30 Skip-Gram – Zipf + Uniform = Vector Additivity, Gittens+, ACL17 Comment解説スライド:http://www.lr.pi.titech.ac.jp/~haseshun/acl2017suzukake/slides/09.pdfEmbeddingの加法構成性(e.g. man+royal=king)を理論的に理由づけ (解説スライドより) ... #NeuralNetwork#Embeddings#Word
Issue Date: 2017-12-29 Poincare Embeddings for Learning Hierarchical Representations, Nickel+, NIPS17 Comment解説: http://tech-blog.abeja.asia/entry/poincare-embeddings 解説スライド:https://speakerdeck.com/eumesy/poincare-embeddings-for-learning-hierarchical-represe・ ... #NeuralNetwork#Sentence#Embeddings
Issue Date: 2017-12-28 Supervised Learning of Universal Sentence Representations from Natural Language Inference Data, Conneau+, EMNLP17 Commentslide: https://www.slideshare.net/naoakiokazaki/supervised-learning-of-universal-sentence-representations-from-natural-language-inference-data汎用的な文のエン ... #NeuralNetwork#Sentence#Embeddings
Issue Date: 2017-12-28 A structured self-attentive sentence embedding, Li+ (Bengio group), ICLR17 #NeuralNetwork#MachineTranslation
Issue Date: 2017-12-28 What do Neural Machine Translation Models Learn about Morphology?, Belinkov+, ACL17 #NeuralNetwork#MachineTranslation
Issue Date: 2017-12-28 Sequence-to-Dependency Neural Machine Translation, Wu+, ACL17 #NeuralNetwork#MachineTranslation
Issue Date: 2017-12-28 Neural Machine Translation with Source-Side Latent Graph Parsing, Hashimoto+, arXiv17 #PersonalizedDocumentSummarization#InteractivePersonalizedSummarization#IntegerLinearProgramming (ILP)
Issue Date: 2017-12-28 Joint Optimization of User-desired Content in Multi-document Summaries by Learning from User Feedback, P.V.S+, ACL17, 2017.08 Comment# 一言で言うと ユーザとインタラクションしながら重要なコンセプトを決め、そのコンセプトが含まれるようにILPな手法で要約を生成するPDS手法。Interactive Personalized Summarizationと似ている(似ているが引用していない、引用した方がよいのでは)。 # 手 ... #Pocket#Dataset#QuestionAnswering#ReadingComprehension
Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv16 SummaryNewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 CommentSQuADよりも回答をするために複雑な推論を必要とするQAデータセット。規模感はSQuADと同等レベル。 WordMatchingにとどまらず、回答が存在しない、あるいは記事中でユニークではないものも含まれる。 ... image#DocumentSummarization#MachineTranslation#NaturalLanguageGeneration#Metrics#Evaluation#Coherence
Issue Date: 2023-08-13 Lexical Coherence Graph Modeling Using Word Embeddings, Mesgar+, NAACL16 Comment__translate: Coherence is established by semantic connections between sentences of a text which can be modeled by lexical relations. In this paper, we ... #DocumentSummarization#NeuralNetwork#NaturalLanguageGeneration#Pocket
Issue Date: 2018-10-06 Neural Headline Generation with Minimum Risk Training, Ayana+, N_A, arXiv16 Summary自動見出し生成のために、最小リスクトレーニング戦略を使用してモデルパラメータを最適化し、見出し生成の改善を実現する。提案手法は英語と中国語の見出し生成タスクで最先端のシステムを上回る性能を示す。 #NeuralNetwork#NaturalLanguageGeneration#Pocket
Issue Date: 2018-02-14 Generating Sentences from a Continuous Space, Bowman+, CoNLL16 CommentVAEを利用して文生成【Variational Autoencoder徹底解説】 https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24 ... #NeuralNetwork#Tutorial#SentimentAnalysis
Issue Date: 2018-01-01 Neural Network for Sentiment Analysis, EMNLP16 #Single#DocumentSummarization#Document#DomainAdaptation#Supervised#Extractive
Issue Date: 2018-01-01 Learning from Numerous Untailored Summaries, Kikuchi+, PRICAI16 CommentNew York Times Annotated Corpus(NYTAC)に含まれる大量の正解要約データを利用する方法を提案。 NYTACには650,000程度の人手で生成された参照要約が付与されているが、このデータを要約の訓練データとして活用した事例はまだ存在しないので、やりましたという話。 ... #Single#DocumentSummarization#NeuralNetwork#Document#Supervised#Abstractive
Issue Date: 2017-12-31 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL16 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/incorporating-copying-mechanism-in-sequene-to-sequence-learning単語のコピーと生成、両方を行えるネットワークを提案。 locati ... #Single#DocumentSummarization#NeuralNetwork#Document#Supervised#Abstractive
Issue Date: 2017-12-31 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI16 CommentNeuralなモデルで「文書」の要約を行う研究。 提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。 distractionを導入するmotivationは、入力文書中の異なる情報を横断 ... #Single#DocumentSummarization#NeuralNetwork#Document#Supervised#Extractive
Issue Date: 2017-12-31 Neural Summarization by Extracting Sentences and Words, Cheng+, ACL16 CommentExtractiveかつNeuralな単一文書要約ならベースラインとして使用した方がよいかも ... #NaturalLanguageGeneration#Others#DataToTextGeneration
Issue Date: 2017-12-31 Deep Match between Geology Reports and Well Logs Using Spatial Information, Tong+, CIKM16 #NeuralNetwork#NaturalLanguageGeneration#Dataset#ConceptToTextGeneration
Issue Date: 2017-12-31 Neural Text Generation from Structured Data with Application to the Biography Domain, Lebret+, Lebret+, EMNLP16 #Survey#NaturalLanguageGeneration#DataToTextGeneration#ConceptToTextGeneration
Issue Date: 2017-12-31 Content Selection in Data-to-Text Systems: A Survey, arXiv16, Gkatzia CommentGkatziaの"content selection"に関するSurvey ... #NeuralNetwork#BeamSearch
Issue Date: 2017-12-30 Sequence-to-Sequence Learning as Beam-Search Optimization, Wiseman+, EMNLP16 Commentseq2seqを学習する際には、gold-history(これまで生成した単語がgoldなものと一緒)を使用し、次に続く単語の尤度を最大化するように学習するが、これには、 1. Explosure Bias: test時ではtraining時と違いgold historyを使えないし、trai ... #NeuralNetwork#Sentence#LanguageModel
Issue Date: 2017-12-28 Larger-context language modelling with recurrent neural networks, Wang+, ACL16 Comment## 概要 通常のNeural Language Modelはsentence間に独立性の仮定を置きモデル化されているが、この独立性を排除し、preceding sentencesに依存するようにモデル化することで、言語モデルのコーパスレベルでのPerplexityが改善したという話。提案した言語 ... #DocumentSummarization#NeuralNetwork#Document#Supervised#Abstractive
Issue Date: 2017-12-28 Distraction-Based Neural Networks for Modeling Documents, Chen+, IJCAI16 CommentNeuralなモデルで「文書」の要約を行う研究。 提案手法では、attention-basedなsequence-to-sequenceモデルにdistractionと呼ばれる機構を導入することを提案。 distractionを導入するmotivationは、入力文書中の異なる情報を横断Dist ... #NeuralNetwork#Sentence#Embeddings
Issue Date: 2017-12-28 Learning Distributed Representations of Sentences from Unlabelled Data, Hill+, NAACL16 CommentSentenceのrepresentationを学習する話 代表的なsentenceのrepresentation作成手法(CBOW, SkipGram, SkipThought, Paragraph Vec, NMTなど)をsupervisedな評価(タスク志向+supervised)とun ... #NeuralNetwork#MachineTranslation
Issue Date: 2017-12-28 Pointing the unknown words, Gulcehre+, ACL16 Commentテキストを生成する際に、source textからのコピーを行える機構を導入することで未知語問題に対処した話CopyNetと同じタイミングで(というか同じconferenceで)発表 ... #DocumentSummarization#MachineTranslation#NaturalLanguageGeneration#Metrics#Reference-based
Issue Date: 2023-08-13 chrF: character n-gram F-score for automatic MT evaluation, Mono Popovic, WMT15 Summary私たちは、機械翻訳の評価に文字n-gram Fスコアを使用することを提案します。私たちは、このメトリックがシステムレベルとセグメントレベルで人間のランキングと相関しており、特にセグメントレベルでの相関が非常に高いことを報告しました。この提案は非常に有望であり、WMT14の共有評価タスクでも最高のメトリックを上回りました。 Commentcharacter-basedなn-gram overlapをreferenceとシステムで計算する手法 ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#Evaluation#Reference-based
Issue Date: 2023-08-13 From word embeddings to document distances, Kusner+, PMLR15 Summary私たちは、新しい距離関数であるWord Mover's Distance(WMD)を提案しました。WMDは、テキストドキュメント間の非類似性を測定するために使用されます。私たちの研究では、単語埋め込みの最新の結果に基づいてWMDを開発しました。WMDは、単語が別のドキュメントの単語に到達するために必要な最小距離を計算します。私たちのメトリックは、実装が簡単であり、ハイパーパラメータも必要ありません。さらに、私たちは8つの実世界のドキュメント分類データセットでWMDメトリックを評価し、低いエラーレートを示しました。 CommentWMS/SMS/S+WMS #946 はこれらからinspiredされ提案された ... #MachineTranslation#Pocket#Evaluation
Issue Date: 2023-08-13 Document-Level Machine Translation Evaluation with Gist Consistency and Text Cohesion, Gong+, DiscoMT15 #DocumentSummarization#ComputerVision#NaturalLanguageGeneration#Pocket#Evaluation#ImageCaptioning#Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR15 Summary画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #NeuralNetwork#MachineTranslation
Issue Date: 2021-06-02 Effective Approaches to Attention-based Neural Machine Translation, Luong+, arXiv15 CommentLuong論文。attentionの話しはじめると、だいたいBahdanau+か、Luong+論文が引用される。 Global Attentionと、Local Attentionについて記述されている。Global Attentionがよく利用される。 Global Attentionやはり菊 ... #LanguageModel
Issue Date: 2018-03-30 Unsupervised prediction of acceptability judgements, Lau+, ACL-IJCNLP15 Comment文のacceptability(容認度)論文。 文のacceptabilityとは、native speakerがある文を読んだときに、その文を正しい文として容認できる度合いのこと。 acceptabilityスコアが低いと、Readabilityが低いと判断できる。 言語モデルをトレーニング ... #NeuralNetwork
Issue Date: 2018-02-13 Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks, Tai+, ACL15 CommentTree-LSTM論文 ... #DocumentSummarization#Metrics
Issue Date: 2018-01-01 Re-evaluating Automatic Summarization with BLEU and 192 Shades of ROUGE, Graham, EMNLP15 Comment文書要約で使用されているMetric、特にBLEUやROUGEの結果(可能な192のパターン)と、人手の結果との相関を再分析している。 その結果、BLEUがもっとも人手評価との相関が高く、ROUGE-2のPrecisionの平均(ステミング、stop words除去)がROUGEの中でbest- ... #DocumentSummarization#NeuralNetwork#Sentence#Supervised#Abstractive
Issue Date: 2017-12-31 A Neural Attention Model for Sentence Summarization, Rush+, EMNLP15 Comment解説スライド:https://www.slideshare.net/akihikowatanabe3110/a-neural-attention-model-for-sentence-summarization-65612331 ... #Single#DocumentSummarization#NeuralNetwork#Sentence#Document#Dataset#Abstractive
Issue Date: 2017-12-28 LCSTS: A large scale chinese short text summarizatino dataset, Hu+, EMNLP15 CommentLarge Chinese Short Text Summarization (LCSTS) datasetを作成 データセットを作成する際は、Weibo上の特定のorganizationの投稿の特徴を利用。 Weiboにニュースを投稿する際に、投稿の冒頭にニュースのvery short sCop ... #NeuralNetwork#Document#Embeddings
Issue Date: 2017-12-28 A hierarchical neural autoencoder for paragraphs and documents, Li+, ACL15 Comment複数文を生成(今回はautoencoder)するために、standardなseq2seq LSTM modelを、拡張したという話。 要は、paragraph/documentのrepresentationが欲しいのだが、アイデアとしては、word-levelの情報を扱うLSTM layerとtr ... #NeuralNetwork#Document#Embeddings#SentimentAnalysis
Issue Date: 2017-12-28 Document Modeling with Gated Recurrent Neural Network for Sentiment Classification, Tang+, EMNLP15 Commentword level -> sentence level -> document level のrepresentationを求め、documentのsentiment classificationをする話。 documentのRepresentationを生成するときに参考になるやも。 sen ... #DocumentSummarization#NeuralNetwork#Sentence
Issue Date: 2017-12-28 Sentence Compression by Deletion with LSTMs, Fillipova+, EMNLP15 Commentslide:https://www.slideshare.net/akihikowatanabe3110/sentence-compression-by-deletion-with-lstms ... #ReviewGeneration#Personalization
Issue Date: 2017-12-28 Extended Recommendation Framework: Generating the Text of a User Review as a Personalized Summary Poussevin+, CBRecsys15, 2015.09 Commentreview generationの結果をrating predictionに伝搬することで性能よくしました、という話だと思う ... #DocumentSummarization#review
Issue Date: 2023-05-08 Empirical analysis of exploiting review helpfulness for extractive summarization of online reviews, Xiong+, COLING14 Commentレビューのhelpfulnessを利用したunsupervisedなreview summarization手法を提案。helpfulessによりレビューをフィルタリングするだけでなく、トピックモデルでsentenceをクラスタリングする際にhelpfulnessの情報も活用している模様。 最 ... #DocumentSummarization#Others
Issue Date: 2018-01-01 Detecting information-dense texts in multiple news domains, Yang+, AAAI14 Commentニュース記事の第一段落目がinformativeか否か(重要なfactual informationが記述されているか否か)を分類する研究。 New York Times Annotated Corpusに対して、自動的にinformative, non-informativeなラベルづけを行う手 ... #Multi#Single#DocumentSummarization#Document#Unsupervised#GraphBased#Extractive
Issue Date: 2018-01-01 CTSUM: Extracting More Certain Summaries for News Articles, Wan+, SIGIR14 Comment要約を生成する際に、情報の”確実性”を考慮したモデルCTSUMを提案しましたという論文(今まではそういう研究はなかった) ``` "However, it seems that Obama will not use the platform to relaunch his stalled d解説ス ... #Single#DocumentSummarization#Document#Supervised#Abstractive#Extractive
Issue Date: 2018-01-01 Learning to Generate Coherent Sumamry with Discriminative Hidden Semi-Markov Model, Nishikawa+, COLING14 CommentHidden-semi-markovモデルを用いた単一文書要約手法を提案。 通常のHMMでは一つの隠れ状態に一つのunit(要約の文脈だと文?)が対応するが、hidden-semi-markov(HSMM)モデルでは複数のunitを対応づけることが可能。 隠れ状態に対応するunitを文だと考評価に ... #NaturalLanguageGeneration#Others#DataToTextGeneration
Issue Date: 2017-12-31 Comparing Multi-label Classification with Reinforcement Learning for Summarization of Time-series Data, Gkatzia+, ACL14 #Multi#DocumentSummarization#Extractive
Issue Date: 2017-12-28 Hierarchical Summarization: Scaling Up Multi-Document Summarization, Christensen+, ACL14 Comment## 概要 だいぶ前に読んだ。好きな研究。 テキストのsentenceを階層的にクラスタリングすることで、抽象度が高い情報から、関連する具体度の高いsentenceにdrill downしていけるInteractiveな要約を提案している。 ## 手法 通常のMDSでのデータセットの規模は上位に紐 ... #DocumentSummarization#Evaluation
Issue Date: 2023-08-23 Automatically Assessing Machine Summary Content Without a Gold Standard, Louis+(w_ Nenkova), ACL13 Summary本研究では、要約の評価において新しい技術を提案しています。これにより、人間の要約が利用できない場合や、単一のモデルしか利用できない場合でも正確な評価が可能となります。具体的には、モデルに依存しない評価技術や、システム要約の類似性を定量化する尺度などを提案しています。これにより、要約の評価を人間の評価と正確に再現することができます。また、擬似モデルを導入することで、利用可能なモデルのみを使用する場合よりも人間の判断との相関が高くなることも示しています。さらに、システム要約のランキング方法についても探求しており、驚くほど正確なランキングが可能となります。 Commentメタ評価の具体的な手順について知りたければこの研究を読むべし ... #DocumentSummarization#MachineTranslation#NaturalLanguageGeneration#Metrics#Evaluation#Coherence
Issue Date: 2023-08-13 Graph-based Local Coherence Modeling, Guinaudeau+, ACL13 Summary私たちは、グラフベースのアプローチを提案し、文の順序付け、要約の結束性評価、読みやすさの評価の3つのタスクでシステムを評価しました。このアプローチは、エンティティグリッドベースのアプローチと同等の性能を持ち、計算コストの高いトレーニングフェーズやデータのまばらさの問題にも対処できます。 #MachineTranslation#Alignment
Issue Date: 2018-01-15 The Mathematics of Statistical Machine Translation: Parameter Estimation, Brown+, CL13 CommentIBMモデル論文。 ... #NaturalLanguageGeneration#SingleFramework#ConceptToTextGeneration
Issue Date: 2017-12-31 Inducing document plans for concept-to-text generation, Konstas+, EMNLP13 #DocumentSummarization#Pocket#Evaluation#CrossLingual
Issue Date: 2023-08-13 Evaluating the Efficacy of Summarization Evaluation across Languages, Koto+ (w_ Tim先生), Findings of ACL12 Summaryこの研究では、異なる言語の要約コーパスを使用して、マルチリンガルBERTを用いたBERTScoreが他の要約評価メトリックスよりも優れたパフォーマンスを示すことが示されました。これは、英語以外の言語においても有効であることを示しています。 #DocumentSummarization#MachineTranslation#NaturalLanguageGeneration#Metrics#Evaluation#Coherence
Issue Date: 2023-08-13 Extending Machine Translation Evaluation Metrics with Lexical Cohesion to Document Level, Wong+, EMNLP12 Summaryこの論文では、語彙的な結束を利用して文書レベルの機械翻訳の評価を容易にする方法を提案しています。語彙的な結束は、同じ意味を持つ単語を使って文を結びつけることで、テキストの結束性を実現します。実験結果は、この特徴を評価尺度に組み込むことで、人間の判断との相関を向上させることを示しています。 CommentRC-LC ... #PersonalizedDocumentSummarization#Personalization
Issue Date: 2023-05-05 Context-enhanced personalized social summarization, Po+, COLING12, 18 Commentざっくり言うと、ソーシャルタギングシステムにおいて、ユーザ uと類似したユーザのタグ付け情報と、原文書d _と同じトピックに属する文書をそれぞれ考慮することによって、ユーザのinterestに関する情報(と原文書のinformativenessに関する情報)を拡張し、これらの情報を活用して、全てのク ... #DocumentSummarization#Survey
Issue Date: 2017-12-31 A Survey of Text Summarization Techniques, Nenkova+, Springer12 #NaturalLanguageGeneration#SingleFramework#ConceptToTextGeneration
Issue Date: 2017-12-31 Unsupervised concept-to-text generation with hypergraphs, Konstas+, NAACL-HLT12 #Multi#PersonalizedDocumentSummarization#InteractivePersonalizedSummarization
Issue Date: 2017-12-28 Summarize What You Are Interested In: An Optimization Framework for Interactive Personalized Summarization, Yan+, EMNLP11, 2011.07 Comment![image](https://user-images.githubusercontent.com/12249301/34400733-97c86614-ebd7-11e7-9fe9-a6b36c726a21.png) ユーザとシステムがインタラクションしながら個人向けの要約を生成するタスク ... #DocumentSummarization#Evaluation#QA-based
Issue Date: 2023-08-20 Discourse constraints for document compression, Clarke+ (w_ Lapata), Computational Linguistics10 CommentQAベースドなアプローチを人手評価に導入した初めての研究 ... #NaturalLanguageGeneration#RuleBased#DataToTextGeneration
Issue Date: 2017-12-31 Generating approximate geographic descriptions, Turner+, ENLG10 #NaturalLanguageGeneration#SingleFramework#ConceptToTextGeneration
Issue Date: 2017-12-31 Generative alignment and semantic parsing for learning from ambiguous supervision, Kim+, COLING10 #NaturalLanguageGeneration#SingleFramework#DataToTextGeneration
Issue Date: 2017-12-31 A simple domain-independent probabilistic approach to generation, Angeli+, EMNLP10 #NaturalLanguageGeneration#SingleFramework#DataToTextGeneration
Issue Date: 2017-12-31 Training a multilingual sportscaster: Using perceptual context to learn language, Chen+, Artificial Intelligence Research10 #NaturalLanguageGeneration#Others#ConceptToTextGeneration
Issue Date: 2017-12-31 Learning semantic correspondences with less supervision, Liang+, ACL_IJCNLP09 #NaturalLanguageGeneration#Others#DataToTextGeneration
Issue Date: 2017-12-31 Verbalizing time-series data: with an example of stock price trends, Kobayashi+, IFSA-EUSFLAT09 Comment小林先生の論文 Least Square Methodによって数値データにfittingするcurveを求める。 curveの特徴から、生成するテキストのtrendsを決定する。 ![image](https://user-images.githubusercontent.com/12 ... #Single#PersonalizedDocumentSummarization#SearchEngine
Issue Date: 2017-12-28 Incremental Personalised Summarisation with Novelty Detection, Campana+, FQAS09, 2009.10 #DocumentSummarization#Metrics#Evaluation#Reference-free
Issue Date: 2023-08-13 ROUGE-C: A fully automated evaluation method for multi-document summarization, He+, International Conference on Granular Computing08 Summaryこの論文では、ROUGEを使用して要約を評価する方法について説明しています。ROUGEは、要約評価のために広く使用されていますが、手動の参照要約が必要です。この研究では、ROUGE-Cという手法を開発しました。ROUGE-Cは、参照要約を入力情報に置き換えることで、手動の参照要約なしで要約を評価することができます。実験結果は、ROUGE-Cが人間の判断を含む参照要約とよく相関していることを示しています。 #Pocket#MultitaskLearning
Issue Date: 2018-02-05 A unified architecture for natural language processing: Deep neural networks with multitask learning, Collobert+, ICML2008. CommentDeep Neural Netを用いてmultitask learningを行いNLPタスク(POS tagging, Semantic Role Labeling, Chunking etc.)を解いた論文。 被引用数2000を超える。 multitask learningの学習プロセスな ... #NaturalLanguageGeneration#Others#ConceptToTextGeneration
Issue Date: 2017-12-31 A generative model for parsing natural language to meaning representations, Lu+, EMNLP08 #NaturalLanguageGeneration#SingleFramework#DataToTextGeneration
Issue Date: 2017-12-31 Learning to sportscast: a test of grounded language acquisition, Chen+, ICML08 #Multi#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized PageRank based Multi-document summarization, Liu+, WSCS 08, 2008.07 Comment・クエリがあるのが前提 ・基本的にPersonalized PageRankの事前分布を求めて,PageRankアルゴリズムを適用する ・文のsalienceを求めるモデルと(パラグラフ,パラグラフ内のポジション,statementなのかdialogなのか,文の長さ),クエリとの関連性をはかるr ... #PersonalizedDocumentSummarization#Analysis
Issue Date: 2017-12-28 Aspect-Based Personalized Text Summarization, Berkovsky+(Tim先生のグループ), AH2008, 2008.07 Comment![image](https://user-images.githubusercontent.com/12249301/34401031-b72623e0-ebda-11e7-9da2-6ce16b630f47.png) Aspect-basedなPDSに関して調査した研究。 たとえば、Wi ... #PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Generating Personalized Summaries Using Publicly Available Web Documents, Kumar+, WI-IAT08, 2008.12 Comment評価5人の研究者による人手評価。25種類の異なるトピックが選択され、各トピックには5-10の記事が紐づいている。generic,personalizedな要約を提示しrelevanceを判定してもらった。具体的には、informativenessを5段階評価。データ非公開、ニュース記事を使っ ... #DocumentSummarization#Metrics#Evaluation#Reference-based#TrainedMetrics
Issue Date: 2023-08-14 Supervised automatic evaluation for summarization with voted regression model, Hirao+, Information and Processing & Management07 Summary要約システムの評価には高品質な人間の評価が必要だが、コストが高いため自動評価方法が必要。提案手法は投票回帰モデル(VRM)を使用し、従来の自動評価方法と比較してエラー削減を達成。さらに、最も高い相関係数を得た。 CommentVRM ... #Multi#DocumentSummarization#Document#IntegerLinearProgramming (ILP)#Extractive
Issue Date: 2018-01-17 A study of global inference algorithms in multi-document summarization, Ryan McDonald, ECIR07 Comment文書要約をナップサック問題として定式化し、厳密解(動的計画法、ILP Formulation)、近似解(Greedy)を求める手法を提案。 ... #MachineLearning#DomainAdaptation
Issue Date: 2017-12-31 Frustratingly easy domain adaptation, Daume, ACL07 Comment![image](https://user-images.githubusercontent.com/12249301/34462211-f3428130-ee81-11e7-8a06-36e66bd19b2f.png) domain adaptationをする際に、Source側のFeatu ... #NaturalLanguageGeneration#SingleFramework#ConceptToTextGeneration
Issue Date: 2017-12-31 Automatic generation of textual summaries from neonatal intensive care data, Porter+, AIME07 CommentBabyTalk論文 ... #Survey#NaturalLanguageGeneration#DataToTextGeneration#ConceptToTextGeneration
Issue Date: 2017-12-31 An Architecture for Data to Text Systems, Reiter, ENLG07 CommentNLG分野で有名なReiterらのSurvey。 NLGシステムのアーキテクチャなどが、体系的に説明されている。 ![image](https://user-images.githubusercontent.com/12249301/34460822-72bc8296-ee5d-11e7-8 ... #DocumentSummarization#GraphBased#Comments#Extractive
Issue Date: 2017-12-28 Comments-Oriented Blog Summarization by Sentence Extraction, CIKM07, Hu+, 2007, 2007.11 #NaturalLanguageGeneration#DataDriven#ConceptToTextGeneration
Issue Date: 2017-12-31 Aggregation via set partitioning for natural language generation, Barzilay+, HLT-NAACL06 #NaturalLanguageGeneration#RuleBased#DataToTextGeneration
Issue Date: 2017-12-31 Choosing words in computer-generated weather forecasts, Reiter+, Artificial Intelligence05 Comment## タスク 天気予報の生成, システム名 SUMTIME ## 手法概要 ルールベースな手法,weather prediction dataから(将来の気象情報をシミュレーションした数値データ),天気予報を自動生成.corpus analysisと専門家のsuggestを通じて,どのよ ... #NaturalLanguageGeneration#DataDriven#ConceptToTextGeneration
Issue Date: 2017-12-31 Collective content selection for concept-to-text generation, Barzilay+, HLT_EMNLP05 #Multi#DocumentSummarization#Classic
Issue Date: 2023-08-27 Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies, Radev+, Information Processing & Management04 CommentMEAD, Centroid-basedな手法で要約を実施する古典的なMDS手法 ... #DocumentSummarization#OpinionMining#review
Issue Date: 2023-05-08 Mining and summarizing customer reviews, Hu+, KDD04 Commentレビュー中のユーザが記述したopinion sentenceを同定し、極性がpos/negのどちらかを判定し、pos/negそれぞれの代表的なsentenceを抽出することで要約する手法 評価をする際は、Amazon等のレビューを収集し、人間がレビューを読み、どれがopinion senten ... #MachineTranslation#Metrics
Issue Date: 2021-06-25 機械翻訳自動評価指標の比較, 今村+, NLP04 CommentBLEUスコア、NISTスコア、WordErrorRate(WER)などに関して丁寧かつ簡潔に解説してある。 BLEUスコア算出に利用するN-gramは一般的にはN=4が用いられる、といった痒いところに手が届く情報も書いてある。 普段何気なく使っているBLEUスコアで、あれ定義ってどんなだっけ?実際 ... #Multi#DocumentSummarization#Document#Extractive
Issue Date: 2018-01-17 A Formal Model for Information Selection in Multi-Sentence Text Extraction, Filatova+, COLING04 Comment初めて文書要約を最大被覆問題として定式化した研究。 ... #DocumentSummarization#Alignment
Issue Date: 2018-01-15 A Phrase-Based HMM Approach to Document_Abstract Alignment, Daume+, EMNLP04 CommentAbstractsとSource TextのAlignmentをとるために、Phrase-Based HMMを提案。 Ziff-Davis Corpusのテキストに対して、2人のannotatorによってgold standardを作成。 評価においてMTにおけるIBM Model4やHMM b ... #Single#DocumentSummarization#Document#GraphBased#Extractive
Issue Date: 2018-01-01 TextRank: Bringing Order into Texts, Mihalcea+, EMNLP04 CommentPageRankベースの手法で、キーワード抽出/文書要約 を行う手法。 キーワード抽出/文書要約 を行う際には、ノードをそれぞれ 単語/文 で表現する。 ノードで表現されている 単語/文 のsimilarityを測り、ノード間のedgeの重みとすることでAffinity Graphを構築。 あ単一文 ... #MachineTranslation#Tools#Alignment
Issue Date: 2018-01-15 A systematic comparison of various statistical alignment models, Och+, CL03, Giza++ Comment標準的に利用される単語アライメントツール評価の際は、Sure, Possibleの二種類のラベルによる単語アライメントのground-truth作成も行っている ... #NaturalLanguageGeneration#RuleBased#ConceptToTextGeneration
Issue Date: 2017-12-31 Coral: Using natural language generation for navigational assistance, Dale+, Australasian computer science conference03 #DocumentSummarization#Document
Issue Date: 2018-01-21 Cut and paste based text summarization, Jing+, NAACL00 CommentAbstractiveなSummarizationの先駆け的研究。 AbstractiveなSummarizationを研究するなら、押さえておいたほうが良い。 ... #DocumentSummarization#Alignment
Issue Date: 2018-01-15 Generating Extraction-Based Summaries from Hand-Written Summaries by Aligning Text Spans, Banko+, PACLING99 Comment文を単位とし、文を文中の単語の出現頻度ベクトルで表し、ベクトル間の距離で文間の類似度を計ることで自由作成要約中の文と現文中の文をもっとも類似度が大きくなるように対応づける。 (奥村先生のSurveyより:https://www.jstage.jst.go.jp/article/jnlp1994/9 ... #DocumentSummarization#InformationRetrieval#SearchEngine
Issue Date: 2018-01-17 The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries, Carbonell+, SIGIR98 CommentMaximal Marginal Relevance (MMR) 論文。 検索エンジンや文書要約において、文書/文のランキングを生成する際に、既に選んだ文書と類似度が低く、かつqueryとrelevantな文書をgreedyに選択していく手法を提案。 ILPによる定式化が提案される以前のMult ... #MachineTranslation#Alignment
Issue Date: 2018-01-15 HMM-based word alignment in statistical translation, Vogel+, COLING96 #Single#DocumentSummarization#Document#Extractive
Issue Date: 2018-01-01 Automatic condensation of electronic publications by sentence selection, Brandow+, Information Processing & Management95 Comment報道記事要約において、自動要約システムがLead文に勝つのがhardだということを示した研究 ... #DocumentSummarization#Document#Supervised#Extractive
Issue Date: 2017-12-31 A Trainable Document Summarizer, Kupiec+, SIGIR95 #NaturalLanguageGeneration#RuleBased#DataToTextGeneration
Issue Date: 2017-12-31 Using natural language processing to produce weather forecasts, Goldberg+, IEEE Expert: Intelligent Systems and Their Applications94 Comment## タスク 天気予報の生成,システム名 FOG (EnglishとFrenchのレポートを作成できる) ## 手法概要 ルールベースな手法,weather predictinon dataから,天気予報を自動生成.Text Planner がルールに従い各sentenceに入れる情報を抽 ... #PersonalizedDocumentSummarization
Issue Date: 2023-05-13 The Identification of Important Concepts in Highly Structured Technical Papers, ACL-SIGIR93 Commentユーザは自分が興味があるpartをsummary evaluationにおいて選択する傾向にある、ということを示した研究 ... #NaturalLanguageGeneration#RuleBased#DataToTextGeneration
Issue Date: 2017-12-31 Design of a knowledge-based report generator, Kukich, ACL83 Comment## タスク numerical stock market dataからstock market reportsを生成,我々と同様なタスク.システム名: ANA ## 手法概要 ルールベースな手法, 1) fact-generator, 2) message generator,Data2Text ... #Article#Dataset#InstructionTuning#SyntheticData
Issue Date: 2024-11-21 SmolLM2, 2024.11 Comment元ポスト:https://x.com/_philschmid/status/1859598525723488478?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QOrca-AgenInstruct-1M #1521 よりもSmolLMのSFTで各種ベンチで高い性能を獲得![image]( ... #Article#NeuralNetwork#Embeddings#Word#STS (SemanticTextualSimilarity)
Issue Date: 2024-11-20 Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数, Sho Yokoi, 2024.11 Comment元論文: [Yokoi, Bao, Kurita, Shimodaira, “Zipfian Whitening,” NeurIPS 2024. ](https://arxiv.org/abs/2411.00680)The word embedding space in neural models ... #Article#MachineTranslation#Dataset#Zero/FewShotPrompting
Issue Date: 2024-11-20 Datasets: hpprc_honyaku, hpprc, 2024.11 Comment元ポスト: https://x.com/hpp_ricecake/status/1859118112672780401?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q英語Wikipediaを冒頭数文を抽出し日本語に人手で翻訳(Apache2.0ライセンスであるCalmやQwenの出力を参 ... #Article#Survey#ComputerVision#Pocket#LanguageModel#Slide
Issue Date: 2024-11-18 Large Vision Language Model (LVLM)に関する知見まとめ, Daiki Shiono, 2024.11 #Article#Dataset#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-11-16 microsoft_orca-agentinstruct-1M-v1, Microsoft, 2024.11 #Article#Survey#LanguageModel#Article#OpenWeightLLM#OpenSource
Issue Date: 2024-11-15 ローカルLLMのリリース年表, npaka, 随時更新, 2024.11 CommentローカルLLMを含むOpenLLMのリリース日が年表としてまとまっており、随時更新されている模様。すごい。 ... #Article#Tutorial#Prompting
Issue Date: 2024-11-13 LLM Prompt Tuning Playbook, 2024.11 Comment#1462 も参照のこと ... #Article#LanguageModel#OpenWeightLLM#Japanese
Issue Date: 2024-11-09 sarashina2-8x70B, SBIntuitions, 2024.11 Commentプレスリリース:https://www.sbintuitions.co.jp/news/press/20241108_01/商用利用不可な点には注意アーキテクチャは70Bモデルx8のMixture of Experts(MoE)モデルカードによると、inferenceにはBF16で、A100 80G ... #Article#Tutorial#InformationRetrieval#RetrievalAugmentedGeneration
Issue Date: 2024-11-07 RAGの改善方法に関する情報のまとめ(再掲), GENZITSU, 2023.10 #Article#Efficiency/SpeedUp#Pretraining#Finetuning (SFT)
Issue Date: 2024-11-07 ZeRO: DeepSpeedの紹介, レトリバ, 2021.07 CommentZeROの説明がわかりやすいこちらの記事もわかりやすい https://zenn.dev/turing_motors/articles/d00c46a79dc976DeepSpeedのコンフィグの一覧 https://www.deepspeed.ai/docs/config-json/ZeRO St ... #Article#AudioProcessing#Article#AutomaticSpeechRecognition(ASR)
Issue Date: 2024-11-07 ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』, 遼介 大堀, 2024.11 Commentwhisper large-v3を蒸留したkotoba-whisper-v1.0に対して、日本語のオーディオデータで追加学習をしたモデル、kotoba-whisper-v2.0を利用するための環境構築方法やコードの例が記述されている。公式によると、whisper-large-v3よりも6.3倍の日本 ... #Article#Efficiency/SpeedUp#LanguageModel#Library#Repository
Issue Date: 2024-11-05 Lingua, Meta Comment研究目的のための、minimal、かつ高速なLLM training/inferenceのコードが格納されたリポジトリ。独自のモデルやデータ、ロスなどが簡単に実装できる模様。![image](https://github.com/user-attachments/assets/47f70515- ... #Article#Efficiency/SpeedUp#LanguageModel#Quantization#Article
Issue Date: 2024-10-26 Introducing quantized Llama models with increased speed and a reduced memory footprint, Meta, 2024.10 #Article#MultiLingual#OpenWeightLLM
Issue Date: 2024-10-24 Aya Expanse, Cohere, 2024.10 CommentCohereによるマルチリンガルLLM, 8B, 32Bのモデルが存在する。8BモデルのArenaHardでの評価![image](https://github.com/user-attachments/assets/c52678fd-b1a4-40ed-b6b9-7cc7d1096ff0) ... #Article#LanguageModel#Prompting#Repository
Issue Date: 2024-10-20 Prompt-Engineering-Guide, DAIR.AI CommentLLMのsettingから、few-shot, self-consistencyなどのprompting技術、さまざまなタスクの実例などが網羅的にまとまっている ... #Article#Dataset#LanguageModel#LLMAgent#Evaluation
Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 CommentWe introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering ... #Article#OpenWeightLLM
Issue Date: 2024-10-17 Llama-3.1-Nemotron-70B-Instruct, Nvidia, 2024.10 Commentpaper:https://arxiv.org/abs/2410.01257MTBench, Arena HardでGPT4o-20240513,Claude-3.5-sonnet-20240620をoutperform。Response lengthの平均が長いこと模様![image](https ... #Article#Efficiency/SpeedUp#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-10-08 Unsloth Commentsingle-GPUで、LLMのLoRA/QLoRAを高速/省メモリに実行できるライブラリ ... #Article#LanguageModel#OpenWeightLLM#Japanese
Issue Date: 2024-10-04 Gemma-2-Baku, 2024.10 #Article#LanguageModel#OpenWeightLLM#Japanese
Issue Date: 2024-10-04 Gemma-2-JPN, 2024.10 Comment日本語データでfinetuningされてGemma2 ... #Article#Pocket#LanguageModel#Evaluation#Article#LLM-as-a-Judge
Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge), 2024.09 CommentLLM-as-a-judgeについて網羅的に書かれた記事 ... #Article#InformationRetrieval#Pocket#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article#ComputerVision#LanguageModel#OpenWeightLLM
Issue Date: 2024-09-27 Molmo, AI2, 2024.09 CommentMolmo is a family of open state-of-the-art multimodal AI models. Our most powerful model closes the gap between open and proprietary systems across a以 ... #Article#ComputerVision#LanguageModel#Article#OpenWeightLLM
Issue Date: 2024-09-25 Llama 3.2: Revolutionizing edge AI and vision with open, customizable models, Meta, 2024.09 Comment11Bと90BのVLMと、エッジデバイス向けの1B, 3BのSLMを発表。![image](https://github.com/user-attachments/assets/13c4af37-19bd-4de7-b501-eb48f955af0c)![image](https://githuLl ... #Article#LanguageModel#OpenWeightLLM#Japanese
Issue Date: 2024-09-25 LLM-jp-3 1.8B・3.7B・13B の公開, LLM.jp, 2024.09 CommentLLM-JP-Evalでの評価結果はこちら:https://huggingface.co/llm-jp/llm-jp-3-1.8b1.8Bのモデルが、モデルサイズに対して非常に性能が良いとのこと(確かに、3.8Bのモデルとの差があまりないように見える元ポスト:https://x.com/odashi ... #Article#Dataset#LanguageModel#Japanese
Issue Date: 2024-09-25 LLM-jp Corpus v3, LLM.jp, 2024.09 CommentLLM-jp-3 #1418 の学習に利用されているコーパス ... #Article#LanguageModel
Issue Date: 2024-09-25 Improving Language Understanding by Generative Pre-Training, OpenAI, 2018.06 CommentNatural language understanding comprises a wide range of diverse tasks such as textual entailment, question answering, semantic similarity assessment初 ... #Article#LanguageModel#Chain-of-Thought
Issue Date: 2024-09-13 OpenAI o1, 2024.09 CommentJason Wei氏のポスト:https://x.com/_jasonwei/status/1834278706522849788?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1072 や #1147 で似たような考えはすでに提案されていたが、どのような点が異なるのだろうか? たと ... #Article#Pocket#QuestionAnswering#LLMAgent#GenerativeAI#RetrievalAugmentedGeneration#Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#LanguageModel#Prompting#Post
Issue Date: 2024-09-08 A few prompt engineering tips that Ilya Sutskever picked up at OpenAI, Ilya Sutskever, 2024.09 #Article#Embeddings#InformationRetrieval#RetrievalAugmentedGeneration#Article
Issue Date: 2024-09-08 Late Chunking: Balancing Precision and Cost in Long Context Retrieval, Pierse+, 2024.09 Commentchunkingしてからembeddingを取得するより、全体のドキュメントに対してcontextualなtoken embeddingを取得し、その後chunkingをしてpoolingしてsingle vectorにする方が、文書の文脈情報がembedding内で保持されやすいので、precis ... #Article#Tutorial#ComputerVision#MachineLearning#LanguageModel#Repository
Issue Date: 2024-09-07 ml-engineering CommentLLMやVLMを学習するためのツールやノウハウがまとめられたリポジトリ ... #Article#LanguageModel#InstructionTuning#OpenWeightLLM#SelfCorrection
Issue Date: 2024-09-06 Reflection 70B, GlaiveAI, 2024.09 Commentただまあ仮に同じInputを利用していたとして、promptingは同じ(モデルがどのようなテキストを生成し推論を実施するかはpromptingのスコープではない)なので、そもそも同じInputなのでfair comparisonですよ、という話に仮になるのだとしたら、そもそもどういう設定で比較実験 ... #Article#Embeddings#LanguageModel#Japanese
Issue Date: 2024-09-04 Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 Comment元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてCo ... #Article#LanguageModel#Library#Repository#LLMServing
Issue Date: 2024-08-31 NanoFlow, 2024.08 CommentvLLMよりも2倍程度高速なLLM serving framework。オフライン評価![image](https://github.com/user-attachments/assets/93d8362d-e0e4-4bdb-9de4-178e1eef2e33)オンラインでのlatenc元ポスト: ... #Article#Tutorial#LanguageModel#OpenWeightLLM#Slide
Issue Date: 2024-08-26 論文紹介 _ The Llama 3 Herd of Models, 2024.08 CommentLlama3の事前学習や事後学習のノウハウが詰まっており(安全性なども含む)、LLM学習に必要な要素が図解されており、非常に分かりやすい。 たとえば下記図(スライド中より引用)などは、LLMの学習過程を説明する際にわかりやすそう ![image](https://github.com/useLLM ... #Article#Efficiency/SpeedUp#LanguageModel#Finetuning (SFT)#Repository
Issue Date: 2024-08-25 Liger-Kernel, 2024.08 CommentLLMを学習する時に、ワンライン追加するだけで、マルチGPUトレーニングのスループットを20%改善し、メモリ使用量を60%削減するらしい元ツイート:https://x.com/hsu_byron/status/1827072737673982056?s=46&t=Y6UuIHB0Lv0IpmFAこれ ... #Article#LanguageModel#ProprietaryLLM
Issue Date: 2024-08-24 Grok-2, X, 2024.08 Commentchatbot arenaで5月時点のGPT4o超え。miniでもなんとllama3.1-705B超えhttps://x.com/lmsysorg/status/1827041269534879784?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#OpenWeightLLM
Issue Date: 2024-08-24 Phi 3.5, Microsoft, 2024.08 CommentThe [Phi-3 model collection](https://ai.azure.com/explore/models?selectedCollection=phi) is the latest in Microsoft's family of Small Language Models ... #Article#Quantization#OpenWeightLLM
Issue Date: 2024-08-20 4-bit Llama 3.1, NeuralMagic, 2024.08 #Article#InformationRetrieval#Pocket#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article#ProprietaryLLM#Japanese
Issue Date: 2024-08-08 PLaMo-100B, PFN, 2024.08 Comment日本語のベンチマークでGPT4を超える性能を達成。SFT, DPOで学習。学習データは、Publicなもの、プログラムで作成したもの、LLM自身に作成させたものを利用した。また、最終的なモデルに複数の候補があったのでモデルマージで良いところ取りをした。DPOで利用するpreferenceデータは、 ... #Article#Library#OpenWeightLLM
Issue Date: 2024-08-01 OpenLLM: Self-Hosting LLMs Made Easy CommentOpenLLMをself hostingする際に、OpenAIなどと同じインタフェースのAPIやChatを提供するライブラリ ... #Article#OpenWeightLLM
Issue Date: 2024-07-30 Gemma2, Google Deepmind, 2024 CommentReasoning, Math, CodeGenerationに強み![image](https://github.com/user-attachments/assets/b7f58129-1235-4812-9c5e-0607aa1bea66) ![image](https://github.co ... #Article#LanguageModel#OpenWeightLLM
Issue Date: 2024-07-25 Llama 3.1, 2024.07 CommentLlama系のモデルをFP8で学習する場合のレシピhttps://x.com/thom_wolf/status/1826924774997532799?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#LanguageModel#OpenWeightLLM
Issue Date: 2024-07-11 大規模言語モデルの開発, 2024 #Article#LanguageModel#OpenWeightLLM
Issue Date: 2024-07-09 calm3-22B, 2024 Comment>LLMの日本語能力を評価するNejumi LLM リーダーボード3においては、700億パラメータのMeta-Llama-3-70B-Instructと同等の性能となっており、スクラッチ開発のオープンな日本語LLMとしてはトップクラスの性能となります(2024年7月現在)。モデルは商用利用可能なA ... #Article#Tutorial#Pretraining#LanguageModel#Article
Issue Date: 2024-07-08 GENIAC: 172B 事前学習知見, 2024 CommentLLMの事前学習における知見がまとまっている記事とのこと・Megatron LMで学習 → 3D Parallelismなどの分散学習手法によりHF Trainerより高速 → Data Parallelim、Tensor Parallelism、 Pipeline Parallelismを組み合わ ... #Article#NaturalLanguageGeneration#LanguageModel#LLMAgent#Repository
Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 CommentLLMによるOpenSourceなソフトウェア生成エージェントプラットフォームfull timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。参考: https://x.com/gneubig/status/1808493521315496229?s=46&t=Y6UuIHB0L ... #Article#Tutorial#LanguageModel
Issue Date: 2024-07-03 より良いTransformerをつくる, Shun Kiyono, 2022 #Article#LanguageModel#RetrievalAugmentedGeneration#LongSequence
Issue Date: 2024-07-03 RetrievaBERTの公開, 2024 CommentRAGへ応用する際に、長いコンテキストを扱いEmbeddingを獲得したいシーンが増えたので、最大でコンテキスト長が2048のBERTを学習し公開。Apache2.0 オリジナルのBERTと比較して、近年のLLMで有用性が示されている以下をアーキテクチャに取り入れている SwiGLU活性 ... #Article#LanguageModel#OpenWeightLLM
Issue Date: 2024-07-03 Llama 3 Swallow #Article#PersonalizedDocumentSummarization
Issue Date: 2024-05-30 Using and Evaluating User Directed Summaries to Improve Information Access #Article#LanguageModel#Transformer#PositionalEncoding
Issue Date: 2024-05-24 RoFormer: Enhanced Transformer with Rotary Position Embedding, Jianlin Su+, N_A, Neurocomputing, 2024 Summary位置符号化はtransformerアーキテクチャで有効であり、本論文ではRotary Position Embedding(RoPE)という新しい手法を提案している。RoPEは、回転行列を使用して絶対位置を符号化し、同時に相対位置依存性を自己注意構成に組み込む。RoPEを使用したRoFormerは、長いテキスト分類ベンチマークデータセットで他の手法を上回ることが実験で示されており、Huggingfaceに統合されている。 CommentRoPEを提案した論文# Absolute Position Embedding と Relative Position Embedding ## TransformerにおけるQKVベクトルの計算方法 一般に、Transformerにおける Query (Q), Key (K), Value (V ... #Article#Efficiency/SpeedUp#LanguageModel#Library#Repository
Issue Date: 2024-04-28 AirLLM, 2024.04 Comment4GBのSingle GPUで、70Bモデルのinferenceを実現できるライブラリ。トークンの生成速度は検証する必要がある。transformer decoderの各layerの演算は独立しているため、GPUに全てのlayerを載せず、必要な分だけ載せてinferenceするといった操作を繰り返 ... #Article#LanguageModel#OpenWeightLLM
Issue Date: 2024-04-18 LLaMA3, Apr, 2024 Commentライセンスによると、LLaMA3を利用したモデルはどんな場合でもLlama3をprefixとして付与しないといけないらしい元ツイート:https://x.com/gneubig/status/1781083579273089442?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLaMA ... image#Article#ComputerVision#LanguageModel#MulltiModal
Issue Date: 2024-04-14 Grok-1.5 Vision Preview, 2024 Comment ... image#Article#LanguageModel#OpenWeightLLM
Issue Date: 2024-04-10 Mixtral-8x22B-v0.1, 2024 CommentApache-2.0ライセンス, 日本語非対応 ... #Article#LanguageModel#OpenWeightLLM#ProprietaryLLM
Issue Date: 2024-04-10 Command R+, Cohere, 2024 CommentChatbot arenaでGPT-4-0314と同等の Elo Rate を獲得し(20240410時点)、日本語を含む10ヶ国語をサポート。コンテキストウィンドウサイズ128k。商用利用はAPIから、研究目的であればHuggingFaceから利用可能。 ... image#Article#LanguageModel#OpenWeightLLM
Issue Date: 2024-04-08 Gemma: Open Models Based on Gemini Research and Technology, 2024 CommentアーキテクチャはTransformer Decoderを利用。モデルのサイズは2Bと7B。 オリジナルのTransformer Decoderアーキテクチャから、下記改善を実施している: Multi Query Attention #1272 を利用 RoPE Embedding #1Mistral ... image#Article#Tutorial#LanguageModel
Issue Date: 2024-04-03 LLMの現在, 202404, Preffered Elements #Article#Survey#Tools#LanguageModel
Issue Date: 2024-03-22 Awesome LM with Tools CommentToolを利用するLMに関するNeubigさんのグループによるSurvey。 ... #Article#ComputerVision#LanguageModel#Library#Alignment#TextualInversion
Issue Date: 2024-03-21 repeng CommentLLMの出力のスタイルを数百個の事例だけで学習しチューニングできるライブラリ。promptで指定するのとは異なり、数値でスタイルの強さを指定することが可能らしい(元ツイート)。画像生成分野におけるTextual Inversionと同じ技術とのこと。Textual Inversionとは、少量の ... #Article#LanguageModel#Article
Issue Date: 2024-03-18 Open Release of Grok-1 March 17, 2024 CommentApache2.0ライセンス, 314Bパラメータでモデルの重み、Mixture-of-Expertsを採用している。学習データ、学習に利用したコードはおそらく公開されていない。Grok-1.5がリリースhttps://x.ai/blog/grok-1.5各種ベンチマークの性能、特にMathの性能が ... image#Article#Tutorial#Survey#InformationRetrieval#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-03-05 RAG-Research-Insights CommentRAGに関する研究が直近のものまでよくまとめられている ... #Article#Survey#LanguageModel#Article
Issue Date: 2024-03-04 What are the most important LLMs to know about in March 2024? Comment2024年3月時点で知っておくべきLLMに関するスレッド ... #Article#LanguageModel
Issue Date: 2024-02-27 Mistral Large Comment ... image#Article#InformationRetrieval#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-02-11 RAGの性能を改善するための8つの戦略 Commentめちゃめちゃ詳細にRAG性能向上の手法がreference付きでまとまっている。すごい。 ... #Article#InformationExtraction#Article
Issue Date: 2024-01-16 LLMにおける情報抽出(文章から必要な事柄を読み取る)タスクについての調査, AIDB #Article#NaturalLanguageGeneration#LanguageModel#Article
Issue Date: 2024-01-01 Decoding Strategies that You Need to Know for Response Generation Comment言語モデルのdecodingの方法についてよくまとまっている。まとめられているdecoding方法は以下 Greedy, BeamSearch, RandomSampling, Temperature, Top-K Sampling, Nucleus Samplingこちらの記事ではHuggingF ... #Article#InformationRetrieval#RetrievalAugmentedGeneration#Article
Issue Date: 2023-12-21 Structured Hierarchical Retrieval, llama-index Comment元ツイート: https://x.com/llama_index/status/1737515390664872040?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#Tutorial#Efficiency/SpeedUp#LanguageModel
Issue Date: 2023-12-15 optimize-llm, HuggingFace CommentLLMをoptimizeする実用的なチュートリアルこちらも有用なので参照のこと 【GPU inference】 https://huggingface.co/docs/transformers/main/perf_infer_gpu_one ... #Article#Efficiency/SpeedUp#LanguageModel#Attention
Issue Date: 2023-12-14 【続】Flash Attentionを使ってLLMの推論を高速・軽量化できるか? Commentuse_cacheがTrue/Falseの場合のFlashAttention2のinference timeとVRAM使用量の傾向をsequence_lengthごとに考察している。use_cacheはKey Value cacheのオンオフを切り替えられるオプションである。autoregresFl ... #Article#InformationRetrieval#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2023-12-04 kaggle LLM コンペ 上位解法を自分なりにまとめてみた話 Comment実践的な内容(チャンク生成時の工夫、クエリ生成時の工夫等)が網羅的にまとまっており非常に有用個人的に、コンペ主催者側から提供されたデータが少なく、上位のほとんどのチームがChatGPT(3.5, 4)を用いて、QAデータを生成していた、というのが興味深かった。プロンプトはたとえば下記: [(5th- ... #Article#ComputerVision#Prompting#MulltiModal#AutomaticPromptEngineering
Issue Date: 2023-12-01 multimodal-maestro CommentLarge Multimodal Model (LMM)において、雑なpromptを与えるても自動的に良い感じoutputを生成してくれるっぽい? 以下の例はリポジトリからの引用であるが、この例では、"Find dog." という雑なpromptから、画像中央に位置する犬に[9]というラベルを ... image#Article#ComputerVision#GenerativeAI#MulltiModal
Issue Date: 2023-12-01 LaVie: Text-to-Video generation, demo Commentデモのデフォルトで試してみたら、3秒ほどのprompt通りの動画が生成された。FF14の赤魔導士に変えたら、それっぽいの出てきた ... image#Article#ComputerVision#Transformer#TabularData
Issue Date: 2023-12-01 Table Transformer Demo CommentPDF中のテーブルとその構造(行列セル)をdetectするモデル Exampleは以下のような感じ(日本語だとどれくらいできるのかな...) ... image#Article#Survey#ComputerVision#MachineLearning
Issue Date: 2023-11-22 ML Papers Explained Comment以下の分野の代表的な論文がまとめられている(基本的にはTransformer登場後のものが多い)言語モデル(Transformer, Elmoなど)Visionモデル(ViTなど)CNN(AlexNetなど)Single Stage Object DetectorsR ... #Article#Efficiency/SpeedUp#Tools#LanguageModel#Repository
Issue Date: 2023-11-21 GPT4All, 2023 CommentローカルマシンでChatGPT likeなUIでチャットボットを動作させられるOpensource。Mistral7BやGGUFフォーマットのモデルのよつな(おそらく量子化されたものも含む)ローカルマシンで動作させられる規模感のモデルがサポートされている。https://gpt4all.io/i ... #Article#LanguageModel#Evaluation#RetrievalAugmentedGeneration#Article
Issue Date: 2023-11-21 Zephyr-7B-beta, RAG Perf. CommentZephyr-7B-betaのRAGでの性能がデータセットで評価されている下記Xポストによるとgpt-3.5-turboと同等https://x.com/rungalileo/status/1726638537767051436?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#RetrievalAugmentedGeneration#Article
Issue Date: 2023-11-15 ChatGPTに社内文書に基づいた回答を生成させる仕組みを構築しました, 2023 Comment低コストで社内文書に対するRAGを実現することに注力している。以下、図はブログから引用。基本的にはバッチジョブで社内文書をベクトル化しS3へ格納。アプリ起動時にS3から最新データを読み込み検索可能にしRAGするという流れ。低コスト化のために、Embedding作成にOpenSourceの特に日本語テ ... image#Article#LanguageModel#Library#Finetuning (SFT)#Repository
Issue Date: 2023-11-14 LLaMA-Factory, 2023 Comment簡単に利用できるLLaMAのfinetuning frameworkとのこと。元ツイート: https://x.com/_akhaliq/status/1724456693378040195?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLaMAベースなモデルなら色々対応している模様 ... #Article#LanguageModel#Hallucination#Repository
Issue Date: 2023-11-14 Hallucination Leaderboard, 2023 Comment1000個の短いドキュメントに対して、事実情報のみを用いて要約を生成させ、要約結果と原文書のFactual consistencyを別に訓練したモデルで測定して評価してリーダーボードを作成している。Claude2よりLLaMA2の方が性能が良いのが面白いし、Palmの性能があまり良くない。元ツイート ... #Article#Survey#NaturalLanguageGeneration#Dataset#DataToTextGeneration#Article
Issue Date: 2023-11-08 Data-to-Text Datasetまとめ, 2022 CommentData-to-Textのデータセットを自分用に調べていたのですが、せっかくなのでスライドにまとめてみました。特にMR-to-Text, Table-to-Textあたりは網羅的にサーベイし、データセットの概要を紹介しているので、全体像を把握するのに良いのかなぁと思います。ただし、2022年12月時 ... #Article#Tutorial#InformationRetrieval#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2023-11-06 Retrieval-based LM (RAG System)ざっくり理解する, 2023 Comment(以下スクショはスライドより引用) 次のスクショはRAGにかかわる周辺技術がよくまとまっていると思う。 以下ざっくり私の中の認識として 計画 クエリ拡張 クエリの質が悪い場合検索性能が劣化するため、クエリをより適切に検索ができるように修正(昔 ... image#Article#Tutorial#LanguageModel#Alignment#GenerativeAI#Hallucination#Article
Issue Date: 2023-11-03 生成AIが抱えるリスクと対策, LYCorp‘23 Commentこの資料をスタートにReferしている論文などを勉強すると、GenerativeAIのリスク周りに詳しくなれそう。この辺は疎いので勉強になる。しかし、LLMのAlignmentが不十分だったり、Hallucinationを100%防ぐことは原理的に不可能だと思われるので、この辺とどう付き合っていく ... #Article#Survey#ComputerVision#NaturalLanguageGeneration#LanguageModel#ImageCaptioning#DiffusionModel
Issue Date: 2023-11-02 Zero-shot Learning網羅的サーベイ: CLIPが切り開いたVision & Languageの新しい世界 Commentこれはすごいまとめ…。まだ途中までしか読めていない。CLIPからスタートしてCLIPを引用している論文から重要なものを概要付きでまとめている。 ... #Article#Tutorial#LanguageModel
Issue Date: 2023-11-01 IBIS2023チュートリアル「大規模言語モデル活用技術の最前線」 CommentLLMの応用研究やPromptingを中心としたチュートリアル。アノテーションや対話式推薦システムへの活用、ReAct、プロンプトの最適化技術、CoTの基本から応用まで幅広くまとまっているので、LLMの応用技術の概観や、CoTを実践したい人に非常に有用だと思う。 ... #Article#Efficiency/SpeedUp#LanguageModel#MulltiModal#FoundationModel#Article
Issue Date: 2023-11-01 tsuzumi, NTT’23 CommentNTT製のLLM。パラメータ数は7Bと軽量だが高性能。MTBenchのようなGPT4に勝敗を判定させるベンチマークで、地理、歴史、政治、社会に関する質問応答タスク(図6)でgpt3.5turboと同等、国産LLMの中でトップの性能。GPT3.5turboには、コーディングや数学などの能力では劣るとt ... image#Article#Efficiency/SpeedUp#LanguageModel#Finetuning (SFT)#Adapter/LoRA#Catastrophic Forgetting
Issue Date: 2023-10-29 大規模言語モデルのFine-tuningによるドメイン知識獲得の検討 Comment以下記事中で興味深かった部分を引用> まとめると、LoRAは、[3]で言われている、事前学習モデルは大量のパラメータ数にもかかわらず低い固有次元を持ち、Fine-tuningに有効な低次元のパラメータ化も存在する、という主張にインスパイアされ、ΔWにおける重みの更新の固有次元も低いという仮説のもと ... #Article#NeuralNetwork#ComputerVision#Efficiency/SpeedUp#LanguageModel#DiffusionModel#Article
Issue Date: 2023-10-29 StableDiffusion, LLMのGPUメモリ削減のあれこれ CommentGradient Accumulation, Gradient Checkpointingの説明が丁寧でわかりやすかった。 ... #Article#LanguageModel#Prompting#Article
Issue Date: 2023-10-29 LLMのプロンプト技術まとめ Commentざっと見たが現時点で主要なものはほぼ含まれているのでは、という印象実際のプロンプト例が載っているので、理解しやすいかもしれない。 ... #Article#Tools#LanguageModel#Library#Evaluation#RetrievalAugmentedGeneration#Article
Issue Date: 2023-10-29 Evaluating RAG Pipelines CommentRAG pipeline (retrieval + generation)を評価するライブラリRagasについて紹介されている。評価に活用される指標は下記で、背後にLLMを活用しているため、大半の指標はラベルデータ不要。ただし、context_recallを測定する場合はreference an ... image#Article#Tools#LanguageModel#Library#RetrievalAugmentedGeneration#Article
Issue Date: 2023-10-29 LangChainのRAGの改善法, LayerX機械学習勉強会 Comment以下リンクからの引用。LangChainから提供されているRetrieverのcontext抽出の性能改善のためのソリューション> Multi representation indexing:検索に適した文書表現(例えば要約)の作成Query transformation:人間の質問を変換して ... #Article#LanguageModel#Evaluation#Article
Issue Date: 2023-10-27 日本語LLMのリーダーボード(LLM.jp) CommentLLM.jpによる日本語LLMのリーダーボード。4-shotsでの結果、かつinstructionを与えた場合の生成テキストに対する評価、という点には留意したい。たとえばゼロショットで活用したい、という場合にこのリーダーボードの結果がそのまま再現される保証はないと推察される。#1079 の知見でJG ... #Article#LanguageModel#Article
Issue Date: 2023-10-25 日本語大規模言語モデル「Japanese Stable LM 3B-4E1T」「Japanese Stable LM Gamma 7B」を公開しました, 2023 #Article#LanguageModel
Issue Date: 2023-10-15 OpenSource LLM Commentzephyr-7B-alpha1/10のパラメータでLLaMA2-70Bw-chat超えhttps://weel.co.jp/media/zephyr-7b-alphazephyr-7B-β MTBenchでllama2-70B-chat超え #1099Zephyr-7B-betaが早くもTheBl ... image#Article#Prompting#AutomaticPromptEngineering
Issue Date: 2023-10-13 日本語LLMベンチマークと自動プロンプトエンジニアリング Comment面白かった。特に、promptingによってrinnaとcyberのLLMの順位が逆転しているのが興味深かった。GAを使ったプロンプトチューニングは最近論文も出ていたが、日本語LLMで試されているのは面白かった。 ... #Article#Tutorial#LanguageModel
Issue Date: 2023-10-10 Large Language Model (in 2023), OpenAI CommentLLMの研究開発動向を俯瞰するのに有用らしい ... #Article#LanguageModel#Repository
Issue Date: 2023-10-09 MentalLLaMA, 2023 Commentメンタルヘルスの分析に対してinstruction tuningしたはじめてのLLM ... #Article#Pocket#LanguageModel
Issue Date: 2023-10-09 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” CommentA is Bという文でLLMを訓練しても、B is Aという逆方向には汎化されないことを示した。著者ツイート: https://x.com/owainevans_uk/status/1705285631520407821?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QGPT3, LLaM ... image#Article#LanguageModel
Issue Date: 2023-10-07 Yasa-1 Comment参考: https://x.com/jaguring1/status/1709557947813281865?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#Sentence#Embeddings
Issue Date: 2023-10-07 Japanese Simple SimCSE Comment日本語の事前学習言語モデルと、日本語の学習データを利用してSimCSEを学習し網羅的に評価をした結果が記載されている。Supervised SimCSE, UnsupervisednSimCSEの両方で実験。また、学習するデータセットを変更したときの頑健性も検証。性能が良かったモデルはSentenc ... #Article#LanguageModel#Evaluation
Issue Date: 2023-10-02 Nejumi LLMリーダーボード CommentJGLUEを使ったLLMの日本語タスクベンチマーク ... #Article#LanguageModel#Evaluation
Issue Date: 2023-09-30 LLM-as-a-judge #Article#ComputerVision#LanguageModel#ChatGPT#MulltiModal
Issue Date: 2023-09-30 GPT-4V Commentおう…やべえな… ... image#Article#LanguageModel#Library#LLMAgent
Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment以下の特徴を持つLLMAgent開発のためのフレームワークlong-short term memorytool usageweb navigationmulti-agent communicationhuman-agent interactionsymbolic ... #Article#LanguageModel
Issue Date: 2023-09-05 SNLP2023:Is GPT-3 a Good Data Annotator? CommentGPT3でデータを作成したら、タスクごとに有効なデータ作成方法は異なったが、人手で作成したデータと同等の性能を達成するデータ(BERTでfinetuning)を、低コストで実現できたよ、という研究この辺の話はもはや #1024 を使えばいいのでは、という気がする。 ... #Article#Tools#LanguageModel#Library
Issue Date: 2023-09-05 LangChain Cheet Sheet Commentimage ... #Article#Tutorial#LanguageModel
Issue Date: 2023-09-04 大規模言語モデル, 岡崎先生, 2023 Comment岡崎先生による大規模言語モデルのチュートリアル 最近のLLMまでの歴史、transformerなどの基礎的な内容から、最新の内容まで数式付きで詳細にまとまっている ... #Article#Tutorial#LanguageModel#Finetuning (SFT)
Issue Date: 2023-08-29 LLMのファインチューニング で 何ができて 何ができないのか Comment>LLMのファインチューニングは、「形式」の学習は効果的ですが、「事実」の学習は不得意です。> シェイクスピアの脚本のデータセット (tiny-shakespeare) の「ロミオ」を「ボブ」に置き換えてファインチューニングして、新モデルの頭の中では「ロミオ」と「ボブ」をどう記憶しているかを確参考: ... #Article#LanguageModel#Library
Issue Date: 2023-08-29 Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました Comment商用利用可能、70億パラメータ。ELYZA社が独自に作成した評価セットでは日本語のOpenLLMの中で最高性能。ただし、モデル選定の段階でこの評価データの情報を利用しているため、有利に働いている可能性があるとのこと。一般的に利用される日本語の評価用データでは、なんとも言い難い。良いタスクもあれ ... #Article#LanguageModel#Library
Issue Date: 2023-08-28 zeno-build CommentMTでのテクニカルレポートhttps://github.com/zeno-ml/zeno-build/tree/main/examples/analysis_gpt_mt/reportLLMの実験管理を容易に実施するツールで、異なるハイパーパラメータ、異なるモデル、異なるプロンプトでの実験などを簡単 ... #Article#Survey#LanguageModel
Issue Date: 2023-08-27 Anti-hype LLM Reading list CommentLLNのサーベイ、BERT等の基盤モデルの論文、自前でLLMを学習するために必要な論文がコンパクトにまとめられたgist ... image#Article#ComputerVision#NaturalLanguageGeneration#Article
Issue Date: 2023-08-16 走行動画を説明するLLMを作成し、80台のGPUで分散並列学習させた話 #Article#DocumentSummarization#Metrics#Evaluation#Reference-based
Issue Date: 2023-08-13 Learning to Score System Summaries for Better Content Selection Evaluation, Peyard+, Prof. of the Workshop on New Frontiers in Summarization Summary本研究では、古典的な要約データセットを使用して、人間の判断に基づいた自動スコアリングメトリックの学習を提案します。既存のメトリックを組み込み、人間の判断と高い相関を持つ組み合わせを学習します。新しいメトリックの信頼性は手動評価によってテストされます。学習済みのメトリックはオープンソースのツールとして公開されます。 #Article#LanguageModel#STS (SemanticTextualSimilarity)
Issue Date: 2023-07-31 OpenAI の Embeddings API はイケてるのか、定量的に調べてみる Comment[JSTSタスク](https://github.com/yahoojapan/JGLUE)では、[Tohoku BERT v3](https://github.com/cl-tohoku/bert-japanese/tree/main#model-performances) と [LUKE](ht ... #Article#Efficiency/SpeedUp#MachineLearning#Transformer#Attention
Issue Date: 2023-07-23 FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning, 2023 SummaryFlashAttention-2は、長いシーケンス長におけるTransformerのスケーリングの問題に対処するために提案された手法です。FlashAttention-2は、非対称なGPUメモリ階層を利用してメモリの節約とランタイムの高速化を実現し、最適化された行列乗算に比べて約2倍の高速化を達成します。また、FlashAttention-2はGPTスタイルのモデルのトレーニングにおいても高速化を実現し、最大225 TFLOPs/sのトレーニング速度に達します。 CommentFlash Attention1よりも2倍高速なFlash Attention 2Flash Attention1はこちらを参照https://arxiv.org/pdf/2205.14135.pdfQK Matrixの計算をブロックに分けてSRAMに送って処理することで、3倍高速化し、メモリ効率を ... image#Article#ComputerVision#LanguageModel#FoundationModel
Issue Date: 2023-07-23 Introducing CM3leon, a more efficient, state-of-the-art generative model for text and images, 2023 Summary最近の自然言語処理の進歩により、生成型AIモデルへの関心と研究が加速しています。CM3leonは、テキストから画像への生成と画像からテキストへの生成を行う単一の基礎モデルです。 #Article#LanguageModel#Chain-of-Thought#Prompting#Faithfulness
Issue Date: 2023-07-23 Measuring Faithfulness in Chain-of-Thought Reasoning, Anthropic, 2023 Summary大規模言語モデル(LLMs)は、Chain-of-Thought(CoT)推論を生成することで質問に答える性能を向上させるが、その推論が実際の推論を忠実に表しているかは不明である。本研究では、CoT推論の忠実さを調査し、CoTに介入することでモデルの予測がどのように変化するかを調べる。結果は、モデルのサイズやタスクによってCoTの忠実さが異なることを示唆している。 #Article#LanguageModel#Library#ReinforcementLearning
Issue Date: 2023-07-23 trl_trlx CommentTRL 強化学習によるLLMの学習のためのライブラリhttps://note.com/npaka/n/nbb974324d6e1trlを使って日本語LLMをSFTからRLHFまで一通り学習させてみるhttps://www.ai-shift.co.jp/techblog/3583 ... #Article#Efficiency/SpeedUp#LanguageModel#Quantization#Adapter/LoRA
Issue Date: 2023-07-22 LLaMA2を3行で訓練 CommentLLaMA2を3行で、1つのA100GPU、QLoRAで、自前のデータセットで訓練する方法 ... #Article#LanguageModel
Issue Date: 2023-07-22 Quantized LLaMA2 CommentLLaMA2をローカルで動作させるために、QLoRAで量子化したモデル ... #Article#LanguageModel
Issue Date: 2023-07-22 LLongMA2 CommentLLaMA2のcontext windowを8kにして訓練。オリジナルのLLaMA2と同等の性能で8k contextを利用可能。元ツイート: https://twitter.com/enricoshippole/status/1682054848584228866?s=46&t=LJIgfuO35 ... #Article#Dataset#LanguageModel#DialogueGeneration
Issue Date: 2023-07-22 ChatBot Arenaのデータセット Comment33kのconversation、2つのレスポンスに対する人間のpreferenceスコア付き20種類のSoTAモデルのレスポンスを含み、13kのユニークIPからのアクセスがあり、3Kのエキスパートによるアノテーション付き ... #Article#RecommenderSystems#Dataset#NaturalLanguageUnderstanding
Issue Date: 2023-07-18 DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions Summaryデータセットの推奨タスクを操作化し、DataFinderデータセットを構築した。DataFinderデータセットは、自動的に構築された大規模なトレーニングセットと専門家による評価セットを含んでいる。このデータセットを使用して、テキストベースのデータセット推奨のための優れたバイエンコーダリトリーバを提案し、関連する検索結果を見つけることができることを示した。データセットとモデルは一般に公開される。 #Article#LanguageModel#Explanation#Evaluation
Issue Date: 2023-07-14 Are Human Explanations Always Helpful? Towards Objective Evaluation of Human Natural Language Explanations Summary本研究では、説明可能なNLPモデルのトレーニングにおいて、人間による注釈付けの説明の品質を評価する方法について検討しています。従来のSimulatabilityスコアに代わる新しいメトリックを提案し、5つのデータセットと2つのモデルアーキテクチャで評価しました。結果として、提案したメトリックがより客観的な評価を可能にする一方、Simulatabilityは不十分であることが示されました。 #Article#Survey#ComputerVision#LanguageModel#MulltiModal#AudioProcessing
Issue Date: 2023-07-03 Awesome Multimodal LLMs CommentマルチモーダルなLLMのリストがまとめられている ... #Article#LanguageModel#Article#LongSequence
Issue Date: 2023-07-01 How Long Can Open-Source LLMs Truly Promise on Context Length?, 2023 CommentLLMのcontext長を伸ばす際の方法と得られた知見がまとめられている ... #Article#LanguageModel#Library#Article
Issue Date: 2023-06-25 OpenLLaMA 13B, 2023 CommentそもそもOpenLLaMAには、オリジナルのLLaMAと比較して、tokenizerがスペースを無視するというissueがある模様。スペースの情報がクリティカルなタスク、たとえばcode generationなどには要注意。https://github.com/openlm-research/o ... image#Article#Tutorial#LanguageModel#Prompting#Article
Issue Date: 2023-05-12 Prompt Engineering vs. Blind Prompting, 2023 Commentexperimentalな手法でprompt engineeringする際のoverview ... #Article#Survey#LanguageModel
Issue Date: 2023-05-12 open LLM Leaderboard #Article#Efficiency/SpeedUp#Library#Transformer#python
Issue Date: 2023-05-11 Assisted Generation: a new direction toward low-latency text generation, 2023 Comment1 line加えるとtransformerのgenerationが最大3倍程度高速化されるようになったらしいassistant modelをロードしgenerateに引数として渡すだけ ... image#Article#MachineTranslation#Metrics
Issue Date: 2023-05-10 METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, Banerjee+, CMU, ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and_or Summarization Comment# イントロ MTの評価はBLEUが提案されてから過去2年間で注目されている。BLEUはNIST metricと関連しており、研究で利用されてきた。自動評価は素早く、より簡便に、human evaluationよりも安価に評価をすることができる。また、自動評価は他のシステムとの比較だけでなく、on ... image#Article#LanguageModel#Library#FoundationModel#Repository
Issue Date: 2023-05-08 OpenSource PaLM, 2023 Comment150m,410m,1bのモデルがある。Googleの540bには遠く及ばないし、emergent abilityも期待できないパラメータ数だが、どの程度の性能なのだろうか。 ... #Article#NaturalLanguageGeneration#LanguageModel#FoundationModel#Article#Programming
Issue Date: 2023-05-06 StarCoderBase_StarCoder, 2023 Comment・15.5Bパラメータ・80種類以上のプログラミング言語で訓練・Multi Query Attentionを利用・context window size 8192・Fill in the middle objectiveを利用Instruction tuningがされておらず、prefipaper: ... #Article#LanguageModel#Library#Article
Issue Date: 2023-05-06 MPT-7B, 2023 Comment新たなオープンソースLLM。下記ツイートより引用:・商用利用可能・6万5000トークン使用可能・7Bと比較的小さいモデルながら高性能・日本語を扱え性能が高いとのこと。https://twitter.com/imai_eruel/status/1654629078878793729ChatGPTのLL ... #Article#RecommenderSystems#Dataset
Issue Date: 2023-05-06 SNAP: Web data: Amazon reviews #Article#PersonalizedDocumentSummarization#Pocket#Personalization
Issue Date: 2023-05-05 Personalized news filtering and summarization on the web, Xindong+, 2011 IEEE 23rd International Conference on Tools with Artificial Intelligence, 29 Commentsummarizationではなく、keyword extractionの話だった ... #Article#PersonalizedDocumentSummarization#Personalization#review
Issue Date: 2023-05-05 Personalized summarization of customer reviews based on user’s browsing history, Zehra+, International Journal on Computer Science and Information Systems 8.2, 12 #Article#PersonalizedDocumentSummarization#Education#Personalization
Issue Date: 2023-05-05 Towards personalized summaries in spanish based on learning styles theory, Uriel+, Res. Comput. Sci. 148.5, 1 #Article#PersonalizedDocumentSummarization#Pocket#Education#Personalization
Issue Date: 2023-05-05 Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model, Guangbing+, IEEE Fourth International Conference on Technology for Education, 2012, 22 #Article#PersonalizedDocumentSummarization#Personalization
Issue Date: 2023-05-05 Personalized text summarization based on important terms identification, Robert+, 23rd International Workshop on Database and Expert Systems Applications, 2012, 43 Comment(あまりしっかりよめていない) 学習者のrevision(復習?)のための教材の要約手法の提案。personalizationするために、さまざまなRaterを定義し、Raterからの単語wに対する評価を集約し、最終的にuser-specificなsentence-term matrixを構築。 ... #Article#LanguageModel#Assessment
Issue Date: 2023-05-04 ChatBot Arena, lmsys org, 2023.05 Commentクラウドソーシング型のチャットボット評価するシステム。ユーザはシステムにアクセスすると、二つのanonymisedされたLLMと対話し、どちらが優れていたかをvotingする。すべてのシステムとユーザのinteractionはロギングされており、最終的にElo RatingでLLM.をランキング付け ... image#Article#Library#SpokenLanguageProcessing#SpokenLanguageGeneration
Issue Date: 2023-05-04 Bark Commentテキストプロンプトで音声生成ができるモデル。MIT License ... #Article#NeuralNetwork#LanguageModel#Library#Transformer
Issue Date: 2023-05-04 OpenLLaMA CommentLLaMAと同様の手法を似たデータセットに適用し商用利用可能なLLaMAを構築した模様 ... #Article#Survey#LanguageModel
Issue Date: 2023-05-04 LLM ecosystem graphs Comment様々なfonudation model、それらを利用したアプリケーション、依存関係がまとまったページPercy Liangのグループが運用してるっぽい? ... #Article#LanguageModel#Assessment
Issue Date: 2023-04-30 PandaLM Comment異なるLLMを再現性のある形で評価するためのライブラリ2つの異なるLLMのoutputを比較し、どちらが優れているか理由付きで説明する。人間が作成して1000サンプルの多様なアノテーションデータセットを使い評価できる。 ... #Article#PersonalizedDocumentSummarization#Pocket
Issue Date: 2023-04-30 Personalized Extractive Summarization for a News Dialogue System, Takatsu+, SLT, 2021, 4 #Article#LanguageModel#ChatGPT#Article
Issue Date: 2023-04-27 HuggingChat, 2023 Commentclosedな世界で開発されるOpenAIのChatGPTに対して、Openなものが必要ということで、huggingfaceが出してきた例のアレです ... #Article#LanguageModel#LongSequence
Issue Date: 2023-04-27 Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System, 2023 Comment> Our findings indicate that our system outperforms ChatGPT in handling ultra-long inputs or conversations. と書いてあるが、定量評価の結果が全く書いていない模様。全くもって信用できない。4/ ... #Article#Survey#LanguageModel
Issue Date: 2023-04-27 大規模言語モデル間の性能比較まとめ Comment参考になる現状だと研究用であればllama, 商用利用ならtext-davinci-003あるいはFlanT5-xxlあたりになりそうLLM Worksheet: https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3 ... #Article#NeuralNetwork#LanguageModel#Zero/FewShotPrompting#In-ContextLearning
Issue Date: 2023-04-27 Language Models are Few-Shot Learners CommentIn-Context Learningを提案した論文論文に記載されているIn-Context Learningの定義は、しっかり押さえておいた方が良い。 ... #Article#Dataset#InstructionTuning#DataDistillation
Issue Date: 2023-04-26 LaMini-instruction Summary私たちは、大規模言語モデルからの知識を抽出するために、文/オフライン蒸留を行います。具体的には、いくつかの既存のプロンプトリソースに基づいて、合計258万ペアの指示と応答を生成します。詳細は論文を参照してください。 Comment既存のInstruction DatasetのInstructionをseedとして、gpt-3.5-turboで新たなInstructionとresponseを生成したデータセット ... image#Article#NeuralNetwork#Efficiency/SpeedUp#LanguageModel#Library#Adapter/LoRA
Issue Date: 2023-04-25 LoRA論文解説, Hayato Tsukagoshi, 2023.04 Commentベースとなる事前学習モデルの一部の線形層の隣に、低ランク行列A,Bを導入し、A,Bのパラメータのみをfinetuningの対象とすることで、チューニングするパラメータ数を激減させた上で同等の予測性能を達成し、推論速度も変わらないようにするfinetuning手法の解説LoRAを使うと、でかすぎるモデ ... #Article#Embeddings#Library#SpokenLanguageProcessing
Issue Date: 2023-04-25 CLAP Commentテキストとオーディオの大量のペアを事前学習することで、テキストとオーディオ間を同じ空間に写像し、類似度を測れるようにしたモデルたとえばゼロショットでaudio分類ができる![image](https://user-images.githubusercontent.com/12249301/23429 ... #Article#Tools#InformationRetrieval#Library#LLMAgent
Issue Date: 2023-04-22 Llamaindex CommentLlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた https://dev.classmethod.jp/articles/llama-index-insert-index/ ... #Article#Tools#InformationRetrieval#LanguageModel#Library#LLMAgent
Issue Date: 2023-04-21 LangChain CommentLangChain の Googleカスタム検索 連携を試す https://note.com/npaka/n/nd9a4a26a8932LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents https://zenn.de ... #Article#PersonalizedDocumentSummarization
Issue Date: 2023-04-07 User-centred versus system-centred evaluation of a personalization system, Diaz+, Information Processing & management, 2008 Comment# Introduction 本研究では、web contentsのPersonalizationシステムにおいて、user-centered evaluationとsystem-centered evaluationの評価の問題を議論している。目的としては両者の評価を組み合わせることで、それぞれ ... #Article#LanguageModel#Education#EssayScoring
Issue Date: 2023-04-01 Exploring the Potential of Using an AI Language Model for Automated Essay Scoring, Mizumoto+, Research Methods in Applied Linguistics‘23 Comment著者によるポスト: https://twitter.com/mizumotoatsushi/status/1641754298496471040?s=46&t=TIr1-wDC_j5MPU3TvCVWMg著者によるブログ: https://mizumot.com/lablog/archives/18 ... #Article#LanguageModel#Finetuning (SFT)
Issue Date: 2023-03-30 Publicly available instruction-tuned models #Article#Tools#LanguageModel#Library
Issue Date: 2023-03-11 20B params chatgpt alternative Comment元ツイートApache2.0で公開https://twitter.com/_philschmid/status/1634492396171071488?s=46&t=VvPwEQsB--BeXx0YbYQdxQ ... #Article#Library#DataAugmentation#Repository
Issue Date: 2023-01-21 nlpaug CommentData Augmentationのためのオープンソースライブラリ ... #Article#ComputerVision#MachineLearning#Library#Explanation#Transformer#Article
Issue Date: 2022-12-01 Transformers Interpret, 2022 Commenttransformersのモデルをたった2行追加するだけで、explainableにするライブラリ基本的にtextとvisionのclassificationをサポートしている模様text classificationの場合、たとえばinput tokenの各トークンの分類に対する寄与度をou ... #Article#Survey
Issue Date: 2022-10-31 MTEB: Massive Text Embedding Benchmark #Article#NeuralNetwork#Tutorial#Transformer
Issue Date: 2022-09-06 Transformerの最前線 〜 畳込みニューラルネットワークの先へ 〜, 牛久先生, 2022 #Article#NeuralNetwork#LanguageModel#Adapter/LoRA
Issue Date: 2022-08-19 The Power of Scale for Parameter-Efficient Prompt Tuning, Lester+, Google Research, EMNLP‘21 Comment日本語解説: https://qiita.com/kts_plea/items/79ffbef685d362a7b6ceT5のような大規模言語モデルに対してfinetuningをかける際に、大規模言語モデルのパラメータは凍結し、promptをembeddingするパラメータを独立して学習する手法 ... #Article#Tutorial
Issue Date: 2021-10-26 自然言語系AIサービスと著作権侵害 #Article#NeuralNetwork#LanguageModel
Issue Date: 2021-09-09 GPT-3から我々は何を学べば良いのか, 山本, Japio year book 2020 CommentGPT-3の概要:GPT-3はWebサイトから数年に渡って収集したCommon Crawlというデータセットから、570GBを抜粋し学習に利用。(英語ウィキペディアの約130倍)ある単語列に後続する単語を予測するという方法(自己回帰型言語モデル)で教師なし学習を繰り返し、言語モデルを学習。GPT-3 ... #Article#Tutorial#Tools#Library
Issue Date: 2021-06-11 最先端自然言語処理ライブラリの最適な選択と有用な利用方法 _ pycon-jp-2020 Comment各形態素解析ライブラリの特徴や比較がされていて、自分の用途・目的に合わせてどの形態素解析器が良いか意思決定する際に有用![image](https://user-images.githubusercontent.com/12249301/121644722-56025800-cace-11eb-9f ... #Article#NeuralNetwork
Issue Date: 2021-06-10 FastSeq: Make Sequence Generation Faster, Yan+, ACL’21 CommentBART, DistilBART, T5, GPT2等のさまざまなTransformer-basedな手法で、4-9倍Inference speedを向上させる手法を提案。 ... #Article#NeuralNetwork#MachineTranslation#Embeddings#Pocket
Issue Date: 2021-06-07 Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, 2021 CommentNMTにおいてword embeddingがどう影響しているかなどを調査しているらしい ... #Article#NeuralNetwork#MachineTranslation
Issue Date: 2021-06-03 Probing Word Translations in the Transformer and Trading Decoder for Encoder Layers, ACL‘21 CommentTransformerに基づいたNMTにおいて、Encoderが入力を解釈し、Decoderが翻訳をしている、という通説を否定し、エンコーディング段階、さらにはinput embeddingの段階でそもそも翻訳が始まっていることを指摘。エンコーディングの段階ですでに翻訳が始まっているのであれば、エ ... #Article#DocumentSummarization#NeuralNetwork#NaturalLanguageGeneration
Issue Date: 2021-06-03 Incorporating Copying Mechanism in Sequence-to-Sequence Learning, Gu+, ACL’16 Comment#371 と同様コピーメカニズムを提案した論文。Joint Copy ModelやCOPYNETと呼ばれる。 次の単語が "生成" されるのか "コピー" されるのかをスコアリングし、各単語がコピーされる確率と生成される確率をMixtureした同時確率分布で表現する( #207 等でも説明されてい解 ... #Article#DocumentSummarization#NeuralNetwork#NaturalLanguageGeneration
Issue Date: 2021-06-02 Pointing the Unknown Words, Gulcehre+, ACL’16 CommentConditional Copy Model (Pointer Softmax)を提案した論文。単語を生成する際に、語彙内の単語から生成する分布、原文の単語から生成する分布を求める。後者はattention distributionから。コピーするか否かを決める確率変数を導入し(sigmoid)、解 ... #Article#NeuralNetwork#SentimentAnalysis#RepresentationLearning
Issue Date: 2021-06-01 Sentiment analysis with deeply learned distributed representations of variable length texts, Hong+, Technical Report. Technical report, Stanford University, 2015 Comment#363 より、本論文を引用して「CNN ベースのモデルが、畳み込み演算により文から特定のローカルパターンを検出して抽出できるため、他のモデル(e.g. Recurrent Neural Network, Recursive Neural Network)よりも優れていることが経験的に示されている」 ... #Article#Tutorial
Issue Date: 2021-05-19 GLUEベンチマークの各タスクデータの概要 Comment各タスクごとにサンプルとその説明が付与されており、ぱっと見でどんなタスクかすぐ分かる ... #Article#NeuralNetwork#ComputerVision
Issue Date: 2021-05-19 MLP-like Architecture CommentgMLP:大規模なself-attentionが無いSpatial Gating Unitを搭載したシンプルなMLPでも、Transformerの性能に近づけたよ(特にCV)。つまり、self-attentionはessentialというわけではなさそうだよ。NLPの場合はgMLPだとTransまあ ... #Article#ReviewGeneration
Issue Date: 2021-03-17 Unsupervised Opinion Summarization as Copycat-Review Generation, Bražinskas, arXiv20 #Article#NeuralNetwork#Tools#Dataset#LanguageModel#Library
Issue Date: 2020-03-13 BERT 日本語Pre-trained Model, NICT 2020 CommentNICTが公開。既に公開されているBERTモデルとのベンチマークデータでの性能比較も行なっており、その他の公開済みBERTモデルをoutperformしている。 ... #Article#NeuralNetwork#Survey#LanguageModel
Issue Date: 2019-11-09 事前学習言語モデルの動向 _ Survey of Pretrained Language Models Comment[2019/06まで] ・ELMo(双方向2層LSTM言語モデル) ・GPT(left-to-rightの12層Transformer自己回帰言語モデル) ・BERT(24層のTransformer双方向言語モデル) ・MT-DNN(BERTの上にマルチタスク層を追加した研究) ・XLM(ELMo, ... #Article#ComputerVision#Pocket#CommentGeneration
Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, arXiv 2017 Comment画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。 InstagramのPostの簡易化などに応用できる。 Postを生成するためには、自身の言葉で、画像についての説明や、contextとい ... #Article#ComputerVision#Pocket#CommentGeneration
Issue Date: 2019-09-27 Cross-domain personalized image captioning, Long+, 2019 #Article#NeuralNetwork#Tools#Library
Issue Date: 2019-09-22 【黒橋研】BERT日本語Pretrainedモデル Comment【huggingface transformersで使える日本語モデルのまとめ】 https://tech.yellowback.net/posts/transformers-japanese-models ... #Article#RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#Pocket#ReviewGeneration
Issue Date: 2019-08-17 Review Response Generation in E-Commerce Platforms with External Product Information #Article#RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#Pocket#ReviewGeneration
Issue Date: 2019-08-17 Automatic Generation of Personalized Comment Based on User Profile, Zeng+, arXiv #Article#NeuralNetwork#Tutorial#Tools
Issue Date: 2018-11-16 AllenNLP Commenthttps://docs.google.com/presentation/d/17NoJY2SnC2UMbVegaRCWA7Oca7UCZ3vHnMqBV4SUayc/preview?slide=id.g43b8d8e880_0_8 ... #Article#NeuralNetwork#Tutorial#MachineLearning
Issue Date: 2018-06-29 Pytorchによるtransformer実装チュートリアル #Article#NeuralNetwork#Tutorial#MachineLearning
Issue Date: 2018-02-19 ニューラルネット勉強会(LSTM編), Seitaro Shinagawa, 2016 CommentLSTMの基礎から、実装する上でのTipsがまとまっている。 zero padding, dropoutのかけかた、normalizationの手法など。 ... #Article#DocumentSummarization#Document#Extractive
Issue Date: 2018-01-17 Machine-made index for technical literature: an experiment, IBM Journal of Research and Development, 1958. Comment初期の要約研究。Luhnらの研究よりはcitation countが少ない。 ... #Article#Tutorial#MachineTranslation#Alignment
Issue Date: 2018-01-15 ALAGIN 機械翻訳セミナー 単語アライメント, Graham Neubig CommentNeubigさんによる単語アライメントチュートリアル ... #Article#NeuralNetwork#Tutorial
Issue Date: 2018-01-15 自然言語処理のためのDeep Learning, Yuta Kikuchi #Article#Survey#SentimentAnalysis#OpinionMining
Issue Date: 2018-01-15 Opinion mining and sentiment analysis, Pang+, Foundations and Trends in Information Retrieval, 2008 #Article#DocumentSummarization#Alignment
Issue Date: 2018-01-11 The Decomposition of Human-Written Summary Sentences. Hongyan Jing et al. SIGIR’99. Comment参照要約 原文書対が与えられた時に、参照要約中の単語と原文書中の単語のアライメントをとるHMMベースな手法を提案。 ![image](https://user-images.githubusercontent.com/12249301/34812500-2d1d7d32-f6e9-11e7 ... #Article#DocumentSummarization#Alignment
Issue Date: 2018-01-11 The automatic construction of large-scale corpora for summarization research. Daniel Marcu. SIGIR’99 Comment<Abstract, Text>のタプルが与えられた時に、<Abstract, Extract, Text>のタプルを自動的に生成。ExtractはAbstractと対応するText中の重要部(節やsentence)。 <Abstract, Extract, Text>に含まれるExtract ... #Article#Multi#Single#DocumentSummarization#Document#Unsupervised#GraphBased#Extractive
Issue Date: 2018-01-01 LexRank: Graph-based Lexical Centrality as Salience in Text Summarization, Erkan+, Journal of Artificial Intelligence Research, 2004 Comment代表的なグラフベースな(Multi) Document Summarization手法。 ほぼ #214 と同じ手法。 2種類の手法が提案されている: * [LexRank] tf-idfスコアでsentenceのbag-of-wordsベクトルを作り、cosine similarit ... #Article#DocumentSummarization#Document#Classic
Issue Date: 2018-01-01 The automatic creation of literature abstracts, Luhn, IBM Journal of Research Development, 1958 Comment文書要約研究初期の研究 ... #Article#DocumentSummarization#Document#StructuredLearning#DomainAdaptation#Supervised#Extractive
Issue Date: 2017-12-31 転移学習による抽出型要約の精度向上, 西川+, 情報処理学会研究報告, 2011 Comment構造学習を利用した文書要約モデル #126 なども利用し転移学習を行なっている。 ... #Article#Single#DocumentSummarization#Document#Supervised
Issue Date: 2017-12-31 Document Summarization using Conditional Random Fields, Shen+, IJCAI07 CommentCRFを用いて単一文書要約の手法を考えましたという話。 気持ちとしては、 ``` 1. Supervisedなモデルでは、当時は原文書中の各文を独立に2値分類して要約を生成するモデルが多く、sentence間のrelationが考慮できていなかった 2. unsupervisedな手法で ... #Article#DocumentSummarization#Supervised
Issue Date: 2017-12-31 Text Summarization using a trainable summarizer and latent semantic analysis, Yeh+, Information Processing and Management 2005 #Article#DocumentSummarization#Survey
Issue Date: 2017-12-31 A survey on Automatic Text Summarization, Das+, CMUの教材? Commentきちんとしたconferenceの論文ではないと思うので、Referなどはしないほうがいいかも。 勉強には良い。 ... #Article#NaturalLanguageGeneration#Others#DataToTextGeneration
Issue Date: 2017-12-31 Automatically generated linguistic summaries of energy consumption data, van der Heide+, In Proceedings of the Ninth International Conference on Intelligent Systems Design and Applications, pages 553-559, 2009 #Article#NaturalLanguageGeneration#Others#DataToTextGeneration
Issue Date: 2017-12-31 A framework for automatic text generation of trends in physiological time series data, Banaee+, In Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, 2013 #Article#NaturalLanguageGeneration#SingleFramework#ConceptToTextGeneration
Issue Date: 2017-12-31 A Global Model for Concept-to-Text Generation, Konstas+, Journal of Artificial Intelligence Research, Vol. 48, pp.305--346, 2013 #Article#NeuralNetwork#NaturalLanguageGeneration#DataToTextGeneration
Issue Date: 2017-12-31 What to talk about and how? Selective Generation using LSTMs with Coarse-to-Fine Alignment, Mei+, NAACL-HLT’16 Commentcontent-selectionとsurface realizationをencoder-decoder alignerを用いて同時に解いたという話。 普通のAttention basedなモデルにRefinerとPre-Selectorと呼ばれる機構を追加。通常のattentionにはatte ... #Article#NeuralNetwork#Document#QuestionAnswering
Issue Date: 2017-12-28 Teaching Machines to Read and Comprehend, Hermann+, NIPS 2015 Commentだいぶ前に読んだので割とうろおぼえ。 CNN/DailyMailデータセットの作成を行なった論文(最近Neuralな文”書”要約の学習でよく使われるやつ)。 CNN/DailyMailにはニュース記事に対して、人手で作成した要約が付与されており、要約中のEntityを穴埋めにするなどして、 ... #Article#Multi#DocumentSummarization#Dataset#QueryBiased#Extractive
Issue Date: 2017-12-28 Query-Chain Focused Summarization, Baumel+, ACL.14 Comment[Query-Chain Focused Summarization.pdf](https://github.com/AkihikoWatanabe/paper_notes/files/1590916/Query-Chain.Focused.Summarization.pdf) ... #Article#DocumentSummarization#Snippets
Issue Date: 2017-12-28 Web page summarization using clickthrough data, Sun et al., SIGIR’05, 2005 #Article#DocumentSummarization#Snippets#QueryBiased
Issue Date: 2017-12-28 Learning query-biased web page summarization, Wang et al., CIKM’07, 2007 Comment・従来のquery-biasedな要約におけるclassificationアプローチは,training内のdocumentの情報が未知のdocumentのsentenceのclassificationに役立つというものだった.これは,たとえば似たような情報を多く含むscientific artic ... #Article#DocumentSummarization#Snippets
Issue Date: 2017-12-28 Enhanced web document summarization using hyperlinks, Delort et al., HT’03, 2003 Comment・Genericなweb pageの要約をつくる ・要約を作る際に,ページの内容から作るわけではなく,contextを用いて作る.contextとは,target pageにリンクを張っているページにおけるリンクの周辺にある文のこと. ・contextを利用した要約では,partialityとt ... #Article#DocumentSummarization#Snippets#QueryBiased
Issue Date: 2017-12-28 A task-oriented study on the influencing effects of query-biased summarization in web searching, White et al., Information Processing and Management, 2003 Comment・search engineにおいてquery-biasedな要約の有用性を示したもの ・task-orientedな評価によって,提案手法がGoogleやAltaVistaのスニペットよりも良いことを示す. ・提案手法は文選択によるquery-biased summarization.スコアリ ... #Article#DocumentSummarization#Temporal
Issue Date: 2017-12-28 HLTCOE at TREC 2013: Temporal Summarization, Xu et al, TREC 2013 #Article#DocumentSummarization#Temporal
Issue Date: 2017-12-28 BJUT at TREC 2013 Temporal Summarization Track, yang et al. TREC2013 Comment・次のモジュールにより構成される。Preprocess, Retrieval, Information expansion, Sentence choosing and ranking ・Preprocess: GPGファイルをTXTファイルに変換。indexをはる。 ・Retrieval: ... #Article#DocumentSummarization#Update#Dataset
Issue Date: 2017-12-28 DUC 2007, Update Summarization Dataset #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 Update Summary Update, Copeck et al., TAC’08 Comment被引用数は少ないが、良い論文からreferされているイメージ ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 DualSum: a Topic-Model based approach for update summarization, Delort et al., EACL’12 Comment・大半のupdate summarizationの手法はdocument set Aがgivenのとき,document set Bのupdate summarizationをつくる際には,redundancy removalの問題として扱っている. ・この手法は,1つのsentenceの中にre ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 Document Update Summarization Using Incremental Hierarchical Clustering, Wang et al., CIKM’10 Comment・既存のMDSではdocumentをbatch処理するのが前提.typicalなクラスタリングベースの手法やグラフベースの手法はsentence-graphを構築して要約を行う.しかし,情報がsequentialに届き,realtimeで要約を行いたいときにこのような手法を使うと,毎回すでに処理した ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 Incremental Update Summarization: Adaptive Sentence Selection based on Prevalence and Novelty, McCreadie et al., CIKM’14 Comment・timelyなeventに対してupdate summarizationを適用する場合を考える.たとえば6日間続いたeventがあったときにその情報をユーザが追う為に何度もupdate summarizationシステムを用いる状況を考える.6日間のうち新しい情報が何も出てこない期間はirrele ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 Update Summarization using Semi-Supervised Learning Based on Hellinger Distance, Wang et al., CIKM’15, 2015.10 Comment・Hellinger Distanceを用いてSentence Graphを構築.ラベル伝搬により要約に含める文を決定する手法 ・update summarizationの研究ではsimilarityをはかるときにcosine similarityを用いることが多い. ・cosine similうー ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 TimedTextRank: Adding the Temporal Dimension to Multi-Document Summarization, Xiaojun Wan, SIGIR’07, 2007.07 Comment・evolving topicsを要約するときは,基本的に新しい情報が重要だが,TextRankはそれが考慮できないので拡張したという話. ・dynamic document setのnew informationをより重視するTimedTextRankを提案 ・TextRankのvoteの部分 ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 The LIA Update Summarization Systems at TAC-2008, Boudin et al. TAC’08, 2008.11 Comment・Scalable MMR #32 とVariable length intersection gap n-term modelを組み合わせる. ・Variable length intersection gap n-term modelは,あるトピックのterm sequenceは他の異なる語と ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization, Boudin et al., COLING’08, 2008.08 Comment・MMR #243 をupdate summarization用に拡張.History(ユーザが過去に読んだsentence)の数が多ければ多いほどnon-redundantな要約を出す (Queryに対するRelevanceよりもnon-redundantを重視する) ・Historyの大きさに ... #Article#DocumentSummarization#IntegerLinearProgramming (ILP)#Update
Issue Date: 2017-12-28 Improving Update Summarization via Supervised ILP and Sentence Reranking, Li et al. NAACL’15, 2015.05 Comment・update summarizationをILPで定式化.基本的なMDSのILPのterm weightingにsalienceの要素に加えてnoveltyの要素を加える.term weightingにはbigramを用いる.bigram使うとよくなることがupdate summarization ... #Article#DocumentSummarization#Update
Issue Date: 2017-12-28 Update Summarization Based on Co-Ranking with Constraints, Wiaojun Wan, COLING’12, 2012.12 Comment・PageRankの枠組みを拡張してold datasetとnew dataset内のsentenceをco-ranking ・co-rankingするときは,update scoreとconsistency scoreというものを求め相互作用させる. ・update scoreが高いsente ... #Article#Multi#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized Multi-Document Summarization using N-Gram Topic Model Fusion, Hennig+, SPIM, 2010, 2010.05 Comment・unigramの共起だけでなく,bigramの共起も考慮したPLSIモデルを提案し,jointで学習.与えられたクエリやnarrativeなどとsentenceの類似度(latent spaceで計算)を計算し重要文を決定。 ・user-modelを使ったPersonalizationはしていな ... #Article#Single#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Segmentation Based, Personalized Web Page Summarization Model, Journal of advances in information technology, vol. 3, no.3, 2012, 2012.08 Comment・Single-document ・ページ内をセグメントに分割し,どのセグメントを要約に含めるか選択する問題 ・要約に含めるセグメントは4つのfactor(segment weight, luan’s significance factor, profile keywords, compress ... #Article#Multi#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized Multi-document Summarization in Information Retrieval, Yang+, Machine Learning and Cybernetics, 08, 2008.07 Comment・検索結果に含まれるページのmulti-document summarizationを行う.クエリとsentenceの単語のoverlap, sentenceの重要度を  Affinity-Graphから求め,両者を結合しスコアリング.MMR #243 likeな手法で冗長性を排除し要約を生成する ... #Article#Multi#DocumentSummarization#Extractive
Issue Date: 2017-12-28 NewsInEssence: Summarizing ONLINE NEWS TOPICS, Radev+, Communications of the ACM, 05, 2005.10 Comment・Centroid-Basedな手法(MEADと同じ手法)で要約を生成 ・Personalizationはかけていない ... #Article#Multi#PersonalizedDocumentSummarization#SearchEngine
Issue Date: 2017-12-28 WebInEssence: A Personalized Web-Based Multi-Document Summarization and Recommendation System, Radev+, NAACL, 01, 2001.06 Comment・ドキュメントはオフラインでクラスタリングされており,各クラスタごとにmulti-document summarizationを行うことで, ユーザが最も興味のあるクラスタを同定することに役立てる.あるいは検索結果のページのドキュメントの要約を行う. 要約した結果には,extractした文の元U ... #Article#PersonalizedDocumentSummarization#DocumentSummarization
Issue Date: 2017-12-28 Automatic Text Summarization based on the Global Document Annotation, COLING-ACL, Nagao+, 1998, 1998.08 CommentPersonalized summarizationの評価はしていない。提案のみ。以下の3種類の手法を提案 keyword-based customization 関心のあるキーワードをユーザが入力し、コーパスやwordnet等の共起関係から関連語を取得し要約に利用する 文書の ... #Article#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 A Study for Documents Summarization based on Personal Annotation, HLT-NAACL-DUC’03, Zhang+, 2003, 2003.05 Comment![image](https://user-images.githubusercontent.com/12249301/34402434-d521f19e-ebe4-11e7-82cf-2f3452fa4014.png) ![image](https://user-images.githubuse重 ... #Article#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Automatic Personalized Summarization using Non-negative Matrix Factorization and Relevance Measure, IWSCA, Park+, 2008, 2008.07 Comment#15 と同様 ... #Article#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized Text Summarization using NMF and Cluster Refinement, ICTC, Park+, 2011, 2011.09 Comment![image](https://user-images.githubusercontent.com/12249301/34402356-5275f894-ebe4-11e7-93d7-2a3781a74b94.png) ... #Article#PersonalizedDocumentSummarization
Issue Date: 2017-12-28 Personalized Summarization Agent Using Non-negative Matrix Factorization, PRICAI, Park, 2008, 2008.12 Comment![image](https://user-images.githubusercontent.com/12249301/34402291-fb66cb96-ebe3-11e7-9635-790be0cf8b5d.png) ... #Article#DocumentSummarization#GraphBased#Comments#Extractive
Issue Date: 2017-12-28 Comments-Oriented Document Summarization: Understanding Documents with Reader’s Feedback, Hu+, SIGIR’08, 2008.07