Pocket

#Analysis#Efficiency/SpeedUp#NLP#LanguageModel
Issue Date: 2024-11-22 Observational Scaling Laws and the Predictability of Language Model Performance, Yangjun Ruan+, arXiv24 Comment縦軸がdownstreamタスクの主成分(のうち最も大きい80%を説明する成分)の変化(≒LLMの性能)で、横軸がlog scaleの投入計算量。Qwenも頑張っているが、投入データ量に対する性能(≒データの品質)では、先駆け的な研究であるPhiがやはり圧倒的?![image](https://#7 ... #LanguageModel#Personalization
Issue Date: 2024-11-21 On the Way to LLM Personalization: Learning to Remember User Conversations, Lucie Charlotte Magister+, arXiv24
Issue Date: 2024-11-21 That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design, Anna Goldie+, arXiv24 Commentoh... ...

#Analysis#InformationRetrieval#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-19 Likelihood as a Performance Gauge for Retrieval-Augmented Generation, Tianyu Liu+, arXiv24 Commentトークンレベルの平均値をとった生成テキストの対数尤度と、RAGの回答性能に関する分析をした模様。![image](https://github.com/user-attachments/assets/ac03c0b6-b16c-4992-8446-2f56bad09ab2)とりあえず、もし「L参考: ... #Survey#NLP#LanguageModel#MultiLingual
Issue Date: 2024-11-19 Multilingual Large Language Models: A Systematic Survey, Shaolin Zhu+, arXiv24 Comment![image](https://github.com/user-attachments/assets/0b86445f-b974-459c-94f0-a80f5e2bbc9a)![image](https://github.com/user-attachments/assets/0d03af89 ... #Tutorial#ComputerVision#DiffusionModel
Issue Date: 2024-11-17 Tutorial on Diffusion Models for Imaging and Vision, Stanley H. Chan, arXiv24 Commentいつか読まなければならない ...
Issue Date: 2024-11-17 BabyLM Challenge: Exploring the Effect of Variation Sets on Language Model Training Efficiency, Akari Haga+, arXiv24 Comment元ポスト:https://x.com/rodamille/status/1858195569526665230?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Analysis#Efficiency/SpeedUp#Pretraining#NLP#LanguageModel#Finetuning (SFT)#Japanese
Issue Date: 2024-11-17 Balancing Speed and Stability: The Trade-offs of FP8 vs. BF16 Training in LLMs, Kazuki Fujii+, arXiv24 Comment元ポスト:https://x.com/okoge_kaz/status/1857639065421754525?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QFP8で継続的事前学習をするとスループットは向上するが、lossのスパイクを生じたり、downstreamタスクの性能がBF16よ ... #Analysis#NLP#LanguageModel
Issue Date: 2024-11-17 The Geometry of Concepts: Sparse Autoencoder Feature Structure, Yuxiao Li+, arXiv24 Comment参考: https://ledge.ai/articles/llm_conceptual_structure_sae[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/search/yi-xia-nolun-wen-wodu-min ...
Issue Date: 2024-11-15 Adaptive Decoding via Latent Preference Optimization, Shehzaad Dhuliawala+, arXiv24 #InformationRetrieval#RelevanceJudgment#LanguageModel#Evaluation
Issue Date: 2024-11-14 A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look, Shivani Upadhyay+, arXiv24 Comment元ポスト:https://x.com/lintool/status/1856876816197165188?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/search/ ...
Issue Date: 2024-11-13 Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding, Haolin Chen+, arXiv24 Comment元ポスト:https://x.com/haolinchen11/status/1856150958772040165?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2024-11-13 Scaling Laws for Precision, Tanishq Kumar+, arXiv24 Comment元ポスト: https://x.com/tanishq97836660/status/1856045600355352753?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Grokking
Issue Date: 2024-11-13 Why Do You Grok? A Theoretical Analysis of Grokking Modular Addition, Mohamad Amin Mohamadi+, arXiv24
Issue Date: 2024-11-13 ALLoRA: Adaptive Learning Rate Mitigates LoRA Fatal Flaws, Hai Huang+, arXiv24 #Pretraining#MachineLearning#NLP#LanguageModel#Subword
Issue Date: 2024-11-12 LBPE: Long-token-first Tokenization to Improve Large Language Models, Haoran Lian+, arXiv24 CommentBPEとは異なりトークンの長さを優先してマージを実施することで、最終的なトークンを決定する手法で、![image](https://github.com/user-attachments/assets/99b91472-88d8-4792-bf04-acc67956e4f5)![image]( ...
Issue Date: 2024-11-12 LLMs as Research Tools: A Large Scale Survey of Researchers Usage and Perceptions, Zhehui Liao+, arXiv24 #Efficiency/SpeedUp#NLP#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-11-12 DELIFT: Data Efficient Language model Instruction Fine Tuning, Ishika Agarwal+, arXiv24 #Survey#NLP#LanguageModel#LLMAgent
Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/999adca8-f0d7-483c-ae5a-b6f78fe9da4b)![image](https://github.com/user-attachments/assets/b69dc991R ... #ComputerVision#MachineLearning#Finetuning (SFT)#InstructionTuning#Adapter/LoRA#Catastrophic Forgetting
Issue Date: 2024-11-12 Online-LoRA: Task-free Online Continual Learning via Low Rank Adaptation, Xiwen Wei+, arXiv24 Comment![image](https://github.com/user-attachments/assets/b789ba71-3941-4d60-9397-46607ddc7712) ... #Efficiency/SpeedUp#NLP#LanguageModel
Issue Date: 2024-11-12 Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, Charlie Snell+, arXiv24 Comment![image](https://github.com/user-attachments/assets/0562a65e-b2f1-4ff4-b806-107313fc255e)[Perplexity(参考;Hallucinationに注意)](https://www.perplexity.ai/s ... #NLP#LLMAgent#API
Issue Date: 2024-11-11 Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv24 Comment![image](https://github.com/user-attachments/assets/f4beb58b-f6da-4536-87e6-3d746cb7c586)CMUの研究。後で読みたい ... #InformationRetrieval#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-10 HyQE: Ranking Contexts with Hypothetical Query Embeddings, Weichao Zhou+, arXiv24 Comment#1498 も参照のこと。 下記に試しにHyQEとHyDEの比較の記事を作成したのでご参考までに(記事の内容に私は手を加えていないのでHallucinationに注意)。ざっくりいうとHyDEはpseudo documentsを使うが、HyQEはpseudo queryを扱う。 [参![imag ... #Survey#LanguageModel#Personalization
Issue Date: 2024-11-10 Personalization of Large Language Models: A Survey, Zhehao Zhang+, arXiv24 #NLP#LanguageModel#NumericReasoning
Issue Date: 2024-11-09 Number Cookbook: Number Understanding of Language Models and How to Improve It, Haotong Yang+, arXiv24 Commentんー、abstしか読んでいないけれども、9.11 > 9.9 については、このような数字に慣れ親しんでいるエンジニアなどに咄嗟に質問したら、ミスして答えちゃう人もいるのでは?という気がする(エンジニアは脳内で9.11 > 9.9を示すバージョン管理に触れる機会が多く、こちらの尤度が高い)。LLM元ポ ... #Analysis#MachineLearning#NLP#LanguageModel#Adapter/LoRA
Issue Date: 2024-11-09 LoRA vs Full Fine-tuning: An Illusion of Equivalence, Reece Shuttleworth+, arXiv24 Comment元ポスト: https://x.com/aratako_lm/status/1854838012909166973?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q#1423 や #1475 、双方の知見も交えて、LoRAの挙動を考察する必要がある気がする。それぞれ異なるデータセットやモデ ... #RecommenderSystems#InformationRetrieval#MulltiModal
Issue Date: 2024-11-08 MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs, Sheng-Chieh Lin+, arXiv24 Comment![image](https://github.com/user-attachments/assets/d05854af-4525-40ba-8458-bfe333135cff) ... #NLP#LanguageModel#Alignment#Finetuning (SFT)
Issue Date: 2024-11-07 Self-Consistency Preference Optimization, Archiki Prasad+, arXiv24 Comment元ポスト:https://x.com/jaseweston/status/1854532624116547710?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q![image](https://github.com/user-attachments/assets/040ffe7c-6e8 ... #MachineLearning#Optimizer
Issue Date: 2024-11-06 ADOPT: Modified Adam Can Converge with Any $β_2$ with the Optimal Rate, Shohei Taniguchi+, NeurIPS24 Comment画像は元ツイートからの引用:ライブラリがあるようで、1行変えるだけですぐ使えるとのこと。![image](https://github.com/user-attachments/assets/0fc94e14-e1c8-497b-a0f2-1d6ec96e9083)元ツイート:https:/Adam ...
Issue Date: 2024-11-05 Beyond Utility: Evaluating LLM as Recommender, Chumeng Jiang+, arXiv24 Comment実装: https://github.com/JiangDeccc/EvaLLMasRecommender ... #MachineLearning#NLP#LongSequence#SSM (StateSpaceModel)
Issue Date: 2024-11-05 Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling, Yingfa Chen+, arXiv24 #NLP#ChatGPT
Issue Date: 2024-11-02 On The Planning Abilities of OpenAIs o1 Models: Feasibility, Optimality, and Generalizability, Kevin Wang+, N_A, arXiv24, 2024.11 Commento1のplanningの性能について知りたくなったら読む ... #NLP#LanguageModel
Issue Date: 2024-11-02 Looking Inward: Language Models Can Learn About Themselves by Introspection, Felix J Binder+, N_A, arXiv24, 2024.11 Comment![image](https://github.com/user-attachments/assets/2b19bc9c-342d-42a9-b603-ff9cfc694570)LLMが単に訓練データを模倣しているにすぎない的な主張に対するカウンターに使えるかも ... #MachineLearning#Finetuning (SFT)
Issue Date: 2024-10-27 NEFTune: Noisy Embeddings Improve Instruction Finetuning, Neel Jain+, N_A, ICLR24 Commentランダムノイズをembeddingに加えて学習するシンプルな手法。モデルがロバストになる。 Unsupervised SimCSEと思想が似ている。実質DataAugmentationともみなせる。 ... #MachineLearning#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-27 KTO: Model Alignment as Prospect Theoretic Optimization, Kawin Ethayarajh+, N_A, arXiv24 CommentbinaryフィードバックデータからLLMのアライメントをとるKahneman-Tversky Optimization (KTO)論文 ...
Issue Date: 2024-10-22 Generative Reward Models, Dakota Mahan+, N_A, arXiv24
Issue Date: 2024-10-21 nGPT: Normalized Transformer with Representation Learning on the Hypersphere, Ilya Loshchilov+, N_A, arXiv24 Comment元ポスト:https://x.com/hillbig/status/1848462035992084838?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #NLP#LanguageModel#Hallucination
Issue Date: 2024-10-20 LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations, Hadas Orgad+, N_A, arXiv24 Comment特定のトークンがLLMのtrustfulnessに集中していることを実験的に示し、かつ内部でエンコードされたrepresentationは正しい答えのものとなっているのに、生成結果に誤りが生じるような不整合が生じることも示したらしい ... #Efficiency/SpeedUp#Pretraining#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-20 Addition is All You Need for Energy-efficient Language Models, Hongyin Luo+, N_A, arXiv24 #Pretraining#NLP#LanguageModel#Finetuning (SFT)#Chain-of-Thought
Issue Date: 2024-10-19 Thinking LLMs: General Instruction Following with Thought Generation, Tianhao Wu+, N_A, arXiv24 Commentこれは後でしっかり読んだほうがいい。LLMに回答を生成させる前にThinkingさせるように学習させるフレームワークThought Preference Optimization(TPO)を提案![image](https://github.com/user-attachments/assets ...
Issue Date: 2024-10-11 One Initialization to Rule them All: Fine-tuning via Explained Variance Adaptation, Fabian Paischer+, N_A, arXiv24 Comment元ポスト:https://x.com/paischerfabian/status/1844267655068516767?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2024-10-11 GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models, Iman Mirzadeh+, N_A, arXiv24 Comment元ポスト:https://x.com/mfarajtabar/status/1844456880971858028?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #ComputerVision#Dataset
Issue Date: 2024-09-30 COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark, Koki Maeda+, N_A, ECCV24 Commentとてもおもしろそう! ... #ComputerVision#NLP#Dataset#LanguageModel
Issue Date: 2024-09-30 What matters when building vision-language models?, Hugo Laurençon+, N_A, arXiv24 Comment元ポストにOpenVLMの進展の歴史が載っている。構築されたデータセットも公開される模様。![image](https://github.com/user-attachments/assets/9675c2ad-650a-460b-9655-1c6347d07f58)元ポスト:https://x ... #ComputerVision#CLIP
Issue Date: 2024-09-30 Long-CLIP: Unlocking the Long-Text Capability of CLIP, Beichen Zhang+, N_A, ECCV24 #Pretraining#NLP#Finetuning (SFT)#SyntheticData
Issue Date: 2024-09-29 Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling, Hritik Bansal+, N_A, arXiv24 Comment元ポスト:https://x.com/rohanpaul_ai/status/1840172683528425718?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-09-26 When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method, Biao Zhang+, N_A, ICLR24 Comment> When only few thousands of finetuning examples are available, PET should be considered first, either Prompt or LoRA. With sightly larger datasets, L ... #RecommenderSystems#Transformer#TransferLearning
Issue Date: 2024-09-25 beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems, Vojtěch Vančura+, N_A, RecSys24 CommentNLPでは言語という共通の体系があるから事前学習とかが成立するけど、RecSysのようなユーザとシステムのinteraction dataを用いたシステムでは(大抵の場合はデータセットごとにユニークなユーザIDとアイテムIDのログでデータが構成されるので)なかなかそういうことは難しいよね、と思ってい ... #RecommenderSystems#Efficiency/SpeedUp
Issue Date: 2024-09-25 Enhancing Performance and Scalability of Large-Scale Recommendation Systems with Jagged Flash Attention, Rengan Xu+, N_A, arXiv24 #InformationRetrieval#RelevanceJudgment#LanguageModel
Issue Date: 2024-09-24 Dont Use LLMs to Make Relevance Judgments, Ian Soboroff, N_A, arXiv24 Comment興味深い!!後で読む! ... #NLP#LanguageModel#Safety
Issue Date: 2024-09-24 Backtracking Improves Generation Safety, Yiming Zhang+, N_A, arXiv24 Comment元ポスト: https://x.com/jaseweston/status/1838415378529112330?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey#NLP#LanguageModel#SelfCorrection
Issue Date: 2024-09-16 When Can LLMs Actually Correct Their Own Mistakes? A Critical Survey of Self-Correction of LLMs, Ryo Kamoi+, N_A, TACL24 CommentLLMのself-correctionに関するサーベイ![image](https://github.com/user-attachments/assets/bea63e03-8b6f-4c3e-b8ff-d738c062149c)![image](https://github.com/user-a ... #NLP#LanguageModel#QuestionAnswering#SyntheticData#SyntheticDataGeneration
Issue Date: 2024-09-14 Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources, Alisia Lupidi+, N_A, arXiv24 Comment合成データ生成に関する研究。ソースからQAを生成し、2つのsliceに分ける。片方をLLMのfinetuning(LLMSynth)に利用し、もう片方をfinetuningしたLLMで解答可能性に基づいてフィルタリング(curation)する。最終的にフィルタリングして生成された高品質なデータでMu ... #LanguageModel#ReinforcementLearning
Issue Date: 2024-09-13 Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning, Zhiheng Xi+, N_A, arXiv24 #NLP#LanguageModel#Finetuning (SFT)#ReinforcementLearning#Chain-of-Thought
Issue Date: 2024-09-13 ReFT: Reasoning with Reinforced Fine-Tuning, Trung Quoc Luong+, N_A, ACL24 Comment![image](https://github.com/user-attachments/assets/ab5ed92d-6a5c-48dc-a607-3f652b2c9b3f) ![image](https://github.com/user-attachments/assets/e34e5a6 ... #Survey#Efficiency/SpeedUp#NLP#LanguageModel
Issue Date: 2024-09-10 From Decoding to Meta-Generation: Inference-time Algorithms for Large Language Models, Sean Welleck+, N_A, arXiv24 Comment元ツイート: https://x.com/gneubig/status/1833522477605261799?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QCMUのチームによるinference timeの高速化に関するサーベイ ... #NLP#LanguageModel#Idea/PaperGeneration
Issue Date: 2024-09-10 Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers, Chenglei Si+, N_A, arXiv24 CommentLLMがアイデアを考えた方が、79人のresearcherにblind reviewさせて評価した結果、Noveltyスコアが有意に高くなった(ただし、feasibilityは人手で考えた場合の方が高い)という話らしい。アイデア生成にどのようなモデル、promptingを利用したかはまだ読めてい ... #Survey#NLP#LanguageModel#Alignment
Issue Date: 2024-09-07 A Survey on Human Preference Learning for Large Language Models, Ruili Jiang+, N_A, arXiv24 #NLP#LanguageModel#SelfCorrection
Issue Date: 2024-09-07 Self-Reflection in LLM Agents: Effects on Problem-Solving Performance, Matthew Renze+, N_A, arXiv24 #NLP#LanguageModel#Finetuning (SFT)#Hallucination
Issue Date: 2024-09-01 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, EMNLP24 Commentpre-training時に獲得されていない情報を用いてLLMのalignmentを実施すると、知識がない状態で学習データを正しく予測できるように学習されてしまうため、事実に基づかない回答をする(つまりhallucination)ように学習されてしまう、といったことを調査している模様。 >新し下記 ... #ComputerVision#DiffusionModel
Issue Date: 2024-09-01 Diffusion Models Are Real-Time Game Engines, Dani Valevski+, N_A, arXiv24 SummaryGameNGenは、ニューラルモデルによって完全に動作するゲームエンジンであり、高品質で長い軌跡上で複雑な環境とのリアルタイムインタラクションを可能にします。GameNGenは、単一のTPU上で秒間20フレーム以上でクラシックゲームDOOMをインタラクティブにシミュレートすることができます。次フレーム予測では、PSNRが29.4に達し、劣化JPEG圧縮と比較可能です。GameNGenは、2つの段階でトレーニングされます:(1)RLエージェントがゲームをプレイすることを学び、トレーニングセッションが記録され、(2)拡散モデルが過去のフレームとアクションのシーケンスに応じて次のフレームを生成するようにトレーニングされます。条件付きの拡張により、長い軌跡上で安定した自己回帰生成が可能となります。 CommentDiffusion Modelでゲーム映像を生成する取り組みらしい。ゲームのenvironmentに対して、ユーザのActionとframeの系列をエピソードとみなして生成するっぽい?project pageにデモがのっている https://gamengen.github.io/ ... #NLP#In-ContextLearning#DemonstrationSelection
Issue Date: 2024-08-28 Revisiting Demonstration Selection Strategies in In-Context Learning, Keqin Peng+, N_A, ACL24 SummaryLLMsは幅広いタスクを実行する能力を持ち、わずかな例でタスクを説明できることが示されている。しかし、ICLのパフォーマンスはデモンストレーションの選択によって大きく異なり、その要因はまだ明確ではない。本研究では、データとモデルの両面からこの変動に寄与する要因を再検討し、デモンストレーションの選択がデータとモデルの両方に依存することを見出した。さらに、"TopK + ConE"というデータとモデルに依存したデモンストレーション選択手法を提案し、ICLのための効果的なレシピを生み出していることを示した。提案手法は異なるモデルスケールで言語理解および生成タスクの両方で一貫した改善をもたらし、一般性と安定性に加えて以前の手法の効果的な説明を提供している。 CommentICLで利用するデモンストレーションの選択は、BM25やDense Retrieverなどを用いて、テストサンプルと類似したサンプルをretrieveすることで実施されてきた。これらはテストサンプルのみに着目した手法であるが、実際には有効なデモンストレーションはモデルによって変化するため、利用するモ ... #Analysis#NLP#LanguageModel#In-ContextLearning
Issue Date: 2024-08-27 What Do Language Models Learn in Context? The Structured Task Hypothesis, Jiaoda Li+, N_A, ACL24 SummaryLLMsのコンテキスト内学習(ICL)能力を説明する3つの仮説について、一連の実験を通じて探究。最初の2つの仮説を無効にし、最後の仮説を支持する証拠を提供。LLMが事前学習中に学習したタスクを組み合わせることで、コンテキスト内で新しいタスクを学習できる可能性を示唆。 CommentSNLP2024での解説スライド:http://chasen.org/~daiti-m/paper/SNLP2024-Task-Emergence.pdfICLが何をやっているのか?について、これまでの仮説が正しくないことを実験的に示し、新しい仮説「ICLは事前学習で得られたタスクを組み合わせて新し ... #Analysis#MachineLearning#NLP#SSM (StateSpaceModel)
Issue Date: 2024-08-27 The Illusion of State in State-Space Models, William Merrill+, N_A, arXiv24 SummarySSM(状態空間モデル)は、トランスフォーマーよりも優れた状態追跡の表現力を持つと期待されていましたが、実際にはその表現力は制限されており、トランスフォーマーと類似しています。SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を表現できず、単純な状態追跡問題を解決することができません。このため、SSMは実世界の状態追跡問題を解決する能力に制限がある可能性があります。 Comment>しかし、SSMが状態追跡の表現力で本当に(トランスフォーマーよりも)優位性を持っているのでしょうか?驚くべきことに、その答えは「いいえ」です。私たちの分析によると、SSMの表現力は、トランスフォーマーと非常に類似して制限されています:SSMは複雑性クラス$\mathsf{TC}^0$の外での計算を ... #Analysis#Pretraining#NLP#Finetuning (SFT)
Issue Date: 2024-08-19 Amuro & Char: Analyzing the Relationship between Pre-Training and Fine-Tuning of Large Language Models, Kaiser Sun+, N_A, arXiv24 Summary大規模なテキストコーパスで事前学習された複数の中間事前学習モデルのチェックポイントを微調整することによって、事前学習と微調整の関係を調査した。18のデータセットでの結果から、i)継続的な事前学習は、微調整後にモデルを改善する潜在的な方法を示唆している。ii)追加の微調整により、モデルが事前学習段階でうまく機能しないデータセットの改善が、うまく機能するデータセットよりも大きいことを示している。iii)監督された微調整を通じてモデルは恩恵を受けるが、以前のドメイン知識や微調整中に見られないタスクを忘れることがある。iv)監督された微調整後、モデルは評価プロンプトに対して高い感度を示すが、これはより多くの事前学習によって緩和できる。 #Analysis#NLP#LanguageModel#GrammaticalErrorCorrection
Issue Date: 2024-08-14 Prompting open-source and commercial language models for grammatical error correction of English learner text, Christopher Davis+, N_A, arXiv24 SummaryLLMsの進歩により、流暢で文法的なテキスト生成が可能になり、不文法な入力文を与えることで文法エラー修正(GEC)が可能となった。本研究では、7つのオープンソースと3つの商用LLMsを4つのGECベンチマークで評価し、商用モデルが常に教師ありの英語GECモデルを上回るわけではないことを示した。また、オープンソースモデルが商用モデルを上回ることがあり、ゼロショットのプロンプティングがフューショットのプロンプティングと同じくらい競争力があることを示した。 Comment元ポスト:https://x.com/chemical_tree/status/1822860849935253882?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #NLP#LanguageModel#LLMAgent#Idea/PaperGeneration
Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv24 Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。
Issue Date: 2024-07-30 Following Length Constraints in Instructions, Weizhe Yuan+, N_A, arXiv24 Summaryアラインされた命令に従うモデルは、非アラインのモデルよりもユーザーの要求をよりよく満たすことができることが示されています。しかし、このようなモデルの評価には長さのバイアスがあり、訓練アルゴリズムは長い応答を学習することでこのバイアスを利用する傾向があることが示されています。本研究では、推論時に所望の長さ制約を含む命令で制御できるモデルの訓練方法を示します。このようなモデルは、長さ指示された評価において優れており、GPT4、Llama 3、Mixtralなどの標準的な命令に従うモデルを上回っています。 CommentSoTA LLMがOutput長の制約に従わないことを示し、それを改善する学習手法LIFT-DPOを提案![image](https://github.com/user-attachments/assets/1002ae4a-66b2-4125-8cbb-3a2a8484da56)元ツイート: ht ...
Issue Date: 2024-07-30 Searching for Best Practices in Retrieval-Augmented Generation, Xiaohua Wang+, N_A, arXiv24 SummaryRAG技術は、最新情報の統合、幻覚の軽減、および応答品質の向上に効果的であることが証明されています。しかし、多くのRAGアプローチは複雑な実装と長時間の応答時間という課題に直面しています。本研究では、既存のRAGアプローチとその潜在的な組み合わせを調査し、最適なRAGプラクティスを特定するために取り組んでいます。さらに、マルチモーダル検索技術が視覚入力に関する質問応答能力を大幅に向上させ、"検索を生成として"戦略を用いてマルチモーダルコンテンツの生成を加速できることを示します。 CommentRAGをやる上で参考になりそう ...
Issue Date: 2024-07-30 A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications, Pranab Sahoo+, N_A, arXiv24 Summaryプロンプトエンジニアリングは、LLMsやVLMsの能力を拡張するための重要な技術であり、モデルのパラメータを変更せずにタスク固有の指示であるプロンプトを活用してモデルの効果を向上させる。本研究は、プロンプトエンジニアリングの最近の進展について構造化された概要を提供し、各手法の強みと制限について掘り下げることで、この分野をよりよく理解し、将来の研究を促進することを目的としている。
Issue Date: 2024-07-10 LLM-jp: A Cross-organizational Project for the Research and Development of Fully Open Japanese LLMs, LLM-jp+, N_A, arXiv24 SummaryLLM-jpは、日本語の大規模言語モデル(LLMs)の研究開発を行うためのクロス組織プロジェクトで、オープンソースで強力な日本語LLMsを開発することを目指している。現在は、1,500人以上のアカデミアと産業界の参加者が協力しており、LLM-jpの設立の背景、活動の概要、および開発されたLLMsの技術レポートについて紹介している。最新の活動については、https://llm-jp.nii.ac.jp/en/をご覧いただけます。 Commentllm.jpによるテクニカルレポート ...
Issue Date: 2024-07-08 Instruction Pre-Training: Language Models are Supervised Multitask Learners, Daixuan Cheng+, N_A, arXiv24 SummaryLMsの成功の背後にある重要な手法は、教師なしのマルチタスク事前学習であるが、教師ありのマルチタスク学習も重要な可能性を秘めている。本研究では、Instruction Pre-Trainingというフレームワークを提案し、大規模な生のコーパスに効率的な指示合成器によって生成された指示-応答ペアを追加することで、LMsを事前学習する。実験では、40以上のタスクカテゴリをカバーする2億の指示-応答ペアを合成し、Instruction Pre-Trainingの効果を検証する。結果として、ゼロからの事前学習では、Instruction Pre-Trainingは事前学習済みベースモデルを強化し、継続的な事前学習では、Llama3-8BがLlama3-70Bと同等以上の性能を発揮することが示された。 Comment参考:https://x.com/hillbig/status/1810082530307330401?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2024-06-19 How Do Large Language Models Acquire Factual Knowledge During Pretraining?, Hoyeon Chang+, N_A, arXiv24 SummaryLLMsの事前学習中の実際の知識獲得のメカニズムについて調査した結果、以下の洞察が得られた。1. より多くのデータでの事前学習は、実際の知識の獲得と維持にほとんど改善をもたらさない。2. 訓練ステップと記憶の忘却、実際の知識の一般化との間にはべき乗則の関係があり、重複した訓練データで訓練されたLLMsはより速い忘却を示す。3. より大きなバッチサイズでLLMsを訓練することで、モデルの忘却に対する耐性が向上する。LLMの事前学習における実際の知識の獲得は、各ステップで事前学習データに提示される実際の知識の確率を徐々に増加させることによって起こり、後続の忘却によって希釈される。これに基づいて、LLMsの振る舞いについて合理的な説明が提供される。
Issue Date: 2024-06-17 Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling, Liliang Ren+, N_A, arXiv24 SummarySambaは、選択的状態空間モデル(SSM)であるMambaとスライディングウィンドウアテンション(SWA)を組み合わせたハイブリッドアーキテクチャであり、長いシーケンスを効率的にモデリングすることができる。Sambaは、3.8Bのパラメータにスケーリングされ、3.2Tのトレーニングトークンで訓練され、最先端のモデルを大幅に上回る性能を示した。また、Sambaは線形時間のシーケンスモデルとして、Transformersと比較して高速化が得られ、無制限のストリーミングでトークンを生成する際にも優れた性能を発揮する。 Sambaのサンプル実装は、https://github.com/microsoft/Samba で公開されています。
Issue Date: 2024-05-20 Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?, Zorik Gekhman+, N_A, arXiv24 Summary大規模言語モデルのfine-tuningによって新しい事実情報に遭遇すると、モデルが事実に基づかない誤った応答を生成する可能性がある。本研究では、fine-tuningによる新しい知識の影響を調査し、新しい知識を持つ例が最終的に学習されると、モデルの幻覚傾向が増加することを示した。これにより、fine-tuningを通じて新しい事実知識を導入することのリスクを強調し、大規模言語モデルは主に事前学習を通じて事実知識を獲得し、fine-tuningはそれを効率的に使用するように教えるという見方を支持しています。 Comment参考: https://x.com/hillbig/status/1792334744522485954?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q勉強になる ...
Issue Date: 2024-05-18 ReFT: Representation Finetuning for Language Models, Zhengxuan Wu+, N_A, arXiv24 SummaryPEFT手法は、少数の重みの更新を通じて大きなモデルを微調整することを目指している。しかし、表現の編集がより強力な代替手法である可能性を示唆する解釈可能性の研究があり、その仮説を追求するためにReFT手法のファミリーを開発した。ReFT手法は、凍結されたベースモデル上で動作し、隠れた表現に対するタスク固有の介入を学習する。その中でも、LoReFTはPEFTの代替として利用でき、従来の最先端のPEFTよりも10倍から50倍パラメータ効率的な介入を学習する。LoReFTは8つの常識的な推論タスク、4つの算術推論タスク、Alpaca-Eval v1.0、およびGLUEで展示され、効率とパフォーマンスの最良のバランスを提供し、最先端のPEFTを上回ることが示された。 Comment参考:https://www.ai-shift.co.jp/techblog/4456 ...
Issue Date: 2024-05-03 In-Context Learning with Long-Context Models: An In-Depth Exploration, Amanda Bertsch+, N_A, arXiv24 Summaryモデルのコンテキスト長が増加するにつれて、インコンテキスト学習(ICL)の振る舞いを研究しています。大きなラベルスペースを持つデータセットでは、数百または数千のデモンストレーションで性能が向上することを示し、長いコンテキストのICLは驚くほど効果的であるが、そのほとんどはタスク学習ではなく、類似の例に再度注目することから得られると結論付けます。
Issue Date: 2024-05-03 Distillation Matters: Empowering Sequential Recommenders to Match the Performance of Large Language Model, Yu Cui+, N_A, arXiv24 SummaryLLMsの高い推論遅延を解消するために、本研究では、LLMベースの推奨モデルから軽量な従来の直列モデルへの知識蒸留を調査している。新しい蒸留戦略であるDLLM2Recには、重要度重視のランキング蒸留と共同埋め込み蒸留が含まれており、徹底的な実験により、提案されたDLLM2Recの効果が示され、典型的な直列モデルを平均47.97%改善し、場合によってはLLMベースの推奨者を上回ることが可能であることが示された。
Issue Date: 2024-05-03 A Careful Examination of Large Language Model Performance on Grade School Arithmetic, Hugh Zhang+, N_A, arXiv24 SummaryLLMsの成功は、データセットの汚染によるものであり、真の推論能力に疑念がある。Grade School Math 1000(GSM1k)を導入し、小学校の数学的推論を測定するためのゴールドスタンダードとして設計。GSM1kでの評価では、一部のモデルが系統的な過学習を示し、精度が低下することが観察された。一方、最先端のモデルは過学習の兆候がほとんど見られず、GSM8kとGSM1kの性能差との間に正の関係があることが示唆された。
Issue Date: 2024-05-03 Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models, Seungone Kim+, N_A, arXiv24 SummaryGPT-4などのプロプライエタリな言語モデルの評価に対する懸念から、オープンソースの評価言語モデルの開発が進んでいる。既存のオープンな評価言語モデルには欠点があり、これらの問題に対処するために、Prometheus 2という強力な評価言語モデルが紹介された。Prometheus 2は、人間とGPT-4の判断に密接に追随し、ユーザー定義の評価基準に基づいてグループ化された直接評価とペアワイズランキング形式の両方を処理する能力を持っている。Prometheus 2は、すべてのテストされたオープンな評価言語モデルの中で、人間とプロプライエタリな言語モデルの判断と最も高い相関と一致を示した。
Issue Date: 2024-04-30 Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity, Soyeong Jeong+, N_A, arXiv24 SummaryRetrieval-Augmented Large Language Models(LLMs)は、外部知識ベースからの非パラメトリックな知識をLLMsに組み込むことで、質問応答(QA)などのいくつかのタスクで応答の精度を向上させる有望なアプローチとして登場しています。しかし、さまざまな複雑さのクエリに対処するさまざまなアプローチがあるにもかかわらず、単純なクエリを不要な計算オーバーヘッドで処理するか、複雑な多段階クエリに適切に対処できないものがあります。本研究では、クエリの複雑さに基づいて、最も適した戦略を動的に選択できる新しい適応型QAフレームワークを提案します。また、この選択プロセスは、自動的に収集されたラベルによって入力クエリの複雑さを予測するためにトレーニングされた小さなLMである分類器によって操作されます。これらのアプローチは、クエリの複雑さの範囲に応じて、反復的および単一ステップのリトリーバル拡張LLMs、および非リトリーバルメソッドの間をシームレスに適応するバランスの取れた戦略を提供します。提案手法が関連するベースラインと比較して、QAシステムの全体的な効率と精度を向上させることを示し、オープンドメインQAデータセットでモデルを検証しました。 #Efficiency/SpeedUp#NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-04-23 Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N_A, arXiv24 Summaryphi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。 Comment#1039 の次の次(Phi2.0についてはメモってなかった)。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしいLlama2と同じブロックを利用しているため、アーキテクチャはLlama2と共通。 ... #Efficiency/SpeedUp#NLP#LanguageModel#Pruning
Issue Date: 2024-04-22 The Unreasonable Ineffectiveness of the Deeper Layers, Andrey Gromov+, N_A, arXiv24 Summary一般的なオープンウェイトの事前学習されたLLMのレイヤー剪定戦略を研究し、異なる質問応答ベンチマークでのパフォーマンスの低下を最小限に抑えることを示しました。レイヤーの最大半分を削除することで、最適なブロックを特定し、微調整して損傷を修復します。PEFT手法を使用し、実験を単一のA100 GPUで実行可能にします。これにより、計算リソースを削減し、推論のメモリとレイテンシを改善できることが示唆されます。また、LLMがレイヤーの削除に対して堅牢であることは、浅いレイヤーが知識を格納する上で重要な役割を果たしている可能性を示唆しています。 Comment下記ツイートによると、学習済みLLMから、コサイン類似度で入出力間の類似度が高い層を除いてもタスクの精度が落ちず、特に深い層を2-4割削除しても精度が落ちないとのこと。参考:https://x.com/hillbig/status/1773110076502368642?s=46&t=Y6UuI ... #Survey#SpokenLanguageProcessing#Evaluation#FoundationModel#Speech
Issue Date: 2024-04-21 A Large-Scale Evaluation of Speech Foundation Models, Shu-wen Yang+, N_A, arXiv24 Summary基盤モデルパラダイムは、共有基盤モデルを使用して最先端のパフォーマンスを達成し、下流特有のモデリングやデータ注釈を最小限に抑えることを目指す。このアプローチは、自然言語処理(NLP)の分野で成功しているが、音声処理分野では類似したセットアップが不足している。本研究では、音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を設立し、音声に対する基盤モデルパラダイムの効果を調査する。凍結された基盤モデルに続いて、タスク専用の軽量な予測ヘッドを使用して、SUPERB内の音声処理タスクに取り組むための統一されたマルチタスキングフレームワークを提案する。結果は、基盤モデルパラダイムが音声に有望であり、提案されたマルチタスキングフレームワークが効果的であることを示し、最も優れた基盤モデルがほとんどのSUPERBタスクで競争力のある汎化性能を持つことを示している。 CommentSpeech関連のFoundation Modelの評価結果が載っているらしい。図は下記ツイートより引用参考:https://x.com/unilightwf/status/1781659340065345766?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image
Issue Date: 2024-04-17 Compression Represents Intelligence Linearly, Yuzhen Huang+, N_A, arXiv24 Summary最近の研究では、大規模言語モデル(LLMs)をデータ圧縮器として扱い、圧縮と知性の関係を検討しています。LLMsの知性は、外部テキストコーパスを圧縮する能力とほぼ線形的に相関しており、優れた圧縮がより高い知性を示すという信念を支持する具体的な証拠を提供しています。さらに、圧縮効率はモデルの能力と線形的に関連しており、圧縮を評価するためのデータセットとパイプラインがオープンソース化されています。 Comment参考: https://x.com/hillbig/status/1780365637225001004?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2024-04-16 TransformerFAM: Feedback attention is working memory, Dongseong Hwang+, N_A, arXiv24 SummaryTransformersの二次的なattentionの複雑さにより、無限に長い入力を処理する能力が制限されている課題がある。そこで、新しいTransformerアーキテクチャであるフィードバックアテンションメモリ(FAM)を提案し、自己アテンションを可能にする。この設計により、Transformer内での作業メモリが促進され、無限に長いシーケンスを処理できるようになる。TransformerFAMは追加の重みが不要で、事前学習済みモデルとの統合が容易。実験結果では、TransformerFAMがさまざまなモデルサイズで長いコンテキストのタスクにおける性能を向上させることを示しており、LLMsが無制限の長さのシーケンスを処理する可能性を示唆している。
Issue Date: 2024-04-15 Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws, Zeyuan Allen-Zhu+, N_A, arXiv24 Summary言語モデルのサイズと能力の関係を記述するスケーリング則に焦点を当てた研究。モデルが格納する知識ビット数を推定し、事実知識をタプルで表現。言語モデルは1つのパラメータあたり2ビットの知識を格納可能であり、7Bモデルは14Bビットの知識を格納可能。さらに、トレーニング期間、モデルアーキテクチャ、量子化、疎な制約、データの信号対雑音比が知識格納容量に影響することを示唆。ロータリー埋め込みを使用したGPT-2アーキテクチャは、知識の格納においてLLaMA/Mistralアーキテクチャと競合する可能性があり、トレーニングデータにドメイン名を追加すると知識容量が増加することが示された。 Comment参考:https://x.com/hillbig/status/1779640139263901698?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Survey#NLP#LanguageModel
Issue Date: 2024-04-14 Knowledge Conflicts for LLMs: A Survey, Rongwu Xu+, N_A, arXiv24 SummaryLLMsにおける知識の衝突に焦点を当て、文脈とパラメトリック知識の組み合わせによる複雑な課題を分析。文脈-メモリ、文脈間、メモリ内の衝突の3つのカテゴリーを探求し、実世界のアプリケーションにおける信頼性とパフォーマンスへの影響を検討。解決策を提案し、LLMsの堅牢性向上を目指す。 #NLP#LanguageModel#SelfTaughtReasoner
Issue Date: 2024-04-14 Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking, Eric Zelikman+, N_A, arXiv24 SummarySTaR(Self-Taught Reasoner)では、少数の例から合理的な推論を学習し、質問応答に活用する方法が提案された。Quiet-STaRでは、LMが合理性を生成する方法を学習し、難しい質問に直接答える能力を向上させる。この手法は、GSM8KやCommonsenseQAなどのタスクにおいてゼロショットの改善を実現し、ファインチューニングが不要であることが示された。Quiet-STaRは、推論を学習するための一般的でスケーラブルな方法を提供する一歩となっている。 Comment#1390 o1の基礎技術と似ている可能性がある先行研究: #1397参考:https://x.com/hillbig/status/1835449666588271046?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q[Perplexity(参考; Hallucinationに注意)] ... #InformationRetrieval#NLP#Chain-of-Thought#RetrievalAugmentedGeneration
Issue Date: 2024-04-14 RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation, Zihao Wang+, N_A, arXiv24 Summary大規模言語モデルの推論および生成能力を向上させ、幻覚を軽減する方法として、情報検索を利用して思考の連鎖を修正する「retrieval-augmented thoughts(RAT)」が提案された。この方法は、ゼロショットのCoTが生成された後、取得した情報を使用して各思考ステップを修正する。GPT-3.5、GPT-4、およびCodeLLaMA-7bにRATを適用することで、コード生成、数学的推論、創造的な執筆、具体的なタスク計画などのタスクでパフォーマンスが大幅に向上した。デモページはhttps://craftjarvis.github.io/RATで利用可能。 CommentRAGにおいてCoTさせる際に、各reasoningのstepを見直させることでより質の高いreasoningを生成するRATを提案。Hallucinationが低減し、生成のパフォーマンスも向上するとのこと。コンセプト自体はそりゃそうだよねという話なので、RAGならではの課題があり、それを解決した ... image#ComputerVision#NLP#LanguageModel#Chain-of-Thought
Issue Date: 2024-04-08 Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models, Wenshan Wu+, N_A, arXiv24 SummaryLLMsの空間推論能力を向上させるために、Visualization-of-Thought(VoT)プロンプティングを提案。VoTは、LLMsの推論トレースを可視化し、空間推論タスクで使用することで、既存のMLLMsを上回る性能を示す。VoTは、空間推論を促進するために「メンタルイメージ」を生成する能力を持ち、MLLMsでの有効性を示唆する。 #Analysis#NLP#LanguageModel#ContextWindow#LongSequence
Issue Date: 2024-04-07 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv24 SummaryLLMsは長いシーケンスを処理する能力に進展しているが、実世界のシナリオでの能力を評価するための専門的なベンチマークLongICLBenchが導入された。このベンチマークでは、LLMsは巨大なラベル空間を理解し、正しい予測を行うために入力全体を理解する必要がある。研究によると、長いコンテキストLLMsは長いコンテキストウィンドウを活用することで比較的良いパフォーマンスを示すが、最も困難なタスクでは苦労している。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆しており、長いコンテキストの理解と推論は依然として難しい課題であることが示されている。 CommentGPT4以外はコンテキストが20Kを超えると性能が劣化する傾向にあるとのこと。データセットを難易度別に収集し評価したところ、難易度の高いデータではそもそもコンテキストが長くなると全てのLLMがタスクを理解するできずほぼ0%の性能となった。 ... image#Efficiency/SpeedUp#NLP#LanguageModel#Transformer
Issue Date: 2024-04-07 Mixture-of-Depths: Dynamically allocating compute in transformer-based language models, David Raposo+, N_A, arXiv24 SummaryTransformerベースの言語モデルは、入力シーケンス全体に均等にFLOPsを分散させる代わりに、特定の位置にFLOPsを動的に割り当てることを学習できることを示す。モデルの深さにわたって割り当てを最適化するために、異なるレイヤーで計算を動的に割り当てる。この手法は、トークンの数を制限することで合計計算予算を強制し、トークンはtop-kルーティングメカニズムを使用して決定される。この方法により、FLOPsを均等に消費しつつ、計算の支出が予測可能であり、動的かつコンテキストに敏感である。このようにトレーニングされたモデルは、計算を動的に割り当てることを学習し、効率的に行うことができる。 Comment参考: https://x.com/theseamouse/status/1775782800362242157?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Efficiency/SpeedUp#NLP#LanguageModel#Transformer#Attention
Issue Date: 2024-04-07 Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference, Piotr Nawrot+, N_A, arXiv24 Summaryトランスフォーマーの生成効率を向上させるために、Dynamic Memory Compression(DMC)が提案された。DMCは、異なるヘッドとレイヤーで異なる圧縮率を適用する方法を学習し、事前学習済みLLMsに適用される。DMCは、元の下流パフォーマンスを最大4倍のキャッシュ圧縮で維持しつつ、スループットを向上させることができる。DMCは、GQAと組み合わせることでさらなる利益をもたらす可能性があり、長いコンテキストと大きなバッチを処理する際に有用である。 Comment参考: https://x.com/hillbig/status/1776755029581676943?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q論文中のFigure1が非常にわかりやすい。GQA #1271 と比較して、2~4倍キャッシュを圧縮しつつ、より高い性能を実現。70Bモ ... image#InformationRetrieval#NLP#LanguageModel#Finetuning (SFT)#RetrievalAugmentedGeneration
Issue Date: 2024-04-07 RAFT: Adapting Language Model to Domain Specific RAG, Tianjun Zhang+, N_A, arXiv24 Summary大規模なテキストデータのLLMsを事前学習し、新しい知識を追加するためのRetrieval Augmented FineTuning(RAFT)を提案。RAFTは、質問に回答するのに役立つ関連文書から正しいシーケンスを引用し、chain-of-thoughtスタイルの応答を通じて推論能力を向上させる。RAFTはPubMed、HotpotQA、Gorillaデータセットでモデルのパフォーマンスを向上させ、事前学習済みLLMsをドメイン固有のRAGに向けて改善する。 CommentQuestion, instruction, coxtext, cot style answerの4つを用いてSFTをする模様画像は下記ツイートより引用https://x.com/cwolferesearch/status/1770912695765660139?s=46&t=Y6UuIHB0 ... image#InformationRetrieval#NLP#LanguageModel#Prompting#Reasoning
Issue Date: 2024-04-07 RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners, Chi Hu+, N_A, arXiv24 SummaryLLMsは推論タスクで優れた性能を発揮しているが、論理エラーが起こりやすい。RankPromptという新しいプロンプティング方法を導入し、LLMsが自己ランク付けを行い推論パフォーマンスを向上させる。実験では、RankPromptがChatGPTやGPT-4の推論パフォーマンスを13%向上させ、AlpacaEvalデータセットで人間の判断と74%の一致率を示すことが示された。RankPromptは言語モデルから高品質なフィードバックを引き出す効果的な方法であることが示された。 CommentLLMでランキングをするためのプロンプト手法。大量の候補をランキングするのは困難だと思われるが、リランキング手法としては利用できる可能性がある ... image#NaturalLanguageGeneration#NLP#DataToTextGeneration#Prompting#NumericReasoning
Issue Date: 2024-04-04 Prompting for Numerical Sequences: A Case Study on Market Comment Generation, Masayuki Kawarada+, N_A, arXiv24 SummaryLLMsは、構造化データに対するプロンプト生成に関する研究が進んでいるが、時系列数値データに関する詳細な調査が不足している。本研究では、株価の数値系列を入力として市場コメントを生成するタスクに焦点を当て、さまざまな入力表現を探究する。実験結果は、プログラミング言語に似たプロンプトがより良い結果をもたらすことを示しており、数値系列からテキストを生成する際の効果的なプロンプト作成について示唆を提供している。 CommentData-to-Text系のタスクでは、しばしば数値列がInputとなり、そこからテキストを生成するが、この際にどのようなフォーマットで数値列をPromptingするのが良いかを調査した研究。Pythonリストなどのプログラミング言語に似たプロンプトが高い性能を示し、自然言語やhtml, latex ... image
Issue Date: 2024-04-03 MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection, Ali Behrouz+, N_A, arXiv24 Summary最近の深層学習の進歩は、データ依存性と大規模な学習能力によって、主にTransformersに依存してきた。しかし、長いシーケンスモデリングにおいてスケーラビリティが制限される問題がある。State Space Models(SSMs)に着想を得たMambaMixerは、Selective Token and Channel Mixerを使用した新しいアーキテクチャであり、画像や時系列データにおいて優れたパフォーマンスを示す。ViM2はビジョンタスクで競争力のあるパフォーマンスを達成し、TSM2は時系列予測で優れた結果を示す。これらの結果は、TransformersやMLPが時系列予測において必要ないことを示唆している。 Comment参考: https://x.com/hillbig/status/1775289127803703372?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2024-04-03 Long-context LLMs Struggle with Long In-context Learning, Tianle Li+, N_A, arXiv24 SummaryLLMsは長いシーケンスを処理する能力で進歩しているが、その評価は限定されている。本研究では、極端なラベル分類の領域での長いコンテキスト学習に焦点を当てた特化したベンチマーク(LIConBench)を紹介する。LLMsは20K以下のトークン長で比較的良いパフォーマンスを示し、長いコンテキストウィンドウを利用することで性能が向上することがわかった。しかし、20Kを超えると性能が急激に低下する。現在のLLMsは長くコンテキスト豊かなシーケンスを処理し理解する能力にギャップがあることを示唆している。LIConBenchは、将来のLLMsの評価に役立つ可能性がある。 #RecommenderSystems#Survey#GenerativeAI
Issue Date: 2024-04-02 A Review of Modern Recommender Systems Using Generative Models (Gen-RecSys), Yashar Deldjoo+, N_A, arXiv24 Summary従来のレコメンドシステムは、ユーザー-アイテムの評価履歴を主要なデータソースとして使用してきたが、最近では生成モデルを活用して、テキストや画像など豊富なデータを含めた新しい推薦タスクに取り組んでいる。この研究では、生成モデル(Gen-RecSys)を用いたレコメンドシステムの進歩に焦点を当て、相互作用駆動型生成モデルや大規模言語モデル(LLM)を用いた生成型推薦、画像や動画コンテンツの処理と生成のためのマルチモーダルモデルなどについて調査している。未解決の課題や必要なパラダイムについても議論している。 #ComputerVision#NLP#LanguageModel
Issue Date: 2024-03-21 Evolutionary Optimization of Model Merging Recipes, Takuya Akiba+, N_A, arXiv24 Summary進化アルゴリズムを使用した新しいアプローチを提案し、強力な基盤モデルの自動生成を実現。LLMの開発において、人間の直感やドメイン知識に依存せず、多様なオープンソースモデルの効果的な組み合わせを自動的に発見する。このアプローチは、日本語のLLMと数学推論能力を持つモデルなど、異なるドメイン間の統合を容易にし、日本語VLMの性能向上にも貢献。オープンソースコミュニティへの貢献と自動モデル構成の新しいパラダイム導入により、基盤モデル開発における効率的なアプローチを模索。 Comment複数のLLMを融合するモデルマージの話。日本語LLMと英語の数学LLNをマージさせることで日本語の数学性能を大幅に向上させたり、LLMとVLMを融合したりすることで、日本にしか存在しない概念の画像も、きちんと回答できるようになる。著者スライドによると、従来のモデルマージにはbase modelが著者 ...
Issue Date: 2024-03-13 Stealing Part of a Production Language Model, Nicholas Carlini+, N_A, arXiv24 SummaryOpenAIのChatGPTやGoogleのPaLM-2などのブラックボックスの言語モデルから重要な情報を抽出するモデルスティーリング攻撃を紹介。APIアクセスを利用して、transformerモデルの埋め込み射影層を回復する攻撃を行い、低コストでAdaとBabbage言語モデルの全射影行列を抽出。gpt-3.5-turboモデルの隠れた次元のサイズを回復し、2000ドル未満のクエリで全射影行列を回復すると推定。潜在的な防御策と緩和策を提案し、将来の作業の影響について議論。
Issue Date: 2024-03-05 The Power of Noise: Redefining Retrieval for RAG Systems, Florin Cuconasu+, N_A, arXiv24 SummaryRAGシステムは、LLMsよりも大幅な進歩を遂げており、IRフェーズを介して外部データを取得することで生成能力を向上させています。本研究では、RAGシステムにおけるIRコンポーネントの影響を詳細に分析し、リトリーバーの特性や取得すべきドキュメントのタイプに焦点を当てました。関連性のないドキュメントを含めることで精度が向上することが示され、リトリーバルと言語生成モデルの統合の重要性が強調されました。 CommentRelevantな情報はクエリの近くに配置すべきで、残りのコンテキストをrelevantな情報で埋めるのではなく、ノイズで埋めたほうがRAGの回答が良くなる、という話らしい ... #NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-03-05 OLMo: Accelerating the Science of Language Models, Dirk Groeneveld+, N_A, arXiv24 SummaryLMsの商業的重要性が高まる中、最も強力なモデルは閉鎖されており、その詳細が非公開になっている。そのため、本技術レポートでは、本当にオープンな言語モデルであるOLMoの初回リリースと、言語モデリングの科学を構築し研究するためのフレームワークについて詳細に説明している。OLMoはモデルの重みだけでなく、トレーニングデータ、トレーニングおよび評価コードを含むフレームワーク全体を公開しており、オープンな研究コミュニティを強化し、新しいイノベーションを促進することを目指している。 CommentModel Weightsを公開するだけでなく、training/evaluation codeとそのデータも公開する真にOpenな言語モデル(truly Open Language Model)。AllenAI ...
Issue Date: 2024-03-05 AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls, Yu Du+, N_A, arXiv24 SummaryAnyToolは、大規模言語モデルエージェントであり、16,000以上のAPIを利用してユーザーのクエリに対処する革新的なツールを提供している。階層構造を持つAPIリトリーバー、API候補を使用してクエリを解決するソルバー、自己反映メカニズムを組み込んでおり、GPT-4の関数呼び出し機能を活用している。AnyToolは、ToolLLMやGPT-4の変種を上回る性能を示し、改訂された評価プロトコルとAnyToolBenchベンチマークを導入している。GitHubでコードが入手可能。 Comment階層的なRetrieverを用いてユーザクエリから必要なツールを検索し、solverでユーザのクエリを解決し、self-reflectionで結果をさらに良くするような枠組み ... image#NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2024-03-05 Chain-of-Thought Reasoning Without Prompting, Xuezhi Wang+, N_A, arXiv24 SummaryLLMsの推論能力を向上させるための新しいアプローチに焦点を当てた研究が行われている。この研究では、LLMsがプロンプトなしで効果的に推論できるかどうかを検証し、CoT推論パスをデコーディングプロセスを変更することで引き出す方法を提案している。提案手法は、従来の貪欲なデコーディングではなく、代替トークンを調査することでCoTパスを見つけることができることを示しており、様々な推論ベンチマークで有効性を示している。 Comment以前にCoTを内部的に自動的に実施されるように事前学習段階で学習する、といった話があったと思うが、この研究はデコーディング方法を変更することで、promptingで明示的にinstructionを実施せずとも、CoTを実現するもの、ということだと思われる。 ... image
Issue Date: 2024-03-05 In Search of Needles in a 11M Haystack: Recurrent Memory Finds What LLMs Miss, Yuri Kuratov+, N_A, arXiv24 Summaryこの研究では、生成トランスフォーマーモデルを使用して長い文書を処理する能力を評価するための新しいベンチマークであるBABILongを導入しました。GPT-4やRAGのベンチマークを含む評価により、一般的な方法は$10^4$要素までのシーケンスに対してのみ効果的であることが明らかになりました。再帰的メモリ拡張を使用してGPT-2をファインチューニングすることで、$11\times 10^6$要素を含むタスクを処理できるようになりました。これにより、長いシーケンスの処理能力が大幅に向上しました。 Comment面白そう。GPT4や(GPT4を用いた?)RAGのパフォーマンスが、入力の最初の25%に強く依存していることを示した、とSNSでポストを見たが、どういう条件での実験なんだろう。普通のコンテキストサイズならpromptの末尾などに入れたinstructionなどは強く働く経験があるので気になる。ど ... #Efficiency/SpeedUp#NLP#LanguageModel#Adapter/LoRA
Issue Date: 2024-03-05 LoRA+: Efficient Low Rank Adaptation of Large Models, Soufiane Hayou+, N_A, arXiv24 Summary本研究では、Huら(2021)によって導入されたLow Rank Adaptation(LoRA)が、大埋め込み次元を持つモデルの適切な微調整を妨げることを指摘します。この問題は、LoRAのアダプターマトリックスAとBが同じ学習率で更新されることに起因します。我々は、AとBに同じ学習率を使用することが効率的な特徴学習を妨げることを示し、異なる学習率を設定することでこの問題を修正できることを示します。修正されたアルゴリズムをLoRA$+$と呼び、幅広い実験により、LoRA$+$は性能を向上させ、微調整速度を最大2倍高速化することが示されました。 CommentLoRAと同じ計算コストで、2倍以上の高速化、かつ高いパフォーマンスを実現する手法 ... #Survey#NLP#LanguageModel#Annotation
Issue Date: 2024-03-05 Large Language Models for Data Annotation: A Survey, Zhen Tan+, N_A, arXiv24 SummaryGPT-4などの大規模言語モデル(LLMs)を使用したデータアノテーションの研究に焦点を当て、LLMによるアノテーション生成の評価や学習への応用について述べられています。LLMを使用したデータアノテーションの手法や課題について包括的に議論し、将来の研究の進展を促進することを目的としています。 CommentData AnnotationにLLMを活用する場合のサーベイ ...
Issue Date: 2024-03-01 Likelihood-based Mitigation of Evaluation Bias in Large Language Models, Masanari Ohi+, N_A, arXiv24 SummaryLLMsを使用した評価者における可能性のバイアスとその影響を調査し、バイアスを緩和する方法を提案。提案手法は、バイアスのかかったインスタンスを活用し、評価パフォーマンスを向上させた。
Issue Date: 2024-02-28 The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, Shuming Ma+, N_A, arXiv24 Summary最新の研究では、1ビットの大規模言語モデル(LLMs)の時代が到来しており、BitNetなどの研究がその道を切り開いている。本研究では、1ビットLLMの変種であるBitNet b1.58を紹介し、その性能や効率について述べている。このモデルは、三値{-1, 0, 1}で各パラメータを表現し、フルプレシジョンのTransformer LLMと同等の性能を示す一方、コスト効果が高いことが特徴である。1.58ビットのLLMは、新しいスケーリング法やレシピを提供し、新しい計算パラダイムを可能にするとともに、特定のハードウェアの設計にも貢献する。 Comment1bit量子化を実現したBitNet。乗算が不要になるからGPU以外のアーキテクチャが最適かもね、みたいな話らしい。おまけに性能も高いらしい。(論文まだ読んでない)Github: https://github.com/kyegomez/BitNet ... image
Issue Date: 2024-02-28 Deep Networks Always Grok and Here is Why, Ahmed Imtiaz Humayun+, N_A, arXiv24 SummaryDNNの訓練エラーがほぼゼロに達した後に一般化が遅れて発生するグロッキング現象について、遅延頑健性という新しい概念を導入し、DNNが遅延して敵対的な例を理解し、一般化した後に頑健になる現象を説明。局所複雑性の新しい尺度に基づいて、遅延一般化と遅延頑健性の出現についての解析的な説明を提供。 CommentGrokking関連論文参考: hillbigさんのツイートhttps://x.com/hillbig/status/1762624222260846993?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2024-02-27 MerRec: A Large-scale Multipurpose Mercari Dataset for Consumer-to-Consumer Recommendation Systems, Lichi Li+, N_A, arXiv24 Summary電子商取引分野において、C2C推薦システムの重要性が高まっているが、これに関する研究は限られたデータセットに基づいている。そこで、MerRecという数百万のユーザーと商品をカバーする大規模なC2C推薦データセットが導入された。このデータセットは、標準的な特徴だけでなく、ユニークな要素も含んでおり、広範囲に評価されることで、C2C推薦の研究を促進し、新たな基準を確立することが期待されている。
Issue Date: 2024-02-25 Linear Transformers are Versatile In-Context Learners, Max Vladymyrov+, N_A, arXiv24 Summary研究では、線形transformersが複雑な問題に対して効果的な最適化アルゴリズムを見つける能力を持つことが示された。特に、トレーニングデータが異なるノイズレベルで破損している場合でも、線形transformersは合理的なベースラインを上回るか匹敵する結果を示した。新しいアプローチとして、運動量と再スケーリングを組み込んだ最適化戦略が提案された。これにより、線形transformersが洗練された最適化戦略を発見する能力を持つことが示された。 #NLP#LanguageModel#Personalization
Issue Date: 2024-02-24 User-LLM: Efficient LLM Contextualization with User Embeddings, Lin Ning+, N_A, arXiv24 SummaryLLMsを活用したUser-LLMフレームワークが提案された。ユーザーエンベッディングを使用してLLMsをコンテキストに位置付けし、ユーザーコンテキストに動的に適応することが可能になる。包括的な実験により、著しい性能向上が示され、Perceiverレイヤーの組み込みにより計算効率が向上している。 Commentnext item prediction, favorite genre or category predictimnreview generationなどで評価している ...
Issue Date: 2024-02-24 Should We Respect LLMs? A Cross-Lingual Study on the Influence of Prompt Politeness on LLM Performance, Ziqi Yin+, N_A, arXiv24 SummaryLLMsのパフォーマンスにおけるプロンプトの丁寧さの影響を調査。無礼なプロンプトはパフォーマンス低下につながるが、過度に丁寧な言葉も必ずしも良い結果を保証しない。最適な丁寧さのレベルは言語によって異なることが示唆され、異文化間の自然言語処理とLLMの使用において丁寧さを考慮する必要性が強調された。
Issue Date: 2024-02-15 Scaling Laws for Fine-Grained Mixture of Experts, Jakub Krajewski+, N_A, arXiv24 Summary本研究では、Mixture of Experts(MoE)モデルのスケーリング特性を分析し、新しいハイパーパラメータである「粒度」を導入することで、計算コストを削減する方法を提案しています。さらに、MoEモデルが密なモデルよりも優れた性能を発揮し、モデルのサイズとトレーニング予算をスケールアップするにつれてその差が広がることを示しています。また、一般的な方法では最適ではないことも示しています。
Issue Date: 2024-02-11 Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks, Jongho Park+, N_A, arXiv24 Summary状態空間モデル(SSM)は、言語モデリングにおけるTransformerネットワークの代替手法として提案されてきた。本研究では、SSMのインコンテキスト学習(ICL)能力を評価し、Transformerと比較した結果を報告する。SSMは一部のタスクでTransformerを上回る性能を示すが、一部のタスクでは不十分であることがわかった。そこで、Mambaとアテンションブロックを組み合わせたハイブリッドモデルを提案し、個々のモデルを上回る結果を示した。ハイブリッドアーキテクチャは言語モデルのICLを向上させる有望な手段であることが示唆された。
Issue Date: 2024-02-07 Self-Discover: Large Language Models Self-Compose Reasoning Structures, Pei Zhou+, N_A, arXiv24 SummarySELF-DISCOVERは、LLMsがタスク固有の推論構造を自己発見することを可能にするフレームワークであり、複雑な推論問題に取り組むことができます。このフレームワークは、複数の原子的な推論モジュールを選択し、それらを組み合わせて明示的な推論構造を作成する自己発見プロセスを含んでいます。SELF-DISCOVERは、難解な推論ベンチマークでGPT-4とPaLM 2の性能を最大32%向上させることができます。さらに、推論計算において10-40倍少ないリソースを必要とし、人間の推論パターンと共通点を持っています。
Issue Date: 2024-02-06 RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval, Parth Sarthi+, N_A, arXiv24 Summary検索補完言語モデルは、ロングテールの知識を組み込むことができますが、既存の手法では文脈の理解が制限されています。そこで、私たちは再帰的な要約を使用してテキストをクラスタリングし、異なる抽象化レベルで情報を統合する新しいアプローチを提案します。制御された実験では、このアプローチが従来の手法よりも大幅な改善を提供し、質問応答タスクでは最高性能を20%向上させることができることを示しました。 #Survey#LanguageModel#MulltiModal
Issue Date: 2024-01-25 MM-LLMs: Recent Advances in MultiModal Large Language Models, Duzhen Zhang+, N_A, arXiv24 SummaryMM-LLMsは、コスト効果の高いトレーニング戦略を用いて拡張され、多様なMMタスクに対応する能力を持つことが示されている。本論文では、MM-LLMsのアーキテクチャ、トレーニング手法、ベンチマークのパフォーマンスなどについて調査し、その進歩に貢献することを目指している。 Comment以下、論文を斜め読みしながら、ChatGPTを通じて疑問点を解消しつつ理解した内容なので、理解が不十分な点が含まれている可能性があるので注意。 まあざっくり言うと、マルチモーダルを理解できるLLMを作りたかったら、様々なモダリティをエンコーディングして得られる表現と、既存のLLMが内部的に処理 ... #NLP#LanguageModel#post-pretraining
Issue Date: 2024-01-24 LLaMA Pro: Progressive LLaMA with Block Expansion, Chengyue Wu+, N_A, arXiv24 Summary本研究では、大規模言語モデル(LLMs)の新しい事前学習後の手法を提案し、モデルの知識を効果的かつ効率的に向上させることを目指しました。具体的には、Transformerブロックの拡張を使用し、新しいコーパスのみを使用してモデルを調整しました。実験の結果、提案手法はさまざまなベンチマークで優れたパフォーマンスを発揮し、知的エージェントとして多様なタスクに対応できることが示されました。この研究は、自然言語とプログラミング言語を統合し、高度な言語エージェントの開発に貢献するものです。 Comment追加の知識を導入したいときに使えるかも?事前学習したLLaMA Blockに対して、追加のLLaMA Blockをstackし、もともとのLLaMA Blockのパラメータをfreezeした上でドメインに特化したコーパスで事後学習することで、追加の知識を挿入する。LLaMA Blockを挿入するとき ... image
Issue Date: 2024-01-24 Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models, Zixiang Chen+, N_A, arXiv24 Summary本研究では、追加の人間による注釈付きデータを必要とせずに、大規模言語モデル(LLMs)を強化する方法を提案します。そのために、Self-Play fIne-tuNing(SPIN)という新しいファインチューニング手法を開発しました。SPINでは、LLMが自身と対戦しながら能力を向上させるセルフプレイのメカニズムを利用します。具体的には、LLMは自己生成応答と人間による注釈付きデータから得られた応答を区別することでポリシーを改善します。実験結果は、SPINがLLMのパフォーマンスを大幅に改善し、専門家の対戦相手を必要とせずに人間レベルのパフォーマンスを達成できることを示しています。 #Survey#NLP#LanguageModel#Hallucination
Issue Date: 2024-01-24 A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models, S. M Towhidul Islam Tonmoy+, N_A, arXiv24 Summary要約:本論文では、大規模言語モデル(LLMs)における幻覚の問題について調査し、その軽減策について紹介しています。LLMsは強力な言語生成能力を持っていますが、根拠のない情報を生成する傾向があります。この問題を解決するために、Retrieval Augmented Generation、Knowledge Retrieval、CoNLI、CoVeなどの技術が開発されています。さらに、データセットの利用やフィードバックメカニズムなどのパラメータに基づいてこれらの方法を分類し、幻覚の問題に取り組むためのアプローチを提案しています。また、これらの技術に関連する課題や制約についても分析し、将来の研究に向けた基盤を提供しています。
Issue Date: 2024-01-24 Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding, Zilong Wang+, N_A, arXiv24 SummaryLLMsを使用したChain-of-Tableフレームワークは、テーブルデータを推論チェーン内で活用し、テーブルベースの推論タスクにおいて高い性能を発揮することが示された。このフレームワークは、テーブルの連続的な進化を表現し、中間結果の構造化情報を利用してより正確な予測を可能にする。さまざまなベンチマークで最先端のパフォーマンスを達成している。
Issue Date: 2024-01-24 Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM, Xiaoding Lu+, N_A, arXiv24 Summary本研究では、大規模な会話型AIモデルの開発には多くの計算リソースとメモリが必要であるが、複数の小さなモデルを組み合わせることで同等またはそれ以上の性能を実現できる可能性があることを示唆している。ブレンディングというアプローチを提案し、複数のチャットAIを統合する方法を示している。実証的な証拠によれば、中程度のサイズの3つのモデルを統合するだけでも、大規模なモデルと同等以上の性能を発揮できることが示されている。この仮説は、大規模なユーザーベースを対象に行われたA/Bテストによって厳密に検証され、ブレンディング戦略が効果的なアプローチであることが示されている。 #Survey#NaturalLanguageGeneration#NLP#Evaluation#LLM-as-a-Judge
Issue Date: 2024-01-24 Leveraging Large Language Models for NLG Evaluation: A Survey, Zhen Li+, N_A, arXiv24 Summary本研究は、大規模言語モデル(LLMs)を使用した自然言語生成(NLG)の評価についての包括的な概要を提供します。既存の評価指標を整理し、LLMベースの手法を比較するためのフレームワークを提案します。さらに、未解決の課題についても議論し、より公正で高度なNLG評価技術を提唱します。 Comment重要 ...
Issue Date: 2024-01-23 Knowledge Fusion of Large Language Models, Fanqi Wan+, N_A, arXiv24 Summary本研究では、既存の事前訓練済みの大規模言語モデル(LLMs)を統合することで、1つの強力なモデルを作成する方法を提案しています。異なるアーキテクチャを持つ3つの人気のあるLLMsを使用して、ベンチマークとタスクのパフォーマンスを向上させることを実証しました。提案手法のコード、モデルの重み、およびデータはGitHubで公開されています。
Issue Date: 2024-01-22 Self-Rewarding Language Models, Weizhe Yuan+, N_A, arXiv24 Summary将来のモデルのトレーニングには超人的なフィードバックが必要であり、自己報酬を提供するSelf-Rewarding Language Modelsを研究している。LLM-as-a-Judgeプロンプトを使用して、言語モデル自体が自己報酬を提供し、高品質な報酬を得る能力を向上させることを示した。Llama 2 70Bを3回のイテレーションで微調整することで、既存のシステムを上回るモデルが得られることを示した。この研究は、改善可能なモデルの可能性を示している。 Comment ... image#MachineLearning#NLP#Transformer
Issue Date: 2024-01-16 Transformers are Multi-State RNNs, Matanel Oren+, N_A, arXiv24 Summary本研究では、トランスフォーマーのデコーダーは無限マルチステートRNNとして概念化できることを示し、有限のマルチステートRNNに変換することも可能であることを示します。さらに、新しいキャッシュ圧縮ポリシーであるTOVAを導入し、他のポリシーよりも優れた性能を示すことを実験結果で示しました。TOVAは元のキャッシュサイズの1/8しか使用せず、トランスフォーマーデコーダーLLMが実際にはRNNとして振る舞うことが多いことを示しています。 #NLP#LanguageModel#Chain-of-Thought
Issue Date: 2024-01-16 The Impact of Reasoning Step Length on Large Language Models, Mingyu Jin+, N_A, arXiv24 SummaryChain of Thought(CoT)の推論ステップの長さとLLMsの推論能力の関係を調査した。推論ステップを延長すると、プロンプトに新しい情報を追加せずにLLMsの推論能力が向上することがわかった。逆に、キーとなる情報を保持しながら推論ステップを短縮すると、推論能力が低下する。また、誤った根拠でも推論の必要な長さを保つ限り、好ましい結果が得られることも示された。さらに、タスクによって推論ステップの増加の利点が異なることも観察された。 #NLP#LanguageModel#OpenWeightLLM
Issue Date: 2024-01-09 Mixtral of Experts, Albert Q. Jiang+, N_A, arXiv24 SummaryMixtralは、Sparse Mixture of Experts(SMoE)言語モデルであり、各レイヤーが8つのフィードフォワードブロックで構成されています。Mixtralは、トークンごとに2つのエキスパートを選択し、それらの出力を組み合わせます。Mixtralは、Llama 2 70BとGPT-3.5を上回る性能を持ち、数学、コード生成、多言語のベンチマークで特に優れています。また、Mixtral 8x7B Instructという指示に従うモデルも提供されており、人間のベンチマークを凌駕しています。 CommentMixture of experts Layer: inputを受け取ったrouterが、8つのexpertsのうち2つを選択し順伝搬。2つのexpertsのoutputを加重平均することで最終的なoutputとする。![image](https://github.com/user-attachm ... #Pretraining#NLP#LanguageModel
Issue Date: 2023-10-10 Think before you speak: Training Language Models With Pause Tokens, Sachin Goyal+, N_A, ICLR24 Summary言語モデルのトレーニングと推論において、遅延を導入することでモデルの性能を向上させる手法を提案しました。具体的には、入力に特定のトークンを追加し、そのトークンが現れるまでモデルの出力を遅らせることで、追加の計算を行うことができます。実験結果では、この手法が推論タスクにおいて有益であり、特にQAタスクでの性能向上が見られました。今後は、この遅延予測の手法をさらに研究していく必要があります。 Commentこの研究は興味深いが、事前学習時に入れないと効果が出にくいというのは直感的にわかるので、実用的には活用しづらい。また、promptでこの研究をimitateする方法については、ZeroShot CoTにおいて、思考プロセスを明示的に指定するようなpromptingと同様のことを行っており、これは実 ... #MachineTranslation#NLP#LanguageModel
Issue Date: 2024-11-20 Prompting Large Language Model for Machine Translation: A Case Study, Biao Zhang+, arXiv23 Commentzero-shotでMTを行うときに、改行の有無や、少しのpromptingの違いでCOMETスコアが大幅に変わることを示している。 モデルはGLM-130BをINT4で量子化したモデルで実験している。 興味深いが、この知見を一般化して全てのLLMに適用できるか?と言われると、そうはならない気が ... #ComputerVision#LanguageModel#Zero/FewShotPrompting#Self-SupervisedLearning
Issue Date: 2024-10-07 SINC: Self-Supervised In-Context Learning for Vision-Language Tasks, Yi-Syuan Chen+, N_A, ICCV23 #Efficiency/SpeedUp#Quantization#Adapter/LoRA
Issue Date: 2024-09-24 LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models, Yixiao Li+, N_A, arXiv23 #NLP#LanguageModel#SelfCorrection
Issue Date: 2024-09-07 Large Language Models Cannot Self-Correct Reasoning Yet, Jie Huang+, N_A, arXiv23 #NLP#LanguageModel#Finetuning (SFT)#InstructionTuning#SelfCorrection
Issue Date: 2024-09-07 Reflection-Tuning: Data Recycling Improves LLM Instruction-Tuning, Ming Li+, N_A, arXiv23 CommentReflection-Tuningを提案している研究? ... #RecommenderSystems#LanguageModel#ConversationalRecommenderSystems
Issue Date: 2024-08-07 Leveraging Large Language Models in Conversational Recommender Systems, Luke Friedman+, N_A, arXiv23 SummaryLLMsを使用した大規模な会話型推薦システム(CRS)の構築に関する論文の要約です。LLMsを活用したユーザーの好み理解、柔軟なダイアログ管理、説明可能な推薦の新しい実装を提案し、LLMsによって駆動される統合アーキテクチャの一部として説明します。また、LLMが解釈可能な自然言語のユーザープロファイルを利用してセッションレベルのコンテキストを調整する方法についても説明します。さらに、LLMベースのユーザーシミュレータを構築して合成会話を生成する技術を提案し、LaMDAをベースにしたYouTubeビデオの大規模CRSであるRecLLMを紹介します。
Issue Date: 2024-05-28 FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation, Sewon Min+, N_A, arXiv23 Summary大規模言語モデル(LMs)によって生成されたテキストの事実性を評価するために、新しい評価基準であるFACTSCOREが導入された。FACTSCOREは生成物を原子的な事実に分解し、信頼性のある知識源によってサポートされる原子的な事実の割合を計算する。人間による評価の代替として、リトリーバルと強力な言語モデルを使用してFACTSCOREを推定する自動モデルが導入され、誤差率が2%未満であることが示された。この自動メトリックを使用して、新しい13の最近のLMsから6,500の生成物を評価し、さまざまな結果が得られた。FACTSCOREは`pip install factscore`を使用して一般に利用可能である。
Issue Date: 2024-05-28 ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate, Chi-Min Chan+, N_A, arXiv23 Summary大規模言語モデル(LLMs)を使用した単一エージェントベースのテキスト評価には、人間の評価品質とのギャップがあり、マルチエージェントベースのアプローチが有望であることが示唆されている。本研究では、ChatEvalと呼ばれるマルチエージェント審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価することで、信頼性のある評価のための人間を模倣した評価プロセスを提供している。
Issue Date: 2024-05-28 Automated Evaluation of Personalized Text Generation using Large Language Models, Yaqing Wang+, N_A, arXiv23 SummaryLLMsを使用して個別化されたテキスト生成を評価するために、AuPELという新しい評価方法を提案し、生成されたテキストの個人化、品質、関連性の3つの意味的側面を自動的に測定する。AuPELは従来の評価メトリクスよりも優れており、LLMsを使用した個別化されたテキスト生成の評価に適していることを示唆している。
Issue Date: 2024-05-28 Multi-Dimensional Evaluation of Text Summarization with In-Context Learning, Sameer Jain+, N_A, arXiv23 Summary本研究では、大規模な言語モデルを使用したコンテキスト内学習による多面的評価者の効果を調査し、大規模なトレーニングデータセットの必要性を排除します。実験の結果、コンテキスト内学習ベースの評価者は、テキスト要約のタスクにおいて学習された評価フレームワークと競合し、関連性や事実の一貫性などの側面で最先端の性能を確立しています。また、GPT-3などの大規模言語モデルによって書かれたゼロショット要約の評価におけるコンテキスト内学習ベースの評価者の効果も研究されています。 CommentICE ...
Issue Date: 2024-05-24 Mistral 7B, Albert Q. Jiang+, N_A, arXiv23 SummaryMistral 7B v0.1は、70億パラメータの言語モデルであり、高速な推論のためにGQAを活用し、SWAを組み合わせている。また、Mistral 7B -InstructはLlama 2 13B -Chatモデルを上回っており、Apache 2.0ライセンスの下で公開されています。 Comment#1237 #1279 などのモデルも参照のこと モデルのスケールが大きくなると、inferenceのlatencyが遅くなり、計算コストが大きくなりすぎて実用的でないので、小さいパラメータで素早いinference実現したいよね、というモチベーション。 そのために、SlidingWindoコンテ ... image#DocumentSummarization#NaturalLanguageGeneration#NLP#Dataset#LanguageModel#Annotation
Issue Date: 2024-05-15 Benchmarking Large Language Models for News Summarization, Tianyi Zhang+, N_A, arXiv23 SummaryLLMsの成功の理由を理解するために、異なる事前学習方法、プロンプト、およびモデルスケールにわたる10つのLLMsに対する人間の評価を行った。その結果、モデルサイズではなく、指示の調整がLLMのゼロショット要約能力の鍵であることがわかった。また、LLMsの要約は人間の執筆した要約と同等と判断された。 Commentニュース記事の高品質な要約を人間に作成してもらい、gpt-3.5を用いてLLM-basedな要約も生成 annotatorにそれぞれの要約の品質をスコアリングさせたデータセットを作成 ... #Efficiency/SpeedUp#NLP#LanguageModel#Transformer#Attention
Issue Date: 2024-04-07 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints, Joshua Ainslie+, N_A, arXiv23 SummaryMulti-query attention(MQA)は、単一のkey-value headのみを使用しており、デコーダーの推論を劇的に高速化しています。ただし、MQAは品質の低下を引き起こす可能性があり、さらには、より速い推論のためだけに別個のモデルをトレーニングすることが望ましくない場合もあります。既存のマルチヘッド言語モデルのチェックポイントを、オリジナルの事前トレーニング計量の5%を使用してMQAを持つモデルにアップトレーニングするためのレシピを提案し、さらに、複数のkey-value headを使用するマルチクエリアテンションの一般化であるグループ化クエリアテンション(GQA)を紹介します。アップトレーニングされたGQAが、MQAと同等の速度でマルチヘッドアテンションに匹敵する品質を達成することを示しています。 Comment通常のMulti-Head AttentionがQKVが1対1対応なのに対し、Multi Query Attention (MQA) #1272 は全てのQに対してKVを共有する。一方、GQAはグループごとにKVを共有する点で異なる。MQAは大幅にInfeerence` speedが改善するが、精 ... image
Issue Date: 2024-03-05 QTSumm: Query-Focused Summarization over Tabular Data, Yilun Zhao+, N_A, EMNLP23 Summary与えられた表に対して人間らしい推論と分析を行い、カスタマイズされた要約を生成するための新しいクエリに焦点を当てた表の要約タスクを定義し、QTSummという新しいベンチマークを導入。実験結果と手動分析により、新しいタスクが表からテキスト生成において重要な課題を提起していることが明らかになります。 ReFactorという新しいアプローチを提案し、生成された事実をモデルの入力に連結することでベースラインを改善できることを示しています。 CommentRAGでテーブル情報を扱う際に役立ちそうRadev論文 ...
Issue Date: 2024-03-05 Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting, Xi Ye+, N_A, EMNLP23 Summary最近の研究では、大規模言語モデルを使用してテキスト推論タスクで強力なパフォーマンスを達成する方法が提案されています。本研究では、ブラックボックスの方法を使用して説明を組み込んだプロンプトを最適化するアプローチに焦点を当てています。leave-one-outスキームを使用して候補の説明セットを生成し、二段階フレームワークを使用してこれらの説明を効果的に組み合わせます。実験結果では、プロキシメトリクスが真の精度と相関し、クラウドワーカーの注釈や単純な検索戦略よりも効果的にプロンプトを改善できることが示されました。
Issue Date: 2024-02-15 The Consensus Game: Language Model Generation via Equilibrium Search, Athul Paul Jacob+, N_A, arXiv23 SummaryLMsを使った質問応答やテキスト生成タスクにおいて、生成的または識別的な手法を組み合わせることで一貫したLM予測を得る新しいアプローチが提案された。このアプローチは、言語モデルのデコーディングをゲーム理論的な連続シグナリングゲームとして捉え、EQUILIBRIUM-RANKINGアルゴリズムを導入することで、既存の手法よりも一貫性とパフォーマンスを向上させることが示された。
Issue Date: 2024-01-25 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback, Wenda Xu+, N_A, arXiv23 Summary自動的な言語生成の品質評価には説明可能なメトリクスが必要であるが、既存のメトリクスはその判定を説明したり欠陥とスコアを関連付けることができない。そこで、InstructScoreという新しいメトリクスを提案し、人間の指示とGPT-4の知識を活用してテキストの評価と診断レポートを生成する。さまざまな生成タスクでInstructScoreを評価し、他のメトリクスを上回る性能を示した。驚くべきことに、InstructScoreは人間の評価データなしで最先端のメトリクスと同等の性能を達成する。 Comment伝統的なNLGの性能指標の解釈性が低いことを主張する研究 ... #NLP#LanguageModel#Evaluation#LLM-as-a-Judge
Issue Date: 2024-01-25 G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment, Yang Liu+, N_A, EMNLP23 Summary従来の参照ベースの評価指標では、自然言語生成システムの品質を正確に測定することが難しい。最近の研究では、大規模言語モデル(LLMs)を使用した参照ベースの評価指標が提案されているが、まだ人間との一致度が低い。本研究では、G-Evalという大規模言語モデルを使用した品質評価フレームワークを提案し、要約と対話生成のタスクで実験を行った。G-Evalは従来の手法を大幅に上回る結果を示し、LLMベースの評価器の潜在的な問題についても分析している。コードはGitHubで公開されている。 Comment伝統的なNLGの性能指標が、人間の判断との相関が低いことを示した研究# 手法概要 CoTを利用して、生成されたテキストの品質を評価する手法を提案している。 タスクのIntroductionと、評価のCriteriaをプロンプトに仕込むだけで、自動的にLLMに評価ステップに関するCoTを生成させ、最終 ... image
Issue Date: 2023-12-29 Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action, Jiasen Lu+, N_A, arXiv23 SummaryUnified-IO 2は、最初の自己回帰型のマルチモーダルモデルであり、画像、テキスト、音声、アクションを理解し生成することができます。異なるモダリティを統一するために、共有の意味空間に入力と出力を配置し、単一のエンコーダ・デコーダトランスフォーマーモデルで処理します。さまざまなアーキテクチャの改善を提案し、大規模なマルチモーダルな事前トレーニングコーパスを使用してモデルをトレーニングします。Unified-IO 2は、GRITベンチマークを含む35以上のベンチマークで最先端のパフォーマンスを発揮します。 Comment画像、テキスト、音声、アクションを理解できる初めてのautoregressive model。AllenAI ...
Issue Date: 2023-12-29 Some things are more CRINGE than others: Preference Optimization with the Pairwise Cringe Loss, Jing Xu+, N_A, arXiv23 Summary一般的な言語モデルのトレーニングでは、ペアワイズの選好による整列がよく使われます。しかし、バイナリフィードバックの方法もあります。この研究では、既存のバイナリフィードバック手法をペアワイズ選好の設定に拡張し、高いパフォーマンスを示すことを示します。この手法は実装が簡単で効率的であり、最先端の選好最適化アルゴリズムよりも優れた性能を発揮します。 CommentDPO, PPOをoutperformする新たなAlignment手法。MetaのJason Weston氏元ツイート: https://x.com/jaseweston/status/1740546297235464446?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q後で読む(画像は ... image
Issue Date: 2023-12-27 Gemini vs GPT-4V: A Preliminary Comparison and Combination of Vision-Language Models Through Qualitative Cases, Zhangyang Qi+, N_A, arXiv23 Summary本研究では、マルチモーダル大規模言語モデル(MLLMs)の進化について、GoogleのGeminiとOpenAIのGPT-4Vという2つのモデルを比較しています。ビジョン-言語能力、人間との対話、時間的理解、知能および感情指数などの側面にわたる評価を行い、両モデルの異なる視覚理解能力について分析しています。さらに、実用的な有用性を評価するために構造化された実験を行い、両モデルのユニークな強みとニッチを明らかにしています。また、2つのモデルを組み合わせてより良い結果を得る試みも行っています。この研究は、マルチモーダル基盤モデルの進化と将来の進展についての洞察を提供しています。
Issue Date: 2023-12-23 Retrieval-Augmented Generation for Large Language Models: A Survey, Yunfan Gao+, N_A, arXiv23 Summary大規模言語モデル(LLMs)には課題がありますが、Retrieval-Augmented Generation(RAG)はこれを解決する手法です。RAGは外部の知識ベースから情報を取得し、回答の正確性を向上させます。ソースの引用により、回答の検証とモデルの信頼性向上が可能です。また、RAGは知識の更新やドメイン固有の知識の導入を容易にします。本論文ではRAGの開発パラダイムとそのコンポーネントについて説明し、評価方法や将来の研究方向についても議論しています。
Issue Date: 2023-12-21 Gemini: A Family of Highly Capable Multimodal Models, Gemini Team+, N_A, arXiv23 Summaryこの報告書では、マルチモーダルモデル「Gemini」のファミリーについて紹介します。Geminiは画像、音声、動画、テキストの理解に優れた能力を持ち、Ultra、Pro、Nanoのサイズがあります。Gemini Ultraは幅広いベンチマークで最先端の技術を提供し、MMLUでは人間の専門家のパフォーマンスを初めて達成しました。Geminiモデルはクロスモーダルな推論と言語理解の能力を持ち、さまざまなユースケースに適用できます。また、ユーザーへの責任ある展開についても議論しています。 Comment#1181 で発表されたGeminiの論文 ...
Issue Date: 2023-12-21 An In-depth Look at Geminis Language Abilities, Syeda Nahida Akter+, N_A, arXiv23 SummaryGoogle Geminiモデルは、OpenAI GPTシリーズと同等の結果を報告した初めてのモデルであり、本論文ではその言語能力を詳細に探求します。具体的には、GeminiとGPTの能力を客観的に比較し、再現可能なコードと透明な結果を提供します。さらに、Geminiの得意な領域を特定し、10のデータセットでさまざまな言語能力をテストします。Gemini Proは、GPT 3.5 Turboに比べてわずかに劣る精度を示しましたが、多数の桁を含む数学的な推論の失敗や多肢選択の回答順序への感度などの説明も提供します。また、Geminiは非英語の言語や複雑な推論チェーンの処理などで高いパフォーマンスを示すことも特定しています。再現のためのコードとデータは、https://github.com/neulab/gemini-benchmarkで入手できます。 CommentGeminiとGPTを様々なベンチマークで比較した研究。 ...
Issue Date: 2023-12-16 Data Selection for Language Models via Importance Resampling, Sang Michael Xie+, N_A, arXiv23 Summary適切な事前学習データセットの選択は、言語モデルの性能向上に重要である。既存の方法ではヒューリスティックスや人手による選別が必要だが、本研究では重要度リサンプリングを用いたデータ選択フレームワークであるDSIRを提案する。DSIRは効率的かつスケーラブルであり、KL削減というデータメトリックを用いて選択されたデータとターゲットとの近接性を測定する。実験結果では、DSIRが他の方法よりも高い精度を示し、特定のドメインや一般的なドメインの事前学習においても優れた性能を発揮することが示された。
Issue Date: 2023-12-14 VILA: On Pre-training for Visual Language Models, Ji Lin+, N_A, arXiv23 Summary最近の大規模言語モデルの成功により、ビジュアル言語モデル(VLM)が進歩している。本研究では、VLMの事前学習のためのデザインオプションを検討し、以下の結果を示した:(1) LLMを凍結することでゼロショットのパフォーマンスが達成できるが、文脈に基づいた学習能力が不足している。(2) 交互に行われる事前学習データは有益であり、画像とテキストのペアだけでは最適ではない。(3) テキストのみの指示データを画像とテキストのデータに再ブレンドすることで、VLMのタスクの精度を向上させることができる。VILAというビジュアル言語モデルファミリーを構築し、最先端モデルを凌駕し、優れたパフォーマンスを発揮することを示した。マルチモーダルの事前学習は、VILAの特性を向上させる。
Issue Date: 2023-12-11 RankZephyr: Effective and Robust Zero-Shot Listwise Reranking is a Breeze, Ronak Pradeep+, N_A, arXiv23 SummaryRankZephyrは、オープンソースのLLMであり、再ランキングにおいてプロプライエタリモデルと同等の性能を発揮する。TREC Deep Learning TracksやBEIRのNEWSとCOVIDなどのデータセットで包括的な評価を行い、高い能力を示している。さらに、NovelEvalテストセットでもGPT-4を上回る性能を発揮し、データの汚染に対する懸念を解消している。結果の再現に必要なコードは、https://github.com/castorini/rank_llmで提供されている。
Issue Date: 2023-12-06 Segment and Caption Anything, Xiaoke Huang+, N_A, arXiv23 Summary私たちは、Segment Anything Model(SAM)に地域キャプションを生成する能力を効率的に備える方法を提案します。SAMは、セグメンテーションのための強力な汎用性を持ちながら、意味理解のための短縮形です。軽量なクエリベースの特徴ミキサーを導入することで、地域固有の特徴を言語モデルの埋め込み空間と整合させ、後でキャプションを生成します。訓練可能なパラメータの数が少ないため、高速かつスケーラブルなトレーニングが可能です。また、地域キャプションデータの不足問題に対処するために、弱い教師あり事前トレーニングを提案しています。この研究は、地域キャプションデータのスケーリングアップに向けた第一歩となり、SAMに地域的な意味を付加する効率的な方法を探求するための示唆を与えます。 #Analysis#NLP#LanguageModel#QuestionAnswering
Issue Date: 2023-12-04 Unnatural Error Correction: GPT-4 Can Almost Perfectly Handle Unnatural Scrambled Text, Qi Cao+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の内部動作についての新しい洞察を提供します。特に、GPT-4を調査し、LLMsの耐久性に関する実験結果を示します。実験では、文字レベルの順列に対するLLMsの耐性を調べるために、Scrambled Benchというスイートを使用しました。結果は、GPT-4がtypoglycemiaという現象に似た能力を持ち、非常に自然でないエラーを含む入力をほぼ完璧に処理できることを示しています。これは、LLMsの耐性が直感に反するものであり、他のLLMsや人間にとっても困難なタスクであることを示しています。 CommentOpenAIのモデルがブラックボックスである限り、コンタミネーションがあるのでは?という疑念は持ってしまう。(部分的にしか読めていないが…)RealtimeQAと呼ばれるweeklyで直近のニュースに対するQuestionを発表することで構築されるデータセットのうち、2023.03.17--2完全に ... image
Issue Date: 2023-12-04 Beyond ChatBots: ExploreLLM for Structured Thoughts and Personalized Model Responses, Xiao Ma+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLM)を使用したチャットボットの開発について述べられています。特に、探索的なタスクや意味理解のタスクにおいて、LLMを活用することでユーザーの認知負荷を軽減し、より個別化された応答を生成することができると述べられています。また、ExploreLLMを使用することで、ユーザーが高レベルの好みを持った個別化された応答を簡単に生成できることも示唆されています。この研究は、自然言語とグラフィカルユーザーインターフェースの統合により、チャットボットの形式を超えたLLMとの対話が可能な未来を示しています。
Issue Date: 2023-12-04 COFFEE: Counterfactual Fairness for Personalized Text Generation in Explainable Recommendation, Nan Wang+, N_A, EMNLP23 Summary個別化されたテキスト生成(PTG)における公平性についての研究。ユーザーの書き込みテキストにはバイアスがあり、それがモデルのトレーニングに影響を与える可能性がある。このバイアスは、ユーザーの保護された属性に関連してテキストを生成する際の不公平な扱いを引き起こす可能性がある。公平性を促進するためのフレームワークを提案し、実験と評価によりその効果を示す。 #NLP#Transformer
Issue Date: 2023-12-04 Pushdown Layers: Encoding Recursive Structure in Transformer Language Models, Shikhar Murty+, N_A, EMNLP23 Summary本研究では、再帰構造をうまく捉えるために新しい自己注意層であるPushdown Layersを導入しました。Pushdown Layersは、再帰状態をモデル化するためにスタックテープを使用し、トークンごとの推定深度を追跡します。このモデルは、構文的な一般化を改善し、サンプル効率を向上させることができます。さらに、Pushdown Layersは標準の自己注意の代替としても使用でき、GLUEテキスト分類タスクでも改善を実現しました。 #ComputerVision#NLP#GenerativeAI#MulltiModal
Issue Date: 2023-12-01 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction, Xinyuan Chen+, N_A, arXiv23 Summary本研究では、ビデオ生成において連続した長いビデオを生成するためのジェネレーティブなトランジションと予測に焦点を当てたモデルSEINEを提案する。SEINEはテキストの説明に基づいてトランジションを生成し、一貫性と視覚的品質を確保した長いビデオを生成する。さらに、提案手法は他のタスクにも拡張可能であり、徹底的な実験によりその有効性が検証されている。 Commenthttps://huggingface.co/spaces/Vchitect/SEINE 画像 + テキストpromptで、動画を生成するデモ ... #InformationRetrieval#Dataset#MulltiModal
Issue Date: 2023-12-01 UniIR: Training and Benchmarking Universal Multimodal Information Retrievers, Cong Wei+, N_A, arXiv23 Summary従来の情報検索モデルは一様な形式を前提としているため、異なる情報検索の要求に対応できない。そこで、UniIRという統一された指示に基づくマルチモーダルリトリーバーを提案する。UniIRは異なるリトリーバルタスクを処理できるように設計され、10のマルチモーダルIRデータセットでトレーニングされる。実験結果はUniIRの汎化能力を示し、M-BEIRというマルチモーダルリトリーバルベンチマークも構築された。 Comment後で読む(画像は元ツイートより元ツイート: https://x.com/congwei1230/status/1730307767469068476?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image
Issue Date: 2023-11-27 Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities, AJ Piergiovanni+, N_A, arXiv23 Summary異なるモダリティ(ビデオ、音声、テキスト)を組み合わせるマルチモーダル学習の課題に取り組むため、本研究ではモダリティごとに個別の自己回帰モデルを使用するアプローチを提案する。提案手法では、時間に同期したモダリティ(音声とビデオ)と順序付けられたコンテキストモダリティを別々に処理するMirasol3Bモデルを使用する。また、ビデオと音声の長いシーケンスに対処するために、シーケンスをスニペットに分割し、Combinerメカニズムを使用して特徴を結合する。この手法は、マルチモーダルベンチマークで最先端の性能を発揮し、高い計算要求に対処し、時間的な依存関係をモデリングすることができる。 #Efficiency/SpeedUp#NLP#LanguageModel
Issue Date: 2023-11-23 Exponentially Faster Language Modelling, Peter Belcak+, N_A, arXiv23 SummaryUltraFastBERTは、推論時にわずか0.3%のニューロンしか使用せず、同等の性能を発揮することができる言語モデルです。UltraFastBERTは、高速フィードフォワードネットワーク(FFF)を使用して、効率的な実装を提供します。最適化されたベースラインの実装に比べて78倍の高速化を実現し、バッチ処理された推論に対しては40倍の高速化を実現します。トレーニングコード、ベンチマークのセットアップ、およびモデルの重みも公開されています。 #Adapter/LoRA
Issue Date: 2023-11-23 MultiLoRA: Democratizing LoRA for Better Multi-Task Learning, Yiming Wang+, N_A, arXiv23 SummaryLoRAは、LLMsを効率的に適応させる手法であり、ChatGPTのようなモデルを複数のタスクに適用することが求められている。しかし、LoRAは複雑なマルチタスクシナリオでの適応性能に制限がある。そこで、本研究ではMultiLoRAという手法を提案し、LoRAの制約を緩和する。MultiLoRAは、LoRAモジュールをスケーリングし、パラメータの依存性を減らすことで、バランスの取れたユニタリ部分空間を得る。実験結果では、わずかな追加パラメータでMultiLoRAが優れたパフォーマンスを示し、上位特異ベクトルへの依存性が低下していることが確認された。 #ComputerVision#NLP#LanguageModel#AutomaticPromptEngineering
Issue Date: 2023-11-23 NeuroPrompts: An Adaptive Framework to Optimize Prompts for Text-to-Image Generation, Shachar Rosenman+, N_A, arXiv23 Summary本研究では、テキストから画像への生成モデルの品質を向上させるための適応型フレームワークNeuroPromptsを提案します。このフレームワークは、事前学習された言語モデルを使用して制約付きテキストデコーディングを行い、人間のプロンプトエンジニアが生成するものに類似したプロンプトを生成します。これにより、高品質なテキストから画像への生成が可能となり、ユーザーはスタイルの特徴を制御できます。また、大規模な人間エンジニアリングされたプロンプトのデータセットを使用した実験により、当アプローチが自動的に品質の高いプロンプトを生成し、優れた画像品質を実現することを示しました。 #ComputerVision#ImageSegmentation#Prompting#In-ContextLearning
Issue Date: 2023-11-23 Visual In-Context Prompting, Feng Li+, N_A, arXiv23 Summary本研究では、ビジョン領域における汎用的なビジュアルインコンテキストプロンプティングフレームワークを提案します。エンコーダーデコーダーアーキテクチャを使用し、さまざまなプロンプトをサポートするプロンプトエンコーダーを開発しました。さらに、任意の数の参照画像セグメントをコンテキストとして受け取るように拡張しました。実験結果から、提案手法が非凡な参照および一般的なセグメンテーション能力を引き出し、競争力のあるパフォーマンスを示すことがわかりました。 CommentImage Segmentationには、ユーザが与えたプロンプトと共通のコンセプトを持つすべてのオブジェクトをセグメンテーションするタスクと、ユーザの入力の特定のオブジェクトのみをセグメンテーションするタスクがある。従来は個別のタスクごとに、特定の入力方法(Visual Prompt, Image ... image#Adapter/LoRA
Issue Date: 2023-11-23 ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs, Viraj Shah+, N_A, arXiv23 Summary概要:概念駆動型のパーソナライズのための生成モデルの微調整手法であるZipLoRAを提案。ZipLoRAは、独立してトレーニングされたスタイルと主題のLoRAを統合し、任意の主題とスタイルの組み合わせで生成することができる。実験結果は、ZipLoRAが主題とスタイルの忠実度を改善しながら魅力的な結果を生成できることを示している。 #NLP#LanguageModel#QuestionAnswering
Issue Date: 2023-11-23 GAIA: a benchmark for General AI Assistants, Grégoire Mialon+, N_A, arXiv23 SummaryGAIAは、General AI Assistantsのためのベンチマークであり、AI研究のマイルストーンとなる可能性がある。GAIAは、推論、マルチモダリティの処理、ウェブブラウジングなど、実世界の質問に対する基本的な能力を必要とする。人間の回答者は92%の正答率を達成し、GPT-4は15%の正答率を達成した。これは、最近の傾向とは異なる結果であり、専門的なスキルを必要とするタスクではLLMsが人間を上回っている。GAIAは、人間の平均的な堅牢性と同等の能力を持つシステムがAGIの到来に重要であると考えている。GAIAの手法を使用して、466の質問と回答を作成し、一部を公開してリーダーボードで利用可能にする。 CommentYann LeCun氏の紹介ツイートhttps://x.com/ylecun/status/1727707519470977311?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QMeta-FAIR, Meta-GenAI, HuggingFace, AutoGPTによる研究。人間は ... image#NLP#Dataset#LanguageModel#QuestionAnswering
Issue Date: 2023-11-22 GPQA: A Graduate-Level Google-Proof Q&A Benchmark, David Rein+, N_A, arXiv23 Summary私たちは、高品質で非常に困難な多肢選択問題からなるGPQAデータセットを提案します。このデータセットは、専門家でも高い正答率を達成できず、最先端のAIシステムでも困難であることが示されています。将来のAIシステムの開発において、スケーラブルな監督方法を開発する必要があります。これにより、スキルを持つ監督者がAIシステムから信頼性のある情報を得ることができるようになります。GPQAデータセットは、スケーラブルな監督実験を可能にし、人間の専門家がAIシステムから真実の情報を確実に得る方法を考案するのに役立つことが期待されています。 Comment該当領域のPh.D所有者でも74%、高いスキルを持つ非専門家(Googleへアクセスして良い環境)で34%しか正答できないQAデータセット。元ツイート: https://x.com/idavidrein/status/1727033002234909060?s=46&t=Y6UuIHB0Lv0Ip ... #NLP#Alignment
Issue Date: 2023-11-21 Unbalanced Optimal Transport for Unbalanced Word Alignment, Yuki Arase+, N_A, arXiv23 Summary単一言語の単語アライメントにおいて、null alignmentという現象は重要であり、不均衡な単語アライメントを実現するために最適輸送(OT)のファミリーが有効であることを示している。教師あり・教師なしの設定での包括的な実験により、OTベースのアライメント手法が最新の手法と競争力があることが示されている。 Comment最適輸送で爆速でモノリンガルの単語アライメントがとれるらしい実装:https://github.com/yukiar/OTAlign単語のアライメント先がない(null alignment)、one-to-oneの関係ではなく、one-to-many, many-to-manyのアライメントが必要な ... image#Tutorial#NLP#LanguageModel#Chain-of-Thought
Issue Date: 2023-11-21 Igniting Language Intelligence: The Hitchhikers Guide From Chain-of-Thought Reasoning to Language Agents, Zhuosheng Zhang+, N_A, arXiv23 Summary大規模言語モデル(LLMs)は、言語知能の分野で劇的な進歩を遂げており、複雑な推論タスクにおいて高いパフォーマンスを示しています。特に、chain-of-thought(CoT)推論技術を活用することで、中間ステップを形成し、解釈可能性や制御可能性を向上させることができます。この論文では、CoT技術の基本的なメカニズムやその効果について詳しく解説し、言語エージェントの開発における応用例を紹介しています。将来の研究の展望にも触れており、初心者から経験豊富な研究者まで幅広い読者に対応しています。関連論文のリポジトリも提供されています。 CommentCoTに関するチュートリアル論文 ...
Issue Date: 2023-11-21 System 2 Attention (is something you might need too), Jason Weston+, N_A, arXiv23 SummaryTransformerベースの大規模言語モデル(LLMs)におけるソフトアテンションは、文脈から無関係な情報を取り込む傾向があり、次のトークン生成に悪影響を与える。そこで、System 2 Attention(S2A)を導入し、LLMsが自然言語で推論し、指示に従う能力を活用して、注目すべき情報を決定する。S2Aは関連する部分のみを含むように入力コンテキストを再生成し、再生成されたコンテキストに注目して最終的な応答を引き出す。実験では、S2Aは3つのタスクで標準のアテンションベースのLLMsよりも優れた性能を発揮し、事実性と客観性を高める。 Commentおそらく重要論文How is System 2 Attention different from prompt engineering specialized in factual double checks? ...
Issue Date: 2023-11-21 Orca 2: Teaching Small Language Models How to Reason, Arindam Mitra+, N_A, arXiv23 SummaryOrca 1は、豊富なシグナルから学習し、従来のモデルを上回る性能を発揮します。Orca 2では、小さな言語モデルの推論能力を向上させるために異なる解決戦略を教えることを目指しています。Orca 2は、さまざまな推論技術を使用し、15のベンチマークで評価されました。Orca 2は、同じサイズのモデルを大幅に上回り、高度な推論能力を持つ複雑なタスクで優れた性能を発揮します。Orca 2はオープンソース化されており、小さな言語モデルの研究を促進します。 #Pretraining#NLP#LanguageModel#Chain-of-Thought
Issue Date: 2023-11-21 Implicit Chain of Thought Reasoning via Knowledge Distillation, Yuntian Deng+, N_A, arXiv23 Summary本研究では、言語モデルの内部の隠れ状態を使用して暗黙的な推論を行う手法を提案します。明示的なチェーン・オブ・ソートの推論ステップを生成する代わりに、教師モデルから抽出した暗黙的な推論ステップを使用します。実験により、この手法が以前は解決できなかったタスクを解決できることが示されました。 Commentこれは非常に興味深い話 ...
Issue Date: 2023-11-20 SelfEval: Leveraging the discriminative nature of generative models for evaluation, Sai Saketh Rambhatla+, N_A, arXiv23 Summaryこの研究では、テキストから画像を生成するモデルを逆転させることで、自動的にテキスト-画像理解能力を評価する方法を提案しています。提案手法であるSelfEvalは、生成モデルを使用して実際の画像の尤度を計算し、生成モデルを直接識別タスクに適用します。SelfEvalは、既存のデータセットを再利用して生成モデルの性能を評価し、他のモデルとの一致度を示す自動評価指標です。さらに、SelfEvalは難しいタスクでの評価やテキストの信頼性の測定にも使用できます。この研究は、拡散モデルの簡単で信頼性の高い自動評価を可能にすることを目指しています。 #NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-11-19 Contrastive Chain-of-Thought Prompting, Yew Ken Chia+, N_A, arXiv23 Summary言語モデルの推論を改善するために、対照的なchain of thoughtアプローチを提案する。このアプローチでは、有効な推論デモンストレーションと無効な推論デモンストレーションの両方を提供し、モデルが推論を進める際にミスを減らすようにガイドする。また、自動的な方法を導入して対照的なデモンストレーションを構築し、汎化性能を向上させる。実験結果から、対照的なchain of thoughtが一般的な改善手法として機能することが示された。 #NLP#LanguageModel#Chain-of-Thought#Prompting#RetrievalAugmentedGeneration
Issue Date: 2023-11-17 Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models, Wenhao Yu+, N_A, arXiv23 Summary検索補完言語モデル(RALM)は、外部の知識源を活用して大規模言語モデルの性能を向上させるが、信頼性の問題や知識の不足による誤った回答がある。そこで、Chain-of-Noting(CoN)という新しいアプローチを導入し、RALMの頑健性を向上させることを目指す。CoNは、順次の読み取りノートを生成し、関連性を評価して最終的な回答を形成する。ChatGPTを使用してCoNをトレーニングし、実験結果はCoNを装備したRALMが標準的なRALMを大幅に上回ることを示している。特に、ノイズの多いドキュメントにおいてEMスコアで平均+7.9の改善を達成し、知識範囲外のリアルタイムの質問に対する拒否率で+10.5の改善を達成している。 Comment一番重要な情報がappendixに載っているCoNによって、ノイズがあった場合にゲインが大きい。 ... image#NLP#LanguageModel#Finetuning (SFT)#FactualConsistency
Issue Date: 2023-11-15 Fine-tuning Language Models for Factuality, Katherine Tian+, N_A, arXiv23 Summary本研究では、大規模な言語モデル(LLMs)を使用して、より事実に基づいた生成を実現するためのファインチューニングを行います。具体的には、外部の知識ベースや信頼スコアとの一貫性を測定し、選好最適化アルゴリズムを使用してモデルを調整します。実験結果では、事実エラー率の削減が観察されました。 #NLP#LanguageModel#InstructionTuning#Evaluation
Issue Date: 2023-11-15 Instruction-Following Evaluation for Large Language Models, Jeffrey Zhou+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の能力を評価するために、Instruction-Following Eval(IFEval)という評価ベンチマークが導入されました。IFEvalは、検証可能な指示に焦点を当てた直感的で再現性のある評価方法です。具体的には、25種類の検証可能な指示を特定し、それぞれの指示を含む約500のプロンプトを作成しました。この評価ベンチマークの結果は、GitHubで公開されています。 CommentLLMがinstructionにどれだけ従うかを評価するために、検証可能なプロンプト(400字以上で書きなさいなど)を考案し評価する枠組みを提案。人間が評価すると時間とお金がかかり、LLMを利用した自動評価だと評価を実施するLLMのバイアスがかかるのだ、それら両方のlimitationを克服できると ... image#Efficiency/SpeedUp#NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-11-15 Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster, Hongxuan Zhang+, N_A, arXiv23 Summaryこの研究では、FastCoTというフレームワークを提案します。FastCoTは、LLMを使用して並列デコーディングと自己回帰デコーディングを同時に行い、計算リソースを最大限に活用します。また、FastCoTは推論時間を約20%節約し、性能の低下がほとんどないことを実験で示しました。さらに、異なるサイズのコンテキストウィンドウに対しても頑健性を示すことができました。 Comment論文中の図を見たが、全くわからなかった・・・。ちゃんと読まないとわからなそうである。 ... #ComputerVision#NLP#LayoutGeneration
Issue Date: 2023-11-14 LayoutPrompter: Awaken the Design Ability of Large Language Models, Jiawei Lin+, N_A, NeurIPS23 SummaryLayoutPrompterは、大規模言語モデル(LLMs)を使用して条件付きのグラフィックレイアウト生成を行う手法であり、入力-出力のシリアル化、動的な模範的選択、およびレイアウトのランキングの3つのコンポーネントで構成されています。LayoutPrompterは、既存の手法と競合したり上回ったりする性能を持ち、トレーニングや微調整なしで使用できる汎用性のあるアプローチであることが実験結果から示されています。また、データ効率にも優れており、トレーニングベースラインよりも有意に優れていることも示されています。プロジェクトは、https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompterで利用可能です。 CommentConditional Graphic Layout Generation ... #NLP#LanguageModel#SmallModel
Issue Date: 2023-11-14 Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer, Bowen Tan+, N_A, arXiv23 Summary大規模言語モデル(LLMs)はマルチタスキングに優れた性能を示していますが、パラメータ数が多く計算リソースを必要とし、効率的ではありません。そこで、小規模なスコアラーであるCappyを導入し、独立して機能するかLLMsの補助として使用することでパフォーマンスを向上させました。Cappyはファインチューニングやパラメータへのアクセスを必要とせず、さまざまなタスクで高い性能を発揮します。実験結果では、Cappyは独立したタスクや複雑なタスクで大きなLLMsを上回り、他のLLMsとの連携も可能です。 Comment360MパラメータでさまざまなタスクでLLMに勝つっぽいのでおもしろそうだし実用性もありそう ... image#NLP#Dataset#LanguageModel#Evaluation#MultiLingual
Issue Date: 2023-11-14 MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks, Sanchit Ahuja+, N_A, arXiv23 SummaryLLMsの研究は急速に進展しており、英語以外の言語での評価が必要とされている。本研究では、新しいデータセットを追加したMEGAVERSEベンチマークを提案し、さまざまなLLMsを評価する。実験の結果、GPT4とPaLM2が優れたパフォーマンスを示したが、データの汚染などの問題があるため、さらなる取り組みが必要である。 #NLP#LanguageModel#Prompting#AutomaticPromptEngineering
Issue Date: 2023-11-13 Prompt Engineering a Prompt Engineer, Qinyuan Ye+, N_A, arXiv23 Summaryプロンプトエンジニアリングは、LLMsのパフォーマンスを最適化するための重要なタスクであり、本研究ではメタプロンプトを構築して自動的なプロンプトエンジニアリングを行います。改善されたパフォーマンスにつながる推論テンプレートやコンテキストの明示などの要素を導入し、一般的な最適化概念をメタプロンプトに組み込みます。提案手法であるPE2は、さまざまなデータセットやタスクで強力なパフォーマンスを発揮し、以前の自動プロンプトエンジニアリング手法を上回ります。さらに、PE2は意味のあるプロンプト編集を行い、カウンターファクトの推論能力を示します。 #ComputerVision#NLP#MultitaskLearning#MulltiModal#FoundationModel
Issue Date: 2023-11-13 Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks, Bin Xiao+, N_A, arXiv23 SummaryFlorence-2は、ビジョン基盤モデルであり、さまざまなビジョンタスクに対応するための統一されたプロンプトベースの表現を持っています。このモデルは、テキストプロンプトを受け取り、キャプショニング、オブジェクト検出、グラウンディング、セグメンテーションなどのタスクを実行し、テキスト形式で結果を生成します。また、FLD-5Bという大規模な注釈付きデータセットも開発されました。Florence-2は、多目的かつ包括的なビジョンタスクを実行するためにシーケンスツーシーケンス構造を採用しており、前例のないゼロショットおよびファインチューニングの能力を持つ強力なモデルです。 CommentVison Foundation Model。Spatialな階層構造や、Semanticを捉えられるように訓練。Image/Prompt Encoderでエンコードされ、outputはtext + location informationとなる。 ... image#RecommenderSystems#Transformer
Issue Date: 2023-11-13 Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems, Huan Gui+, N_A, arXiv23 Summary特徴の相互作用を学ぶために、Transformerベースのアーキテクチャを提案する。ウェブスケールのレコメンダーシステムにおいて、特徴の相互作用を手動で作成することは困難であるため、自動的に捉える必要がある。しかし、現在のTransformerアーキテクチャは異種の特徴の相互作用を捉えることができず、サービングレイテンシも高い。そこで、異種の自己注意層を提案し、\textsc{Hiformer}というモデルを紹介する。\textsc{Hiformer}は特徴の相互作用の異種性を考慮し、低ランク近似とモデルの剪定により高速な推論を実現する。オフライン実験結果では、\textsc{Hiformer}モデルの効果と効率が示されており、Google Playの実世界の大規模なアプリランキングモデルにも展開され、主要なエンゲージメントメトリックスを改善した。 Comment推薦システムは、Factorization Machinesあたりから大抵の場合特徴量間の交互作用を頑張って捉えることで精度向上を目指す、という話をしてきている気がするが、これはTransformerを使って交互作用捉えられるようなモデルを考えました、という研究のようである。self atteOnl ... image#Survey#NLP#LanguageModel#Hallucination
Issue Date: 2023-11-10 A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions, Lei Huang+, N_A, arXiv23 SummaryLLMsの出現はNLPにおける重要な進歩をもたらしているが、幻覚を生じることがあり、その信頼性に懸念がある。本調査では、LLMの幻覚に関する最近の進展について包括的に概説し、幻覚の要因や検出手法、軽減アプローチについて紹介する。また、現在の制約や将来の研究方向についても分析する。 CommentHallucinationを現象ごとに分類したSurveyとして #1048 もあるSurveyの内容。必要に応じて参照すべし。 ... image#RecommenderSystems#LanguageModel
Issue Date: 2023-11-10 LightLM: A Lightweight Deep and Narrow Language Model for Generative Recommendation, Kai Mei+, N_A, arXiv23 Summaryこの論文では、軽量なTransformerベースの言語モデルであるLightLMを提案し、生成型レコメンデーションタスクに特化したモデルを開発しています。LightLMは、モデルの容量を抑えつつも、レコメンデーションの精度と効率を向上させることに成功しています。また、ユーザーとアイテムのIDインデックス化方法として、Spectral Collaborative Indexing(SCI)とGraph Collaborative Indexing(GCI)を提案しています。さらに、アイテム生成時のhallucinationの問題に対処するために、制約付き生成プロセスを導入しています。実験結果は、LightLMが競合ベースラインを上回ることを示しています。 CommentGenerative Recommendationはあまり終えていないのだが、既存のGenerative Recommendationのモデルをより軽量にし、性能を向上させ、存在しないアイテムを生成するのを防止するような手法を提案しました、という話っぽい。 Bayesian Perso ... image#NLP#LanguageModel#Attention
Issue Date: 2023-11-10 Tell Your Model Where to Attend: Post-hoc Attention Steering for LLMs, Qingru Zhang+, N_A, arXiv23 SummaryPASTAは、大規模言語モデル(LLMs)において、ユーザーが指定した強調マークのあるテキストを読むことを可能にする手法です。PASTAは、注意の一部を特定し、再重み付けを適用してモデルの注意をユーザーが指定した部分に向けます。実験では、PASTAがLLMの性能を大幅に向上させることが示されています。 Commentユーザがprompt中で強調したいした部分がより考慮されるようにattention weightを調整することで、より応答性能が向上しましたという話っぽい。かなり重要な技術だと思われる。後でしっかり読む。 ... image#Analysis#NLP#LanguageModel#Transformer
Issue Date: 2023-11-06 Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models, Steve Yadlowsky+, N_A, arXiv23 Summary本研究では、トランスフォーマーモデルの文脈学習(ICL)能力を調査しました。トランスフォーマーモデルは、事前学習データの範囲内で異なるタスクを特定し、学習する能力を持っています。しかし、事前学習データの範囲外のタスクや関数に対しては一般化が劣化することが示されました。また、高容量のシーケンスモデルのICL能力は、事前学習データの範囲に密接に関連していることが強調されました。 CommentTransformerがpre-training時に利用された学習データ以外の分布に対しては汎化性能が落ちることを示したらしい。もしこれが正しいとすると、結局真に新しい分布というか関数というかタスクというか、をTransformerが創出する可能性は低いと言えるかもしれない。が、新しいものって大体は ... #NLP#LanguageModel#Evaluation#FactualConsistency#RetrievalAugmentedGeneration
Issue Date: 2023-11-05 The Perils & Promises of Fact-checking with Large Language Models, Dorian Quelle+, N_A, arXiv23 Summary自律型の事実チェックにおいて、大規模言語モデル(LLMs)を使用することが重要である。LLMsは真実と虚偽を見分ける役割を果たし、その出力を検証する能力がある。本研究では、LLMエージェントを使用して事実チェックを行い、推論を説明し、関連する情報源を引用する能力を評価した。結果は、文脈情報を備えたLLMsの能力の向上を示しているが、正確性には一貫性がないことに注意が必要である。今後の研究では、成功と失敗の要因をより深く理解する必要がある。 Commentgpt3とgpt4でFactCheckして傾向を分析しました、という研究。promptにstatementとgoogleで補完したcontextを含め、出力フォーマットを指定することでFactCheckする。promptingする際の言語や、statementの事実性の度合い(半分true, 全て斜 ... image#Pretraining#NLP#LanguageModel#FoundationModel#Mathematics
Issue Date: 2023-10-29 Llemma: An Open Language Model For Mathematics, Zhangir Azerbayev+, N_A, arXiv23 Summary私たちは、数学のための大規模な言語モデルであるLlemmaを提案します。Llemmaは、Proof-Pile-2と呼ばれるデータセットを用いて事前学習され、MATHベンチマークで他のモデルを上回る性能を示しました。さらに、Llemmaは追加のfine-tuningなしでツールの使用や形式的な定理証明が可能です。アーティファクトも公開されています。 CommentCodeLLaMAを200B tokenの数学テキスト(proof-pile-2データ;論文、数学を含むウェブテキスト、数学のコードが含まれるデータ)で継続的に事前学習することでfoundation modelを構築約半分のパラメータ数で数学に関する性能でGoogleのMinervaと同等の性元ツイ ... image#Pretraining#NLP#LanguageModel#Finetuning (SFT)#DataGeneration
Issue Date: 2023-10-28 Zephyr: Direct Distillation of LM Alignment, Lewis Tunstall+, N_A, arXiv23 Summary私たちは、小さな言語モデルを作成するために、教師モデルからの優先データを使用する手法を提案しています。この手法により、自然なプロンプトに対するモデルの応答が改善されます。提案手法を用いて学習されたZephyr-7Bモデルは、チャットベンチマークで最先端の性能を発揮し、人間の注釈を必要としません。詳細はGitHubで利用可能です。 Comment7BパラメータでLlaMa70Bと同等の性能を達成したZephyrの論文。dSFT:既存データからpromptをサンプリングし、user,assistantのmulti turnの対話をLLMでシミュレーションしてデータ生成しSFTAIF:既存データからpromstをサンプリングしBlog: htt ... image#NLP#LanguageModel#Evaluation
Issue Date: 2023-10-28 Human Feedback is not Gold Standard, Tom Hosking+, N_A, arXiv23 Summary人間のフィードバックは、大規模言語モデルの性能評価に使用されているが、その好みのスコアがどの特性を捉えているのかは明確ではない。この研究では、人間のフィードバックの使用を分析し、重要なエラー基準を適切に捉えているかどうかを検証した。結果として、好みのスコアは広範なカバレッジを持っているが、事実性などの重要な側面が過小評価されていることがわかった。また、好みのスコアとエラーアノテーションは交絡因子の影響を受ける可能性があり、出力の断定性が事実性エラーの知覚率を歪めることも示された。さらに、人間のフィードバックを訓練目標として使用することが、モデルの出力の断定性を過度に増加させることも示された。今後の研究では、好みのスコアが望ましい目標と一致しているかどうかを慎重に考慮する必要がある。 Comment参考: https://x.com/icoxfog417/status/1718151338520199180?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image
Issue Date: 2023-10-27 Reasoning with Language Model is Planning with World Model, Shibo Hao+, N_A, arXiv23 Summary大規模言語モデル(LLMs)は、推論能力において顕著な成果を上げていますが、複雑な推論には苦労しています。これは、LLMsが内部の「ワールドモデル」を持たず、計画を実行する能力が制限されているためです。そこで、私たちはRAPという新しいLLM推論フレームワークを提案しました。RAPは、LLMを世界モデルと推論エージェントの両方として再利用し、計画アルゴリズムを組み込むことで、戦略的な探索を行います。実験結果は、RAPの優位性を示しています。 #ComputerVision#NLP#LanguageModel#MulltiModal
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv23 Summaryこの論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 CommentGPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。 ... image#NLP#LanguageModel#InstructionTuning#InstructionGeneration
Issue Date: 2023-10-26 Auto-Instruct: Automatic Instruction Generation and Ranking for Black-Box Language Models, Zhihan Zhang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の性能を向上させるための新しい手法であるAuto-Instructを提案しています。この手法では、LLMsが生成する指示の品質を自動的に向上させるために、多様な候補の指示を生成し、スコアリングモデルでランク付けします。実験結果では、Auto-Instructが人間による指示や既存のLLM生成指示を上回ることが示されています。また、他のLLMsでも顕著な汎化性能を示すことも確認されています。 Commentseed instructionとdemonstrationに基づいて、異なるスタイルのinstructionを自動生成し、自動生成したinstructionをとinferenceしたいexampleで条件づけてランキングし、良質なものを選択。選択したinstructionでinferenceを実施 ... image#NLP#LanguageModel#In-ContextLearning
Issue Date: 2023-10-26 In-Context Learning Creates Task Vectors, Roee Hendel+, N_A, EMNLP23 Summary大規模言語モデル(LLMs)におけるインコンテキスト学習(ICL)の基本的なメカニズムはまだ十分に理解されていない。本研究では、ICLによって学習される関数が非常に単純な構造を持つことを示し、ICLがトランスフォーマーLLMを使用して単一のタスクベクトルを生成し、それを使用して出力を生成するということを明らかにする。さまざまなモデルとタスクにわたる実験によって、この主張を支持している。 Comment参考: https://x.com/hillbig/status/1717302086587875395?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QICLが実現可能なのは実はネットワーク内部で与えられたdemonstrationに対して勾配効果法を再現しているからです、という研究もあ ... #NLP#LanguageModel#Evaluation
Issue Date: 2023-10-25 Branch-Solve-Merge Improves Large Language Model Evaluation and Generation, Swarnadeep Saha+, N_A, arXiv23 Summary本研究では、多面的な言語生成および評価タスクにおいて、大規模言語モデルプログラム(BSM)を提案します。BSMは、ブランチ、ソルブ、マージの3つのモジュールから構成され、タスクを複数のサブタスクに分解し、独立して解決し、解決策を統合します。実験により、BSMが評価の正確性と一貫性を向上させ、パフォーマンスを向上させることが示されました。 #NLP#LanguageModel#Personalization
Issue Date: 2023-10-24 Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging, Joel Jang+, N_A, arXiv23 SummaryReinforcement Learning from Human Feedback (RLHF) is not optimal for learning diverse individual perspectives, as it aligns general aggregated human preferences with large language models (LLMs). This study investigates the problem of Reinforcement Learning from Individual Human Feedback (RLPHF) and models the alignment with LLMs to multiple (sometimes conflicting) preferences as a Multi-Objective Reinforcement Learning (MORL) problem. It demonstrates that individual alignment can be achieved by decomposing preferences into multiple dimensions based on personalized declarations. The study shows that these dimensions can be efficiently trained independently and distributed, and effectively combined in post-processing through parameter merging. The code is available at https://github.com/joeljang/RLPHF. Commentどこまでのことが実現できるのかが気になる。 ... #MachineLearning#NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-10-24 Eliminating Reasoning via Inferring with Planning: A New Framework to Guide LLMs Non-linear Thinking, Yongqi Tong+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)に非線形の思考を促すために、新しいプロンプティング方法であるInferential Exclusion Prompting(IEP)を提案する。IEPは、計画を立てて可能な解を推論し、逆推論を行うことで広い視点を得ることができる。IEPは他の手法と比較して複雑な人間の思考プロセスをシミュレートできることを実証し、LLMsのパフォーマンス向上にも貢献することを示した。さらに、Mental-Ability Reasoning Benchmark(MARB)を導入し、LLMsの論理と言語推論能力を評価するための新しいベンチマークを提案した。IEPとMARBはLLMsの研究において有望な方向性であり、今後の進展が期待される。 Comment元論文は読んでいないのだが、CoTが線形的だという主張がよくわからない。CoTはAutoregressiveな言語モデルに対して、コンテキストを自己生成したテキストで利用者の意図した方向性にバイアスをかけて補完させ、利用者が意図した通りのアウトプットを最終的に得るためのテクニック、だと思っていて ... #NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-10-13 Meta-CoT: Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with Large Language Models, Anni Zou+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用して、推論のためのチェーン・オブ・ソート(CoT)プロンプトを生成する方法を提案しています。従来のCoTの方法では、一般的なプロンプトや手作業デモンストレーションに依存していましたが、本研究では入力質問のタイプに基づいて自動的にプロンプトを生成するMeta-CoTを提案しています。Meta-CoTは、10のベンチマーク推論タスクで優れたパフォーマンスを示し、SVAMPでは最先端の結果を達成しました。また、分布外データセットでも安定性と汎用性が確認されました。 Comment色々出てきたがなんかもう色々組み合わせれば最強なんじゃね?って気がしてきた。 ... image#NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-10-12 Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models, Huaixiu Steven Zheng+, N_A, arXiv23 SummaryStep-Back Promptingは、大規模言語モデル(LLMs)を使用して推論の手順をガイドするシンプルなプロンプティング技術です。この技術により、LLMsは具体的な詳細から高レベルの概念や基本原則を抽象化し、正しい推論経路をたどる能力を向上させることができます。実験により、Step-Back PromptingはSTEM、Knowledge QA、Multi-Hop Reasoningなどのタスクにおいて大幅な性能向上が観察されました。具体的には、MMLU Physics and Chemistryで7%、11%、TimeQAで27%、MuSiQueで7%の性能向上が確認されました。 Commentまた新しいのが出た ... image#MachineLearning#Regularization
Issue Date: 2023-10-11 Why Do We Need Weight Decay in Modern Deep Learning?, Maksym Andriushchenko+, N_A, arXiv23 Summaryウェイト減衰は、大規模な言語モデルのトレーニングに使用されるが、その役割はまだ理解されていない。本研究では、ウェイト減衰が古典的な正則化とは異なる役割を果たしていることを明らかにし、過パラメータ化されたディープネットワークでの最適化ダイナミクスの変化やSGDの暗黙の正則化の強化方法を示す。また、ウェイト減衰が確率的最適化におけるバイアス-分散トレードオフのバランスを取り、トレーニング損失を低下させる方法も説明する。さらに、ウェイト減衰はbfloat16混合精度トレーニングにおける損失の発散を防ぐ役割も果たす。全体として、ウェイト減衰は明示的な正則化ではなく、トレーニングダイナミクスを変えるものであることが示される。 Comment参考: https://x.com/hillbig/status/1712220940724318657?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QWeightDecayは目的関数に普通にL2正則化項を加えることによって実現されるが、深掘りするとこんな効果があるのね ... #NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2023-10-10 RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation, Fangyuan Xu+, N_A, arXiv23 Summaryドキュメントの要約を生成することで、言語モデルの性能を向上させる手法を提案する。抽出型の圧縮器と抽象型の圧縮器を使用し、LMsの入力に要約を追加して訓練する。実験結果では、圧縮率が6%まで達成され、市販の要約モデルを上回る性能を示した。また、訓練された圧縮器は他のLMsにも転移可能であることが示された。 CommentRetrieval Augmentationをする際に、元文書群を要約して圧縮することで、性能低下を抑えながら最大6%程度まで元文書群を圧縮できた、とのこと。元ツイート: https://x.com/omarsar0/status/1711384213092479130?s=46&t=Y6UuIHB ... image#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2023-10-09 Retrieval meets Long Context Large Language Models, Peng Xu+, N_A, arXiv23 Summary最先端の事前学習済みLLMsを使用して、リトリーバル拡張と長いコンテキストウィンドウの組み合わせについて研究しました。結果として、リトリーバル拡張LLMsは、ファインチューニングLLMsと比較しても高いパフォーマンスを示し、計算量も少ないことがわかりました。さらに、リトリーバルはLLMsのパフォーマンスを向上させることができることが示されました。リトリーバル拡張LLMsは、質問応答や要約などのタスクにおいて、他のモデルよりも優れた性能を発揮し、生成速度も速いです。この研究は、実践者にとってリトリーバル拡張と長いコンテキストウィンドウのLLMsの選択に関する洞察を提供します。 Comment参考: https://x.com/hillbig/status/1711502993508671670?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q検索補強(Retrieval Augmentation)とは、言語モデルの知識を補完するために、関連する文書を外部の文書集合からとってき ... #NLP#Dataset#LanguageModel#Alignment#Conversation
Issue Date: 2023-10-09 RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models, Zekun Moore Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用して役割演技の能力を向上させるためのフレームワークであるRoleLLMを提案しています。RoleLLMは、役割プロファイルの構築、コンテキストベースの指示生成、役割プロンプトによる話し方の模倣、オープンソースモデルの微調整と役割のカスタマイズの4つのステージで構成されています。さらに、RoleBenchと呼ばれる役割演技のためのベンチマークデータセットを作成し、RoleLLaMAとRoleGLMというモデルを開発しました。これにより、役割演技の能力が大幅に向上し、GPT-4と同等の結果を達成しました。 Comment# Overview # RoleBench ... image#ComputerVision#NLP#LanguageModel#QuestionAnswering
Issue Date: 2023-10-09 Improved Baselines with Visual Instruction Tuning, Haotian Liu+, N_A, arXiv23 SummaryLLaVAは、ビジョンと言語のクロスモーダルコネクタであり、データ効率が高く強力な性能を持つことが示されています。CLIP-ViT-L-336pxを使用し、学術タスク指向のVQAデータを追加することで、11のベンチマークで最先端のベースラインを確立しました。13Bのチェックポイントはわずか120万の公開データを使用し、1日で完全なトレーニングを終えます。コードとモデルは公開されます。 Comment画像分析が可能なオープンソースLLMとのこと。# Overview 画像生成をできるわけではなく、inputとして画像を扱えるのみ。 ... image#MachineLearning#NLP#Dataset#LanguageModel#LLMAgent#Evaluation#AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク(新たなKaggle Challenge等)では30%程度とのこと。 ... #NLP#Prompting#AutomaticPromptEngineering
Issue Date: 2023-10-09 Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution, Chrisantha Fernando+, N_A, arXiv23 Summary本研究では、Promptbreederという自己参照的な自己改善メカニズムを提案し、大規模言語モデル(LLM)の推論能力を向上させるための汎用的なプロンプト戦略を進化させる方法を示しています。Promptbreederは、LLMが自己参照的な方法で進化する変異プロンプトによって制御され、タスクプロンプトの集団を変異させて改善します。この手法は、算術や常識的な推論のベンチマークだけでなく、ヘイトスピーチ分類などの難しい問題に対しても優れた性能を発揮します。 Comment詳細な解説記事: https://aiboom.net/archives/56319APEとは異なり、GAを使う。突然変異によって、予期せぬ良いpromptが生み出されるかも…? ... #NLP#Prompting#AutomaticPromptEngineering
Issue Date: 2023-10-09 Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic, Xufeng Zhao+, N_A, arXiv23 Summary大規模言語モデルの進歩は驚異的だが、多段階の推論には改善の余地がある。大規模言語モデルは知識を持っているが、推論には一貫性がなく、幻覚を示すことがある。そこで、Logical Chain-of-Thought(LogiCoT)というフレームワークを提案し、論理による推論パラダイムの効果を示した。 Commentまーた新しいX of Thoughtが出た。必要そうなら読む。 ... #Survey#LanguageModel#Alignment
Issue Date: 2023-10-09 Large Language Model Alignment: A Survey, Tianhao Shen+, N_A, arXiv23 Summary近年、大規模言語モデル(LLMs)の進歩が注目されていますが、その潜在能力と同時に懸念もあります。本研究では、LLMsのアライメントに関する既存の研究と新たな提案を包括的に探求し、モデルの解釈可能性や敵対的攻撃への脆弱性などの問題も議論します。さらに、LLMsのアライメントを評価するためのベンチマークと評価手法を提案し、将来の研究の方向性を考察します。この調査は、研究者とAIアライメント研究コミュニティとの連携を促進することを目指しています。 CommentLLMのalignmentに関するサーベイ。 ... image#MachineLearning#Transformer
Issue Date: 2023-10-09 Boolformer: Symbolic Regression of Logic Functions with Transformers, Stéphane dAscoli+, N_A, arXiv23 Summaryこの研究では、BoolformerというTransformerアーキテクチャを使用して、ブール関数のシンボリック回帰を実行する方法を紹介します。Boolformerは、クリーンな真理値表やノイズのある観測など、さまざまなデータに対して効果的な式を予測することができます。さらに、実世界のデータセットや遺伝子制御ネットワークのモデリングにおいて、Boolformerは解釈可能な代替手法として優れた性能を発揮します。この研究の成果は、公開されています。 Commentブール関数をend-to-endで学習できるtransformeiアーキテクチャを提案した模様 ... #GraphBased#NLP#Prompting#AutomaticPromptEngineering
Issue Date: 2023-10-09 Graph Neural Prompting with Large Language Models, Yijun Tian+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を知識グラフと組み合わせるための新しい手法であるGraph Neural Prompting(GNP)を提案しています。GNPは、標準的なグラフニューラルネットワークエンコーダやクロスモダリティプーリングモジュールなどの要素から構成されており、異なるLLMのサイズや設定において、常識的な推論タスクやバイオメディカル推論タスクで優れた性能を示すことが実験によって示されました。 Comment以下elvis氏のツイートの意訳事前学習されたLLMがKGから有益な知識を学習することを支援する手法を提案。元ツイート: https://arxiv.org/abs/2309.15427しっかり論文を読んでいないが、freezeしたLLMがあった時に、KGから求めたGraph Neural Prom ... image#NLP#LanguageModel#LongSequence
Issue Date: 2023-10-09 Effective Long-Context Scaling of Foundation Models, Wenhan Xiong+, N_A, arXiv23 Summary私たちは、長いコンテキストをサポートする一連のLLMsを提案します。これらのモデルは、長いテキストを含むデータセットでトレーニングされ、言語モデリングや他のタスクで評価されます。提案手法は、通常のタスクと長いコンテキストのタスクの両方で改善をもたらします。また、70Bバリアントはgpt-3.5-turbo-16kを上回るパフォーマンスを実現します。さらに、私たちはLlamaの位置エンコーディングや事前学習プロセスの設計選択の影響についても分析しました。結果から、長いコンテキストの継続的な事前学習が効果的であることが示されました。 Comment以下elvis氏のツイートの意訳Metaが32kのcontext windowをサポートする70BのLLaMa2のvariant提案し、gpt-3.5-turboをlong contextが必要なタスクでoutperform。short contextのLLaMa2を継続的に訓練して実現。これ位置エ ... #NeuralNetwork#MachineLearning#Grokking
Issue Date: 2023-09-30 Explaining grokking through circuit efficiency, Vikrant Varma+, N_A, arXiv23 Summaryグロッキングとは、完璧なトレーニング精度を持つネットワークでも一般化が悪い現象のことである。この現象は、タスクが一般化する解と記憶する解の両方を許容する場合に起こると考えられている。一般化する解は学習が遅く、効率的であり、同じパラメータノルムでより大きなロジットを生成する。一方、記憶回路はトレーニングデータセットが大きくなるにつれて非効率になるが、一般化回路はそうではないと仮説が立てられている。これは、記憶と一般化が同じくらい効率的な臨界データセットサイズが存在することを示唆している。さらに、グロッキングに関して4つの新しい予測が立てられ、それらが確認され、説明が支持される重要な証拠が提供されている。また、グロッキング以外の2つの新しい現象も示されており、それはアングロッキングとセミグロッキングである。アングロッキングは完璧なテスト精度から低いテスト精度に逆戻りする現象であり、セミグロッキングは完璧なテスト精度ではなく部分的なテスト精度への遅れた一般化を示す現象である。 CommentGrokkingがいつ、なぜ発生するかを説明する理論を示した研究。理由としては、最初はmemorizationを学習していくのだが、ある時点から一般化回路であるGenに切り替わる。これが切り替わる理由としては、memorizationよりも、genの方がlossが小さくなるから、とのこと。これはよG ... #NLP#Dataset#LanguageModel#InstructionTuning#NumericReasoning#Mathematics
Issue Date: 2023-09-30 MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning, Xiang Yue+, N_A, arXiv23 SummaryMAmmoTHは、数学の問題解決に特化した大規模言語モデルであり、厳密にキュレーションされた教育データセットで訓練されています。このモデルは、CoTとPoTのハイブリッドな根拠を提供し、さまざまな数学の分野を包括的にカバーしています。MAmmoTHは、既存のオープンソースモデルを大幅に上回り、特にMATHデータセットで高い精度を示しています。この研究は、多様な問題のカバレッジとハイブリッドな根拠の使用の重要性を強調しています。 Comment9つのmath reasoningが必要なデータセットで13-29%のgainでSoTAを達成。260kの根拠情報を含むMath Instructデータでチューニングされたモデル。project page: https://tiger-ai-lab.github.io/MAmmoTH/ ... #Survey#NLP#LanguageModel#Hallucination
Issue Date: 2023-09-30 A Survey of Hallucination in Large Foundation Models, Vipula Rawte+, N_A, arXiv23 Summary本研究では、大規模ファウンデーションモデル(LFMs)におけるホールシネーションの問題に焦点を当て、その現象を分類し、評価基準を確立するとともに、既存の戦略を検討し、今後の研究の方向性についても議論しています。 CommentHallucinationを現象ごとに分類し、Hallucinationの程度の評価をする指標や、Hallucinationを軽減するための既存手法についてまとめられているらしい。 ... image#General#NLP#LanguageModel#Alignment
Issue Date: 2023-09-30 RAIN: Your Language Models Can Align Themselves without Finetuning, Yuhui Li+, N_A, arXiv23 Summary本研究では、追加のデータなしで凍結された大規模言語モデル(LLMs)を整列させる方法を探求しました。自己評価と巻き戻しメカニズムを統合することで、LLMsは自己ブースティングを通じて人間の好みと一致する応答を生成することができることを発見しました。RAINという新しい推論手法を導入し、追加のデータやパラメータの更新を必要とせずにAIの安全性を確保します。実験結果は、RAINの効果を示しており、LLaMA 30Bデータセットでは無害率を向上させ、Vicuna 33Bデータセットでは攻撃成功率を減少させることができました。 Commentトークンのsetで構成されるtree上を探索し、出力が無害とself-evaluationされるまで、巻き戻しと前方生成を繰り返し、有害なトークンsetの重みを動的に減らすことでalignmentを実現する。モデルの追加のfinetuning等は不要。self-evaluationでは下記のようなp ... image#NLP#Dataset#LanguageModel#StructuredData
Issue Date: 2023-09-30 Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?, Xiangru Tang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の能力を評価し、構造に注意したファインチューニング手法を提案します。さらに、Struc-Benchというデータセットを使用して、複雑な構造化データ生成のパフォーマンスを評価します。実験の結果、提案手法は他の評価されたLLMsよりも優れた性能を示しました。また、モデルの能力マップを提示し、LLMsの弱点と将来の研究の方向性を示唆しています。詳細はhttps://github.com/gersteinlab/Struc-Benchを参照してください。 CommentFormatに関する情報を含むデータでInstruction TuningすることでFormatCoT(フォーマットに関する情報のCoT)を実現している模様。ざっくりしか論文を読んでいないが詳細な情報があまり書かれていない印象で、ちょっとなんともいえない。 ... image#Efficiency/SpeedUp#MachineLearning#NLP#Dataset#QuestionAnswering#Finetuning (SFT)#LongSequence#Adapter/LoRA
Issue Date: 2023-09-30 LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models, Yukang Chen+, N_A, arXiv23 Summary本研究では、計算コストを制限しながら大規模言語モデル(LLMs)のコンテキストサイズを拡張する効率的なファインチューニング手法であるLongLoRAを提案します。従来の方法では、LLMsの長いコンテキストサイズでのトレーニングには高い計算コストとGPUリソースが必要でしたが、提案手法ではコンテキスト拡張を高速化し、非自明な計算コストの削減を実現します。また、パラメータ効率的なファインチューニング手法も再評価し、LongLoRAはさまざまなタスクで強力な実験結果を示しています。さらに、教師ありファインチューニングのためのデータセットであるLongQAも収集されました。 Comment# 概要 context長が大きい場合でも効率的にLoRAする手法。通常のLoRAではcontext lengthが大きくなるにつれてperplexityが大きくなってしまう。一方、通常のFinetuningではperplexityは高い性能を維持するが、計算コストとVRAMの消費量が膨大になって ... image#DocumentSummarization#NaturalLanguageGeneration#NLP#LanguageModel
Issue Date: 2023-09-17 From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting, Griffin Adams+, N_A, arXiv23 Summary要約は詳細でエンティティ中心的でありながら、理解しやすくすることが困難です。この課題を解決するために、私たちは「密度の連鎖」(CoD)プロンプトを使用して、GPT-4の要約を生成します。CoDによって生成された要約は抽象的であり、リードバイアスが少なく、人間に好まれます。また、情報量と読みやすさのトレードオフが存在することも示されました。CoD要約は無料で利用できます。 Comment論文中のprompt例。InformativeなEntityのCoverageを増やすようにイテレーションを回し、各Entityに関する情報(前ステップで不足している情報は補足しながら)を具体的に記述するように要約を生成する。人間が好むEntityのDensityにはある程度の閾値がある模様(でもこ ... image#NLP#LanguageModel#Hallucination#FactualConsistency
Issue Date: 2023-09-13 DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models, Yung-Sung Chuang+, N_A, arXiv23 Summary我々は、事前学習済みの大規模言語モデル(LLMs)における幻覚を軽減するためのシンプルなデコーディング戦略を提案する。このアプローチは、ロジットの差異を対比することで次のトークンの分布を得るもので、事実知識をより明確に示し、誤った事実の生成を減らすことができる。このアプローチは、複数の選択課題やオープンエンドの生成課題において真実性を向上させることができることが示されている。 Comment【以下、WIP状態の論文を読んでいるため今後内容が変化する可能性あり】 # 概要 Transformer Layerにおいて、factual informationが特定のレイヤーに局所化するという現象を観測しており、それを活用しよりFactual Consistencyのある生成をします、とい ... image#Efficiency/SpeedUp#MachineLearning#NLP#LanguageModel
Issue Date: 2023-09-13 Textbooks Are All You Need II: phi-1.5 technical report, Yuanzhi Li+, N_A, arXiv23 Summary私たちは、小さなTransformerベースの言語モデルであるTinyStoriesと、大規模な言語モデルであるphi-1の能力について調査しました。また、phi-1を使用して教科書の品質のデータを生成し、学習プロセスを改善する方法を提案しました。さらに、phi-1.5という新しいモデルを作成し、自然言語のタスクにおいて性能が向上し、複雑な推論タスクにおいて他のモデルを上回ることを示しました。phi-1.5は、良い特性と悪い特性を持っており、オープンソース化されています。 Comment#766 に続く論文 ... #NLP#LanguageModel#Alignment#Finetuning (SFT)#Synchrophancy
Issue Date: 2023-09-10 Simple synthetic data reduces sycophancy in large language models, Jerry Wei+, N_A, arXiv23 Summary本研究では、機械学習モデルのおべっか行動を減らすための方法を提案しています。まず、言語モデルにおけるおべっか行動の普及度を調査し、その行動を減らすための合成データ介入を提案しています。具体的には、ユーザーの意見に対してモデルが頑健であることを促す合成データを使用し、モデルのファインチューニングを行います。これにより、おべっか行動を大幅に減らすことができます。提案手法の詳細は、https://github.com/google/sycophancy-intervention で確認できます。 CommentLLMはユーザの好む回答をするように事前学習されるため、prompt中にユーザの意見が含まれていると、ユーザの意見に引っ張られ仮に不正解でもユーザの好む回答をしてしまう問題があることを示した。また、その対策として人工的にユーザの意見と、claimを独立させるように学習するためのデータセットを生成しF ... image#MachineLearning#NLP#LanguageModel#AutomaticPromptEngineering
Issue Date: 2023-09-09 Large Language Models as Optimizers, Chengrun Yang+, N_A, arXiv23 Summary本研究では、最適化タスクを自然言語で記述し、大規模言語モデル(LLMs)を使用して最適化を行う手法「Optimization by PROmpting(OPRO)」を提案しています。この手法では、LLMが以前の解とその値を含むプロンプトから新しい解を生成し、評価して次の最適化ステップのためのプロンプトに追加します。実験結果では、OPROによって最適化された最良のプロンプトが、人間が設計したプロンプトよりも優れていることが示されました。 Comment`Take a deep breath and work on this problem step-by-step. `論文 # 概要 LLMを利用して最適化問題を解くためのフレームワークを提案したという話。論文中では、linear regressionや巡回セールスマン問題に適用している。 ... image#Survey#LanguageModel#InstructionTuning
Issue Date: 2023-09-05 Instruction Tuning for Large Language Models: A Survey, Shengyu Zhang+, N_A, arXiv23 Summaryこの論文では、instruction tuning(IT)という技術について調査しています。ITは、大規模言語モデル(LLMs)をさらにトレーニングするための方法であり、ユーザーの指示に従うことを目的としています。本研究では、ITの方法論やデータセットの構築、トレーニング方法などについて調査し、指示の生成やデータセットのサイズなどがITの結果に与える影響を分析します。また、ITの潜在的な問題や批判、現在の不足点についても指摘し、今後の研究の方向性を提案します。 Comment主要なモデルやデータセットの作り方など幅広くまとまっている ... image#MachineLearning#NLP#LanguageModel#AutomaticPromptEngineering
Issue Date: 2023-09-05 Large Language Models Are Human-Level Prompt Engineers, Yongchao Zhou+, ICLR23 Summary大規模言語モデル(LLMs)は、自然言語の指示に基づいて一般的な用途のコンピュータとして優れた能力を持っています。しかし、モデルのパフォーマンスは、使用されるプロンプトの品質に大きく依存します。この研究では、自動プロンプトエンジニア(APE)を提案し、LLMによって生成された指示候補のプールから最適な指示を選択するために最適化します。実験結果は、APEが従来のLLMベースラインを上回り、19/24のタスクで人間の生成した指示と同等または優れたパフォーマンスを示しています。APEエンジニアリングされたプロンプトは、モデルの性能を向上させるだけでなく、フューショット学習のパフォーマンスも向上させることができます。詳細は、https://sites.google.com/view/automatic-prompt-engineerをご覧ください。 Commentプロジェクトサイト: https://sites.google.com/view/automatic-prompt-engineer ... #NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-09-04 Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models, Bilgehan Sel+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の推論能力を向上させるために、新しい戦略「Algorithm of Thoughts」を提案している。この戦略では、LLMsをアルゴリズム的な推論経路に導き、わずか1つまたは数個のクエリでアイデアの探索を拡大する。この手法は、以前の単一クエリ手法を上回り、マルチクエリ戦略と同等の性能を発揮する。また、LLMを指導するアルゴリズムを使用することで、アルゴリズム自体を上回るパフォーマンスが得られる可能性があり、LLMが最適化された検索に自己の直感を織り込む能力を持っていることを示唆している。 #Analysis#MachineLearning#In-ContextLearning
Issue Date: 2023-09-01 CausalLM is not optimal for in-context learning, Nan Ding+, N_A, arXiv23 Summary最近の研究では、トランスフォーマーベースのインコンテキスト学習において、プレフィックス言語モデル(prefixLM)が因果言語モデル(causalLM)よりも優れたパフォーマンスを示すことがわかっています。本研究では、理論的なアプローチを用いて、prefixLMとcausalLMの収束挙動を分析しました。その結果、prefixLMは線形回帰の最適解に収束する一方、causalLMの収束ダイナミクスはオンライン勾配降下アルゴリズムに従い、最適であるとは限らないことがわかりました。さらに、合成実験と実際のタスクにおいても、causalLMがprefixLMよりも性能が劣ることが確認されました。 Comment参考: https://x.com/hillbig/status/1697380430004249066?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QCausalLMでICLをした場合は、ICL中のdemonstrationでオンライン学習することに相当し、最適解に収束しているとは限ら ... #Survey#NLP#LanguageModel#LLMAgent
Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv23 Summary自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル(LLMs)を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment良いサーベイ ... image#NLP#LanguageModel#Bias
Issue Date: 2023-08-28 Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions, Pouya Pezeshkpour+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の頑健性に焦点を当てています。LLMsは多肢選択問題において順序に敏感であり、オプションの配置によって性能に大きな差が生じることを示しました。さらに、オプションの配置に対するバイアスを増幅または軽減する方法を特定し、LLMsの予測を改善するアプローチを提案しました。実験により、最大8パーセントポイントの改善が実現されました。 Commentこれはそうだろうなと思っていたけど、ここまで性能に差が出るとは思わなかった。これがもしLLMのバイアスによるもの(2番目の選択肢に正解が多い)の場合、ランダムにソートしたり、平均取ったりしても、そもそもの正解に常にバイアスがかかっているので、結局バイアスがかかった結果しか出ないのでは、と思ってしまう ... image#NLP#Dataset#LanguageModel#LLMAgent#Evaluation
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-08-22 Large Language Model Guided Tree-of-Thought, Jieyi Long, N_A, arXiv23 Summaryこの論文では、Tree-of-Thought(ToT)フレームワークを紹介し、自己回帰型の大規模言語モデル(LLM)の問題解決能力を向上させる新しいアプローチを提案しています。ToTは、人間の思考方法に触発された技術であり、複雑な推論タスクを解決するためにツリー状の思考プロセスを使用します。提案手法は、LLMにプロンプターエージェント、チェッカーモジュール、メモリモジュール、およびToTコントローラーなどの追加モジュールを組み込むことで実現されます。実験結果は、ToTフレームワークがSudokuパズルの解決成功率を大幅に向上させることを示しています。 #NLP#LanguageModel#Prompting
Issue Date: 2023-08-22 Decomposition Enhances Reasoning via Self-Evaluation Guided Decoding, Yuxi Xie+, N_A, arXiv23 Summary私たちは、大規模言語モデル(LLMs)を使用して、推論の品質と多様性を向上させるための効果的なプロンプティングアプローチを提案しました。自己評価によるガイド付き確率的ビームサーチを使用して、GSM8K、AQuA、およびStrategyQAのベンチマークで高い精度を達成しました。また、論理の失敗を特定し、一貫性と堅牢性を向上させることもできました。詳細なコードはGitHubで公開されています。 Comment ... image#NLP#LanguageModel#Chain-of-Thought#Prompting
Issue Date: 2023-08-22 Graph of Thoughts: Solving Elaborate Problems with Large Language Models, Maciej Besta+, N_A, arXiv23 Summary私たちは、Graph of Thoughts(GoT)というフレームワークを紹介しました。これは、大規模言語モデル(LLMs)のプロンプティング能力を進化させるもので、任意のグラフとしてモデル化できることが特徴です。GoTは、思考の組み合わせやネットワーク全体の本質の抽出、思考の強化などを可能にします。さまざまなタスクで最先端の手法に比べて利点を提供し、LLMの推論を人間の思考に近づけることができます。 CommentChain of Thought #551 => Self-consistency #558 => Thought Decomposition #1013 => Tree of Thoughts #684 Tree of Thought #1015 => Graph of Thoug ...
Issue Date: 2023-08-22 LLM As DBA, Xuanhe Zhou+, N_A, arXiv23 Summaryデータベース管理者の役割は重要ですが、大量のデータベースを管理するのは難しいです。最近の大規模言語モデル(LLMs)は、データベース管理に役立つ可能性があります。この研究では、LLMベースのデータベース管理者「D-Bot」を提案します。D-Botはデータベースのメンテナンス経験を学習し、適切なアドバイスを提供します。具体的には、知識の検出、原因分析、複数のLLMの協調診断などを行います。予備実験では、D-Botが効果的に原因を診断できることが示されています。 Comment ... image#NLP#LanguageModel
Issue Date: 2023-08-22 Consciousness in Artificial Intelligence: Insights from the Science of Consciousness, Patrick Butlin+, N_A, arXiv23 SummaryAIの意識についての厳密なアプローチを提案し、既存のAIシステムを神経科学的な意識理論に基づいて評価する。意識の指標的特性を導き出し、最近のAIシステムを評価することで、現在のAIシステムは意識的ではないが、意識的なAIシステムを構築するための障壁は存在しないことを示唆する。 #NLP#Dataset#LanguageModel#InstructionTuning
Issue Date: 2023-08-21 Self-Alignment with Instruction Backtranslation, Xian Li+, N_A, arXiv23 Summary私たちは、高品質な指示に従う言語モデルを構築するためのスケーラブルな手法を提案します。この手法では、少量のシードデータとウェブコーパスを使用して言語モデルをファインチューニングし、指示のプロンプトを生成してトレーニング例を構築します。そして、高品質な例を選択してモデルを強化します。この手法を使用すると、他のモデルよりも優れた性能を発揮し、自己整列の効果を実証できます。 Comment人間が書いたテキストを対応するinstructionに自動的にラベル付けする手法を提案。これにより高品質なinstruction following LLMの構築が可能手法概要結果的に得られるデータは、訓練において非常にインパクトがあり高品質なものとなる。実際に、他の同サイズのinstruct tu ... image#NLP#LanguageModel#PersonalizedGeneration
Issue Date: 2023-08-18 Teach LLMs to Personalize -- An Approach inspired by Writing Education, Cheng Li+, N_A, arXiv23 Summary個別化されたテキスト生成において、大規模言語モデル(LLMs)を使用した一般的なアプローチを提案する。教育の執筆をベースに、多段階かつマルチタスクのフレームワークを開発し、検索、ランキング、要約、統合、生成のステージで構成される個別化されたテキスト生成へのアプローチを採用する。さらに、マルチタスク設定を導入してモデルの生成能力を向上させる。3つの公開データセットでの評価結果は、他のベースラインに比べて大幅な改善を示している。 Comment研究の目的としては、ユーザが現在執筆しているdocumentのwriting支援 ...
Issue Date: 2023-08-16 Epic-Sounds: A Large-scale Dataset of Actions That Sound, Jaesung Huh+, N_A, arXiv23 SummaryEPIC-SOUNDSは、エゴセントリックなビデオのオーディオストリーム内の時間的範囲とクラスラベルをキャプチャした大規模なデータセットです。注釈者がオーディオセグメントに時間的なラベルを付け、アクションを説明する注釈パイプラインを提案しています。オーディオのみのラベルの重要性と現在のモデルの制約を強調するために、2つのオーディオ認識モデルを訓練および評価しました。データセットには78.4kのカテゴリ分けされたオーディブルなイベントとアクションのセグメントが含まれています。 #DocumentSummarization#MachineTranslation#NaturalLanguageGeneration#Metrics#NLP#Evaluation#LM-based#Coherence
Issue Date: 2023-08-13 DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence, Wei Zhao+, N_A, EACL23 Summary本研究では、文章の一貫性を評価するための新しい指標であるDiscoScoreを紹介します。DiscoScoreはCentering理論に基づいており、BERTを使用して談話の一貫性をモデル化します。実験の結果、DiscoScoreは他の指標よりも人間の評価との相関が高く、システムレベルでの評価でも優れた結果を示しました。さらに、DiscoScoreの重要性とその優位性についても説明されています。 #DocumentSummarization#NLP#Evaluation#Reference-free
Issue Date: 2023-08-13 RISE: Leveraging Retrieval Techniques for Summarization Evaluation, David Uthus+, N_A, Findings of ACL23 Summary自動要約の評価は困難であり、従来のアプローチでは人間の評価には及ばない。そこで、私たちはRISEという新しいアプローチを提案する。RISEは情報検索の技術を活用し、ゴールドリファレンスの要約がなくても要約を評価することができる。RISEは特に評価用のリファレンス要約が利用できない新しいデータセットに適しており、SummEvalベンチマークでの実験結果から、RISEは過去のアプローチと比較して人間の評価と高い相関を示している。また、RISEはデータ効率性と言語間の汎用性も示している。 Comment# 概要 Dual-Encoderを用いて、ソースドキュメントとシステム要約をエンコードし、dot productをとることでスコアを得る手法。モデルの訓練は、Contrastive Learningで行い、既存データセットのソースと参照要約のペアを正例とみなし、In Batch training# ... image#DocumentSummarization#NLP#Evaluation#LLM-as-a-Judge
Issue Date: 2023-08-13 GPTScore: Evaluate as You Desire, Jinlan Fu+, N_A, arXiv23 Summary本研究では、生成型AIの評価における課題を解決するために、GPTScoreという評価フレームワークを提案しています。GPTScoreは、生成されたテキストを評価するために、生成型事前学習モデルの新たな能力を活用しています。19の事前学習モデルを探索し、4つのテキスト生成タスクと22の評価項目に対して実験を行いました。結果は、GPTScoreが自然言語の指示だけでテキストの評価を効果的に実現できることを示しています。この評価フレームワークは、注釈付きサンプルの必要性をなくし、カスタマイズされた多面的な評価を実現することができます。 CommentBERTScoreと同様、評価したいテキストの対数尤度で評価しているBERTScoreよりも相関が高く、instructionによって性能が向上することが示されている ... #DocumentSummarization#NLP#Evaluation
Issue Date: 2023-08-13 Large Language Models are Diverse Role-Players for Summarization Evaluation, Ning Wu+, N_A, arXiv23 Summary本研究では、テキスト要約の評価フレームワークを提案し、生成されたテキストと参照テキストを客観的および主観的な側面から比較することで包括的な評価を行います。具体的には、ロールプレイヤーのプロンプティングメカニズムを使用してテキストの評価をモデル化し、コンテキストベースのプロンプティングメカニズムを導入して動的なロールプレイヤープロファイルを生成します。さらに、バッチプロンプティングに基づいたマルチロールプレイヤープロンプティング技術を使用して複数の評価結果を統合します。実験結果は、提案モデルが競争力があり、人間の評価者と高い一致性を持つことを示しています。 #DocumentSummarization#NLP#Evaluation#FactualConsistency
Issue Date: 2023-08-13 ChatGPT as a Factual Inconsistency Evaluator for Text Summarization, Zheheng Luo+, N_A, arXiv23 Summary事前学習された言語モデルによるテキスト要約の性能向上が注目されているが、生成された要約が元の文書と矛盾することが問題となっている。この問題を解決するために、効果的な事実性評価メトリクスの開発が進められているが、計算複雑性や不確実性の制約があり、人間の判断との一致に限定されている。最近の研究では、大規模言語モデル(LLMs)がテキスト生成と言語理解の両方で優れた性能を示していることがわかっている。本研究では、ChatGPTの事実的な矛盾評価能力を評価し、バイナリエンテイルメント推論、要約ランキング、一貫性評価などのタスクで優れた性能を示した。ただし、ChatGPTには語彙的な類似性の傾向や誤った推論、指示の不適切な理解などの制限があることがわかった。
Issue Date: 2023-08-12 Shepherd: A Critic for Language Model Generation, Tianlu Wang+, N_A, arXiv23 SummaryShepherdは、言語モデルの改善に関心が高まっている中で、自身の出力を洗練させるための特別に調整された言語モデルです。Shepherdは、多様なエラーを特定し修正案を提供する能力を持ち、高品質なフィードバックデータセットを使用して開発されました。Shepherdは他の既存のモデルと比較して優れた性能を示し、人間の評価でも高い評価を受けています。 #NLP#LanguageModel#Prompting
Issue Date: 2023-08-12 Metacognitive Prompting Improves Understanding in Large Language Models, Yuqing Wang+, N_A, arXiv23 Summary本研究では、LLMsにメタ認知プロンプト(MP)を導入し、人間の内省的な推論プロセスを模倣することで、理解能力を向上させることを目指しています。実験結果は、MPを備えたPaLMが他のモデルに比べて優れたパフォーマンスを示しており、MPが既存のプロンプト手法を上回ることを示しています。この研究は、LLMsの理解能力向上の可能性を示し、人間の内省的な推論を模倣することの利点を強調しています。 CommentCoTより一貫して性能が高いので次のデファクトになる可能性あり ... image#MachineLearning#NLP#AutoML
Issue Date: 2023-08-10 MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks, Lei Zhang+, N_A, arXiv23 Summary本研究では、機械学習タスクの自動化における人間の知識と機械知能のギャップを埋めるために、新しいフレームワークMLCopilotを提案する。このフレームワークは、最先端のLLMsを使用して新しいMLタスクのソリューションを開発し、既存のMLタスクの経験から学び、効果的に推論して有望な結果を提供することができる。生成されたソリューションは直接使用して競争力のある結果を得ることができる。
Issue Date: 2023-08-08 Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models, Cheng-Yu Hsieh+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用して、ツールのドキュメンテーションを提供することで新しいツールを学習する方法を提案しています。デモンストレーションの取得が困難な場合や、バイアスのある使用方法を避けるために、ツールのドキュメンテーションを使用することが有効であることを実験的に示しています。さらに、複数のタスクでツールのドキュメンテーションの利点を強調し、LLMsがツールの機能を再発明する可能性を示しています。
Issue Date: 2023-08-08 SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning, Ning Miao+, N_A, arXiv23 Summary最新の大規模言語モデル(LLMs)は、推論問題を解決するために有望な手法ですが、複雑な問題にはまだ苦戦しています。本研究では、LLMsが自身のエラーを認識する能力を持っているかどうかを探求し、ゼロショットの検証スキームを提案します。この検証スキームを使用して、異なる回答に対して重み付け投票を行い、質問応答のパフォーマンスを向上させることができることを実験で確認しました。 Commentこれはおもしろそう。後で読む ... #Tools#NLP#LanguageModel
Issue Date: 2023-08-08 ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs, Yujia Qin+, N_A, arXiv23 Summaryオープンソースの大規模言語モデル(LLMs)を使用して、外部ツール(API)の高度なタスクの実行を容易にするためのToolLLMというフレームワークを紹介します。ToolBenchというデータセットを使用して、ツールの使用方法を調整し、DFSDTという決定木を使用して効率的な検索を行います。ToolEvalという自動評価ツールを使用して、ToolLLaMAが高いパフォーマンスを発揮することを示します。さらに、ニューラルAPIリトリーバーを使用して、適切なAPIを推奨します。 Comment16000のreal worldのAPIとインタラクションし、データの準備、訓練、評価などを一貫してできるようにしたフレームワーク。LLaMAを使った場合、ツール利用に関してturbo-16kと同等の性能に達したと主張。 ... image#NLP#LanguageModel#Prompting
Issue Date: 2023-08-07 Do Multilingual Language Models Think Better in English?, Julen Etxaniz+, N_A, arXiv23 Summaryself-translateは、マルチリンガル言語モデルの少数ショット翻訳能力を活用する新しいアプローチであり、外部の翻訳システムの必要性を克服する。実験結果は、self-translateが直接推論を上回る性能を示し、非英語の言語でプロンプトされた場合にも有効であることを示している。コードはhttps://github.com/juletx/self-translateで利用可能。 Comment参考: https://twitter.com/imai_eruel/status/1687735268311511040?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... image#RecommenderSystems#LanguageModel
Issue Date: 2023-08-02 LLM-Rec: Personalized Recommendation via Prompting Large Language Models, Hanjia Lyu+, N_A, arXiv23 SummaryLLMsを用いたパーソナライズされたコンテンツ推薦のためのプロンプティング戦略を調査し、LLM-Recというアプローチを提案した。実験の結果、プロンプティング戦略によって生成されたLLMによる拡張入力テキストと元のコンテンツの説明を組み合わせることで、推薦の性能が向上することが示された。これは、多様なプロンプトと入力拡張技術がパーソナライズされたコンテンツ推薦の能力を向上させる上で重要であることを示している。 CommentLLMのpromptingの方法を変更しcontent descriptionだけでなく、様々なコンテキストの追加(e.g. このdescriptionを推薦するならどういう人におすすめ?、アイテム間の共通項を見つける)、内容の拡張等を行いコンテントを拡張して活用するという話っぽい。WIP ...
Issue Date: 2023-07-31 Symbolic Chain-of-Thought Distillation: Small Models Can Also Think Step-by-Step, Liunian Harold Li+, N_A, arXiv23 Summary小さなモデルでも思考の連鎖プロンプティングの恩恵を受けることができることを示すために、Symbolic Chain-of-Thought Distillation(SCoTD)を導入しました。SCoTDは、大きな教師モデルからサンプリングされた合理化に基づいて、小さな学生モデルをトレーニングする方法です。実験結果は、SCoTDが学生モデルのパフォーマンスを向上させ、思考の連鎖が人間と同等と評価されることを示しています。思考の連鎖サンプルとコードのコーパスも公開されています。
Issue Date: 2023-07-27 FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios, I-Chun Chern+, N_A, arXiv23 Summary生成型の事前学習モデルによって生成されたテキストの事実の誤りを検出するためのフレームワークであるFacToolが提案された。知識ベースのQA、コード生成、数理推論、科学文献レビューの4つのタスクでの実験において、FacToolの有効性が示された。FacToolのコードはGitHubで公開されている。 CommentNeubigさんの研究 ... #NLP#LanguageModel#Evaluation#LLM-as-a-Judge
Issue Date: 2023-07-26 Judging LLM-as-a-judge with MT-Bench and Chatbot Arena, Lianmin Zheng+, N_A, arXiv23 Summary大規模言語モデル(LLM)を判定者として使用して、オープンエンドの質問に対する性能を評価する方法を提案する。LLMの制限や問題を軽減するための解決策を提案し、2つのベンチマークでLLMの判定者と人間の好みの一致を検証する。結果は、強力なLLM判定者が人間の好みとよく一致し、スケーラブルで説明可能な方法で人間の好みを近似できることを示した。さらに、新しいベンチマークと従来のベンチマークの相補性を示し、いくつかのバリアントを評価する。 CommentMT-Bench(MTBench)スコアとは、multi-turnのQAを出題し、その回答の質をGPT-4でスコアリングしたスコアのこと。 GPT-4の判断とhuman expertの判断とのagreementも検証しており、agreementは80%以上を達成している。 ... image#MachineLearning#Optimizer
Issue Date: 2023-07-25 DoG is SGDs Best Friend: A Parameter-Free Dynamic Step Size Schedule, Maor Ivgi+, N_A, ICML23 Summary私たちは、チューニング不要の動的SGDステップサイズの式であるDoGを提案します。DoGは、初期点からの距離と勾配のノルムに基づいてステップサイズを計算し、学習率のパラメータを必要としません。理論的には、DoGの式は確率的凸最適化においてパラメータフリーの収束を保証します。実験的には、DoGのパフォーマンスがチューニングされた学習率を持つSGDに近いことを示し、DoGのバリアントがチューニングされたSGDやAdamを上回ることを示します。PyTorchの実装はhttps://github.com/formll/dogで利用できます。 Comment20 を超える多様なタスクと 8 つのビジョンおよび NLP モデルに対して有効であったシンプルなパラメーターフリーのoptimizer 元ツイート: https://twitter.com/maorivg/status/1683525521471328256?s=46&t=Lt9P4Bkmi ... #Efficiency/SpeedUp#MachineLearning#Prompting
Issue Date: 2023-07-24 Batch Prompting: Efficient Inference with Large Language Model APIs, Zhoujun Cheng+, N_A, arXiv23 Summary大規模な言語モデル(LLMs)を効果的に使用するために、バッチプロンプティングという手法を提案します。この手法は、LLMが1つのサンプルではなくバッチで推論を行うことを可能にし、トークンコストと時間コストを削減しながらパフォーマンスを維持します。さまざまなデータセットでの実験により、バッチプロンプティングがLLMの推論コストを大幅に削減し、良好なパフォーマンスを達成することが示されました。また、バッチプロンプティングは異なる推論方法にも適用できます。詳細はGitHubのリポジトリで確認できます。 Comment10種類のデータセットで試した結果、バッチにしても性能は上がったり下がったりしている。著者らは類似した性能が出ているので、コスト削減になると結論づけている。Batch sizeが大きくなるに連れて性能が低下し、かつタスクの難易度が高いとパフォーマンスの低下が著しいことが報告されている。また、cont ... image
Issue Date: 2023-07-23 Large Language Models as General Pattern Machines, Suvir Mirchandani+, N_A, arXiv23 Summary事前学習された大規模言語モデル(LLMs)は、複雑なトークンシーケンスを自己回帰的に補完する能力を持っていることが観察された。この能力は、ランダムなトークンからなるシーケンスでも一部保持されることがわかった。この研究では、この能力がロボティクスの問題にどのように適用されるかを調査し、具体的な応用例を示している。ただし、実際のシステムへの展開はまだ困難であるとしている。 #NLP#ChatGPT#Evaluation
Issue Date: 2023-07-22 How is ChatGPTs behavior changing over time?, Lingjiao Chen+, N_A, arXiv23 SummaryGPT-3.5とGPT-4は、大規模言語モデル(LLM)のサービスであり、その性能と振る舞いは時間とともに変動することがわかった。例えば、GPT-4は素数の特定に優れていたが、後のバージョンでは低い正答率となった。また、GPT-3.5はGPT-4よりも優れた性能を示した。さらに、GPT-4とGPT-3.5の両方が時間とともに敏感な質問への回答やコード生成でのミスが増えた。この結果から、LLMの品質を継続的に監視する必要性が示唆される。 CommentGPT3.5, GPT4共にfreezeされてないのなら、研究で利用すると結果が再現されないので、研究で使うべきではない。また、知らんうちにいくつかのタスクで勝手に性能低下されたらたまったものではない。 ... #ComputerVision#NLP#LanguageModel#LLMAgent
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ... image#NLP#LanguageModel#Annotation
Issue Date: 2023-07-22 LLMs as Workers in Human-Computational Algorithms? Replicating Crowdsourcing Pipelines with LLMs, Tongshuang Wu+, N_A, arXiv23 Summary大規模言語モデル(LLMs)は、クラウドソーシングタスクにおいて人間のような振る舞いを再現できる可能性がある。しかし、現在の取り組みは単純なタスクに焦点を当てており、より複雑なパイプラインを再現できるかどうかは不明である。LLMsの成功は、リクエスターの理解力やサブタスクのスキルに影響を受ける。人間とLLMsのトレーニングの組み合わせにより、クラウドソーシングパイプラインの再現が可能であり、LLMsは一部のタスクを完了させながら、他のタスクを人間に任せることができる。 #Efficiency/SpeedUp#MachineLearning#Quantization#Adapter/LoRA
Issue Date: 2023-07-22 QLoRA: Efficient Finetuning of Quantized LLMs, Tim Dettmers+, N_A, arXiv23 Summary私たちは、QLoRAという効率的なファインチューニング手法を提案します。この手法は、メモリ使用量を削減し、48GBの単一のGPU上で65Bパラメータモデルをファインチューニングすることができます。また、16ビットのファインチューニングタスクのパフォーマンスを維持します。QLoRAは、凍結された4ビット量子化された事前学習済み言語モデルの勾配をLow Rank Adapters(LoRA)に逆伝播させます。私たちの最良のモデルファミリーであるGuanacoは、Vicunaベンチマークで以前に公開されたすべてのモデルを上回り、ChatGPTのパフォーマンスレベルの99.3%に達します。また、単一のGPU上でのファインチューニングには24時間しかかかりません。QLoRAは、パフォーマンスを犠牲にすることなくメモリを節約するためのいくつかの革新を導入しています。具体的には、4ビットNormalFloat(NF4)という情報理論的に最適な新しいデータ型、ダブル量子化による平均メモリフットプリントの削減、およびページドオプティマイザによるメモリスパイクの管理です。私たちはQLoRAを使用して1,000以上のモデルをファインチューニングし、8つの命令データセット、複数のモデルタイプ(LLaMA、T5)、および従来のファインチューニングでは実行不可能なモデルスケール(33Bおよび65Bパラメータモデル)にわたる命令の追跡とチャットボットのパフォーマンスの詳細な分析を提供します。私たちの結果は、QLoRAを使用して小規模な高品質のデータセットでのファインチューニングが、以前のSoTAよりも小さいモデルを使用しても最先端の結果をもたらすことを示しています。また、人間の評価とGPT-4の評価に基づいたチャットボットのパフォーマンスの詳細な分析を提供し、GPT-4の評価が安価で合理的な人間の評価の代替手段であることを示します。さらに、現在のチャットボットのベンチマークは、チャットボットのパフォーマンスレベルを正確に評価するためには信頼性がないことがわかります。GuanacoがChatGPTと比較してどこで失敗するかを示す分析も行っています。私たちは、4ビットトレーニングのためのCUDAカーネルを含む、すべてのモデルとコードを公開しています。 Comment実装: https://github.com/artidoro/qloraPEFTにもある参考: https://twitter.com/hillbig/status/1662946722690236417?s=46&t=TDHYK31QiXKxggPzhZbcAQ ... #ComputerVision#Personalization#DiffusionModel
Issue Date: 2023-07-22 FABRIC: Personalizing Diffusion Models with Iterative Feedback, Dimitri von Rütte+, N_A, arXiv23 Summary本研究では、拡散ベースのテキストから画像への変換モデルに人間のフィードバックを組み込む戦略を提案する。自己注意層を利用したトレーニングフリーなアプローチであるFABRICを提案し、さまざまな拡散モデルに適用可能であることを示す。また、包括的な評価方法を導入し、人間のフィードバックを統合した生成ビジュアルモデルのパフォーマンスを定量化するための堅牢なメカニズムを提供する。徹底的な分析により、反復的なフィードバックの複数のラウンドを通じて生成結果が改善されることを示す。これにより、個別化されたコンテンツ作成やカスタマイズなどの領域に応用が可能となる。 Commentupvote downvoteをフィードバックし、iterativeなmannerでDiffusionモデルの生成結果を改善できる手法。多くのDiffusion based Modelに対して適用可能デモ: https://huggingface.co/spaces/dvruette/fabric ... #NLP#LanguageModel#InstructionTuning#Evaluation
Issue Date: 2023-07-22 Instruction-following Evaluation through Verbalizer Manipulation, Shiyang Li+, N_A, arXiv23 Summary本研究では、指示に従う能力を正確に評価するための新しい評価プロトコル「verbalizer manipulation」を提案しています。このプロトコルでは、モデルに異なる程度で一致する言葉を使用してタスクラベルを表現させ、モデルの事前知識に依存する能力を検証します。さまざまなモデルを9つのデータセットで評価し、異なるverbalizerのパフォーマンスによって指示に従う能力が明確に区別されることを示しました。最も困難なverbalizerに対しても、最も強力なモデルでもランダムな推測よりも優れたパフォーマンスを発揮するのは困難であり、指示に従う能力を向上させるために継続的な進歩が必要であることを強調しています。 #ComputerVision#NLP#LanguageModel#SpokenLanguageProcessing#MulltiModal#AudioProcessing
Issue Date: 2023-07-22 Meta-Transformer: A Unified Framework for Multimodal Learning, Yiyuan Zhang+, N_A, arXiv23 Summary本研究では、マルチモーダル学習のためのMeta-Transformerというフレームワークを提案しています。このフレームワークは、異なるモダリティの情報を処理し関連付けるための統一されたネットワークを構築することを目指しています。Meta-Transformerは、対応のないデータを使用して12のモダリティ間で統一された学習を行うことができ、テキスト、画像、ポイントクラウド、音声、ビデオなどの基本的なパーセプションから、X線、赤外線、高分光、IMUなどの実用的なアプリケーション、グラフ、表形式、時系列などのデータマイニングまで、幅広いタスクを処理することができます。Meta-Transformerは、トランスフォーマーを用いた統一されたマルチモーダルインテリジェンスの開発に向けた有望な未来を示しています。 Comment12種類のモダリティに対して学習できるTransformerを提案Dataをsequenceにtokenizeし、unifiedにfeatureをencodingし、それぞれのdownstreamタスクで学習 ... image#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-07-22 FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets, Seonghyeon Ye+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の評価における課題を解決するため、細かい評価プロトコルであるFLASKを提案する。FLASKは、インスタンスごとのスキルセットレベルでの評価を可能にし、モデルベースと人間ベースの評価の両方に使用できる。具体的には、12の細かいスキルを定義し、各インスタンスにスキルのセットを割り当てることで評価セットを構築する。さらに、ターゲットドメインと難易度レベルの注釈を付けることで、モデルのパフォーマンスを包括的に分析する。FLASKを使用することで、モデルのパフォーマンスを正確に測定し、特定のスキルに優れたLLMsを分析することができる。また、実践者はFLASKを使用して、特定の状況に適したモデルを推奨することができる。 CommentこのベンチによるとLLaMA2でさえ、商用のLLMに比べると能力はかなり劣っているように見える。 ... image#NLP#Dataset#LanguageModel
Issue Date: 2023-07-22 SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models, Xiaoxuan Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)の進歩により、数学のベンチマークでの性能向上が示されているが、これらのベンチマークは限定的な範囲の問題に限定されていることが指摘される。そこで、複雑な科学的問題解決に必要な推論能力を検証するための包括的なベンチマークスイートSciBenchを提案する。SciBenchには、大学レベルの科学的問題を含むオープンセットと、学部レベルの試験問題を含むクローズドセットの2つのデータセットが含まれている。さらに、2つの代表的なLLMを用いた詳細なベンチマーク研究を行い、現在のLLMのパフォーマンスが不十分であることを示した。また、ユーザースタディを通じて、LLMが犯すエラーを10の問題解決能力に分類し、特定のプロンプティング戦略が他の戦略よりも優れているわけではないことを明らかにした。SciBenchは、LLMの推論能力の向上を促進し、科学研究と発見に貢献することを目指している。 #NLP#Dataset#LanguageModel#Programming
Issue Date: 2023-07-18 Socratic Questioning of Novice Debuggers: A Benchmark Dataset and Preliminary Evaluations, ACL-BEA23 Summary本研究では、初心者プログラマがバグのある計算問題を解決する際に、ソクラテス的な対話を行うデータセットを紹介し、GPTベースの言語モデルのデバッグ能力を評価しました。GPT-4はGPT-3.5よりも優れたパフォーマンスを示しましたが、まだ人間の専門家には及ばず、さらなる研究が必要です。 #NaturalLanguageGeneration#NLP#FactualConsistency
Issue Date: 2023-07-18 WeCheck: Strong Factual Consistency Checker via Weakly Supervised Learning, ACL23 Summary現在のテキスト生成モデルは、入力と矛盾するテキストを制御できないという課題があります。この問題を解決するために、私たちはWeCheckという弱教師付きフレームワークを提案します。WeCheckは、弱教師付きラベルを持つ言語モデルから直接訓練された実際の生成サンプルを使用します。さまざまなタスクでの実験結果は、WeCheckの強力なパフォーマンスを示し、従来の評価方法よりも高速で精度と効率を向上させています。 #NLP#CrossLingual
Issue Date: 2023-07-12 Empowering Cross-lingual Behavioral Testing of NLP Models with Typological Features, Ester Hlavnova+, N_A, arXiv23 SummaryM2Cという形態論に敏感なNLPモデルの行動テストフレームワークを提案し、12の異なる言語の特徴に基づいてモデルの振る舞いを探るテストを生成する。最先端の言語モデルは英語では優れているが、特定の言語の特徴に対する一般化の失敗があることが示される。これにより、モデルの盲点に対処するための開発が促される。 #ComputerVision#Pretraining#NLP#Transformer#MulltiModal
Issue Date: 2023-07-12 Generative Pretraining in Multimodality, Quan Sun+, N_A, arXiv23 SummaryEmuは、マルチモーダルなコンテキストで画像とテキストを生成するためのTransformerベースのモデルです。このモデルは、単一モダリティまたはマルチモーダルなデータ入力を受け入れることができます。Emuは、マルチモーダルなシーケンスでトレーニングされ、画像からテキストへのタスクやテキストから画像へのタスクなど、さまざまなタスクで優れたパフォーマンスを示します。また、マルチモーダルアシスタントなどの拡張機能もサポートしています。 #ComputerVision#Pretraining#NLP#MulltiModal
Issue Date: 2023-07-12 EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone, Shraman Pramanick+, N_A, arXiv23 Summaryエゴセントリックビデオ言語の事前学習の第2世代(EgoVLPv2)は、ビデオと言語のバックボーンにクロスモーダルの融合を直接組み込むことができる。EgoVLPv2は強力なビデオテキスト表現を学習し、柔軟かつ効率的な方法でさまざまなダウンストリームタスクをサポートする。さらに、提案されたバックボーン戦略は軽量で計算効率が高い。EgoVLPv2は幅広いVLタスクで最先端のパフォーマンスを達成している。詳細はhttps://shramanpramanick.github.io/EgoVLPv2/を参照。
Issue Date: 2023-07-11 SVIT: Scaling up Visual Instruction Tuning, Bo Zhao+, N_A, arXiv23 Summary大規模な言語モデルとビジョンモデルを統合した多モーダルモデルの能力を向上させるために、新しいデータセットSVITを構築しました。SVITは高品質かつ多様性に富んだビジュアルインストラクションチューニングデータセットであり、GPT-4のトレーニングに使用されることで多モーダルパフォーマンスを大幅に向上させることが示されました。
Issue Date: 2023-07-11 Large Language Models for Supply Chain Optimization, Beibin Li+, N_A, arXiv23 Summary従来のサプライチェーンの運用では、最適化の結果を説明し、解釈するために多くの努力が必要でした。最近の大規模言語モデル(LLMs)の進歩に触発されて、この技術がサプライチェーンの自動化と人間の理解と信頼のギャップを埋めるのに役立つかを研究しました。私たちは、\name{}というフレームワークを設計し、最適化の結果に関する洞察を出力することができます。このフレームワークは、プロプライエタリデータを送信する必要がないため、プライバシー上の懸念もありません。実際のサーバ配置シナリオでの実証実験を行い、フレームワークの効果を示しました。また、LLMの出力の正確さを評価するための評価ベンチマークも開発しました。
Issue Date: 2023-07-11 Large Language Models as General Pattern Machines, Suvir Mirchandani+, N_A, arXiv23 SummaryLLMsは、複雑なトークンシーケンスを自己回帰的に補完する能力を持っており、追加のトレーニングなしに一般的なシーケンスモデラーとして機能することが示されている。この研究では、LLMsのゼロショットの能力がロボティクスの問題にどのように適用できるかを調査し、例として時間の経過を表す数値のシーケンスの補完や閉ループポリシーの発見などを挙げている。ただし、実際のシステムに展開するには制約があるが、LLMsを低レベルの制御に使用するアプローチは有望であると示唆されている。
Issue Date: 2023-07-11 On decoder-only architecture for speech-to-text and large language model integration, Jian Wu+, N_A, arXiv23 Summary本研究では、音声情報を大規模言語モデルに組み込む新しいアプローチであるSpeech-LLaMAを提案しています。この手法は、音響特徴を意味空間にマッピングするためにCTCとオーディオエンコーダを使用します。また、デコーダのみモデルを音声からテキストへのタスクに適用するために、小規模なモデルでトレーニングを行います。実験結果は、多言語音声からテキストへの翻訳タスクにおいて、強力なベースラインに比べて大幅な改善を示し、デコーダのみモデルの潜在的な利点を示しています。
Issue Date: 2023-07-11 Sketch-A-Shape: Zero-Shot Sketch-to-3D Shape Generation, Aditya Sanghi+, N_A, arXiv23 Summary最近の研究では、大規模な事前学習モデルを使用して、スケッチから3D形状を生成する方法について調査されています。この研究では、合成レンダリングの特徴を使用して3D生成モデルをトレーニングし、スケッチから効果的に3D形状を生成できることが示されました。また、ペアデータセットを必要とせずに、入力スケッチごとに複数の3D形状を生成するアプローチの効果も示されました。 #MachineLearning#NLP#LanguageModel#LongSequence
Issue Date: 2023-07-03 Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N_A, arXiv23 Summary既存の大規模言語モデル(LLMs)は、入力長の制限により、長い文脈情報を活用できない問題があります。そこで、私たちは「長期記憶を持つ言語モデル(LongMem)」というフレームワークを提案しました。これにより、LLMsは長い履歴を記憶することができます。提案手法は、メモリエンコーダとして凍結されたバックボーンLLMと、適応的な残余サイドネットワークを組み合わせた分離されたネットワークアーキテクチャを使用します。このアーキテクチャにより、長期の過去の文脈を簡単にキャッシュし、利用することができます。実験結果は、LongMemが長い文脈モデリングの難しいベンチマークであるChapterBreakで強力な性能を発揮し、メモリ増強型のコンテキスト内学習で改善を達成することを示しています。提案手法は、言語モデルが長い形式のコンテンツを記憶し利用するのに効果的です。 CommentLLMに長期のhistoryを記憶させることを可能する新たな手法を提案し、既存のstrongな長いcontextを扱えるモデルを上回るパフォーマンスを示した ... image#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-07-03 Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks, Veniamin Veselovsky+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の普及率を調査するために、クラウドワーカーによるLLMの使用の事例研究を行った。結果から、33〜46%のクラウドワーカーがタスクの完了時にLLMsを使用していることが推定された。これにより、人間のデータが人間のものであることを確保するために新しい方法が必要であることが示唆された。 CommentMturkの言語生成タスクにおいて、Turkerのうち33-46%はLLMsを利用していることを明らかにした ... #NLP#LanguageModel#Evaluation
Issue Date: 2023-07-03 Bring Your Own Data Self-Supervised Evaluation for Large Language Models, Neel Jain+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の振る舞いを評価するための自己教師あり評価フレームワークを提案する。これにより、人間によるラベル付けが必要なくなり、実際のデータに対してモデルの感度や不変性を評価できる。自己教師あり評価は、クローズドブックの知識や有害性、文脈依存性などの側面を評価することができる。また、人間による教師あり評価との相関関係も高い。自己教師あり評価は、現在の評価戦略を補完するものである。 Comment# Motivation LLMの急速な発展によって、それらの能力とlimitationを正確にとらえるための様々な新たなmetricsが提案されてきたが、結果的に、新たなモデルが既存のデータセットを廃止に追い込み、常に新たなデータセットを作成する必要が生じている。 近年のBIG-Bench #以下 ... image
Issue Date: 2023-06-16 PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents, Simeng Sun+, N_A, arXiv23 Summary本研究では、長いドキュメント上の推論を改善するためのPEARLというプロンプティングフレームワークを提案している。PEARLは、アクションマイニング、プランの策定、プランの実行の3つのステージで構成されており、最小限の人間の入力でゼロショットまたはフューショットのLLMsによるプロンプティングによって実装される。PEARLは、QuALITYデータセットの難しいサブセットで評価され、ゼロショットおよびchain-of-thought promptingを上回る性能を発揮した。PEARLは、LLMsを活用して長いドキュメント上の推論を行うための第一歩である。
Issue Date: 2023-06-16 The False Promise of Imitating Proprietary LLMs, Arnav Gudibande+, N_A, arXiv23 Summary本研究は、ChatGPTなどのプロプライエタリシステムからの出力を使用して、弱いオープンソースモデルを微調整する新興の手法について批判的に分析した。異なるベースモデルサイズ、データソース、および模倣データ量を使用して、ChatGPTを模倣する一連のLMを微調整し、クラウドレーターと標準的なNLPベンチマークを使用してモデルを評価した。結果、模倣モデルはChatGPTのスタイルを模倣するのに熟練しているが、事実性を模倣することができないため、人間のレーターから見逃される可能性があることがわかった。全体的に、より優れたベースLMを開発することが、オープンソースモデルを改善するための最も効果的なアクションだと主張している。 #NLP#Transformer#LLMAgent
Issue Date: 2023-06-16 Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv23 Summary大規模言語モデル(LLM)の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。
Issue Date: 2023-06-16 Lexinvariant Language Models, Qian Huang+, N_A, arXiv23 Summary本論文では、固定されたトークン埋め込みなしで高性能な言語モデルを実現することが可能かどうかを検証し、lexinvariant言語モデルを提案する。lexinvariant言語モデルは、トークンの共起と繰り返しに完全に依存し、固定されたトークン埋め込みが必要なくなる。実験的には、標準的な言語モデルと同等のperplexityを達成できることを示し、さらに、synthetic in-context reasoning tasksに対して4倍の精度が向上することを示す。
Issue Date: 2023-06-16 Backpack Language Models, John Hewitt+, N_A, arXiv23 SummaryBackpacksという新しいニューラルアーキテクチャを提案し、語彙内の各単語に対して複数の意味ベクトルを学習し、意味ベクトルを介入することで制御可能なテキスト生成やバイアスの除去ができることを示した。OpenWebTextでトレーニングされたBackpack言語モデルは、語彙の類似性評価で6BパラメータのTransformer LMの単語埋め込みを上回った。
Issue Date: 2023-06-16 Training Socially Aligned Language Models in Simulated Human Society, Ruibo Liu+, N_A, arXiv23
Issue Date: 2023-06-16 A Closer Look at In-Context Learning under Distribution Shifts, Kartik Ahuja+, N_A, arXiv23 Summary本研究では、インコンテキスト学習の汎用性と制限を理解するために、線形回帰という単純なタスクを用いて、トランスフォーマーとセットベースのMLPの比較を行った。分布内評価において両モデルがインコンテキスト学習を示すことがわかったが、トランスフォーマーはOLSのパフォーマンスにより近い結果を示し、軽微な分布シフトに対してより強い耐性を示した。ただし、厳しい分布シフトの下では、両モデルのインコンテキスト学習能力が低下することが示された。
Issue Date: 2023-06-16 Randomized Positional Encodings Boost Length Generalization of Transformers, Anian Ruoss+, N_A, arXiv23 Summaryトランスフォーマーは、固定されたコンテキスト長のタスクに対して印象的な汎化能力を持っているが、長いシーケンスに対しては失敗することがある。本研究では、この失敗モードが位置エンコーディングに関連していることを示し、新しい位置エンコーディングのファミリーを紹介する。ランダム化された位置エンコーディングスキームにより、トランスフォーマーが未知の長さのシーケンスに汎化できるようになり、平均でテスト精度が12.0%向上した。 #NLP#LanguageModel#Chain-of-Thought
Issue Date: 2023-06-16 OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities, Yuanzhen Xie+, N_A, arXiv23 Summary本論文では、人間の認知フレームワークを模倣することで、複雑な推論問題を解決するための新しい知的フレームワークであるOlaGPTを提案しています。OlaGPTは、注意、記憶、推論、学習などの異なる認知モジュールを含み、以前の誤りや専門家の意見を動的に参照する学習ユニットを提供しています。また、Chain-of-Thought(COT)テンプレートと包括的な意思決定メカニズムも提案されています。OlaGPTは、複数の推論データセットで厳密に評価され、最先端のベンチマークを上回る優れた性能を示しています。OlaGPTの実装はGitHubで利用可能です。
Issue Date: 2023-06-16 Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models Reasoning Performance, Yao Fu+, N_A, arXiv23 Summary本研究では、大規模言語モデルの評価スイートであるChain-of-Thought Hubを提案し、LLMsの進歩を追跡するために挑戦的な推論ベンチマークのスイートを編成することを目的としています。現在の結果は、モデルのスケールが推論能力と相関しており、オープンソースのモデルはまだ遅れていることを示しています。また、LLaMA-65BはGPT-3.5-Turboに近づく可能性があることを示しています。コミュニティがより良いベースモデルの構築とRLHFの探索に重点を置く必要があることを示唆しています。
Issue Date: 2023-06-16 SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks, Bill Yuchen Lin+, N_A, arXiv23 SummarySwiftSageは、人間の認知の二重プロセス理論に基づいて設計されたエージェントフレームワークであり、行動クローニングと大規模言語モデルのプロンプティングを統合して、複雑な対話型推論タスクにおけるアクションプランニングに優れている。SwiftモジュールとSageモジュールの2つの主要なモジュールを含み、30のタスクにおいて他の手法を大幅に上回り、複雑な現実世界のタスクを解決する効果を示した。 #ComputerVision#Personalization
Issue Date: 2023-06-16 Photoswap: Personalized Subject Swapping in Images, Jing Gu+, N_A, arXiv23 Summary本研究では、Photoswapという新しいアプローチを提案し、既存の画像において個人的な対象物の交換を可能にすることを目的としています。Photoswapは、参照画像から対象物の視覚的な概念を学習し、トレーニングフリーでターゲット画像に交換することができます。実験により、Photoswapが効果的で制御可能であり、ベースライン手法を大幅に上回る人間の評価を得ていることが示されました。Photoswapは、エンターテインメントからプロの編集まで幅広い応用可能性を持っています。
Issue Date: 2023-06-16 Controllable Text-to-Image Generation with GPT-4, Tianjun Zhang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を使用して、テキストから画像を生成するためのパイプラインを誘導する方法を提案しています。Control-GPTを導入し、GPT-4によって生成されたプログラム的なスケッチを使用して、拡散ベースのテキストから画像へのパイプラインを誘導し、指示に従う能力を向上させます。この研究は、LLMsをコンピュータビジョンタスクのパフォーマンス向上に活用する可能性を示す初めての試みです。
Issue Date: 2023-06-16 KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models, Zhiwei Jia+, N_A, arXiv23 Summary画像広告の理解は、現実世界のエンティティやシーンテキストの推論を含むため、非常に困難であるが、VLMsの時代において未開拓の分野である。本研究では、事前学習されたVLMsを画像広告の理解に適応するための実用的な課題をベンチマークし、現実世界のエンティティの知識を付加することで、画像広告のマルチモーダル情報を効果的に融合するためのシンプルな特徴適応戦略を提案した。広告業界に広く関連する画像広告の理解により多くの注目が集まることが期待される。
Issue Date: 2023-06-16 Grammar Prompting for Domain-Specific Language Generation with Large Language Models, Bailin Wang+, N_A, arXiv23 SummaryLLMsは幅広い自然言語タスクを学習できるが、高度に構造化された言語の生成には困難がある。本研究では、文法プロンプティングを使用して、外部の知識やドメイン固有の制約を学習中に使用する方法を探求した。文法プロンプティングは、各デモンストレーション例に特化した文法を付加し、最小限必要な文法で特定の出力例を生成する。実験により、文法プロンプティングが多様なDSL生成タスクで競争力のあるパフォーマンスを発揮できることが示された。
Issue Date: 2023-06-16 Blockwise Parallel Transformer for Long Context Large Models, Hao Liu+, N_A, arXiv23 Summaryトランスフォーマーの自己注意機構とフィードフォワードネットワークによるメモリ要件の制限を解決するために、ブロックごとの並列トランスフォーマー(BPT)を提案。BPTは、メモリ効率を維持しながらより長い入力シーケンスを処理することができ、徹底的な実験により、言語モデリングや強化学習タスクにおいてパフォーマンスを向上させることが示された。
Issue Date: 2023-06-16 Deliberate then Generate: Enhanced Prompting Framework for Text Generation, Bei Li+, N_A, arXiv23 Summary本論文では、新しいDeliberate then Generate(DTG)プロンプトフレームワークを提案し、LLMsの自然言語生成タスクにおける成功をさらに促進することを目的としている。DTGは、誤り検出指示と誤りを含む可能性のある候補から構成され、モデルが熟考することを促すことで、最先端のパフォーマンスを達成することができる。20以上のデータセットでの広範な実験により、DTGが既存のプロンプト方法を一貫して上回り、LLMsのプロンプトに関する将来の研究にインスピレーションを与える可能性があることが示された。
Issue Date: 2023-06-16 CodeTF: One-stop Transformer Library for State-of-the-art Code LLM, Nghi D. Q. Bui+, N_A, arXiv23 Summary本論文では、CodeTFというオープンソースのTransformerベースのライブラリを紹介し、最新のCode LLMsとコードインテリジェンスのためのモジュール設計と拡張可能なフレームワークの原則に従って設計されていることを説明しています。CodeTFは、異なるタイプのモデル、データセット、タスクに対して迅速なアクセスと開発を可能にし、事前学習済みのCode LLMモデルと人気のあるコードベンチマークをサポートしています。また、言語固有のパーサーおよびコード属性を抽出するためのユーティリティ関数などのデータ機能を提供しています。CodeTFは、機械学習/生成AIとソフトウェアエンジニアリングのギャップを埋め、開発者、研究者、実践者にとって包括的なオープンソースのソリューションを提供することを目的としています。 #MachineLearning#Transformer
Issue Date: 2023-06-16 Birth of a Transformer: A Memory Viewpoint, Alberto Bietti+, N_A, arXiv23 Summary大規模言語モデルの内部メカニズムを理解するため、トランスフォーマーがグローバルとコンテキスト固有のbigram分布をどのようにバランスするかを研究。2層トランスフォーマーでの実証的分析により、グローバルbigramの高速な学習と、コンテキスト内のbigramの「誘導ヘッド」メカニズムの遅い発達を示し、重み行列が連想記憶としての役割を強調する。データ分布特性の役割も研究。
Issue Date: 2023-06-16 Brainformers: Trading Simplicity for Efficiency, Yanqi Zhou+, N_A, arXiv23 Summaryトランスフォーマーの設計選択肢を調査し、異なる順列を持つ複雑なブロックがより効率的であることを発見し、Brainformerという複雑なブロックを開発した。Brainformerは、品質と効率の両方の観点で最新のトランスフォーマーを上回り、トークンあたりのアクティブパラメーター数が80億のモデルは、トレーニング収束が2倍速く、ステップ時間が5倍速いことが示されている。また、ファインチューニングによるSuperGLUEスコアが3%高いことも示している。Brainformerはfewshot評価でも大幅に優れている。
Issue Date: 2023-06-16 StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners, Yonglong Tian+, N_A, arXiv23 Summary本研究では、テキストから画像を生成するモデルによって生成された合成画像を使用して視覚表現を学習することを調査しました。自己教師あり方法を合成画像に対してトレーニングすることで、実際の画像に匹敵するかそれを上回ることができることを示しました。また、同じテキストプロンプトから生成された複数の画像を互いに正として扱うことで、マルチポジティブコントラスティブ学習手法であるStableRepを開発しました。StableRepによって学習された表現は、SimCLRとCLIPによって学習された表現を上回ります。さらに、20Mの合成画像でトレーニングされたStableRepは、50Mの実際の画像でトレーニングされたCLIPよりも優れた精度を達成します。 #ComputerVision#NLP#Personalization#DiffusionModel#TextToImageGeneration
Issue Date: 2023-06-16 ViCo: Detail-Preserving Visual Condition for Personalized Text-to-Image Generation, Shaozhe Hao+, N_A, arXiv23 Summary拡散モデルを用いたパーソナライズされた画像生成において、高速で軽量なプラグインメソッドであるViCoを提案。注目モジュールを導入し、注目ベースのオブジェクトマスクを使用することで、一般的な過学習の劣化を軽減。元の拡散モデルのパラメータを微調整せず、軽量なパラメータトレーニングだけで、最新のモデルと同等またはそれ以上の性能を発揮することができる。
Issue Date: 2023-06-16 Evaluating Language Models for Mathematics through Interactions, Katherine M. Collins+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を評価するための適応可能なプロトタイププラットフォームであるCheckMateを紹介し、数学の学部レベルの証明を支援するアシスタントとして、InstructGPT、ChatGPT、およびGPT-4の3つの言語モデルを評価しました。MathConverseという対話と評価のデータセットを公開し、LLMの生成において正確さと知覚された有用性の間に著しい相違があることなど、他の発見も行いました。対話的評価はこれらのモデルの能力を継続的にナビゲートする有望な方法であること、人間は言語モデルの代数的な誤りに注意を払い、そのために使用すべき場所を見極める必要があることを示しました。
Issue Date: 2023-06-16 Responsible Task Automation: Empowering Large Language Models as Responsible Task Automators, Zhizheng Zhang+, N_A, arXiv23 Summary本論文では、大規模言語モデル(LLMs)を使用したタスク自動化における責任ある行動の実現可能性、完全性、セキュリティについて探求し、Responsible Task Automation(ResponsibleTA)フレームワークを提案する。具体的には、エグゼキューターのコマンドの実現可能性を予測すること、エグゼキューターの完全性を検証すること、セキュリティを強化することを目的とした3つの強化された機能を備え、2つのパラダイムを提案する。また、ローカルメモリメカニズムを紹介し、UIタスク自動化でResponsibleTAを評価する。
Issue Date: 2023-06-16 Fine-Grained Human Feedback Gives Better Rewards for Language Model Training, Zeqiu Wu+, N_A, arXiv23 Summary本研究では、言語モデルの望ましくないテキスト生成の問題に対処するために、細かい粒度の人間のフィードバックを使用するFine-Grained RLHFフレームワークを導入しました。このフレームワークは、報酬関数を細かい粒度に設定することで、自動評価と人間の評価の両方で改善されたパフォーマンスをもたらします。また、異なる報酬モデルの組み合わせを使用することで、LMの振る舞いをカスタマイズできることも示しました。
Issue Date: 2023-06-16 The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only, Guilherme Penedo+, N_A, arXiv23 Summary大規模言語モデルの訓練には、キュレーションされた高品質のコーパスとWebデータが使用されるが、Webデータだけでも強力なモデルを生成できることが示された。RefinedWebデータセットから6000億トークンの抽出と、それに基づく1.3/7.5Bパラメータの言語モデルが公開された。CommonCrawlから5兆トークンを取得できることも示された。
Issue Date: 2023-06-16 InstructZero: Efficient Instruction Optimization for Black-Box Large Language Models, Lichang Chen+, N_A, arXiv23 SummaryLLMsの指示を最適化するために、オープンソースLLMに適用される低次元のソフトプロンプトを最適化する提案手法であるInstructZeroを紹介。オープンソースLLMを使用してソフトプロンプトを指示に変換し、ブラックボックスLLMに提出してゼロショット評価を行い、パフォーマンスをベイズ最適化に送信して、新しいソフトプロンプトを生成する。VicunaやChatGPTなどのオープンソースLLMとAPIの異なる組み合わせで評価し、SOTA自動指示手法を上回ることを示した。コードとデータはhttps://github.com/Lichang-Chen/InstructZeroで公開されています。
Issue Date: 2023-06-16 Binary and Ternary Natural Language Generation, Zechun Liu+, N_A, arXiv23 Summary三値および二値ニューラルネットワークを最適化することは困難であるが、重みの統計に基づく量子化と活性化の弾性量子化の混合によって問題に取り組み、要約と機械翻訳の下流タスクで最初の三値および二値Transformerモデルを実証する。三値BARTベースは、CNN/DailyMailベンチマークでR1スコア41を達成し、16倍効率的である。バイナリモデルは、非常に重要なスコア35.6を達成している。機械翻訳においては、WMT16 En-RoベンチマークでBLEUスコア21.7および17.6を達成し、8ビット重みモデルで一致または上回ることができることを示した。
Issue Date: 2023-06-16 Simple and Controllable Music Generation, Jade Copet+, N_A, arXiv23 Summary本研究では、単一の言語モデルであるMusicGenを紹介し、複数のモデルを連鎖する必要がなくなることで、条件付けられた高品質な音楽サンプルを生成できることを示した。広範な実験評価により、提案手法が標準的なベンチマークよりも優れていることを示し、各コンポーネントの重要性についての削除実験も行った。音楽サンプル、コード、およびモデルは、https://github.com/facebookresearch/audiocraftで入手可能です。
Issue Date: 2023-06-16 Language-Guided Music Recommendation for Video via Prompt Analogies, Daniel McKee+, N_A, arXiv23 Summary本研究では、音楽選曲のガイド付きで、入力ビデオに対して音楽を推薦する手法を提案する。音楽のテキスト説明が不足している問題に対して、大規模言語モデルから事前にトレーニングされた音楽タガーの出力と人間のテキスト説明を組み合わせたテキスト合成アプローチを提案し、トリモーダルモデルをトレーニングする。評価実験により、従来の手法と同等またはそれ以上の性能を発揮することが示された。 #ComputerVision#NLP#QuestionAnswering#MulltiModal
Issue Date: 2023-06-16 AVIS: Autonomous Visual Information Seeking with Large Language Models, Ziniu Hu+, N_A, arXiv23 Summary本論文では、自律的な情報収集ビジュアル質問応答フレームワークであるAVISを提案する。AVISは、大規模言語モデル(LLM)を活用して外部ツールの利用戦略を動的に決定し、質問に対する回答に必要な不可欠な知識を獲得する。ユーザースタディを実施して収集したデータを用いて、プランナーや推論エンジンを改善し、知識集約型ビジュアル質問応答ベンチマークで最先端の結果を達成することを示している。 Comment ... image
Issue Date: 2023-06-16 WizardCoder: Empowering Code Large Language Models with Evol-Instruct, Ziyang Luo+, N_A, arXiv23 SummaryCode LLMsにおいて、WizardCoderを導入することで、複雑な指示の微調整を可能にし、4つの主要なコード生成ベンチマークで他のオープンソースのCode LLMsを大幅に上回る優れた能力を示した。さらに、AnthropicのClaudeやGoogleのBardをも上回る性能を発揮し、コード、モデルの重み、およびデータはGitHubで公開されている。 #NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-06-16 KoLA: Carefully Benchmarking World Knowledge of Large Language Models, Jifan Yu+, N_A, arXiv23 SummaryLLMの評価を改善するために、KoLAという知識指向のベンチマークを構築した。このベンチマークは、19のタスクをカバーし、Wikipediaと新興コーパスを使用して、知識の幻覚を自動的に評価する独自の自己対照メトリックを含む対照的なシステムを採用している。21のオープンソースと商用のLLMを評価し、KoLAデータセットとオープン参加のリーダーボードは、LLMや知識関連システムの開発の参考資料として継続的に更新される。
Issue Date: 2023-06-16 STUDY: Socially Aware Temporally Casual Decoder Recommender Systems, Eltayeb Ahmed+, N_A, arXiv23 Summary本研究では、膨大なデータ量に直面する中で、ソーシャルネットワーク情報を利用したレコメンドシステムの提案を行いました。提案手法であるSTUDYは、修正されたトランスフォーマーデコーダーネットワークを使用して、ソーシャルネットワークグラフ上で隣接するユーザーグループ全体に対して共同推論を行います。学校教育コンテンツの設定で、教室の構造を使用してソーシャルネットワークを定義し、提案手法をテストした結果、ソーシャルおよびシーケンシャルな方法を上回り、単一の均質ネットワークの設計の簡素さを維持しました。また、アブレーション研究を実施して、ユーザーの行動の類似性を効果的にモデル化するソーシャルネットワーク構造を活用することがモデルの成功に重要であることがわかりました。
Issue Date: 2023-06-16 GeneCIS: A Benchmark for General Conditional Image Similarity, Sagar Vaze+, N_A, arXiv23 Summary本論文では、モデルがさまざまな類似性条件に動的に適応できる能力を測定するGeneCISベンチマークを提案し、既存の方法をスケーリングすることは有益ではないことを示唆しています。また、既存の画像キャプションデータセットから情報を自動的にマイニングすることに基づくシンプルでスケーラブルなソリューションを提案し、関連する画像検索ベンチマークのゼロショットパフォーマンスを向上させました。GeneCISのベースラインに比べて大幅な改善をもたらし、MIT-Statesでの最新の教師ありモデルを上回る性能を発揮しています。
Issue Date: 2023-06-16 WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences, Xiao Liu+, N_A, arXiv23 SummaryWebGLMは、GLMに基づくWeb拡張型質問応答システムであり、LLMによるリトリーバー、ブートストラップされたジェネレーター、および人間の嗜好に配慮したスコアラーを実現することで、実世界の展開に効率的であることを目的としています。WebGLMは、WebGPTよりも優れた性能を発揮し、Web拡張型QAシステムの評価基準を提案しています。コード、デモ、およびデータは\url{https://github.com/THUDM/WebGLM}にあります。 #Adapter/LoRA
Issue Date: 2023-06-16 One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning, Arnav Chavan+, N_A, arXiv23 Summary本研究では、汎用的なファインチューニングタスクのための高度な手法であるGeneralized LoRA (GLoRA)を提案し、事前学習済みモデルの重みを最適化し、中間アクティベーションを調整することで、多様なタスクとデータセットに対してより柔軟性と能力を提供する。GLoRAは、各レイヤーの個別のアダプタを学習するスケーラブルでモジュラーなレイヤーごとの構造探索を採用することで、効率的なパラメータの適応を促進する。包括的な実験により、GLoRAは、自然言語、専門分野、構造化ベンチマークにおいて、従来のすべての手法を上回り、様々なデータセットでより少ないパラメータと計算で優れた精度を達成することが示された。
Issue Date: 2023-06-16 Augmenting Language Models with Long-Term Memory, Weizhi Wang+, N_A, arXiv23 Summary本研究では、長期記憶を持つ言語モデルを実現するための「LongMem」というフレームワークを提案し、メモリリトリーバーとリーダーを使用する新しいデカップルネットワークアーキテクチャを設計しました。LongMemは、長期過去の文脈を記憶し、言語モデリングに長期記憶を活用することができます。提案されたメモリリトリーバーモジュールは、メモリバンク内の無制限の長さの文脈を扱うことができ、様々なダウンストリームタスクに利益をもたらします。実験結果は、本手法が、長い文脈モデリングの難しいベンチマークであるChapterBreakにおいて、強力な長文脈モデルを上回り、LLMsに比べてメモリ拡張インコンテキスト学習において顕著な改善を達成することを示しています。
Issue Date: 2023-06-16 Benchmarking Neural Network Training Algorithms, George E. Dahl+, N_A, arXiv23 Summaryトレーニングアルゴリズムの改善によるモデルの高速化と正確性の向上は重要であるが、現在のコミュニティでは最先端のトレーニングアルゴリズムを決定することができない。本研究では、トレーニングアルゴリズムの経験的比較に直面する3つの基本的な課題を解決する新しいベンチマーク、AlgoPerf: Training Algorithmsベンチマークを導入することを主張する。このベンチマークには、競争力のあるタイム・トゥ・リザルト・ベンチマークが含まれており、最適化手法の比較に役立つ。最後に、ベースライン提出と他の最適化手法を評価し、将来のベンチマーク提出が超えることを試みるための仮の最先端を設定する。
Issue Date: 2023-06-16 Evaluating the Social Impact of Generative AI Systems in Systems and Society, Irene Solaiman+, N_A, arXiv23 Summary様々なモダリティにわたる生成型AIシステムの社会的影響を評価するための公式の標準が存在しないため、我々はそれらの影響を評価するための標準的なアプローチに向けて進んでいます。我々は、技術的な基盤システムで評価可能な社会的影響のカテゴリーと、人々や社会で評価可能な社会的影響のカテゴリーを定義し、それぞれにサブカテゴリーと害を軽減するための推奨事項を提供しています。また、AI研究コミュニティが既存の評価を提供できるように、評価リポジトリを作成しています。
Issue Date: 2023-06-16 PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts, Kaijie Zhu+, N_A, arXiv23 SummaryLLMsの頑健性を測定するための頑健性ベンチマークであるPromptBenchを紹介する。PromptBenchは、多数の敵対的なテキスト攻撃を使用して、感情分析、自然言語推論、読解、機械翻訳、数学問題解決などの多様なタスクで使用されるプロンプトに対するLLMsの耐性を測定する。研究では、8つのタスクと13のデータセットで4,032の敵対的なプロンプトを生成し、合計567,084のテストサンプルを評価した。結果は、現代のLLMsが敵対的なプロンプトに対して脆弱であることを示しており、プロンプトの頑健性と移植性に関する包括的な分析を提供する。また、敵対的なプロンプトを生成するためのコード、プロンプト、および方法論を公開し、研究者や一般ユーザーの両方にとって有益である。
Issue Date: 2023-06-16 Modular Visual Question Answering via Code Generation, Sanjay Subramanian+, N_A, arXiv23 Summary視覚的な質問応答をモジュラーコード生成として定式化するフレームワークを提案し、追加のトレーニングを必要とせず、事前にトレーニングされた言語モデル、画像キャプションペアで事前にトレーニングされたビジュアルモデル、およびコンテキスト学習に使用される50のVQA例に依存しています。生成されたPythonプログラムは、算術および条件付き論理を使用して、ビジュアルモデルの出力を呼び出し、合成します。COVRデータセットで少なくとも3%、GQAデータセットで約2%の精度向上を実現しています。
Issue Date: 2023-06-16 PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization, Yidong Wang+, N_A, arXiv23 Summary大規模言語モデル(LLMs)の調整には、ハイパーパラメータの選択の複雑さと評価の難しさが残っています。そこで、PandaLMという判定用大規模言語モデルを導入し、複数のLLMsが与えられた場合に優れたモデルを区別するために訓練されます。PandaLMは、相対的な簡潔さ、明確さ、指示に従うこと、包括性、形式性などの重要な主観的要因に対処することができます。PandaLMは、APIベースの評価に依存しないため、潜在的なデータ漏洩を回避できます。PandaLMによって調整されたモデルは、デフォルトのAlpacaのハイパーパラメータでトレーニングされた対照モデルと比較して、有意な改善が実現されるため、LLMの評価がより公正かつコストが少なくなります。
Issue Date: 2023-06-16 Improving Open Language Models by Learning from Organic Interactions, Jing Xu+, N_A, arXiv23 SummaryBlenderBot 3xは、BlenderBot 3のアップデートであり、有機的な会話とフィードバックデータを使用してトレーニングされ、スキルと安全性の両方を向上させました。参加者の匿名化された相互作用データが公開され、有害な行動を回避する技術が研究されました。BlenderBot 3xは、BlenderBot 3よりも会話で好まれ、より安全な応答を生成することが示されています。改善の余地があるものの、継続的な技術の使用により、さらなる改善が可能だと考えられています。
Issue Date: 2023-06-16 Tracking Everything Everywhere All at Once, Qianqian Wang+, N_A, arXiv23 Summary本研究では、ビデオシーケンスから長距離の動きを推定するための新しい手法を提案する。従来の手法では、時間枠内での動作や遮蔽物の追跡が困難であり、グローバルな一貫性を維持することができなかった。提案手法では、OmniMotionという完全でグローバルに一貫した動き表現を使用し、遮蔽物を追跡し、カメラとオブジェクトの動きの任意の組み合わせをモデル化することができる。TAP-Vidベンチマークと実世界の映像での評価により、本手法が従来の最先端の手法を大幅に上回ることが示された。
Issue Date: 2023-06-16 INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models, Yew Ken Chia+, N_A, arXiv23 Summary指示に調整された大規模言語モデルの包括的な評価スイートであるINSTRUCTEVALが提案された。この評価は、問題解決能力、文章能力、および人間の価値観に対する適合性に基づくモデルの厳密な評価を含む。指示データの品質がモデルのパフォーマンスを拡大する上で最も重要な要因であることが明らかになった。オープンソースのモデルは印象的な文章能力を示しているが、問題解決能力や適合性には改善の余地がある。INSTRUCTEVALは、指示に調整されたモデルの深い理解と能力の向上を促進することを目指している。
Issue Date: 2023-06-16 Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions, John Joon Young Chung+, N_A, arXiv23 SummaryLLMsを使用した高品質なデータセットの作成において、多様性を増やす方法と正確性を維持する方法を検討し、人間の介入によるラベル置換が最も効果的であることが示された。一方、範囲外フィルタリングは効果的ではなかったため、今後の研究が必要である。
Issue Date: 2023-06-16 Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks, Haiyang Xu+, N_A, arXiv23 Summary中国のコミュニティにおいて、Vision-Language Pre-training(VLP)とマルチモーダル大規模言語モデル(LLM)の発展を促進するために、Youku-mPLUGという最大の公開中国語高品質ビデオ言語データセットをリリースしました。このデータセットは、大規模なプレトレーニングに使用でき、クロスモーダル検索、ビデオキャプション、ビデオカテゴリ分類の3つの人気のあるビデオ言語タスクをカバーする最大の人間注釈中国語ベンチマークを慎重に構築しました。Youku-mPLUGでプレトレーニングされたモデルは、ビデオカテゴリ分類で最大23.1%の改善を実現し、mPLUG-videoは、ビデオカテゴリ分類で80.5%のトップ1精度、ビデオキャプションで68.9のCIDErスコアで、これらのベンチマークで新しい最高の結果を達成しました。また、Youku-mPLUGでのプレトレーニングが、全体的および詳細な視覚的意味、シーンテキストの認識、およびオープンドメインの知識の活用能力を向上させることを示すゼロショットの指示理解実験も行われました。
Issue Date: 2023-06-16 M$^3$IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning, Lei Li+, N_A, arXiv23 SummaryVLMの進歩は、高品質の指示データセットの不足により制限されている。そこで、M$^3$ITデータセットが紹介された。このデータセットは、40のデータセット、240万のインスタンス、400の手動で書かれたタスク指示を含み、ビジョンからテキスト構造に再フォーマットされている。M$^3$ITは、タスクカバレッジ、指示数、インスタンススケールの面で以前のデータセットを上回っている。また、このデータセットで訓練されたVLMモデルであるYing-VLMは、複雑な質問に答え、未知のビデオタスクに汎用的に対応し、中国語の未知の指示を理解する可能性を示している。
Issue Date: 2023-06-16 Deductive Verification of Chain-of-Thought Reasoning, Zhan Ling+, N_A, arXiv23 Summary大規模言語モデル(LLMs)を使用して、Chain-of-Thought(CoT)プロンプティングによる推論タスクを解決するために、自己検証を通じて推論プロセスの信頼性を確保するNatural Programを提案する。このアプローチにより、モデルは正確な推論ステップを生成し、各演繹的推論段階に統合された検証プロセスにより、生成された推論ステップの厳密性と信頼性を向上させることができる。コードはhttps://github.com/lz1oceani/verify_cotで公開される。
Issue Date: 2023-06-16 Natural Language Commanding via Program Synthesis, Apurva Gandhi+, N_A, arXiv23 SummarySemantic Interpreterは、Microsoft Officeなどの生産性ソフトウェアにおいて、LLMsとODSLを活用して、自然言語のユーザー発話をアプリケーションの機能に実行するAIシステムである。本論文では、Microsoft PowerPointの研究探索に焦点を当てて、Analysis-Retrievalプロンプト構築方法を用いたSemantic Interpreterの実装について議論している。
Issue Date: 2023-06-16 LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion, Dongfu Jiang+, N_A, arXiv23 SummaryLLM-Blenderは、複数の大規模言語モデルを組み合わせたアンサンブルフレームワークであり、PairRankerとGenFuserの2つのモジュールから構成されています。PairRankerは、専門的なペアワイズ比較方法を使用して候補の出力間の微妙な違いを区別し、GenFuserは、上位ランクの候補をマージして改善された出力を生成します。MixInstructというベンチマークデータセットを導入し、LLM-Blenderは、個々のLLMsやベースライン手法を大幅に上回り、大きなパフォーマンス差を確立しました。
Issue Date: 2023-05-22 Reprompting: Automated Chain-of-Thought Prompt Inference Through Gibbs Sampling, Weijia Xu+, N_A, arXiv23 Summary本研究では、Repromptingという反復サンプリングアルゴリズムを紹介し、Chain-of-Thought(CoT)レシピを探索することで、特定のタスクを解決する。Repromptingは、以前にサンプリングされた解決策を親プロンプトとして使用して、新しいレシピを反復的にサンプリングすることで、一貫して良い結果を出すCoTレシピを推論する。複数のステップ推論が必要な5つのBig-Bench Hardタスクにおいて、Repromptingはゼロショット、フューショット、および人間が書いたCoTベースラインよりも一貫して優れたパフォーマンスを発揮する。Repromptingは、より強力なモデルからより弱いモデルへの知識の転移を促進し、より弱いモデルの性能を大幅に向上させることもできる。全体的に、Repromptingは、人間が書いたCoTプロンプトを使用する従来の最先端手法よりも最大で+17ポイントの改善をもたらす。 Commentんー、IterCoTとかAutoPromptingとかと比較してないので、なんとも言えない…。サーベイ不足では。あとChatGPTを使うのはやめて頂きたい。 ...
Issue Date: 2023-05-22 Counterfactuals for Design: A Model-Agnostic Method For Design Recommendations, Lyle Regenwetter+, N_A, arXiv23 Summary本研究では、デザイン問題におけるカウンターファクチュアル最適化のための新しい手法であるMCDを紹介する。MCDは、設計問題において重要な多目的クエリをサポートし、カウンターファクチュアル探索とサンプリングプロセスを分離することで効率を向上させ、目的関数のトレードオフの可視化を容易にすることで、既存のカウンターファクチュアル探索手法を改善している。MCDは、自転車設計の3つのケーススタディを行い、実世界の設計問題において有効であることを示している。全体的に、MCDは、実践者や設計自動化研究者が「もしも」の質問に答えを見つけるための貴重な推奨を提供する可能性がある。
Issue Date: 2023-05-22 QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations, Chaitanya Malaviya+, N_A, arXiv23 SummaryQUESTデータセットは、交差、和、差などの集合演算を暗黙的に指定するクエリを生成するために、選択的な情報ニーズを定式化することによって構築されました。このデータセットは、Wikipediaのドキュメントに対応するエンティティのセットにマップされ、クエリで言及される複数の制約を対応するドキュメントの証拠と一致させ、さまざまな集合演算を正しく実行することをモデルに求めます。クラウドワーカーによって言い換えられ、自然さと流暢さがさらに検証されたクエリは、いくつかの現代的な検索システムにとって苦戦することがわかりました。
Issue Date: 2023-05-21 Symbol tuning improves in-context learning in language models, Jerry Wei+, N_A, arXiv23 Summary本研究では、自然言語ラベルをシンボルに置き換えて言語モデルを微調整する「symbol tuning」を提案し、未知のタスクや不明確なプロンプトに対して堅牢な性能を示すことを示した。また、symbol tuningによりアルゴリズム的推論タスクでのパフォーマンス向上が見られ、以前の意味的知識を上書きする能力が向上していることが示された。Flan-PaLMモデルを使用して実験が行われ、最大540Bパラメータまで利用された。
Issue Date: 2023-05-20 ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities, Peng Wang+, N_A, arXiv23 Summary本研究では、ビジョン、音声、言語のモダリティをシームレスに整合させ、統合するためのスケーラブルな方法を探求し、4Bのパラメータを持つONE-PEACEという高度に拡張可能なモデルをリリースした。ONE-PEACEは、アダプタとFFNを追加することで新しいモダリティを簡単に拡張できるだけでなく、セルフアテンションレイヤを介してマルチモーダル融合も可能になる。ONE-PEACEは、広範な単一モーダルおよびマルチモーダルタスクで先導的な結果を達成しており、コードはGitHubで利用可能である。
Issue Date: 2023-05-20 Language Models Meet World Models: Embodied Experiences Enhance Language Models, Jiannan Xiang+, N_A, arXiv23 Summary本論文では、大規模言語モデル(LMs)が物理的な環境での単純な推論や計画に苦労することを解決するため、LMsを世界モデルで微調整する新しいパラダイムを提案しています。具体的には、物理的な世界のシミュレータでエージェントを展開し、目的指向の計画とランダムな探索を通じて多様な具現化された経験を獲得することで、LMsを微調整して物理的な世界での推論や行動の多様な能力を教えます。また、重みの選択的な更新のための古典的な弾性重み結合(EWC)を導入し、トレーニング効率のための低ランクアダプタ(LoRA)と組み合わせています。徹底的な実験により、提案手法は18の下流タスクでベースLMsを平均64.28%改善することが示されました。 Comment ... image
Issue Date: 2023-05-20 VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks, Wenhai Wang+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を用いたビジョン中心のタスクに対するフレームワークであるVisionLLMを提案し、言語指示を用いて柔軟に定義および管理できる言語タスクとビジョン中心のタスクを統一的に扱うことで、ビジョンと言語タスクの統合的な視点を提供する。提案手法は、異なるレベルのタスクカスタマイズを実現し、良好な結果を示すことができる。また、一般的なビジョンと言語モデルの新しいベースラインを設定できることが期待される。
Issue Date: 2023-05-20 Explaining black box text modules in natural language with language models, Chandan Singh+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)のブラックボックス性に対する解釈可能性の必要性を検討し、Summarize and Score(SASC)という方法を提案した。SASCは、テキストモジュールを入力として受け取り、自然言語の説明と信頼性スコアを返すことで、モジュールの選択性に関する説明を自動的に取得することができる。実験では、SASCが合成モジュールやBERTモデル内のモジュールを説明することができ、fMRIボクセルの応答の説明を生成することも示された。提案手法のコードはGithubで公開されている。 Commentモデルのinterpretabilityに関するMSの新たな研究 ... #Analysis#NLP#LanguageModel#Programming
Issue Date: 2023-05-20 Evidence of Meaning in Language Models Trained on Programs, Charles Jin+, N_A, arXiv23 Summary本研究では、プログラムのコーパスを用いて言語モデルが意味を学習できることを示し、プログラム合成が言語モデルの意味の存在を特徴づけるための中間テストベッドとして適していることを述べている。Transformerモデルを用いた実験により、言語の意味を学習するための帰納バイアスを提供しないにもかかわらず、線形プローブがモデルの状態から現在および将来のプログラム状態の抽象化を抽出できることがわかった。また、正しいプログラムを生成することを学習し、平均的に訓練セットよりも短いプログラムを生成することも示した。本論文は、言語モデルの訓練に新しい技術を提案するものではなく、(形式的な)意味の習得と表現に関する実験的なフレームワークを開発し、洞察を提供する。 CommentプログラムのコーパスでLLMをNext Token Predictionで訓練し厳密に正解とsemanticsを定義した上で、訓練データと異なるsemanticsの異なるプログラムを生成できることを示した。LLMが意味を理解していることを暗示している ... image#NLP#LanguageModel#Prompting
Issue Date: 2023-05-20 Tree of Thoughts: Deliberate Problem Solving with Large Language Models, Shunyu Yao+, N_A, arXiv23 Summary言語モデルの推論には制限があり、探索や戦略的先読みが必要なタスクには不十分である。そこで、Tree of Thoughts(ToT)という新しいフレームワークを導入し、Chain of Thoughtアプローチを一般化して、意思決定を行うことができるようにした。ToTにより、言語モデルは複数の異なる推論パスを考慮して、次の行動を決定することができる。ToTは、Game of 24、Creative Writing、Mini Crosswordsなどのタスクにおいて、言語モデルの問題解決能力を大幅に向上させることができることを示している。 CommentSelf Concistencyの次Non trivialなプランニングと検索が必要な新たな3つのタスクについて、CoT w/ GPT4の成功率が4%だったところを、ToTでは74%を達成論文中の表ではCoTのSuccessRateが40%と書いてあるような? ... image
Issue Date: 2023-05-20 mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences, David Uthus+, N_A, arXiv23 Summary本研究では、多言語で長い入力を処理するための効率的なテキスト・トゥ・テキスト・トランスフォーマーの開発を行い、mLongT5というモデルを提案した。mT5の事前学習とUL2の事前学習タスクを活用し、多言語要約や質問応答などのタスクで評価した結果、既存の多言語モデルよりも性能が優れていることが示された。 Commentlib:https://huggingface.co/agemagician/mlong-t5-tglobal-xl16384 tokenを扱えるT5。102言語に対応 ...
Issue Date: 2023-05-15 MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers, Lili Yu+, N_A, arXiv23 Summaryオートレグレッシブトランスフォーマーは短いシーケンスに対して優れたモデルだが、長いシーケンスにはスケーリングが困難である。本研究では、Megabyteというマルチスケールデコーダーアーキテクチャを提案し、100万バイト以上のシーケンスのモデリングを可能にした。Megabyteは、パッチに分割し、ローカルサブモデルとグローバルモデルを使用することで、トレーニングと生成の両方でコストを削減しながらより良いパフォーマンスを発揮できる。徹底的な実験により、Megabyteにより、バイトレベルのモデルが長いコンテキストの言語モデリングで競争力を持ち、ImageNetで最先端の密度推定を達成し、生のファイルからオーディオをモデル化できることが示された。 Commentbyte列のsequenceからpatch embeddingを作成することで、tokenizer freeなtransformerを提案。byte列で表現されるデータならなんでも入力できる。つまり、理論上なんでも入力できる。 ...
Issue Date: 2023-05-12 Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction, Wang-Cheng Kang+, N_A, arXiv23 SummaryLLMsは新しいタスクに一般化する能力を持ち、少ないデータで包括的な世界知識を維持することができる。本研究では、CFとLLMsを比較し、ユーザー評価予測タスクでLLMsがファインチューニングを通じて同等またはより良いパフォーマンスを示すことがわかった。しかし、ゼロショットLLMsは従来の推薦モデルに遅れをとることが示された。 Commentはじまったなぁ、という感じ ...
Issue Date: 2023-05-11 Multi-Task End-to-End Training Improves Conversational Recommendation, Naveen Ram+, N_A, arXiv23 Summary本論文では、対話型推薦タスクにおいて、マルチタスクエンドツーエンドトランスフォーマーモデルのパフォーマンスを分析する。従来の複雑なマルチコンポーネントアプローチに代わり、T5テキストトゥーテキストトランスフォーマーモデルに基づく統合トランスフォーマーモデルが、関連するアイテムの推薦と会話の対話生成の両方で競争力を持つことを示す。ReDIAL対話型映画推薦データセットでモデルをファインチューニングし、追加のトレーニングタスクをマルチタスク学習の設定で作成することで、各タスクが関連するプローブスコアの9%〜52%の増加につながることを示した。
Issue Date: 2023-05-09 Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens, Zhanpeng Zeng+, N_A, arXiv23 Summary本論文では、Transformerモデルの二次コストを削減するために、各層でサイズ$r$が$n$に独立した表現に入力を圧縮する方法を提案する。VIPトークン中心の圧縮(Vcc)スキームを使用し、VIPトークンの表現を近似するために入力シーケンスを選択的に圧縮する。提案されたアルゴリズムは、競合するベースラインと比較して効率的であり、多数のタスクにおいて競争力のあるまたはより優れたパフォーマンスを発揮する。また、アルゴリズムは128Kトークンにスケーリングでき、一貫して精度の向上を提供することが示された。
Issue Date: 2023-05-09 Language Models Dont Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting, Miles Turpin+, N_A, arXiv23 SummaryLLMsによる推論において、chain-of-thought reasoning(CoT)と呼ばれる説明を生成することができるが、この説明がモデルの予測の真の理由を誤って表現することがあることがわかった。バイアスのある特徴をモデルの入力に追加することで、CoT説明が大きく影響を受けることが示された。この結果は、LLMsに対する信頼を高めるために、説明の忠実度を評価し、改善する必要があることを示唆している。
Issue Date: 2023-05-06 Cognitive Reframing of Negative Thoughts through Human-Language Model Interaction, Ashish Sharma+, N_A, arXiv23 Summary本論文では、言語モデルを使用して人々が否定的な考えを再構築するのを支援する方法について、心理学の文献に基づいて研究を行います。7つの言語属性のフレームワークを定義し、自動化されたメトリックを開発して、再構築された考えを効果的に生成し、その言語属性を制御します。大規模なメンタルヘルスのウェブサイトでランダム化フィールド研究を実施し、高度に共感的または具体的な再構築を好むことを示しました。言語モデルを使用して人々が否定的な考えを克服するのを支援するための重要な示唆を提供します。 #PersonalizedDocumentSummarization#NLP#Personalization#review
Issue Date: 2023-05-05 Towards Personalized Review Summarization by Modeling Historical Reviews from Customer and Product Separately, Xin Cheng+, N_A, arXiv23 Summaryレビュー要約は、Eコマースのウェブサイトにおいて製品レビューの主要なアイデアを要約することを目的としたタスクである。本研究では、評価情報を含む2種類の過去のレビューをグラフ推論モジュールと対比損失を用いて別々にモデル化するHHRRSを提案する。レビューの感情分類と要約を共同で行うマルチタスクフレームワークを採用し、4つのベンチマークデータセットでの徹底的な実験により、HHRRSが両方のタスクで優れた性能を発揮することが示された。
Issue Date: 2023-05-04 Pre-train and Search: Efficient Embedding Table Sharding with Pre-trained Neural Cost Models, Daochen Zha+, N_A, arXiv23 Summary本研究では、大規模な機械学習モデルを複数のデバイスに分散してシャーディングするための効率的な方法を提案しています。事前学習されたニューラルコストモデルを使用して、最適なシャーディングプランをオンラインで検索することで、従来手法を大幅に上回る性能を達成しました。NeuroShardは、表のシャーディングに適用され、最大23.8%の改善を達成しました。また、コードはオープンソース化されています。
Issue Date: 2023-05-04 Few-shot In-context Learning for Knowledge Base Question Answering, Tianle LI+, N_A, arXiv23 Summary知識ベース上の質問応答は困難であり、異なる知識ベースのスキーマアイテムの異質性が問題となる。KB-BINDERは、KBQAタスク上での少数のコンテキスト内学習を可能にするフレームワークであり、Codexのような大規模言語モデルを活用して、特定の質問のための論理形式を生成し、知識ベースに基づいてBM25スコアマッチングを用いて生成されたドラフトを実行可能なものに結びつける。実験結果は、KB-BINDERが異種KBQAデータセットで強力なパフォーマンスを発揮できることを示しており、将来の研究の重要なベースラインとして役立つことが期待される。
Issue Date: 2023-05-04 Causal Reasoning and Large Language Models: Opening a New Frontier for Causality, Emre Kıcıman+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を用いた因果推論について議論し、LLMsが因果関係のタスクを実行するために必要な知識源や方法について説明している。LLMsは、因果グラフの生成や自然言語からの因果関係の特定など、人間に制限されていた能力を持っており、因果関係手法の広範な採用に貢献することが期待される。また、LLMsは因果関係の研究、実践、採用の新しいフロンティアを開拓する可能性がある。
Issue Date: 2023-05-04 Generalizing Dataset Distillation via Deep Generative Prior, George Cazenavette+, N_A, arXiv23 SummaryDataset Distillationは、少数の合成データポイントを使用して元のデータでトレーニングされたモデルに近似することを目的としています。しかし、既存の方法は新しいアーキテクチャに汎化することができず、高解像度のデータセットにスケールすることができません。そこで、事前にトレーニングされた深層生成モデルから学習された事前分布を使用して、蒸留されたデータを合成することを提案し、新しい最適化アルゴリズムを提案しています。この手法は、クロスアーキテクチャの汎化を大幅に改善することができます。 Commentプロジェクトページhttps://georgecazenavette.github.io/glad/ ...
Issue Date: 2023-05-04 Distill or Annotate? Cost-Efficient Fine-Tuning of Compact Models, Junmo Kang+, N_A, arXiv23 Summary大規模モデルを微調整することは効果的だが、推論コストが高く、炭素排出量が発生する。知識蒸留は推論コストを削減するための実用的な解決策であるが、蒸留プロセス自体には膨大な計算リソースが必要。固定予算を最も効率的に使用してコンパクトなモデルを構築する方法を調査。T5-XXL(11B)からT5-Small(60M)への蒸留は、より多くのデータを注釈付きで直接トレーニングするよりもほぼ常にコスト効率の高いオプションであることがわかった。最適な蒸留量は、予算シナリオによって異なる。
Issue Date: 2023-05-04 The Internal State of an LLM Knows When its Lying, Amos Azaria+, N_A, arXiv23 SummaryLLMは優れたパフォーマンスを発揮するが、不正確な情報を生成することがある本研究では、LLMの内部状態を使用して文の真実性を検出する方法を提案分類器はLLMの活性化値を入力として受け取り、真実か偽かを検出する実験結果は、提案手法がフューショット・プロンプティング・メソッドを上回り、LLMの信頼性を向上させる可能性があることを示している。
Issue Date: 2023-05-04 Causal Reasoning and Large Language Models: Opening a New Frontier for Causality, Emre Kıcıman+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)を用いた因果推論について議論し、LLMsが因果関係のタスクにおいて高い精度を示すことを示した。また、LLMsは人間に制限されていた能力を持っており、因果グラフの生成や自然言語からの因果関係の特定などが可能であることが示された。LLMsは、因果関係の研究、実践、および採用の新しいフロンティアを開拓することが期待される。
Issue Date: 2023-05-04 ArK: Augmented Reality with Knowledge Interactive Emergent Ability, Qiuyuan Huang+, N_A, arXiv23 Summary本研究では、混合現実やインタラクティブAIエージェントのシステムが未知の環境で高品質な2D/3Dシーンを生成することが課題であることを指摘し、一般的な基礎モデルから知識メモリを転送して、物理的または仮想世界でのシーン理解と生成のための新しいドメインやシナリオに対応する無限エージェントを開発した。このアプローチには、知識推論インタラクションを拡張現実と呼ばれる新しいメカニズムがあり、知識メモリを活用して未知の物理世界や仮想現実環境でシーンを生成する。このアプローチは、生成された2D/3Dシーンの品質を大幅に向上させ、メタバースやゲームシミュレーションなどの応用において有用であることが示された。 Commentプロジェクトページhttps://augmented-reality-knowledge.github.io ...
Issue Date: 2023-05-04 What Do Self-Supervised Vision Transformers Learn?, Namuk Park+, N_A, arXiv23 Summary本研究では、対比学習(CL)とマスク画像モデリング(MIM)の比較的な研究を行い、自己教示学習されたVision Transformers(ViTs)がCLとMIMの両方の利点を活用することができることを示した。CLは長距離のグローバルなパターンを捉えることができ、ViTsは表現空間で画像を線形に分離することができるが、表現の多様性が低下し、スケーラビリティと密な予測パフォーマンスが悪化することがある。MIMは高周波情報を利用し、形状とテクスチャを表す。CLとMIMは互いに補完的であり、両方の方法の利点を活用することができる。コードはGitHubで利用可能。
Issue Date: 2023-05-04 GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation, Zhenhui Ye+, N_A, arXiv23 Summary本研究では、話す人物のポートレートを生成するためのNeRFベースの手法における課題を解決するために、GeneFace++を提案した。GeneFace++は、ピッチ輪郭を利用して口唇同期を実現し、局所線形埋め込み法を提案して頑健性の問題を回避し、高速なトレーニングとリアルタイム推論を実現するNeRFベースの動きからビデオへのレンダラーを設計することで、一般化された音声と口唇同期を持つ安定したリアルタイム話す顔生成を実現した。徹底的な実験により、提案手法が最先端のベースラインを上回ることが示された。ビデオサンプルはhttps://genefaceplusplus.github.ioで利用可能。 Commentプロジェクトページhttps://genefaceplusplus.github.io ...
Issue Date: 2023-05-04 Key-Locked Rank One Editing for Text-to-Image Personalization, Yoad Tewel+, N_A, arXiv23 Summary本研究では、テキストから画像へのモデル(T2I)の個人化手法であるPerfusionを提案し、高い視覚的忠実度を維持しながら創造的な制御を許可すること、複数の個人化された概念を単一の画像に組み合わせること、小さなモデルサイズを維持することなど、複数の困難な課題を解決する。Perfusionは、基礎となるT2Iモデルに対して動的なランク1の更新を使用することで、過学習を回避し、新しい概念のクロスアテンションキーを上位カテゴリにロックする新しいメカニズムを導入することで、学習された概念の影響を制御し、複数の概念を組み合わせることができるゲート付きランク1アプローチを開発した。Perfusionは、現在の最先端のモデルよりも5桁小さいが、強力なベースラインを定量的および定性的に上回ることが示された。 Commentプロジェクトページhttps://research.nvidia.com/labs/par/Perfusion/ ...
Issue Date: 2023-05-04 Poisoning Language Models During Instruction Tuning, Alexander Wan+, N_A, arXiv23 SummaryInstruction-tuned LMs(ChatGPT、FLAN、InstructGPTなど)は、ユーザーが提出した例を含むデータセットでfinetuneされる。本研究では、敵対者が毒入りの例を提供することで、LMの予測を操作できることを示す。毒入りの例を構築するために、LMのbag-of-words近似を使用して入出力を最適化する。大きなLMほど毒入り攻撃に対して脆弱であり、データフィルタリングやモデル容量の削減に基づく防御は、テストの正確性を低下させながら、中程度の保護しか提供しない。
Issue Date: 2023-05-04 Loss Landscapes are All You Need: Neural Network Generalization Can Be Explained Without the Implicit Bias of Gradient Descent, ICLR23
Issue Date: 2023-05-04 Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation, Yuval Kirstain+, N_A, arXiv23 Summaryテキストから画像へのユーザーの好みの大規模データセットが限られているため、Webアプリを作成してPick-a-Picデータセットを構築した。PickScoreというCLIPベースのスコアリング関数を訓練し、人間の好みを予測するタスクで超人的なパフォーマンスを発揮した。PickScoreは他の自動評価メトリックよりも人間のランキングとより良い相関があることが観察された。将来のテキストから画像への生成モデルの評価にはPickScoreを使用し、Pick-a-Picプロンプトを使用することを推奨する。PickScoreがランキングを通じて既存のテキストから画像へのモデルを強化する方法を示した。
Issue Date: 2023-05-04 Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge, Yasumasa Onoe+, N_A, arXiv23 Summary事前学習された言語モデル(LMs)のターゲット更新について研究されてきたが、注入された事実に基づいて推論を行うLMsの能力を研究する。2つのクローズスタイルのタスクで研究し、知識の更新に対する既存の方法は注入された知識の伝播をほとんど示さないことがわかった。しかし、LMの文脈にエンティティの定義を先行させると、すべての設定でパフォーマンスが向上することがわかり、知識注入のためのパラメータ更新アプローチには大きな余地があることを示唆している。
Issue Date: 2023-05-04 Learning to Reason and Memorize with Self-Notes, Jack Lanchantin+, N_A, arXiv23 Summary大規模言語モデルは、コンテキストメモリと多段階の推論に苦労するが、セルフノートを取ることでこれらの問題を解決できることが提案された。モデルは入力コンテキストから思考を逸脱し、情報を思い出し、推論を実行することができる。複数のタスクでの実験により、セルフノートを推論時に取ることで、より長く、より複雑なインスタンスに対しても成功裏に汎化できることが示された。 #Survey#Education#ChatGPT
Issue Date: 2023-05-04 A Review of ChatGPT Applications in Education, Marketing, Software Engineering, and Healthcare: Benefits, Drawbacks, and Research Directions, Mohammad Fraiwan+, N_A, arXiv23 SummaryChatGPTは、深層学習アルゴリズムを使用して人間らしい応答を生成する人工知能言語モデルである。最新のChatGPTバージョンが導入され、他の言語モデルも登場している。これらのモデルは、教育、ソフトウェアエンジニアリング、医療、マーケティングなどの分野で応用可能性がある。本論文では、これらのモデルの可能な応用、制限、欠点、および研究方向について議論する。
Issue Date: 2023-05-04 Multimodal Procedural Planning via Dual Text-Image Prompting, Yujie Lu+, N_A, arXiv23 Summary本研究では、具現化エージェントがテキストや画像に基づく指示を受けてタスクを完了するための多様なモーダル手順計画(MPP)タスクを提案し、Text-Image Prompting(TIP)を使用して、大規模言語モデル(LLMs)を活用して、テキストと画像の相互作用を改善する方法を提案しています。WIKIPLANとRECIPEPLANのデータセットを収集し、MPPのテストベッドとして使用し、単一モーダルおよび多様なモーダルのベースラインに対する人間の嗜好と自動スコアが魅力的であることを示しました。提案手法のコードとデータは、https://github.com/YujieLu10/MPPにあります。
Issue Date: 2023-05-04 Can ChatGPT Pass An Introductory Level Functional Language Programming Course?, Chuqin Geng+, N_A, arXiv23 SummaryChatGPTは多様なタスクを解決する印象的な能力を持ち、コンピュータサイエンス教育に大きな影響を与えている。本研究では、ChatGPTが初級レベルの関数型言語プログラミングコースでどの程度の性能を発揮できるかを探求した。ChatGPTを学生として扱い、B-の成績を達成し、全体の314人の学生のうち155位のランクを示した。包括的な評価により、ChatGPTの影響について貴重な洞察を提供し、潜在的な利点を特定した。この研究は、ChatGPTの能力とコンピュータサイエンス教育への潜在的な影響を理解する上で重要な進展をもたらすと信じられる。
Issue Date: 2023-05-04 Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime, Chuhan Zhang+, N_A, arXiv23 Summary本研究では、大規模なビジュアル言語モデルの事前学習と、少数の例からのタスク適応について調査し、自己ラベリングの重要性を示した。ImageNet、COCO、Localised Narratives、VQAv2などのビジュアル言語タスクで、提案されたタスク適応パイプラインを使用することで、大幅な利益を示した。
Issue Date: 2023-05-04 CodeGen2: Lessons for Training LLMs on Programming and Natural Languages, Erik Nijkamp+, N_A, arXiv23 Summary大規模言語モデル(LLMs)のトレーニングを効率的にするために、4つの要素を統合することを試みた。モデルアーキテクチャ、学習方法、インフィルサンプリング、データ分布を統合した。1B LLMsで実験を行い、成功と失敗を4つのレッスンにまとめた。CodeGen2モデルのトレーニング方法とトレーニングフレームワークをオープンソースで提供する。
Issue Date: 2023-05-04 GPTutor: a ChatGPT-powered programming tool for code explanation, Eason Chen+, N_A, arXiv23 Summary本論文では、ChatGPT APIを使用したプログラミングツールであるGPTutorを提案し、Visual Studio Codeの拡張機能として実装した。GPTutorは、プログラミングコードの説明を提供することができ、初期評価により、最も簡潔で正確な説明を提供することが示された。さらに、学生や教師からのフィードバックにより、GPTutorは使いやすく、与えられたコードを満足する説明ができることが示された。将来の研究方向として、プロンプトプログラミングによるパフォーマンスと個人化の向上、および実際のユーザーを対象としたGPTutorの効果の評価が含まれる。 Commentpersonalisationもかけているらしいので気になる ...
Issue Date: 2023-05-04 Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings, Daniel Rose+, N_A, arXiv23 Summary大規模言語モデルを用いた論理的な推論には限界があり、視覚的な拡張が必要であるという問題がある。そこで、VCoTという新しい手法を提案し、視覚言語グラウンディングを用いた推論のchain of thought promptingを再帰的に利用して、順序データ内の論理的なギャップを埋めることができる。VCoTは、Visual StorytellingとWikiHow summarizationのデータセットに適用され、人間の評価を通じて、新しい一貫性のある合成データ拡張を提供し、下流のパフォーマンスを向上させることができることが示された。
Issue Date: 2023-05-04 Unlimiformer: Long-Range Transformers with Unlimited Length Input, Amanda Bertsch+, N_A, arXiv23 Summary本研究では、Transformerベースのモデルに対して、すべてのレイヤーのアテンション計算を単一のk最近傍インデックスにオフロードすることで、入力長に事前に定義された境界をなくすことができるUnlimiformerを提案した。Unlimiformerは、長文書およびマルチドキュメント要約のベンチマークで有効性を示し、追加の学習済み重みを必要とせず、入力を無制限に拡張することができる。コードとモデルは、https://github.com/abertsch72/unlimiformerで公開されています。
Issue Date: 2023-05-04 Distilling Step-by-Step Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes, Cheng-Yu Hsieh+, N_A, arXiv23 Summary大規模言語モデル(LLMs)を小さなモデルに蒸留する新しいメカニズムを提案し、ファインチューニングや蒸留に必要なトレーニングデータを減らすことで、性能を向上させることができることを示した。また、小さなモデルでもLLMsを上回る性能を発揮することができ、利用可能なデータの80%のみを使用しても、LLMsを上回る性能を発揮することができることが実験によって示された。
Issue Date: 2023-05-01 Search-in-the-Chain: Towards the Accurate, Credible and Traceable Content Generation for Complex Knowledge-intensive Tasks, Shicheng Xu+, N_A, arXiv23 Summary本論文では、大規模言語モデル(LLMs)を使用した多段階質問応答タスクにおいて、正確性、信頼性、追跡性を向上させるための新しいフレームワークであるSearch-in-the-Chain(SearChain)を提案しています。SearChainは、LLMと情報検索(IR)を深く統合したフレームワークであり、LLMが生成するコンテンツの正確性と信頼性を高めることができます。実験結果は、SearChainが4つの多段階質問応答データセットで関連するベースラインを上回ることを示しています。
Issue Date: 2023-05-01 PMC-LLaMA: Further Finetuning LLaMA on Medical Papers, Chaoyi Wu+, N_A, arXiv23 Summary本報告書では、PMC-LLaMAというオープンソース言語モデルを紹介し、医療領域での能力を向上させるためにファインチューニングされたことを述べています。PMC-LLaMAは、バイオメディカルドメイン固有の概念をよりよく理解し、PubMedQA、MedMCQA、USMLEを含む3つのバイオメディカルQAデータセットで高いパフォーマンスを発揮することが示されています。モデルとコード、オンラインデモは、公開されています。 CommentLLaMAを4.8Mのmedical paperでfinetuningし、医療ドメインの能力を向上。このモデルはPMC-LLaMAと呼ばれ、biomedicalQAタスクで、高い性能を達成した。GPT-4を利用した異なるモデル間の出力の比較も行なっている模様 ...
Issue Date: 2023-04-30 Multi-Party Chat: Conversational Agents in Group Settings with Humans and Models, Jimmy Wei+, N_A, arXiv23 Summary本研究では、複数の話者が参加する会話を収集し、評価するために、マルチパーティの会話を構築する。LIGHT環境を使用して、各参加者が役割を演じるために割り当てられたキャラクターを持つグラウンデッドな会話を構築する。新しいデータセットで訓練されたモデルを、既存の二者間で訓練された対話モデル、およびfew-shot promptingを使用した大規模言語モデルと比較し、公開するMultiLIGHTという新しいデータセットが、グループ設定での大幅な改善に役立つことがわかった。
Issue Date: 2023-04-30 SemPPL: Predicting pseudo-labels for better contrastive representations, Matko Bošnjak+, N_A, arXiv23 Summary本研究では、コンピュータビジョンにおける半教師あり学習の問題を解決するために、Semantic Positives via Pseudo-Labels (SemPPL)という新しい手法を提案している。この手法は、ラベル付きとラベルなしのデータを組み合わせて情報豊富な表現を学習することができ、ResNet-$50$を使用してImageNetの$1\%$および$10\%$のラベルでトレーニングする場合、競合する半教師あり学習手法を上回る最高性能を発揮することが示された。SemPPLは、強力な頑健性、分布外および転移性能を示すことができる。
Issue Date: 2023-04-30 Segment Anything in Medical Images, Jun Ma+, N_A, arXiv23 Summary本研究では、自然画像セグメンテーションに革新的な手法であるSegment anything model (SAM)を医療画像に拡張するためのMedSAMを提案し、様々な医療ターゲットのセグメンテーションのための汎用ツールを作成することを目的としています。MedSAMは、大規模な医療画像データセットを用いて開発され、SAMを一般的な医療画像セグメンテーションに適応するためのシンプルなファインチューニング手法を開発しました。21の3Dセグメンテーションタスクと9の2Dセグメンテーションタスクに対する包括的な実験により、MedSAMは、平均Dice類似係数(DSC)がそれぞれ22.5%と17.6%で、デフォルトのSAMモデルを上回ることが示されました。コードとトレーニング済みモデルは、\url{https://github.com/bowang-lab/MedSAM}で公開されています。 CommentSAMの性能は医療画像に対しては限定的だったため、11の異なるモダリティに対して200kのマスクをした医療画像を用意しfinetuningしたMedSAMによって、医療画像のセグメンテーションの性能を大幅に向上。コードとモデルはpublicly available ...
Issue Date: 2023-04-28 We’re Afraid Language Models Aren’t Modeling Ambiguity, Liu+ (w_ Noah A. Smith), University of Washington, arXiv23 CommentLLMが曖昧性をどれだけ認知できるかを評価した初めての研究。言語学者がアノテーションした1,645サンプルの様々な曖昧さを含んだベンチマークデータを利用。GPT4は32%正解した。またNLIデータでfinetuningしたモデルでは72.5%のmacroF1値を達成。応用先として、誤解を招く ... #ComputerVision
Issue Date: 2023-04-27 Stable and low-precision training for large-scale vision-language models, Wortsman+, University of Washington, arXiv23 Comment![image](https://user-images.githubusercontent.com/12249301/235149432-1c818dc6-174c-4666-a26c-2ab9683b438b.png) ... #Tutorial#LanguageModel
Issue Date: 2023-04-27 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond, Yang+, Amazon, arXiv23 CommentLLMに関するチュートリアル ![image](https://user-images.githubusercontent.com/12249301/235145819-842cdef3-485c-4553-b234-46d4896a5ed7.png)encoder-onlyとまとめられているもの ... #RecommenderSystems#CollaborativeFiltering#GraphBased
Issue Date: 2023-04-26 Graph Collaborative Signals Denoising and Augmentation for Recommendation, Ziwei Fan+, N_A, SIGIR23 Summaryグラフ協調フィルタリング(GCF)は、推薦システムで人気のある技術ですが、相互作用が豊富なユーザーやアイテムにはノイズがあり、相互作用が不十分なユーザーやアイテムには不十分です。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を無視しているため、有益な隣接ノードの範囲が制限される可能性があります。本研究では、ユーザー-ユーザーおよびアイテム-アイテムの相関を組み込んだ新しいグラフの隣接行列と、適切に設計されたユーザー-アイテムの相互作用行列を提案します。実験では、改善された隣接ノードと低密度を持つ強化されたユーザー-アイテムの相互作用行列が、グラフベースの推薦において重要な利点をもたらすことを示しています。また、ユーザー-ユーザーおよびアイテム-アイテムの相関を含めることで、相互作用が豊富なユーザーや不十分なユーザーに対する推薦が改善されることも示しています。 Commentグラフ協調フィルタリングを改善グラフ協調フィルタリング (下記ツイッターより引用) user-item間の関係だけでなく、user-user間とitem-item間の情報を組み込むことで精度向上を達成した論文とのこと。 https://twitter.com/nogawanogawa/status ... image#MachineLearning#NLP#LanguageModel#Finetuning (SFT)#ReinforcementLearning
Issue Date: 2023-03-28 Reflexion: Language Agents with Verbal Reinforcement Learning, Noah Shinn+, N_A, arXiv23 Summary本研究では、言語エージェントを強化するための新しいフレームワークであるReflexionを提案しています。Reflexionエージェントは、言語的フィードバックを通じて自己反省し、より良い意思決定を促すために反省的なテキストを保持します。Reflexionはさまざまなタスクでベースラインエージェントに比べて大幅な改善を実現し、従来の最先端のGPT-4を上回る精度を達成しました。さらに、異なるフィードバック信号や統合方法、エージェントタイプの研究を行い、パフォーマンスへの影響についての洞察を提供しています。 Commentなぜ回答を間違えたのか自己反省させることでパフォーマンスを向上させる研究 ... #RecommenderSystems#NeuralNetwork#CTRPrediction
Issue Date: 2024-11-19 Deep Intention-Aware Network for Click-Through Rate Prediction, Yaxian Xia+, arXiv22 Comment#1531 の実験で利用されているベースライン ... #RecommenderSystems#NeuralNetwork#CTRPrediction
Issue Date: 2024-11-19 Deep Interest Highlight Network for Click-Through Rate Prediction in Trigger-Induced Recommendation, Qijie Shen+, WWW22 Comment#1531 の実験で利用されているベースライン ... #InformationRetrieval#NLP#LanguageModel#RetrievalAugmentedGeneration
Issue Date: 2024-11-11 Precise Zero-Shot Dense Retrieval without Relevance Labels, Luyu Gao+, arXiv22 #MachineTranslation#NLP#Dataset
Issue Date: 2024-09-26 No Language Left Behind: Scaling Human-Centered Machine Translation, NLLB Team+, N_A, arXiv22 Commentlow-resourceな言語に対するMTのベンチマーク ... #Pretraining#NLP#LanguageModel
Issue Date: 2024-09-26 UL2: Unifying Language Learning Paradigms, Yi Tay+, N_A, arXiv22 #NLP#LanguageModel#Finetuning (SFT)#InstructionTuning
Issue Date: 2024-09-25 Finetuned Language Models Are Zero-Shot Learners, Jason Wei+, N_A, ICLR22 CommentFLAN論文。Instruction Tuningを提案した研究。 ... #NLP#LanguageModel#SelfTaughtReasoner
Issue Date: 2024-09-15 STaR: Bootstrapping Reasoning With Reasoning, Eric Zelikman+, N_A, NeurIPS22 CommentOpenAI o1関連研究 ...
Issue Date: 2024-07-11 Knowledge Neurons in Pretrained Transformers, Damai Dai+, N_A, ACL22 Summary大規模な事前学習言語モデルにおいて、事実知識の格納方法についての研究を行いました。具体的には、BERTのfill-in-the-blank cloze taskを用いて、関連する事実を表現するニューロンを特定しました。また、知識ニューロンの活性化と対応する事実の表現との正の相関を見つけました。さらに、ファインチューニングを行わずに、知識ニューロンを活用して特定の事実知識を編集しようと試みました。この研究は、事前学習されたTransformers内での知識の格納に関する示唆に富んでおり、コードはhttps://github.com/Hunter-DDM/knowledge-neuronsで利用可能です。 Comment#1108 ...
Issue Date: 2024-05-28 T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics, Yiwei Qin+, N_A, arXiv22 Summary埋め込みベースのテキスト生成の評価には、教師付きの識別メトリクスと生成メトリクスの2つのパラダイムがあります。本研究では、教師付きと教師なしの信号を組み合わせたフレームワークを提案し、mT5をバックボーンとしてT5Scoreメトリクスを訓練しました。T5Scoreは他の既存のメトリクスと包括的な実証的比較を行い、セグメントレベルで最良のパフォーマンスを示しました。また、コードとモデルはGitHubで公開されています。
Issue Date: 2024-02-22 Dense Text Retrieval based on Pretrained Language Models: A Survey, Wayne Xin Zhao+, N_A, arXiv22 Summaryテキスト検索における最近の進歩に焦点を当て、PLMベースの密な検索に関する包括的な調査を行った。PLMsを使用することで、クエリとテキストの表現を学習し、意味マッチング関数を構築することが可能となり、密な検索アプローチが可能となる。この調査では、アーキテクチャ、トレーニング、インデックス作成、統合などの側面に焦点を当て、300以上の関連文献を含む包括的な情報を提供している。 #NaturalLanguageGeneration#NLP#DataToTextGeneration#StructuredData
Issue Date: 2023-10-28 MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text Generation, Swarnadeep Saha+, N_A, arXiv22 Summary本研究では、半構造化データからのテキスト生成における多段階の推論を行うためのMURMURという手法を提案しています。MURMURは、特定の言語的および論理的なスキルを持つニューラルモジュールと記号モジュールを組み合わせ、ベストファーストサーチ手法を使用して推論パスを生成します。実験結果では、MURMURは他のベースライン手法に比べて大幅な改善を示し、また、ドメイン外のデータでも同等の性能を達成しました。さらに、人間の評価では、MURMURは論理的に整合性のある要約をより多く生成することが示されました。 #Efficiency/SpeedUp#MachineLearning
Issue Date: 2023-08-16 Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning, Haokun Liu+, N_A, arXiv22 SummaryFew-shot in-context learning(ICL)とパラメータ効率の良いファインチューニング(PEFT)を比較し、PEFTが高い精度と低い計算コストを提供することを示す。また、新しいPEFTメソッドである(IA)^3を紹介し、わずかな新しいパラメータしか導入しないまま、強力なパフォーマンスを達成する。さらに、T-Fewというシンプルなレシピを提案し、タスク固有のチューニングや修正なしに新しいタスクに適用できる。RAFTベンチマークでT-Fewを使用し、超人的なパフォーマンスを達成し、最先端を6%絶対的に上回る。
Issue Date: 2023-08-16 Crosslingual Generalization through Multitask Finetuning, Niklas Muennighoff+, N_A, arXiv22 Summaryマルチタスクプロンプトフィネチューニング(MTF)は、大規模な言語モデルが新しいタスクに汎化するのに役立つことが示されています。この研究では、マルチリンガルBLOOMとmT5モデルを使用してMTFを実施し、英語のプロンプトを使用して英語および非英語のタスクにフィネチューニングすることで、タスクの汎化が可能であることを示しました。さらに、機械翻訳されたプロンプトを使用してマルチリンガルなタスクにフィネチューニングすることも調査し、モデルのゼロショットの汎化能力を示しました。また、46言語の教師ありデータセットのコンポジットであるxP3も紹介されています。 #BeamSearch#NaturalLanguageGeneration#NLP
Issue Date: 2023-08-16 Momentum Calibration for Text Generation, Xingxing Zhang+, N_A, arXiv22 Summary本研究では、テキスト生成タスクにおいてMoCa(Momentum Calibration)という手法を提案しています。MoCaは、ビームサーチを用いた遅く進化するサンプルを動的に生成し、これらのサンプルのモデルスコアを実際の品質に合わせるように学習します。実験結果は、MoCaが強力な事前学習済みTransformerを改善し、最先端の結果を達成していることを示しています。 #DocumentSummarization#BeamSearch#NaturalLanguageGeneration#NLP
Issue Date: 2023-08-16 BRIO: Bringing Order to Abstractive Summarization, Yixin Liu+, N_A, arXiv22 Summary従来の抽象的要約モデルでは、最尤推定を使用して訓練されていましたが、この方法では複数の候補要約を比較する際に性能が低下する可能性があります。そこで、非確定論的な分布を仮定し、候補要約の品質に応じて確率を割り当てる新しい訓練パラダイムを提案しました。この手法により、CNN/DailyMailとXSumのデータセットで最高の結果を達成しました。さらに、モデルが候補要約の品質とより相関のある確率を推定できることも示されました。 Commentビーム内のトップがROUGEを最大化しているとは限らなかったため、ROUGEが最大となるような要約を選択するようにしたら性能爆上げしましたという研究。実質現在のSoTA ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#NLP#Evaluation#Reference-based
Issue Date: 2023-08-14 SMART: Sentences as Basic Units for Text Evaluation, Reinald Kim Amplayo+, N_A, arXiv22 Summary本研究では、テキスト生成の評価指標の制限を緩和するために、新しい指標であるSMARTを提案する。SMARTは文を基本的なマッチング単位とし、文のマッチング関数を使用して候補文と参照文を評価する。また、ソースドキュメントの文とも比較し、評価を可能にする。実験結果は、SMARTが他の指標を上回ることを示し、特にモデルベースのマッチング関数を使用した場合に有効であることを示している。また、提案された指標は長い要約文でもうまく機能し、特定のモデルに偏りが少ないことも示されている。 #DocumentSummarization#Metrics#NLP#Evaluation#Reference-free#Reference-based
Issue Date: 2023-08-13 FFCI: A Framework for Interpretable Automatic Evaluation of Summarization, Fajri Koto+, N_A, JAIR22 Summary本論文では、FFCIという細かい要約評価のためのフレームワークを提案しました。このフレームワークは、信頼性、焦点、カバレッジ、および文間の連続性の4つの要素から構成されています。新しいデータセットを構築し、評価メトリックとモデルベースの評価方法をクロス比較することで、FFCIの4つの次元を評価するための自動的な方法を開発しました。さまざまな要約モデルを評価し、驚くべき結果を得ました。 Comment先行研究でどのようなMetricが利用されていて、それらがどういった観点のMetricなのかや、データセットなど、非常に細かくまとまっている。Faithfulness(ROUGE, STS-Score, BERTScoreに基づく), Focus and Coverage (Question Ans ... #DocumentSummarization#NaturalLanguageGeneration#Metrics#NLP#Evaluation#Reference-based
Issue Date: 2023-08-13 InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation, Pierre Colombo+, N_A, AAAI22 Summary自然言語生成システムの品質評価は高価であり、人間の注釈に頼ることが一般的です。しかし、自動評価指標を使用することもあります。本研究では、マスクされた言語モデルを使用した評価指標であるInfoLMを紹介します。この指標は同義語を処理することができ、要約やデータ生成の設定で有意な改善を示しました。 #DocumentSummarization#NaturalLanguageGeneration#Metrics#NLP#Evaluation#Reference-based
Issue Date: 2023-08-13 WIDAR -- Weighted Input Document Augmented ROUGE, Raghav Jain+, N_A, ECIR22 Summary自動テキスト要約の評価において、ROUGEメトリックには制約があり、参照要約の利用可能性に依存している。そこで、本研究ではWIDARメトリックを提案し、参照要約だけでなく入力ドキュメントも使用して要約の品質を評価する。WIDARメトリックは一貫性、整合性、流暢さ、関連性の向上をROUGEと比較しており、他の最先端のメトリックと同等の結果を短い計算時間で得ることができる。 #DocumentSummarization#NLP#Evaluation
Issue Date: 2023-08-13 How to Find Strong Summary Coherence Measures? A Toolbox and a Comparative Study for Summary Coherence Measure Evaluation, Steen+, COLING22 Summary要約の一貫性を自動的に評価することは重要であり、さまざまな方法が提案されていますが、異なるデータセットと評価指標を使用して評価されるため、相対的なパフォーマンスを理解することが困難です。本研究では、要約の一貫性モデリングのさまざまな方法について調査し、新しい分析尺度を導入します。現在の自動一貫性尺度はすべての評価指標において信頼性のある一貫性スコアを割り当てることができませんが、大規模言語モデルは有望な結果を示しています。
Issue Date: 2023-08-13 Self-Repetition in Abstractive Neural Summarizers, Nikita Salkar+, N_A, Assoc Comput Linguist Meet22 Summary私たちは、BART、T5、およびPegasusという3つのニューラルモデルの出力における自己繰り返しの分析を行いました。これらのモデルは、異なるデータセットでfine-tuningされています。回帰分析によると、これらのモデルは入力の出力要約間でコンテンツを繰り返す傾向が異なることがわかりました。また、抽象的なデータや定型的な言語を特徴とするデータでのfine-tuningでは、自己繰り返しの割合が高くなる傾向があります。定性的な分析では、システムがアーティファクトや定型フレーズを生成することがわかりました。これらの結果は、サマライザーのトレーニングデータを最適化するための手法の開発に役立つ可能性があります。 #DocumentSummarization#NLP#Evaluation
Issue Date: 2023-08-13 Universal Evasion Attacks on Summarization Scoring, Wenchuan Mu+, N_A, BlackboxNLP workshop on ACL22 Summary要約の自動評価は重要であり、その評価は複雑です。しかし、これまで要約の評価は機械学習のタスクとは考えられていませんでした。本研究では、自動評価の堅牢性を探るために回避攻撃を行いました。攻撃システムは、要約ではない文字列を予測し、一般的な評価指標であるROUGEやMETEORにおいて優れた要約器と競合するスコアを達成しました。また、攻撃システムは最先端の要約手法を上回るスコアを獲得しました。この研究は、現在の評価システムの堅牢性の低さを示しており、要約スコアの開発を促進することを目指しています。 #DocumentSummarization#NLP#Evaluation
Issue Date: 2023-08-13 DocAsRef: A Pilot Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely, Forrest Sheng Bao+, N_A, arXiv22 Summary参照ベースと参照フリーの要約評価メトリックがあります。参照ベースは正確ですが、制約があります。参照フリーは独立していますが、ゼロショットと正確さの両方を満たせません。本研究では、参照ベースのメトリックを使用してゼロショットかつ正確な参照フリーのアプローチを提案します。実験結果は、このアプローチが最も優れた参照フリーのメトリックを提供できることを示しています。また、参照ベースのメトリックの再利用と追加の調整についても調査しています。 #NLP#PersonalizedGeneration#Personalization#PersonalizedHeadlineGeneration
Issue Date: 2023-08-11 Personalized News Headline Generation System with Fine-grained User Modeling, Yao, MSN22 Summaryユーザーの興味に基づいてパーソナライズされたニュースの見出しを生成するために、文レベルの情報を考慮したユーザーモデルを提案する。アテンション層を使用して文とニュースの関連性を計算し、ニュースの内容に基づいて見出しを生成する。実験結果は、提案モデルがベースラインモデルよりも優れたパフォーマンスを示していることを示している。将来の方向性として、情報のレベルと内容を横断する相互作用についても議論されている。 #NLP#PersonalizedGeneration#Personalization#PersonalizedHeadlineGeneration
Issue Date: 2023-08-11 Personalized Headline Generation with Enhanced User Interest Perception, Zhang+, ICANN22 Summaryユーザーのニュース閲覧履歴をモデル化し、個別化されたニュース見出しを生成するための新しいフレームワークを提案する。提案手法は、ユーザーの興味を強調するために候補テキストに関連する情報を活用し、ニュースのエンティティワードを使用して興味表現を改善する。幅広い実験により、提案手法が見出し生成タスクで優れたパフォーマンスを示すことが示されている。 #RecommenderSystems#NLP#PersonalizedGeneration#Personalization
Issue Date: 2023-08-11 Personalized Chit-Chat Generation for Recommendation Using External Chat Corpora, Chen+, KDD22 Summaryチットチャットは、ユーザーとの対話において効果的であることが示されています。この研究では、ニュース推薦のための個人化されたチットチャットを生成する方法を提案しています。既存の方法とは異なり、外部のチャットコーパスのみを使用してユーザーの関心を推定し、個人化されたチットチャットを生成します。幅広い実験により、提案手法の効果が示されています。
Issue Date: 2023-08-03 Explaining Patterns in Data with Language Models via Interpretable Autoprompting, Chandan Singh+, N_A, arXiv22 Summary本研究では、大規模言語モデル(LLMs)を使用してデータのパターンを説明する能力を探求しました。具体的には、事前学習済みのLLMを使用してデータを説明する自然言語の文字列を生成するアルゴリズムを導入しました。実験結果は、このアルゴリズムが正確なデータセットの説明を見つけ出すことができることを示しています。また、生成されるプロンプトは人間にも理解可能であり、実世界のデータセットやfMRIデータセットで有用な洞察を提供することができることも示されました。
Issue Date: 2023-07-23 Will Large-scale Generative Models Corrupt Future Datasets?, Ryuichiro Hataya+, N_A, arXiv22 #Pretraining#MachineLearning#Self-SupervisedLearning
Issue Date: 2023-07-22 RankMe: Assessing the downstream performance of pretrained self-supervised representations by their rank, Quentin Garrido+, N_A, arXiv22 Summary共有埋め込み自己教示学習(JE-SSL)は、成功の視覚的な手がかりが欠如しているため、展開が困難である。本研究では、JE-SSL表現の品質を評価するための非教示基準であるRankMeを開発した。RankMeはラベルを必要とせず、ハイパーパラメータの調整も不要である。徹底的な実験により、RankMeが最終パフォーマンスのほとんど減少なしにハイパーパラメータの選択に使用できることを示した。RankMeはJE-SSLの展開を容易にすることが期待される。 #NaturalLanguageGeneration#Controllable#NLP
Issue Date: 2023-07-18 An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text Generation, Xuancheng Huang+, N_A, arXiv22 Summary本研究では、テキスト生成において複数の側面を制御する方法について研究しました。従来の方法では、プレフィックスの相互干渉により制約が低下し、未知の側面の組み合わせを制御することが制限されていました。そこで、トレーニング可能なゲートを使用してプレフィックスの介入を正規化し、相互干渉の増加を抑制する方法を提案しました。この方法により、トレーニング時に未知の制約を低コストで拡張することができます。さらに、カテゴリカルな制約と自由形式の制約の両方を処理する統一された方法も提案しました。実験により、提案手法が制約の正確さ、テキストの品質、拡張性においてベースラインよりも優れていることが示されました。
Issue Date: 2023-07-03 Holistic Evaluation of Language Models, Percy Liang+, N_A, arXiv22 Summary言語モデルの透明性を向上させるために、Holistic Evaluation of Language Models(HELM)を提案する。HELMでは、潜在的なシナリオとメトリックを分類し、広範なサブセットを選択して評価する。さらに、複数のメトリックを使用し、主要なシナリオごとに評価を行う。30の主要な言語モデルを42のシナリオで評価し、HELM以前に比べて評価のカバレッジを改善した。HELMはコミュニティのためのベンチマークとして利用され、新しいシナリオ、メトリック、モデルが継続的に更新される。
Issue Date: 2023-07-03 Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models, Aarohi Srivastava+, N_A, arXiv22 Summary言語モデルの能力と制約を理解するために、BIG-benchという新しいベンチマークを導入しました。このベンチマークでは、現在の言語モデルの能力を超えるタスクに焦点を当てています。さまざまなトピックの204のタスクが含まれており、モデルのサイズや性能の比較も行いました。結果として、モデルの性能とキャリブレーションは向上していますが、絶対的な性能は低く、モデル間の性能も似ていることがわかりました。また、スパース性からの利益やタスクの特性についても調査しました。さらに、曖昧な文脈の設定では社会的な偏見が増加することも示されましたが、プロンプトの使用で改善できる可能性もあります。
Issue Date: 2023-05-15 Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, Ananya Kumar+, N_A, arXiv22 Summary事前学習済みモデルをダウンストリームタスクに転移する際、ファインチューニングと線形プロービングの2つの方法があるが、本研究では、分布のシフトが大きい場合、ファインチューニングが線形プロービングよりも分布外で精度が低くなることを発見した。LP-FTという2段階戦略の線形プロービング後の全体のファインチューニングが、両方のデータセットでファインチューニングと線形プロービングを上回ることを示唆している。 CommentLLMをfinetuningする方法は大きく分けて1. output layerのみ2. より多くのレイヤー(LLM全体)の2種類がある。前者はin-distributionデータに強いが、out-of-distributionに弱い。後者は逆という互いが互いを補完し合う関係にあった。そ ... image
Issue Date: 2023-05-11 Out of One, Many: Using Language Models to Simulate Human Samples, Lisa P. Argyle+, N_A, arXiv22 Summary本研究では、言語モデルが社会科学研究において特定の人間のサブポピュレーションの代理として研究される可能性があることを提案し、GPT-3言語モデルの「アルゴリズム的忠実度」を探求する。アルゴリズム的忠実度が十分である言語モデルは、人間や社会の理解を進めるための新しい強力なツールとなる可能性があると提案する。
Issue Date: 2023-05-04 Mass-Editing Memory in a Transformer, Kevin Meng+, N_A, arXiv22 Summary大規模言語モデルを更新することで、専門的な知識を追加できることが示されているしかし、これまでの研究は主に単一の関連付けの更新に限定されていた本研究では、MEMITという方法を開発し、多数のメモリを直接言語モデルに更新することができることを実験的に示したGPT-J(6B)およびGPT-NeoX(20B)に対して数千の関連付けまでスケーリングでき、これまでの研究を桁違いに上回ることを示したコードとデータはhttps://memit.baulab.infoにあります。
Issue Date: 2023-05-04 Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them, Mirac Suzgun+, N_A, arXiv22 SummaryBIG-Bench Hard (BBH) is a suite of 23 challenging tasks that current language models have not been able to surpass human performance on. This study focuses on applying chain-of-thought prompting to BBH tasks and found that PaLM and Codex were able to surpass human performance on 10 and 17 tasks, respectively. The study also found that CoT prompting is necessary for tasks that require multi-step reasoning and that CoT and model scale interact to enable new task performance on some BBH tasks.
Issue Date: 2023-05-04 Frustratingly Easy Label Projection for Cross-lingual Transfer, Yang Chen+, N_A, arXiv22 Summary多言語のトレーニングデータの翻訳は、クロスリンガル転移の改善に役立つスパンレベル注釈が必要なタスクでは、注釈付きスパンを翻訳されたテキストにマッピングするために追加のラベルプロジェクションステップが必要マーク-翻訳法を利用するアプローチが従来の注釈プロジェクションと比較してどのようになるかについての実証的な分析を行ったEasyProjectと呼ばれるマーク-翻訳法の最適化されたバージョンが多言語に簡単に適用でき、より複雑な単語アラインメントベースの方法を上回ることを示したすべてのコードとデータが公開される
Issue Date: 2023-04-30 Efficiently Scaling Transformer Inference, Reiner Pope+, N_A, arXiv22 Summary大規模Transformerベースのモデルの推論のエンジニアリングのトレードオフを理解するために、最適な多次元分割技術を選択するための単純な解析モデルを開発低レベルの最適化と組み合わせることで、500B+パラメータモデルのレイテンシーとモデルFLOPS利用率のトレードオフにおいて、FasterTransformerベンチマークスイートを上回る新しいParetoフロンティアを実現適切な分割により、マルチクエリアテンションの低いメモリ要件により、32倍の大きなコンテキスト長にスケーリング可能int8ウェイト量子化を使用した生成中の低バッチサイズレイテンシーは、トークンあたり29msであり、入力トークンの大バッチサイズ処理において76%のMFUを実現し、PaLM 540Bパラメータモデルにおいて2048トークンの長いコンテキスト長をサポートしている。 Comment特にMultiquery Attentionという技術がTransformerのinferenceのコスト削減に有効らしい ... #NeuralNetwork#NLP#LanguageModel
Issue Date: 2022-12-05 UNIFIEDSKG: Unifying and Multi-Tasking Structured Knowledge Grounding with Text-to-Text Language Models, Xie+, EMNLP22 #Pretraining#NLP
Issue Date: 2022-12-01 Revisiting Pretraining Objectives for Tabular Deep Learning, Rubachev+, Yandex+, arXiv22 CommentTabular Dataを利用した場合にKaggleなどでDeepなモデルがGBDT等に勝てないことが知られているが、GBDT等とcomparable になる性能になるようなpre-trainingを提案したよ、的な内容っぽい ... #NeuralNetwork#ComputerVision
Issue Date: 2022-12-01 Sketch-Guided Text-to-Image Diffusion Models, Andrey+, Google Research, arXiv22 Commentスケッチとpromptを入力することで、スケッチ biasedな画像を生成することができる技術。すごい。 ![image](https://user-images.githubusercontent.com/12249301/205189823-66052368-60a8-4f03-a4b6-37 ... #AdaptiveLearning#KnowledgeTracing
Issue Date: 2022-08-10 No Task Left Behind: Multi-Task Learning of Knowledge Tracing and Option Tracing for Better Student Assessment, An+, RiiiD, AAAI22 #AdaptiveLearning#KnowledgeTracing
Issue Date: 2022-08-02 Interpretable Knowledge Tracing: Simple and Efficient Student Modeling with Causal Relations, Minn+, AAAI22 CommentDeepLearningを用いずに解釈性の高いKTモデルを提案。DKT, DKVMN, AKT等をoutperformしている。 ... #Survey#AdaptiveLearning#EducationalDataMining#KnowledgeTracing
Issue Date: 2022-08-02 Knowledge Tracing: A Survey, ABDELRAHMAN+, Australian National University, arXiv22
Issue Date: 2022-08-01 GRAM: Fast Fine-tuning of Pre-trained Language Models for Content-based Collaborative Filtering, Yang+, RiiiD, NAACL22 CommentRiiiDがNAACL'22に論文通してた ... #Analysis#NLP#Adapter/LoRA
Issue Date: 2024-10-01 Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning, Armen Aghajanyan+, N_A, ACL21 CommentACL ver:https://aclanthology.org/2021.acl-long.568.pdf下記の元ポストを拝読の上論文を斜め読み。モデルサイズが大きいほど、特定の性能(論文中では2種類のデータセットでの90%のsentence prediction性能)をfinetuningで達成 ... #Analysis#NLP#Transformer
Issue Date: 2024-07-11 Transformer Feed-Forward Layers Are Key-Value Memories, Mor Geva+, N_A, EMNLP21 Summaryトランスフォーマーモデルのフィードフォワード層は、キー・バリューメモリとして機能し、学習されたパターンが人間に解釈可能であることや、上位層がより意味のあるパターンを学習することが示されました。さらに、出力分布を誘導する役割も持ちます。フィードフォワード層の出力はそのメモリの合成であり、残差接続を介してモデルの層を通じて洗練され、最終的な出力分布を生成します。 Comment#1108FF layerがKey-Valueストアとして機能する仕組みの概略図![image](https://github.com/user-attachments/assets/cc12695f-b030-433a-88e1-aed69f9847a7)実際に特定のKeyと最も関連度が高い訓練事 ... #Analysis#NaturalLanguageGeneration#NLP#Evaluation#Annotation
Issue Date: 2024-05-15 The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation, Marzena Karpinska+, N_A, EMNLP21 Summary最近のテキスト生成の研究は、オープンエンドのドメインに注力しており、その評価が難しいため、多くの研究者がクラウドソーシングされた人間の判断を収集してモデリングを正当化している。しかし、多くの研究は重要な詳細を報告しておらず、再現性が妨げられていることがわかった。さらに、労働者はモデル生成のテキストと人間による参照テキストを区別できないことが発見され、表示方法を変更することで改善されることが示された。英語教師とのインタビューでは、モデル生成のテキストを評価する際の課題について、より深い洞察が得られた。 CommentOpen-endedなタスクに対するAMTの評価の再現性に関する研究。先行研究をSurveyしたところ、再現のために重要な情報(たとえば、workerの資格、費用、task descriptions、annotator間のagreementなど)が欠落していることが判明した。 続いて、expert# ... image
Issue Date: 2023-08-22 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision, Wonjae Kim+, N_A, arXiv21 SummaryVLP(Vision-and-Language Pre-training)のアプローチは、ビジョンと言語のタスクでのパフォーマンスを向上させているが、現在の方法は効率性と表現力の面で問題がある。そこで、本研究では畳み込みフリーのビジョンと言語のトランスフォーマ(ViLT)モデルを提案する。ViLTは高速でありながら競争力のあるパフォーマンスを示し、コードと事前学習済みの重みはGitHubで利用可能である。 #Sentence#Embeddings#NLP#LanguageModel#ContrastiveLearning#Catastrophic Forgetting
Issue Date: 2023-07-27 SimCSE: Simple Contrastive Learning of Sentence Embeddings, Tianyu Gao+, N_A, EMNLP21 Summaryこの論文では、SimCSEという対比学習フレームワークを提案しています。このフレームワークは、文の埋め込み技術を進化させることができます。教師なしアプローチでは、入力文をノイズとして扱い、自己を対比的に予測します。教師ありアプローチでは、自然言語推論データセットから注釈付きのペアを使用して対比学習を行います。SimCSEは、意味的テキスト類似性タスクで評価され、以前の手法と比較して改善を実現しました。対比学習は、事前学習された埋め込みの空間を均一に正則化し、教師信号が利用可能な場合には正のペアをよりよく整列させることが示されました。 Comment#462 よりも性能良く、unsupervisedでも学習できる。STSタスクのベースラインにだいたい入ってる# 手法概要 Contrastive Learningを活用して、unsupervised/supervisedに学習を実施する。 Unsupervised SimCSEでは、あるsente ... image#NLP#Dataset#LanguageModel#MultitaskLearning
Issue Date: 2023-07-26 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, ICLR21 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは、57のタスクをカバーし、広範な世界知識と問題解決能力を必要とします。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの理解の幅と深さを評価し、重要な欠点を特定するために使用できます。 #PersonalizedDocumentSummarization#NLP#review
Issue Date: 2023-05-06 Transformer Reasoning Network for Personalized Review Summarization, Xu+, SIGIR21 Comment先行研究は、review summarizationにおいて生成されるsummaryは、過去にユーザが作成したsummaryのwriting styleやproductに非常に関係しているのに、これらを活用してこなかったので、活用しました(=personalized)という話っぽい ...
Issue Date: 2023-05-04 Sequence Parallelism: Long Sequence Training from System Perspective, Shenggui Li+, N_A, arXiv21 Summary本研究では、Transformerの自己注意機構がシーケンスの長さに対して二次のメモリ要件を持つ問題を解決するため、シーケンス並列処理というメモリ効率の高い並列処理方法を提案しました。このアプローチは、既存の並列処理と互換性があり、疎な注意機構を使用することで無限に長いシーケンスでTransformerをトレーニングできるようになります。実験結果は、シーケンス並列処理がバッチサイズとシーケンスの長さのスケーリングにおいて優れたパフォーマンスを発揮することを示しています。また、疎な注意機構を使用することで、27倍以上長いシーケンスを処理できることがわかりました。 #AdaptiveLearning#ScorePrediction
Issue Date: 2022-08-31 Condensed Discriminative Question Set for Reliable Exam Score Prediction, Jung+, Riiid, AIED21 #NeuralNetwork#EducationalDataMining#KnowledgeTracing
Issue Date: 2022-08-31 Behavioral Testing of Deep Neural Network Knowledge Tracing Models, Kim+, Riiid, EDM21 #AdaptiveLearning#EducationalDataMining#OptionTracing
Issue Date: 2022-08-18 Option Tracing: Beyond Correctness Analysis in Knowledge Tracing, Ghosh+, AIED21 CommentこれまでのKTは問題の正誤(correctness)に対してfittingしていたが、この研究ではmultiple choice questionでどの選択肢を選択するかを予測するタスクを提案している。 ... #NeuralNetwork#AdaptiveLearning#EducationalDataMining#LearningAnalytics#KnowledgeTracing
Issue Date: 2022-04-28 BEKT: Deep Knowledge Tracing with Bidirectional Encoder Representations from Transformers, Tian+ (緒方先生), Kyoto University, ICCE21 CommentKTにBERTを利用した研究 #453 などでDeepLearningBasedなモデル間であまり差がないことが示されているので、本研究が実際どれだけ強いのかは気になるところ。 ... #NeuralNetwork#NaturalLanguageGeneration#NLP#DataToTextGeneration
Issue Date: 2021-10-08 過去情報の内容選択を取り入れた スポーツダイジェストの自動生成, 加藤+, 東工大, NLP21 #AdaptiveLearning
Issue Date: 2021-08-04 RLTutor: Reinforcement Learning Based Adaptive Tutoring System by Modeling Virtual Student with Fewer Interactions, Kubotani+, Waseda University, IJCAI21
Issue Date: 2024-05-26 COMET: A Neural Framework for MT Evaluation, Ricardo Rei+, N_A, arXiv20 SummaryCOMETは、多言語機械翻訳評価モデルを訓練するためのニューラルフレームワークであり、人間の判断との新しい最先端の相関レベルを達成します。クロスリンガル事前学習言語モデリングの進展を活用し、高度に多言語対応かつ適応可能なMT評価モデルを実現します。WMT 2019 Metrics shared taskで新たな最先端のパフォーマンスを達成し、高性能システムに対する堅牢性を示しています。 #RetrievalAugmentedGeneration
Issue Date: 2023-12-01 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis+, N_A, arXiv20 Summary大規模な事前学習言語モデルを使用した検索強化生成(RAG)の微調整手法を提案しました。RAGモデルは、パラメトリックメモリと非パラメトリックメモリを組み合わせた言語生成モデルであり、幅広い知識集約的な自然言語処理タスクで最先端の性能を発揮しました。特に、QAタスクでは他のモデルを上回り、言語生成タスクでは具体的で多様な言語を生成することができました。 CommentRAGを提案した研究 ... image#DocumentSummarization#Metrics#NLP#Evaluation#Reference-free#QA-based
Issue Date: 2023-08-20 Asking and Answering Questions to Evaluate the Factual Consistency of Summaries, Wang, ACL20 Summary要約の事実の不整合を特定するための自動評価プロトコルであるQAGSを提案する。QAGSは、要約とソースについて質問をし、整合性がある回答を得ることで要約の事実的整合性を評価する。QAGSは他の自動評価指標と比較して高い相関を持ち、自然な解釈可能性を提供する。QAGSは有望なツールであり、https://github.com/W4ngatang/qagsで利用可能。 CommentQAGS生成された要約からQuestionを生成する手法。precision-oriented ... #DocumentSummarization#NLP#Hallucination
Issue Date: 2023-08-16 Reducing Quantity Hallucinations in Abstractive Summarization, Zheng Zhao+, N_A, EMNLP20 SummaryHermanシステムは、抽象的な要約において幻覚を回避するために、数量エンティティを認識し、元のテキストでサポートされている数量用語を持つ要約を上位にランク付けするアプローチを提案しています。実験結果は、このアプローチが高い適合率と再現率を持ち、F$_1$スコアが向上することを示しています。また、上位にランク付けされた要約が元の要約よりも好まれることも示されています。 Comment数量に関するhallucinationを緩和する要約手法 ...
Issue Date: 2023-07-24 Measuring Massive Multitask Language Understanding, Dan Hendrycks+, N_A, arXiv20 Summary私たちは、マルチタスクのテキストモデルの正確性を測定するための新しいテストを提案しています。このテストは57のタスクをカバーし、広範な世界知識と問題解決能力が必要です。現在のモデルはまだ専門家レベルの正確性に達しておらず、性能に偏りがあります。私たちのテストは、モデルの弱点を特定するために使用できます。 #PersonalizedDocumentSummarization#NLP#review
Issue Date: 2023-05-06 A Unified Dual-view Model for Review Summarization and Sentiment Classification with Inconsistency Loss, Hou Pong Chan+, N_A, arXiv20 Summaryユーザーレビューから要約と感情を取得するために、新しいデュアルビューモデルを提案。エンコーダーがレビューの文脈表現を学習し、サマリーデコーダーが要約を生成。ソースビュー感情分類器はレビューの感情ラベルを予測し、サマリービュー感情分類器は要約の感情ラベルを予測。不一致損失を導入して、2つの分類器の不一致を罰することで、デコーダーが一貫した感情傾向を持つ要約を生成し、2つの感情分類器がお互いから学ぶことができるようになる。4つの実世界データセットでの実験結果は、モデルの効果を示している。 CommentReview SummarizationとSentiment Classificationをjointで学習した研究。既存研究ではreviewのみからsentimentの情報を獲得する枠組みは存在したが、summaryの情報が活用できていなかった。 #653 のratingをsentiment lし ... #Education#AdaptiveLearning#EducationalDataMining
Issue Date: 2022-12-27 Reinforcement Learning for the Adaptive Scheduling of Educational Activities, Bassen+, Stanford University, CHI20 #AdaptiveLearning#KnowledgeTracing
Issue Date: 2022-08-17 Deep Knowledge Tracing with Transformers, Shi+ (w_ Michael Yudelson), ETS_ACT, AIED20 CommentTransformerでKTした研究。あまり引用されていない。SAINT, SAINT+と同時期に発表されている。 ... #NeuralNetwork#AdaptiveLearning#EducationalDataMining#LearningAnalytics#KnowledgeTracing
Issue Date: 2022-04-27 Context-Aware Attentive Knowledge Tracing, Ghosh+, University of Massachusetts Amherst, KDD20 Commentこの論文の実験ではSAKTがDKVMNやDKTに勝てていない ... #NeuralNetwork#MachineLearning#NLP
Issue Date: 2021-06-09 All Word Embeddings from One Embedding, Takase+, NeurIPS20 CommentNLPのためのNN-basedなモデルのパラメータの多くはEmbeddingによるもので、従来は個々の単語ごとに異なるembeddingをMatrixの形で格納してきた。この研究ではモデルのパラメータ数を減らすために、個々のword embeddingをshared embeddingの変換によって ... #Survey#NaturalLanguageGeneration#NLP
Issue Date: 2020-08-25 Evaluation of Text Generation: A Survey, Celikyilmaz, Clark, Gao, arXiv20 #Efficiency/SpeedUp#NLP#LanguageModel#Transformer#Attention
Issue Date: 2024-04-07 Fast Transformer Decoding: One Write-Head is All You Need, Noam Shazeer, N_A, arXiv19 Summaryマルチヘッドアテンションレイヤーのトレーニングは高速かつ簡単だが、増分推論は大きな"keys"と"values"テンソルを繰り返し読み込むために遅くなることがある。そこで、キーと値を共有するマルチクエリアテンションを提案し、メモリ帯域幅要件を低減する。実験により、高速なデコードが可能で、わずかな品質の低下しかないことが確認された。 CommentMulti Query Attention論文。KVのsetに対して、単一のQueryのみでMulti-Head Attentionを代替する。劇的にDecoderのInferenceが早くなりメモリ使用量が減るが、論文中では言及されていない?ようだが、性能と学習の安定性が課題となるようである。 ... image#DocumentSummarization#NLP#Evaluation
Issue Date: 2023-08-16 Neural Text Summarization: A Critical Evaluation, Krysciski+ (w_ Richard Socher), EMNLP-IJCNLP19 Summaryテキスト要約の研究は進展が停滞しており、データセット、評価指標、モデルの3つの要素に問題があることが指摘されている。自動収集されたデータセットは制約が不十分であり、ノイズを含んでいる可能性がある。評価プロトコルは人間の判断と相関が弱く、重要な特性を考慮していない。モデルはデータセットのバイアスに過適合し、出力の多様性が限られている。 #DocumentSummarization#NaturalLanguageGeneration#NLP
Issue Date: 2023-08-13 HighRES: Highlight-based Reference-less Evaluation of Summarization, Hardy+, N_A, ACL19 Summary要約の手動評価は一貫性がなく困難なため、新しい手法であるHighRESを提案する。この手法では、要約はソースドキュメントと比較して複数のアノテーターによって評価され、ソースドキュメントでは重要な内容がハイライトされる。HighRESはアノテーター間の一致度を向上させ、システム間の違いを強調することができることを示した。 Comment人手評価の枠組み ... #NeuralNetwork#AdaptiveLearning#EducationalDataMining#LearningAnalytics#KnowledgeTracing
Issue Date: 2022-04-28 Knowledge Tracing with Sequential Key-Value Memory Networks, Ghodai+, Research School of Computer Science, Australian National University, SIGIR19 #NeuralNetwork#ComputerVision#NLP
Issue Date: 2021-06-15 On Empirical Comparisons of Optimizers for Deep Learning, Dami Choi+, N_A, arXiv19 Summary深層学習のオプティマイザの比較は重要であり、ハイパーパラメータの探索空間が性能に影響することが示唆されている。特に、適応的勾配法は常に他のオプティマイザよりも性能が低下しないことが実験で示されており、ハイパーパラメータのチューニングに関する実用的なヒントも提供されている。 CommentSGD, Momentum,RMSProp, Adam,NAdam等の中から、どの最適化手法(Optimizer)が優れているかを画像分類と言語モデルにおいて比較した研究(下記日本語解説記事から引用)日本語での解説: https://akichan-f.medium.com/optimizerはどれ ... #NLP#CommentGeneration#Personalization
Issue Date: 2019-09-11 Automatic Generation of Personalized Comment Based on User Profile, Zeng+, arXiv19 #NeuralNetwork#NLP#CommentGeneration
Issue Date: 2019-08-24 Coherent Comment Generation for Chinese Articles with a Graph-to-Sequence Model, Li+ ,arXiv19 #NaturalLanguageGeneration#NLP#ReviewGeneration
Issue Date: 2019-08-17 User Preference-Aware Review Generation, Wang+, PAKDD19 #NLP#DialogueGeneration
Issue Date: 2019-01-24 Training Millions of Personalized Dialogue Agents, Mazaré, ACL19 #NeuralNetwork#NaturalLanguageGeneration#NLP#ContextAware
Issue Date: 2019-01-24 Response Generation by Context-aware Prototype Editing, Wu+, AAAI19 #DocumentSummarization#Metrics#NLP#Evaluation#QA-based
Issue Date: 2023-08-16 A Semantic QA-Based Approach for Text Summarization Evaluation, Ping Chen+, N_A, AAAI18 Summary自然言語処理システムの評価における問題の一つは、2つのテキストパッセージの内容の違いを特定することです。本研究では、1つのテキストパッセージを小さな知識ベースとして扱い、多数の質問を投げかけて内容を比較する方法を提案します。実験結果は有望であり、2007年のDUC要約コーパスを使用して行われました。 CommentQGQAを提案した研究 ... #PersonalizedDocumentSummarization#NLP#review
Issue Date: 2023-05-06 A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification, Shuming Ma+, N_A, arXiv18 Summaryテキスト要約と感情分類を共同学習するための階層的なエンドツーエンドモデルを提案し、感情分類ラベルをテキスト要約の出力の「要約」として扱う。提案モデルはAmazonオンラインレビューデータセットでの実験で、抽象的な要約と感情分類の両方で強力なベースラインシステムよりも優れた性能を発揮することが示された。 Commentreview summarizationに初めてamazon online review data #653 使った研究? ... #NeuralNetwork#NLP#CommentGeneration
Issue Date: 2019-08-24 Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures, Lin+, WWW18 #RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#NLP#ReviewGeneration
Issue Date: 2019-08-17 Improving Explainable Recommendations with Synthetic Reviews, Ouyang+, RecSys18 #RecommenderSystems#NeuralNetwork#GraphBased#GraphConvolutionalNetwork
Issue Date: 2019-05-31 Graph Convolutional Neural Networks for Web-Scale Recommender Systems, Ying+, KDD18 #NeuralNetwork#NaturalLanguageGeneration#NLP
Issue Date: 2019-01-24 A Knowledge-Grounded Neural Conversation Model, Ghazvininejad+, AAAI18, #RecommenderSystems#NeuralNetwork#FactorizationMachines
Issue Date: 2018-12-22 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, KDD18 CommentGunosyの関さんによるxDeepFMの解説: https://data.gunosy.io/entry/deep-factorization-machines-2018 DeepFMの発展についても詳細に述べられていて、とても参考になる。 ...
Issue Date: 2018-10-05 A Unified Model for Document-Based Question Answering Based on Human-Like Reading Strategy, Li+, AAAI18 #NLP#ReviewGeneration#Personalization
Issue Date: 2018-07-25 Personalized Review Generation by Expanding Phrases and Attending on Aspect-Aware Representations, Ni+, ACL18 #NeuralNetwork#NLP#DialogueGeneration
Issue Date: 2018-02-08 Personalizing Dialogue Agents: I have a dog, do you have pets too?, Zhang+, arXiv18
Issue Date: 2023-12-13 Large Batch Training of Convolutional Networks, Yang You+, N_A, arXiv17 Summary大規模な畳み込みネットワークのトレーニングを高速化するために、新しいトレーニングアルゴリズムを提案しました。このアルゴリズムは、Layer-wise Adaptive Rate Scaling(LARS)を使用して、大きなバッチサイズでのトレーニングを行いながらモデルの精度を損なわずにトレーニングすることができます。具体的には、Alexnetを8Kのバッチサイズまでスケーリングし、Resnet-50を32Kのバッチサイズまでスケーリングしました。 CommentBatchSizeを大きくすると性能が落ちますよ、系の話(CNN) ... image#EducationalDataMining#KnowledgeTracing
Issue Date: 2021-07-04 Learning to Represent Student Knowledge on Programming Exercises Using Deep Learning, Wang+, Stanford University, EDM17 CommentDKT #297 のPiechも共著に入っている。 プログラミングの課題を行なっている時(要複数回のソースコードサブミット)、 1. 次のexerciseが最終的に正解で終われるか否か 2. 現在のexerciseを最終的に正解で終われるか否か を予測するタスクを実施 ... #NeuralNetwork#MachineLearning#GraphBased#GraphConvolutionalNetwork
Issue Date: 2019-05-31 Modeling Relational Data with Graph Convolutional Networks, Michael Schlichtkrull+, N_A, arXiv17 Summary知識グラフは不完全な情報を含んでいるため、関係グラフ畳み込みネットワーク(R-GCNs)を使用して知識ベース補完タスクを行う。R-GCNsは、高度な多関係データに対処するために開発されたニューラルネットワークであり、エンティティ分類とリンク予測の両方で効果的であることを示している。さらに、エンコーダーモデルを使用してリンク予測の改善を行い、大幅な性能向上が見られた。 #Multi#DocumentSummarization#Document#NLP#VariationalAutoEncoder
Issue Date: 2018-10-05 Salience Estimation via Variational Auto-Encoders for Multi-Document Summarization, Li+, AAAI17 #NeuralNetwork#NLP#GenerativeAdversarialNetwork
Issue Date: 2018-02-04 Adversarial Ranking for Language Generation, Lin+, NIPS17 #NeuralNetwork#MachineLearning#Online/Interactive
Issue Date: 2018-01-01 Online Deep Learning: Learning Deep Neural Networks on the Fly, Doyen Sahoo+, N_A, arXiv17 Summary本研究では、オンライン設定でリアルタイムにディープニューラルネットワーク(DNN)を学習するための新しいフレームワークを提案します。従来のバックプロパゲーションはオンライン学習には適していないため、新しいHedge Backpropagation(HBP)手法を提案します。この手法は、静的およびコンセプトドリフトシナリオを含む大規模なデータセットで効果的であることを検証します。 #RecommenderSystems#NLP
Issue Date: 2018-01-01 MoodSwipe: A Soft Keyboard that Suggests Messages Based on User-Specified Emotions, Huang+, EMNLP17 #Embeddings#NLP#UserModeling
Issue Date: 2018-01-01 Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction, Ding+, EMNLP17 #DocumentSummarization#NeuralNetwork#Document#Supervised#NLP
Issue Date: 2018-01-01 Coarse-to-Fine Attention Models for Document Summarization, Ling+ (with Rush), ACL17 Workshop on New Frontiers in Summarization #NLP
Issue Date: 2018-01-01 Adapting Sequence Models for Sentence Correction, Schmaltz (with Rush), EMNLP17 #DocumentSummarization#Supervised#NLP#Abstractive
Issue Date: 2017-12-31 A Deep Reinforced Model for Abstractive Summarization, Paulus+(with Socher), arXiv17 #DocumentSummarization#NeuralNetwork#Supervised#NLP#Abstractive
Issue Date: 2017-12-31 Cutting-off redundant repeating generations for neural abstractive summarization, Suzuki+, EACL17 #NeuralNetwork#NaturalLanguageGeneration#NLP
Issue Date: 2017-12-31 Generating Sentences by Editing Prototypes, Guu+, arXiv17 #NeuralNetwork#Tutorial#GenerativeAdversarialNetwork
Issue Date: 2017-12-28 Generative Adversarial Networks: An Overview, Dumoulin+, IEEE-SPM17 #Catastrophic Forgetting
Issue Date: 2024-10-10 Overcoming catastrophic forgetting in neural networks, James Kirkpatrick+, N_A, arXiv16 CommentCatastrophic Forgettingを防ぐEWCを提案した論文 ... #NLP#Dataset#QuestionAnswering#ReadingComprehension
Issue Date: 2023-11-19 NewsQA: A Machine Comprehension Dataset, Adam Trischler+, N_A, arXiv16 SummaryNewsQAというデータセットは、10万以上の人間によって生成された質問と回答のペアを含んでいます。このデータセットは、CNNのニュース記事に基づいて作成されており、探索的な推論を必要とする質問を収集するために4つの段階のプロセスを経ています。徹底的な分析により、NewsQAが単純な単語のマッチングやテキストの含意の認識以上の能力を要求することがわかりました。このデータセットは、人間のパフォーマンスと機械のパフォーマンスの差を測定し、将来の研究の進歩を示しています。データセットは無料で利用できます。 CommentSQuADよりも回答をするために複雑な推論を必要とするQAデータセット。規模感はSQuADと同等レベル。 WordMatchingにとどまらず、回答が存在しない、あるいは記事中でユニークではないものも含まれる。 ... image#RecommenderSystems
Issue Date: 2023-05-06 Ups and Downs: Modeling the Visual Evolution of Fashion Trends with One-Class Collaborative Filtering, Ruining He+, N_A, arXiv16 Summaryファッションなどの特定のドメインにおいて、製品の視覚的な外観と時間の経過に伴う進化を同時にモデル化することが重要であり、そのような好みをモデル化することは非常に困難である。本論文では、One-Class Collaborative Filtering設定のための新しいモデルを構築し、過去のフィードバックに基づいてユーザーのファッションに関する個人的なランキング関数を推定することを目的としている。実験的に、Amazon.comからの2つの大規模な実世界データセットで我々の手法を評価し、最先端の個人化ランキング尺度を上回ることを示し、また、データセットの11年間にわたる高レベルのファッショントレンドを可視化するために使用した。 Comment#653 を構築した研究と同様の著者の研究 #653 を利用した場合はこの研究は #654 をreferする必要がある ... #AdaptiveLearning#EducationalDataMining#KnowledgeTracing
Issue Date: 2022-09-05 Applications of the Elo Rating System in Adaptive Educational Systems, Pelanek, Computers & Educations16 CommentElo rating systemの教育応用に関して詳細に記述されている ... #RecommenderSystems#NeuralNetwork
Issue Date: 2018-12-27 Deep Neural Networks for YouTube Recommendations, Covington+, RecSys16 #DocumentSummarization#NeuralNetwork#NaturalLanguageGeneration#NLP
Issue Date: 2018-10-06 Neural Headline Generation with Minimum Risk Training, Ayana+, N_A, arXiv16 Summary自動見出し生成のために、最小リスクトレーニング戦略を使用してモデルパラメータを最適化し、見出し生成の改善を実現する。提案手法は英語と中国語の見出し生成タスクで最先端のシステムを上回る性能を示す。 #NeuralNetwork#MachineLearning#GraphConvolutionalNetwork
Issue Date: 2018-03-30 Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering, Defferrard+, NIPS16 CommentGCNを勉強する際は読むと良いらしい。 あわせてこのへんも: Semi-Supervised Classification with Graph Convolutional Networks, Kipf+, ICLR'17 https://github.com/tkipf/gcn ... #NeuralNetwork#NaturalLanguageGeneration#NLP
Issue Date: 2018-02-14 Generating Sentences from a Continuous Space, Bowman+, CoNLL16 CommentVAEを利用して文生成【Variational Autoencoder徹底解説】 https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24 ... #TimeSeriesDataProcessing#MachineLearning
Issue Date: 2017-12-31 Derivative Delay Embedding: Online Modeling of Streaming Time Series, Zhifei Zhang+, N_A, arXiv16 Summary本研究では、オンラインでストリーミング時系列データを効率的にモデリングするためのDDE-MGM手法を提案しています。DDEは、再帰的なパターンを保持する埋め込み空間に時系列を変換するために使用され、MGMはパターンのモデリングと分類に使用されます。実験結果は、提案手法の効果と優れた分類精度を示しています。 Commentスライド:https://www.slideshare.net/akihikowatanabe3110/brief-survey-of-datatotext-systems![image](https://user-images.githubusercontent.com/12249301/3446 ... #MachineTranslation#NLP#Evaluation
Issue Date: 2023-08-13 Document-Level Machine Translation Evaluation with Gist Consistency and Text Cohesion, Gong+, DiscoMT15 #DocumentSummarization#ComputerVision#NaturalLanguageGeneration#NLP#Evaluation#ImageCaptioning#Reference-based
Issue Date: 2023-05-10 CIDEr: Consensus-based Image Description Evaluation, Ramakrishna Vedantam+, N_A, CVPR15 Summary画像を文章で自動的に説明することは、長年の課題である。本研究では、人間の合意を利用した画像説明の評価のための新しいパラダイムを提案し、新しい自動評価指標と2つの新しいデータセットを含む。提案手法は、人間の判断をより正確に捉えることができ、5つの最先端の画像説明手法を評価し、将来の比較のためのベンチマークを提供する。CIDEr-Dは、MS COCO評価サーバーの一部として利用可能であり、システマティックな評価とベンチマークを可能にする。 #RecommenderSystems
Issue Date: 2023-05-06 Image-based Recommendations on Styles and Substitutes, Julian McAuley+, N_A, arXiv15 Summary本研究では、人間の感覚に基づいた物体間の関係性をモデル化することを目的として、大規模なデータセットを用いたスケーラブルな方法を提案している。関連する画像のグラフ上で定義されたネットワーク推論問題として捉え、服やアクセサリーの組み合わせを推奨することができるシステムを開発し、その他のアプリケーションにも適用可能であることを示している。 Comment#653 を構築した論文 ... #EducationalDataMining#LearningAnalytics
Issue Date: 2021-07-05 Autonomously Generating Hints by Inferring Problem Solving Policies, Piech+, Stanford University, L@S15 #Education#PersonalizedGeneration
Issue Date: 2019-10-11 Personalized Mathematical Word Problem Generation, Polozov+, IJCAI15 #InformationRetrieval#LearningToRank#Online/Interactive
Issue Date: 2018-01-01 Contextual Dueling Bandits, Dudik+, JMLR15
Issue Date: 2023-05-05 Extended Recommendation Framework: Generating the Text of a User Review as a Personalized Summary, Mickaël Poussevin+, N_A, arXiv14 Summary評価に基づくレコメンダーシステムを拡張し、ユーザーが選択や推薦の理解に役立つ追加情報を提供することを提案。アイテムに関連する個人的なレビューの生成を新しいタスクとして考え、抽出型サマリーの形式を使用。評価とアイテムの2つの情報源が、評価の推定とサマリーの生成の両方に使用できることを示し、単一の情報源の使用に比べて各システムのパフォーマンスが向上することを示す。個人化極性分類器が評価とテキストの側面を統合する方法を示し、提案されたシステムは、評価、テキスト、極性の3つの個人化ヒントを提供する。2つのデータセットでこれら3つのコンポーネントを評価。 Comment#5 で既にあった ... #AdaptiveLearning#KnowledgeTracing
Issue Date: 2022-08-31 Properties of the Bayesian Knowledge Tracing Model, BRETT VAN DE SANDE, JEDM13 #DocumentSummarization#NLP#Evaluation#CrossLingual
Issue Date: 2023-08-13 Evaluating the Efficacy of Summarization Evaluation across Languages, Koto+ (w_ Tim先生), Findings of ACL12 Summaryこの研究では、異なる言語の要約コーパスを使用して、マルチリンガルBERTを用いたBERTScoreが他の要約評価メトリックスよりも優れたパフォーマンスを示すことが示されました。これは、英語以外の言語においても有効であることを示しています。 #NLP#MultitaskLearning
Issue Date: 2018-02-05 A unified architecture for natural language processing: Deep neural networks with multitask learning, Collobert+, ICML2008. CommentDeep Neural Netを用いてmultitask learningを行いNLPタスク(POS tagging, Semantic Role Labeling, Chunking etc.)を解いた論文。 被引用数2000を超える。 multitask learningの学習プロセスな ... #InformationRetrieval#LearningToRank#ListWise
Issue Date: 2018-01-01 Listwise Approach to Learning to Rank - Theory and Algorithm (ListMLE), Xia+, ICML2008 #Article#Survey#ComputerVision#NLP#LanguageModel#Slide
Issue Date: 2024-11-18 Large Vision Language Model (LVLM)に関する知見まとめ, Daiki Shiono, 2024.11 #Article#Efficiency/SpeedUp#LanguageModel#Slide
Issue Date: 2024-11-14 TensorRT-LLMによる推論高速化, Hiroshi Matsuda, NVIDIA AI Summit 2024.11 Comment元ポスト:https://x.com/hmtd223/status/1856887876665184649?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q非常に興味深いので後で読む ... #Article#LanguageModel#Slide
Issue Date: 2024-10-05 今日から始める大規模言語モデルのプロダクト活用, y_matsuwitter, 2024.10 #Article#Article#API
Issue Date: 2024-09-30 API設計まとめ, KNR109, 2024.02 #Article#NLP#LanguageModel#Evaluation#Article#LLM-as-a-Judge
Issue Date: 2024-09-30 Evaluating the Effectiveness of LLM-Evaluators (aka LLM-as-Judge), 2024.09 CommentLLM-as-a-judgeについて網羅的に書かれた記事 ... #Article#InformationRetrieval#NLP#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-09-29 RAGの実装戦略まとめ, Jin Watanabe, 2024.03 #Article#Tutorial#Efficiency/SpeedUp#LanguageModel
Issue Date: 2024-09-25 LLMの効率化・高速化を支えるアルゴリズム, Tatsuya Urabe, 2024.09 #Article#Slide#Management
Issue Date: 2024-09-25 NLP Experimental Design, Graham Neubig, 2024 #Article#NLP#QuestionAnswering#LLMAgent#GenerativeAI#RetrievalAugmentedGeneration#Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#RecommenderSystems#Article
Issue Date: 2024-08-27 10Xの推薦を作るチームとML platform, 2024.08 Comment初期開発における定性評価の重要性やインターリービングの話題など実用的な内容が書かれているように見える。あとで読む。定性評価が重要という話は、#1367 でも言及されている ... #Article#Slide#Management
Issue Date: 2024-08-10 現代的システム開発概論2024, 2024.08 #Article#InformationRetrieval#NLP#LanguageModel#RetrievalAugmentedGeneration#Article
Issue Date: 2024-08-09 RAG入門: 精度改善のための手法28選, 2024.08 #Article#LanguageModel#Article#MultiLingual
Issue Date: 2024-04-12 The State of Multilingual AI, Sebastian Ruder, 2024 #Article#LanguageModel#Article
Issue Date: 2024-04-02 Mamba Explained #Article
Issue Date: 2023-12-11 A Review of Public Japanese Training Sets #Article#RetrievalAugmentedGeneration#Article
Issue Date: 2023-11-13 Boosting RAG: Picking the Best Embedding & Reranker models #Article#NLP#LanguageModel
Issue Date: 2023-10-09 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” CommentA is Bという文でLLMを訓練しても、B is Aという逆方向には汎化されないことを示した。著者ツイート: https://x.com/owainevans_uk/status/1705285631520407821?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QGPT3, LLaM ... image#Article
Issue Date: 2023-05-12 Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models #Article#PersonalizedDocumentSummarization#NLP#Personalization
Issue Date: 2023-05-05 Personalized news filtering and summarization on the web, Xindong+, 2011 IEEE 23rd International Conference on Tools with Artificial Intelligence, 29 Commentsummarizationではなく、keyword extractionの話だった ... #Article#PersonalizedDocumentSummarization#NLP#Education#Personalization
Issue Date: 2023-05-05 Personalized Text Content Summarizer for Mobile Learning: An Automatic Text Summarization System with Relevance Based Language Model, Guangbing+, IEEE Fourth International Conference on Technology for Education, 2012, 22 #Article
Issue Date: 2023-05-04 Transformers Learn Shortcuts to Automata #Article
Issue Date: 2023-05-04 Towards Complex Reasoning: the Polaris of Large Language Models #Article#PersonalizedDocumentSummarization#NLP
Issue Date: 2023-04-30 Personalized Extractive Summarization for a News Dialogue System, Takatsu+, SLT, 2021, 4 #Article#RecommenderSystems
Issue Date: 2023-04-28 E-Commerce product recommendation agents: use, characteristics, and impact Comment超重要論文 ... #Article#Tutorial
Issue Date: 2022-03-02 良いコードとは何か - エンジニア新卒研修 スライド公開, CyberZ, 森 #Article#Tutorial#MachineLearning#Infrastructure
Issue Date: 2021-10-19 Hidden Technical Debt in Machine Learning Systems, Sculley+, Google Comment![image](https://user-images.githubusercontent.com/12249301/137843973-576deeb7-778d-44d8-aac8-5ed5c4fa7d2b.png) よく見るML codeが全体のごく一部で、その他の基盤が大半を占めてますよ ... #Article#Tutorial#MachineLearning
Issue Date: 2021-10-16 実臨床・Webサービス領域での機械学習研究 開発の標準化 Comment並列して走る機械学習案件をどのように効果的に捌いているか説明。①タイトな締切→ 高速化で対処→ よく使う機能をML自身に実装する②並行して走る案件→ 並列化 → Kubernetesを用いて、タスクごとに異なるノードで分散処理(e.g CVのFoldごとにノード分散、推論ユーザごとにノ ... #Article#RecommenderSystems#FactorizationMachines
Issue Date: 2021-07-02 Deep Learning Recommendation Model for Personalization and Recommendation Systems, Naumov+, Facebook, arXiv‘19 CommentFacebookが開発したopen sourceのDeepな推薦モデル(MIT Licence)。モデル自体はシンプルで、continuousなfeatureをMLPで線形変換、categoricalなfeatureはembeddingをlook upし、それぞれfeatureのrepresen実装 ... #Article#RecommenderSystems#Tutorial
Issue Date: 2021-07-02 Continuously Improving Recommender Systems for Competitive Advantage Using NVIDIA Merlin and MLOps CommentRecommender System運用のためのアーキテクチャに関する情報 ... #Article#NeuralNetwork#Survey
Issue Date: 2021-06-19 Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better, Menghani, arXiv‘21 Comment学習効率化、高速化などのテクニックがまとまっているらしい ... #Article#NeuralNetwork#Survey
Issue Date: 2021-06-17 Pre-Trained Models: Past, Present and Future, Han+, arXiv‘21 #Article#NeuralNetwork#MachineTranslation#Embeddings#NLP
Issue Date: 2021-06-07 Improving Neural Machine Translation with Compact Word Embedding Tables, Kumar+, 2021 CommentNMTにおいてword embeddingがどう影響しているかなどを調査しているらしい ... #Article#Tutorial
Issue Date: 2021-06-07 ゼロから始めてオフライン強化学習とConservative Q-Learningを理解する #Article#Tutorial#EducationalDataMining#LearningAnalytics#StudentPerformancePrediction#KnowledgeTracing
Issue Date: 2021-05-30 The Knowledge-Learning-Instruction Framework: Bridging the Science-Practice Chasm to Enhance Robust Student Learning, Pelanek, User Modeling and User-Adapted Interaction, 2017 CommentLearner Modelingに関するチュートリアル。Learner Modelingの典型的なコンテキストや、KCにどのような種類があるか(KLI Frameworkに基づいた場合)、learner modeling techniques (BKTやPFA等)のチュートリアルなどが記載されている ... #Article#RecommenderSystems#NeuralNetwork#FactorizationMachines#CTRPrediction
Issue Date: 2021-05-25 DeepFM: A Factorization-Machine based Neural Network for CTR Prediction, Guo+, IJCAI’17 CommentFactorization Machinesと、Deep Neural Networkを、Wide&Deepしました、という論文。Wide=Factorization Machines, Deep=DNN。高次のFeatureと低次のFeatureを扱っているだけでなく、FMによってフィールドご#2 ... #Article#RecommenderSystems#NeuralNetwork#FactorizationMachines#CTRPrediction
Issue Date: 2021-05-25 xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems, Lian+, KDD‘18 Comment#349 DeepFMの発展版#281 にも書いたが、下記リンクに概要が記載されている。 DeepFMに関する動向:https://data.gunosy.io/entry/deep-factorization-machines-2018 ... #Article#RecommenderSystems
Issue Date: 2020-08-29 Airbnbの機械学習導入から学ぶ #Article#ComputerVision#NLP#CommentGeneration
Issue Date: 2019-09-27 Attend to You: Personalized Image Captioning with Context Sequence Memory Networks, Park+, arXiv 2017 Comment画像が与えられたときに、その画像に対するHashtag predictionと、personalizedなpost generationを行うタスクを提案。 InstagramのPostの簡易化などに応用できる。 Postを生成するためには、自身の言葉で、画像についての説明や、contextとい ... #Article#ComputerVision#NLP#CommentGeneration
Issue Date: 2019-09-27 Cross-domain personalized image captioning, Long+, 2019 #Article#RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#NLP#ReviewGeneration
Issue Date: 2019-08-17 Review Response Generation in E-Commerce Platforms with External Product Information #Article#RecommenderSystems#NeuralNetwork#NaturalLanguageGeneration#NLP#ReviewGeneration
Issue Date: 2019-08-17 Automatic Generation of Personalized Comment Based on User Profile, Zeng+, arXiv #Article#RecommenderSystems#MatrixFactorization
Issue Date: 2018-01-02 Probabilistic matrix factorization, Salakhutdinov+, Advances in neural information processing systems, 2007 #Article#InformationRetrieval
Issue Date: 2017-12-28 Personalizing Search via Automated Analysis of Interests and Activities, SIGIR, Teevan+, 2005, 2005.08 Comment・userに関するデータがrichなほうが、Personalizationは改善する。 ・queries, visited web pages, emails, calendar items, stored desktop      documents、全てのsetを用いた場合が最も良かった ...