LLMAgent
#Survey#Pocket#NLP#LanguageModel
Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/999adca8-f0d7-483c-ae5a-b6f78fe9da4b)![image](https://github.com/user-attachments/assets/b69dc991R ... #Pocket#NLP#API
Issue Date: 2024-11-11 Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv24 Comment![image](https://github.com/user-attachments/assets/f4beb58b-f6da-4536-87e6-3d746cb7c586)CMUの研究。後で読みたい ... #Pretraining#Tools#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv24 Comment昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルに ...
Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv24 Comment![image](https://github.com/user-attachments/assets/999adca8-f0d7-483c-ae5a-b6f78fe9da4b)![image](https://github.com/user-attachments/assets/b69dc991R ... #Pocket#NLP#API
Issue Date: 2024-11-11 Beyond Browsing: API-Based Web Agents, Yueqi Song+, arXiv24 Comment![image](https://github.com/user-attachments/assets/f4beb58b-f6da-4536-87e6-3d746cb7c586)CMUの研究。後で読みたい ... #Pretraining#Tools#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv24 Comment昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルに ...
#Pocket#NLP#LanguageModel#Idea/PaperGeneration
Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv24 Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #MachineLearning#Pocket#NLP#Dataset#LanguageModel#Evaluation#AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク(新たなKaggle Challenge等)では30%程度とのこと。 ... #Survey#Pocket#NLP#LanguageModel
Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv23 Summary自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル(LLMs)を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment良いサーベイ ... #Pocket#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #ComputerVision#Pocket#NLP#LanguageModel
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ... #NLP#Dataset#Evaluation
Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, arXiv23 SummaryMind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル(LLMs)を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 CommentWebにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまた ... #Pocket#NLP#Transformer
Issue Date: 2023-06-16 Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv23 Summary大規模言語モデル(LLM)の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。 #NLP#LanguageModel
Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR23 Comment# 概要 人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた(Chain-of-Thought)が、CoTは外部リソース ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 CommentWe introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering ... #Article#Repository#Conversation
Issue Date: 2024-10-02 AutoGen, Microsoft, 2024.10 CommentAutoGen is an open-source programming framework for building AI agents and facilitating cooperation among multiple agents to solve tasks. AutoGen aims ... #Article#Pocket#NLP#QuestionAnswering#GenerativeAI#RetrievalAugmentedGeneration#Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#NaturalLanguageGeneration#NLP#LanguageModel#Repository
Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 CommentLLMによるOpenSourceなソフトウェア生成エージェントプラットフォームfull timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。参考: https://x.com/gneubig/status/1808493521315496229?s=46&t=Y6UuIHB0L ... #Article#NLP#LanguageModel#Library
Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment以下の特徴を持つLLMAgent開発のためのフレームワークlong-short term memorytool usageweb navigationmulti-agent communicationhuman-agent interactionsymbolic ... #Article#Tools#InformationRetrieval#NLP#Library
Issue Date: 2023-04-22 Llamaindex CommentLlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた https://dev.classmethod.jp/articles/llama-index-insert-index/ ... #Article#Tools#InformationRetrieval#NLP#LanguageModel#Library
Issue Date: 2023-04-21 LangChain CommentLangChain の Googleカスタム検索 連携を試す https://note.com/npaka/n/nd9a4a26a8932LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents https://zenn.de ...
Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv24 Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #MachineLearning#Pocket#NLP#Dataset#LanguageModel#Evaluation#AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク(新たなKaggle Challenge等)では30%程度とのこと。 ... #Survey#Pocket#NLP#LanguageModel
Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv23 Summary自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル(LLMs)を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment良いサーベイ ... #Pocket#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #ComputerVision#Pocket#NLP#LanguageModel
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ... #NLP#Dataset#Evaluation
Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, arXiv23 SummaryMind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル(LLMs)を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 CommentWebにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまた ... #Pocket#NLP#Transformer
Issue Date: 2023-06-16 Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv23 Summary大規模言語モデル(LLM)の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。 #NLP#LanguageModel
Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR23 Comment# 概要 人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた(Chain-of-Thought)が、CoTは外部リソース ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 CommentWe introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering ... #Article#Repository#Conversation
Issue Date: 2024-10-02 AutoGen, Microsoft, 2024.10 CommentAutoGen is an open-source programming framework for building AI agents and facilitating cooperation among multiple agents to solve tasks. AutoGen aims ... #Article#Pocket#NLP#QuestionAnswering#GenerativeAI#RetrievalAugmentedGeneration#Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#NaturalLanguageGeneration#NLP#LanguageModel#Repository
Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 CommentLLMによるOpenSourceなソフトウェア生成エージェントプラットフォームfull timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。参考: https://x.com/gneubig/status/1808493521315496229?s=46&t=Y6UuIHB0L ... #Article#NLP#LanguageModel#Library
Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment以下の特徴を持つLLMAgent開発のためのフレームワークlong-short term memorytool usageweb navigationmulti-agent communicationhuman-agent interactionsymbolic ... #Article#Tools#InformationRetrieval#NLP#Library
Issue Date: 2023-04-22 Llamaindex CommentLlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた https://dev.classmethod.jp/articles/llama-index-insert-index/ ... #Article#Tools#InformationRetrieval#NLP#LanguageModel#Library
Issue Date: 2023-04-21 LangChain CommentLangChain の Googleカスタム検索 連携を試す https://note.com/npaka/n/nd9a4a26a8932LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents https://zenn.de ...