LLMAgent
#Multi#Pocket#NLP#LanguageModel
Issue Date: 2025-03-20 Why Do Multi-Agent LLM Systems Fail?, Mert Cemri+, arXiv25 #Tools#NLP#LanguageModel#Reasoning
Issue Date: 2025-02-20 OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning, Pan Lu+, arXiv25 Comment元ポスト:https://x.com/lupantech/status/1892260474320015861?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel
Issue Date: 2025-02-09 Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?, Wenzhe Li+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1888658770059816968?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
Issue Date: 2025-03-20 Why Do Multi-Agent LLM Systems Fail?, Mert Cemri+, arXiv25 #Tools#NLP#LanguageModel#Reasoning
Issue Date: 2025-02-20 OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning, Pan Lu+, arXiv25 Comment元ポスト:https://x.com/lupantech/status/1892260474320015861?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Pocket#NLP#LanguageModel
Issue Date: 2025-02-09 Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?, Wenzhe Li+, arXiv25 Comment元ポスト:https://x.com/dair_ai/status/1888658770059816968?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ...
#Pocket#NLP#LanguageModel#AutomaticPromptEngineering
Issue Date: 2025-02-10 PromptWizard: Task-Aware Prompt Optimization Framework, Eshaan Agarwal+, arXiv24 CommentGithub:https://github.com/microsoft/PromptWizard?tab=readme-ov-file元ポスト:https://x.com/tom_doerr/status/1888178173684199785?s=46&t=Y6UuIHB0Lv0IpmFAjlc初 ... #Pocket#NLP#Dataset#SyntheticData#Evaluation#SyntheticDataGeneration
Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1868299921117630528?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1870821189809217921?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qソフトウェアエンジニアリングの企業の設定で現実に起こりうるな 175種類のタスクを定義してAI Agentを評価できるベンチマークTh ... #Pocket#NLP
Issue Date: 2024-11-27 Generative Agent Simulations of 1,000 People, Joon Sung Park+, arXiv24 #Survey#Pocket#NLP#LanguageModel
Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv24 CommentCMUの研究。後で読みたい ... #Pretraining#Tools#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv24 Comment昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルに ... #Pocket#NLP#LanguageModel#Idea/PaperGeneration
Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv24 Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #MachineLearning#Pocket#NLP#Dataset#LanguageModel#Evaluation#AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク(新たなKaggle Challenge等)では30%程度とのこと。 ... #Survey#Pocket#NLP#LanguageModel
Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv23 Summary自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル(LLMs)を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment良いサーベイ ...
#Pocket#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #ComputerVision#Pocket#NLP#LanguageModel
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ...
#NLP#Dataset#Evaluation
Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, arXiv23 SummaryMind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル(LLMs)を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 CommentWebにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまた ... #Pocket#NLP#Transformer
Issue Date: 2023-06-16 Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv23 Summary大規模言語モデル(LLM)の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。 #NLP#LanguageModel
Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR23 Comment# 概要 人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた(Chain-of-Thought)が、CoTは外部リソース ... #Article#NLP#Library
Issue Date: 2025-03-16 The TypeScript Agent Framework, mastra, 2025.03 Comment日本語解説:https://zenn.dev/yosh1/articles/mastra-ai-agent-framework-guide ... #Article#Article
Issue Date: 2025-03-15 Model Context Protocol (MCP), Anthropic Comment下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:https://modelcontextprotocol.io/quickstart/serverhttps://modelcontextprotocol.io/quickstart/client ... #Article#Article
Issue Date: 2025-03-15 browser-useの基礎理解, むさし, 2024.12 Comment公式リポジトリ:https://github.com/browser-use/browser-useBrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するの ... #Article#LanguageModel#Slide
Issue Date: 2025-03-14 AI_Agent_の作り方_近藤憲児, Kenji KONDO, 2025.03 #Article#NLP#LanguageModel#Article
Issue Date: 2025-03-12 OpenAI API での Computer use の使い方, npaka, 2025.03 CommentOpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。公式:https://platform.openai.com/docs/guides/tools-computer-use ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2025-03-12 GAIA, gaia-bemchmark, 2023.11 CommentWe introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questio ... #Article#LanguageModel#Library
Issue Date: 2025-03-06 smolagents, HuggingFace, 2025.03 CommentA smol library to build great agents!smolagents is a library that enables you to run powerful agents in a few lines of code. It offers:✨ Simplicity: t ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment元ポスト:https://x.com/dair_ai/status/1893698290174108113?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊 ... #Article#Pocket#NLP#LanguageModel
Issue Date: 2025-01-25 Chain of Agents: Large language models collaborating on long-context tasks, Google Research, 2025.01 Comment元ポスト:https://x.com/googleai/status/1882554959272849696?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様ブログ ... #Article#NLP#LanguageModel#Library#RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 CommentLlamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。 ... #Article#LanguageModel#Article
Issue Date: 2025-01-05 AI Agents 2024 Rewind - A Year of Building and Learning, VICTOR DIBIA, 2025.01 #Article#LanguageModel#Article
Issue Date: 2025-01-05 <a href=\"https://github.com/AkihikoWatanabe/paper\_notes/issues/1659\">AI Agent Era, 福島良典 | LayerX, 2024.12</a> #Article#NLP#python#Article#API
Issue Date: 2025-01-04 browser-use やばいです, Syoitu, 2024.12 Commentすごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。 ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 CommentWe introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering ... #Article#Repository#Conversation
Issue Date: 2024-10-02 AutoGen, Microsoft, 2024.10 CommentAutoGen is an open-source programming framework for building AI agents and facilitating cooperation among multiple agents to solve tasks. AutoGen aims ... #Article#Pocket#NLP#QuestionAnswering#GenerativeAI#RAG(RetrievalAugmentedGeneration)#Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#NaturalLanguageGeneration#NLP#LanguageModel#Repository
Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 CommentLLMによるOpenSourceなソフトウェア生成エージェントプラットフォームfull timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。参考: https://x.com/gneubig/status/1808493521315496229?s=46&t=Y6UuIHB0L ... #Article#NLP#LanguageModel#Library
Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment以下の特徴を持つLLMAgent開発のためのフレームワークlong-short term memorytool usageweb navigationmulti-agent communicationhuman-agent interactionsymbolic ... #Article#Tools#InformationRetrieval#NLP#Library
Issue Date: 2023-04-22 Llamaindex CommentLlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた https://dev.classmethod.jp/articles/llama-index-insert-index/ ... #Article#Tools#InformationRetrieval#NLP#LanguageModel#Library
Issue Date: 2023-04-21 LangChain CommentLangChain の Googleカスタム検索 連携を試す https://note.com/npaka/n/nd9a4a26a8932LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents https://zenn.de ...
Issue Date: 2025-02-10 PromptWizard: Task-Aware Prompt Optimization Framework, Eshaan Agarwal+, arXiv24 CommentGithub:https://github.com/microsoft/PromptWizard?tab=readme-ov-file元ポスト:https://x.com/tom_doerr/status/1888178173684199785?s=46&t=Y6UuIHB0Lv0IpmFAjlc初 ... #Pocket#NLP#Dataset#SyntheticData#Evaluation#SyntheticDataGeneration
Issue Date: 2025-01-03 MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification, Saptarshi Sengupta+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1868299921117630528?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2025-01-03 TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks, Frank F. Xu+, arXiv24 Comment元ポスト:https://x.com/dair_ai/status/1870821189809217921?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Qソフトウェアエンジニアリングの企業の設定で現実に起こりうるな 175種類のタスクを定義してAI Agentを評価できるベンチマークTh ... #Pocket#NLP
Issue Date: 2024-11-27 Generative Agent Simulations of 1,000 People, Joon Sung Park+, arXiv24 #Survey#Pocket#NLP#LanguageModel
Issue Date: 2024-11-12 GUI Agents with Foundation Models: A Comprehensive Survey, Shuai Wang+, arXiv24 CommentCMUの研究。後で読みたい ... #Pretraining#Tools#NLP#LanguageModel#Finetuning (SFT)
Issue Date: 2024-10-20 ToolGen: Unified Tool Retrieval and Calling via Generation, Renxi Wang+, N_A, arXiv24 Comment昔からよくある特殊トークンを埋め込んで、特殊トークンを生成したらそれに応じた処理をする系の研究。今回はツールに対応するトークンを仕込む模様。斜め読みだが、3つのstepでFoundation Modelを訓練する。まずはツールのdescriptionからツールトークンを生成する。これにより、モデルに ... #Pocket#NLP#LanguageModel#Idea/PaperGeneration
Issue Date: 2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, Chris Lu+, N_A, arXiv24 Summary最先端の大規模言語モデルを使用して、完全自動の科学的発見を可能にする包括的なフレームワークが提案された。AI Scientistは新しい研究アイデアを生成し、コードを記述し、実験を実行し、結果を可視化し、完全な科学論文を執筆し、査読プロセスを実行することができる。このアプローチは、機械学習における科学的発見の新しい時代の始まりを示しており、AIエージェントの変革的な利点をAI自体の研究プロセス全体にもたらし、世界で最も難しい問題に無限の手頃な価格の創造性とイノベーションを解き放つことに近づいています。 #MachineLearning#Pocket#NLP#Dataset#LanguageModel#Evaluation#AutoML
Issue Date: 2023-10-09 Benchmarking Large Language Models As AI Research Agents, Qian Huang+, N_A, arXiv23 Summary本研究では、AI研究エージェントを構築し、科学的な実験のタスクを実行するためのベンチマークとしてMLAgentBenchを提案する。エージェントはファイルの読み書きやコードの実行などのアクションを実行し、実験を実行し、結果を分析し、機械学習パイプラインのコードを変更することができる。GPT-4ベースの研究エージェントは多くのタスクで高性能なモデルを実現できるが、成功率は異なる。また、LLMベースの研究エージェントにはいくつかの課題がある。 CommentGPT4がMLモデルをどれだけ自動的に構築できるかを調べた模様。また、ベンチマークデータを作成した模様。結果としては、既存の有名なデータセットでの成功率は90%程度であり、未知のタスク(新たなKaggle Challenge等)では30%程度とのこと。 ... #Survey#Pocket#NLP#LanguageModel
Issue Date: 2023-09-01 A Survey on Large Language Model based Autonomous Agents, Lei Wang+, N_A, arXiv23 Summary自律エージェントの研究は、以前は限られた知識を持つエージェントに焦点を当てていましたが、最近では大規模言語モデル(LLMs)を活用した研究が増えています。本論文では、LLMに基づく自律エージェントの研究を包括的に調査し、統一されたフレームワークを提案します。さらに、LLMに基づくAIエージェントの応用や評価戦略についてもまとめています。将来の方向性や課題についても議論し、関連する参考文献のリポジトリも提供しています。 Comment良いサーベイ ...
Issue Date: 2023-08-27 AgentBench: Evaluating LLMs as Agents, Xiao Liu+, N_A, arXiv23 Summary本研究では、大規模言語モデル(LLMs)をエージェントとして評価するための多次元の進化するベンチマーク「AgentBench」を提案しています。AgentBenchは、8つの異なる環境でマルチターンのオープンエンドの生成設定を提供し、LLMの推論と意思決定能力を評価します。25のLLMsに対するテストでは、商用LLMsは強力な能力を示していますが、オープンソースの競合他社との性能には差があります。AgentBenchのデータセット、環境、および評価パッケージは、GitHubで公開されています。 CommentエージェントとしてのLLMの推論能力と意思決定能力を評価するためのベンチマークを提案。トップの商用LLMとOpenSource LLMの間に大きな性能差があることを示した。 ... #ComputerVision#Pocket#NLP#LanguageModel
Issue Date: 2023-07-22 Towards A Unified Agent with Foundation Models, Norman Di Palo+, N_A, arXiv23 Summary本研究では、言語モデルとビジョン言語モデルを強化学習エージェントに組み込み、効率的な探索や経験データの再利用などの課題に取り組む方法を調査しました。スパースな報酬のロボット操作環境でのテストにおいて、ベースラインに比べて大幅な性能向上を実証し、学習済みのスキルを新しいタスクの解決や人間の専門家のビデオの模倣に活用する方法を示しました。 Comment ...
Issue Date: 2023-07-03 Mind2Web: Towards a Generalist Agent for the Web, Xiang Deng+, N_A, arXiv23 SummaryMind2Webという新しいデータセットを紹介します。このデータセットは、任意のウェブサイト上で複雑なタスクを実行するための言語の指示に従うウェブエージェントを開発・評価するために作成されました。従来のデータセットでは一般的なウェブエージェントには適していなかったため、Mind2Webはより多様なドメイン、実世界のウェブサイト、幅広いユーザーの相互作用パターンを提供します。また、大規模言語モデル(LLMs)を使用して一般的なウェブエージェントを構築するための初期の探索も行われます。この研究は、ウェブエージェントのさらなる研究を促進するためにデータセット、モデルの実装、およびトレーニング済みモデルをオープンソース化します。 CommentWebにおけるgeneralistエージェントを評価するためのデータセットを構築。31ドメインの137件のwebサイトにおける2350個のタスクが含まれている。タスクは、webサイトにおける多様で実用的なユースケースを反映し、チャレンジングだが現実的な問題であり、エージェントの環境やタスクをまた ... #Pocket#NLP#Transformer
Issue Date: 2023-06-16 Think Before You Act: Decision Transformers with Internal Working Memory, Jikun Kang+, N_A, arXiv23 Summary大規模言語モデル(LLM)の性能は、トレーニング中にパラメータに振る舞いを記憶する「忘却現象」によって低下する可能性がある。人間の脳は分散型のメモリストレージを利用しており、忘却現象を軽減している。そこで、我々は、内部作業メモリモジュールを提案し、Atariゲームとメタワールドオブジェクト操作タスクの両方でトレーニング効率と汎化性を向上させることを示した。 #NLP#LanguageModel
Issue Date: 2023-04-13 REACT : SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS, Yao+, Princeton University and Google brain, ICLR23 Comment# 概要 人間は推論と行動をシナジーさせることで、さまざまな意思決定を行える。近年では言語モデルにより言語による推論を意思決定に組み合わせる可能性が示されてきた。たとえば、タスクをこなすための推論トレースをLLMが導けることが示されてきた(Chain-of-Thought)が、CoTは外部リソース ... #Article#NLP#Library
Issue Date: 2025-03-16 The TypeScript Agent Framework, mastra, 2025.03 Comment日本語解説:https://zenn.dev/yosh1/articles/mastra-ai-agent-framework-guide ... #Article#Article
Issue Date: 2025-03-15 Model Context Protocol (MCP), Anthropic Comment下記リンクのMCPサーバ/クライアントの作り方を読むとだいぶ理解が捗る:https://modelcontextprotocol.io/quickstart/serverhttps://modelcontextprotocol.io/quickstart/client ... #Article#Article
Issue Date: 2025-03-15 browser-useの基礎理解, むさし, 2024.12 Comment公式リポジトリ:https://github.com/browser-use/browser-useBrowserUseはDoMを解析するということは内部的にテキストをLLMで処理してアクションを生成するのだろうか。OpenAIのComputer useがスクリーンショットからアクションを生成するの ... #Article#LanguageModel#Slide
Issue Date: 2025-03-14 AI_Agent_の作り方_近藤憲児, Kenji KONDO, 2025.03 #Article#NLP#LanguageModel#Article
Issue Date: 2025-03-12 OpenAI API での Computer use の使い方, npaka, 2025.03 CommentOpenAIのCompute Useがどのようなものかコンパクトにまとまっている。勉強になりました。公式:https://platform.openai.com/docs/guides/tools-computer-use ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2025-03-12 GAIA, gaia-bemchmark, 2023.11 CommentWe introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questio ... #Article#LanguageModel#Library
Issue Date: 2025-03-06 smolagents, HuggingFace, 2025.03 CommentA smol library to build great agents!smolagents is a library that enables you to run powerful agents in a few lines of code. It offers:✨ Simplicity: t ... #Article#NLP#Dataset#LanguageModel
Issue Date: 2025-03-02 Introducing the SWE-Lancer benchmark, OpenAI, 2025.02 Comment元ポスト:https://x.com/dair_ai/status/1893698290174108113?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q1400以上のフリーランスソフトウェアエンジニアリングタスクを集めたベンチマーク。タスクはバグ修正から機能実装まで多岐にわたり、経験豊 ... #Article#Pocket#NLP#LanguageModel
Issue Date: 2025-01-25 Chain of Agents: Large language models collaborating on long-context tasks, Google Research, 2025.01 Comment元ポスト:https://x.com/googleai/status/1882554959272849696?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-QLLMがどこまでいってもcontext長の制約に直面する問題に対してLLM Agentを組み合わせて対処しました、的な話な模様ブログ ... #Article#NLP#LanguageModel#Library#RAG(RetrievalAugmentedGeneration)
Issue Date: 2025-01-25 Llama Stack, Meta, 2024.11 CommentLlamaを用いたLLM Agentを構築するための標準化されたフレームワーク。Quick StartではRAG Agentを構築している。 ... #Article#LanguageModel#Article
Issue Date: 2025-01-05 AI Agents 2024 Rewind - A Year of Building and Learning, VICTOR DIBIA, 2025.01 #Article#LanguageModel#Article
Issue Date: 2025-01-05 <a href=\"https://github.com/AkihikoWatanabe/paper\_notes/issues/1659\">AI Agent Era, 福島良典 | LayerX, 2024.12</a> #Article#NLP#python#Article#API
Issue Date: 2025-01-04 browser-use やばいです, Syoitu, 2024.12 Commentすごい手軽に使えそうだが、クローリング用途に使おうとするとhallucinationが起きた時に困るのでうーんと言ったところ。 ... #Article#NLP#Dataset#LanguageModel#Evaluation
Issue Date: 2024-10-20 MLE-Bench, OpenAI, 2024.10 CommentWe introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering. To this end, we curate 75 ML engineering ... #Article#Repository#Conversation
Issue Date: 2024-10-02 AutoGen, Microsoft, 2024.10 CommentAutoGen is an open-source programming framework for building AI agents and facilitating cooperation among multiple agents to solve tasks. AutoGen aims ... #Article#Pocket#NLP#QuestionAnswering#GenerativeAI#RAG(RetrievalAugmentedGeneration)#Repository
Issue Date: 2024-09-11 PaperQA2, 2023.02 Comment元ポスト: https://x.com/sgrodriques/status/1833908643856818443?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q ... #Article#NaturalLanguageGeneration#NLP#LanguageModel#Repository
Issue Date: 2024-07-04 OpenDevin: Code Less, Make More, 2024 CommentLLMによるOpenSourceなソフトウェア生成エージェントプラットフォームfull timeのスタッフを雇用しworldクラスのUXを目指すとのこと。楽しみ。参考: https://x.com/gneubig/status/1808493521315496229?s=46&t=Y6UuIHB0L ... #Article#NLP#LanguageModel#Library
Issue Date: 2023-09-30 Agents: An opensource framework for autonomous language agents Comment以下の特徴を持つLLMAgent開発のためのフレームワークlong-short term memorytool usageweb navigationmulti-agent communicationhuman-agent interactionsymbolic ... #Article#Tools#InformationRetrieval#NLP#Library
Issue Date: 2023-04-22 Llamaindex CommentLlamaIndexのインデックスを更新し、更新前後で知識がアップデートされているか確認してみた https://dev.classmethod.jp/articles/llama-index-insert-index/ ... #Article#Tools#InformationRetrieval#NLP#LanguageModel#Library
Issue Date: 2023-04-21 LangChain CommentLangChain の Googleカスタム検索 連携を試す https://note.com/npaka/n/nd9a4a26a8932LangChainのGetting StartedをGoogle Colaboratoryでやってみる ④Agents https://zenn.de ...